研究開発

3253 Site Reliability Engineer(Machine Learning Platform)【グローバルイノベーション/GI戦略】

職務内容
【事業・組織構成の概要】
私たちは、国内企業で最大規模となる580PFLOPS(FP16)のAIスパコンの開発・運用を行っている、世界でも有数のプラットフォームエンジニアリングを行っているグループです。世界で最高のモノづくりにこだわり、先進AIで社会にイノベーションを起こしたい方を募集しています。

NECでは、世界でも有数の数百名のAI研究者がAIスパコンを行い、NEC独自の生成AI等の大規模なAIモデルの開発を行っています。また、生成AI以外にも世界トップレベルの生体認証技術を始めとして、画像認識・データ分析・言語モデル(LLM)・ロボット制御等、多種多様な分野でAIの研究開発を行っており、事業の応用分野も多岐に及んでいます。

AIスパコンは、AIの研究開発を支えるキーコンポーネントであり、NECのAIの研究開発全体を強化するべくAIスパコンの開発・運用を共に行って頂ける方を求めています。

【職務内容】
最新のハイエンドGPU928基を備える国内企業で最大規模のAIスーパーコンピューターを開発・運用を共に行って頂くSite Reliability Engineer (Machine Learning Plaftorm) を数名募集します。スケーラブルかつ洗練されたGPUサーバーを用いた世界有数のAIスパコンを開発・運用し、AIの技術開発に革新をおこしたい方を募集しています。コンピューターアーキテクチャ・ソフトウェアアーキテクチャに精通し、世界に誇れるAIスパコンを共に開発・運用して頂ける方を求めています。

AIスパコンの安定運用を行いながらもAIの進化に合わせ基盤強化を行うには、ソフトウェアの高い開発能力が必要であり、ソフトウェア開発へのこだわりのある方を募集します。

NECのAI研究用スーパーコンピュータについては、以下をご覧ください。

AIスパコンでNECを世界トップレベルのAIテックカンパニーへ
大規模言語モデル(LLM)を開発 -世界トップクラスの高性能な日本語処理を実現-
社会価値の創造を加速するNECのAIスーパーコンピュータ
AIスパコンの技術説明(LinkedIn)
社会価値の創造を加速するNECのAI研究用スーパーコンピュータ〜計算能力はAI時代の競争力の源泉〜 (Youtube)


【ポジションのアピールポイント・想定キャリアパス等】
・世界の先端のAIスーパーコンピュータの開発に携わることができ、AIが紡ぎだす未来を自らの手で作れます
・現代のAIの技術開発には高度な分散システムが必要であり、先端のSW/HWに精通できます
・AI/HPC/分散システムのスペシャリストとしてのキャリアパスを想定しています。 
応募資格
【MUST】
下記を全て満たすこと
・ 5年以上のソフトウェア開発・運用の実務経験
・ コンピュータサイエンス/機械学習の修士号、または博士号、または同等の実務経験がある方
・ Kubernetesの利用経験
・ 分散システムの設計・開発経験
・ システムの運用設計・監視の経験

【WANT】

・ 大規模サイトなどでのSREとしての経験(ベアメタルサーバーでの開発経験があれば尚良いです)
・ Kubernetesのクラスタの運用経験
・ 数PB規模の分散ファイルシステムを用いたストレージの開発・運用の実績。
・ GPU関連処理技術への理解(CUDA、NCCL、MPI等)
・ Go言語での開発経験
・ オープンソースプロジェクトへの貢献(GithubのURLがあればプラス)
・ 各種の学習フレームワークへの理解(PyTorch、TensorFlow等)

【求める人物像(ソフトスキル)】
・コンピュータサイエンスに精通し、ソフトウェア開発への情熱のある方
・新しいテクノロジースタック群を追い続けられるだけの強い技術への好奇心を持っている方
・高い自主性を持ち、プロジェクトをともに推進して頂ける方
待遇
【採用形態・ランク】
・正社員を想定
・プロフェッショナル(課長相当)を想定

【想定報酬】
・年収900万 〜 1100万円程度
 月給50万〜65万円程度(月額基本給 50万〜65万円程度を含む)
 ※前職年収を考慮、当社規定による
勤務地
神奈川県川崎市(中央研究所)

職種一覧に戻る