大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム【CADC2023】



大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム【CADC2023】

大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム【CADC2023】

2023年6月29日技術カンファレンス「”EXPERT DAY” CyberAgent Developer Conference 2023」を開催しました。

【チャプター】
00:00 配信待機
01:34 オープニング
01:56 自己紹介
02:52 機械学習基盤 ML Platform
05:24 NVIDIA H100 の発表を受けて
07:16 GPUaaS 概要
10:40 大規模計算のためのクラスタ
15:27 Kubernetes への Interconnect の導入
19:44 Distributed 概要
21:35 MPI Operator の導入
23:25 Kueue によるジョブキューイング
27:16 kube-scheduler に対する工夫
31:45 まとめ
32:24 ライブQ&A

【公式サイト】
https://cadc.cyberagent.co.jp/2023/sessions/distributed-ml-with-kubernetes

【スライド】
https://speakerdeck.com/cyberagentdevelopers/distributed-ml-with-kubernetes/

【登壇者】
漆田 瑞樹
Twitter: zuiurs
GitHub: zuiurs

【概要】
CyberAgent group Infrastructure Unit(CIU)では、機械学習を用いた開発における課題を解決するためにML Platformという社内向け機械学習基盤を開発しています。この基盤では日々様々なタスクが実行されており、その中でも画像生成・自然言語処理モデルのサイズは年々大きくなっています。また、モデルのパラメーター数も指数関数的に増加しており、それに伴い大規模な計算リソースが不可欠になっています。本セッションでは大規模なGPUクラスタを実現するためのアーキテクチャや、分散学習をKubernetesで実行するためのエコシステムについて紹介いたします。

【アンケート】
今後より良いカンファレンスを創るために Apple製品が当たるアンケートを開催中です。
ぜひこのセッションに対するご意見やご感想をお待ちしております。
https://docs.google.com/forms/d/e/1FAIpQLSfWweaEfOSCpm38UsZUPLnqxr-SzzNNbfoZrkG2cE8XUAdjNA/viewform?usp=pp_url&entry.1643469405=%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%81%AA%E5%88%86%E6%95%A3%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%82%92%E6%94%AF%E3%81%88%E3%82%8B+NVIDIA+H100+Kubernetes+%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%81%A8%E3%81%9D%E3%81%AE%E3%82%A8%E3%82%B3%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0
(CADC2023は、独立した技術カンファレンスであり、Apple Inc.が認定、後援、その他承認したものではありません。)

【技術情報、SNS】
・Developers Blog
https://developers.cyberagent.co.jp/blog/

・Twitter
https://twitter.com/ca_developers

・Connpass
https://cyberagent.connpass.com/

【採用情報】
サイバーエージェントでは、新卒・キャリア(中途)採用を募集しています。
・新卒エンジニア採用、インターンシップ情報
https://www.cyberagent.co.jp/careers/students/tech/

・キャリア採用(カジュアル面談)
https://forms.gle/vtbqbixAWsL1VEe4A

・技術イベント
https://cyberagent.connpass.com/

・会社説明資料「CyPitch」
https://speakerdeck.com/cyberagent_recruit/cypitch

#CADC2023 #Kubernetes #MachineLearning