新鮮でリアルなコンテンツで自然に言語を学ぼう!

タップして翻訳 - 記録

地域別に探す

flag Clockwork.ioのTorchPassソフトウェアは,GPUのライブ移行を可能にすることで,AIトレーニングのクラッシュを防止し,大規模なAIクラスターで年間数百万を節約します.

flag Clockwork.ioは,ライヴGPU移行と,大規模なAIトレーニングクラスターの故障耐性を可能にするソフトウェアソリューションであるTorchPassをリリースし,ハードウェアの故障,ネットワークの問題,またはドライババグの際に高価な再起動を防止しています. flag このシステムは,チェックポイントなしでトレーニングの継続性を維持し,反応的,主動的,およびメンテナンスベースのフェイルオーバーをサポートし,2,048 GPU の設定で年間600万ドル以上を節約できます. flag 失敗率は大規模なクラスターで上昇し, 16,384 GPU のシステムで平均失敗時間は 1.8 時間に低下します. TorchPassは信頼性, GPU 利用,およびモデルのトレーニング効率を改善します. flag AIの初期導入者は,スループット,レジリエンス,サービスレベルアグネームのパフォーマンスの向上と報告し,AIインフラストラクチャの主要なコスト障害にソフトウェア主導の修正を提供している.

9 記事