Clockwork.ioのTorchPassソフトウェアは,GPUのライブ移行を可能にすることで,AIトレーニングのクラッシュを防止し,大規模なAIクラスターで年間数百万を節約します.
Clockwork.io's TorchPass software prevents AI training crashes by enabling live GPU migration, saving millions annually in large AI clusters.
Clockwork.ioは,ライヴGPU移行と,大規模なAIトレーニングクラスターの故障耐性を可能にするソフトウェアソリューションであるTorchPassをリリースし,ハードウェアの故障,ネットワークの問題,またはドライババグの際に高価な再起動を防止しています.
Clockwork.io has launched TorchPass, a software solution that enables live GPU migration and fault tolerance in large AI training clusters, preventing costly restarts during hardware failures, network issues, or driver bugs.
このシステムは,チェックポイントなしでトレーニングの継続性を維持し,反応的,主動的,およびメンテナンスベースのフェイルオーバーをサポートし,2,048 GPU の設定で年間600万ドル以上を節約できます.
The system maintains training continuity without checkpointing, supports reactive, proactive, and maintenance-based failover, and can save over $6 million annually in a 2,048-GPU setup.
失敗率は大規模なクラスターで上昇し, 16,384 GPU のシステムで平均失敗時間は 1.8 時間に低下します. TorchPassは信頼性, GPU 利用,およびモデルのトレーニング効率を改善します.
As failure rates rise in massive clusters—dropping mean time to failure to just 1.8 hours in a 16,384-GPU system—TorchPass improves reliability, GPU utilization, and model training efficiency.
AIの初期導入者は,スループット,レジリエンス,サービスレベルアグネームのパフォーマンスの向上と報告し,AIインフラストラクチャの主要なコスト障害にソフトウェア主導の修正を提供している.
Early adopters report enhanced throughput, resilience, and service-level agreement performance, offering a software-driven fix to a major cost barrier in AI infrastructure.