MegaTrain:單 GPU 全精度訓練千億參數大模型的突破性架構研究團隊提出記憶體中心架構 MegaTrain,透過 CPU-GPU 協同計算與管線優化,在單一 H200 GPU 上實現 120B 參數模型的全精度訓練,吞吐量較 DeepSpeed ZeRO-3 提升 84%