GPU 訓練 on Peter's Blog

GPU 訓練 on Peter's Bloghttps://peter-blog.pages.dev/tags/gpu-%E8%A8%93%E7%B7%B4/Recent content in GPU 訓練 on Peter's BlogHugozh-twThu, 09 Apr 2026 00:00:00 +0000MegaTrain：單 GPU 全精度訓練千億參數大模型的突破性架構https://peter-blog.pages.dev/tech/megatrain-single-gpu-precision-training/Thu, 09 Apr 2026 00:00:00 +0000https://peter-blog.pages.dev/tech/megatrain-single-gpu-precision-training/研究團隊提出記憶體中心架構 MegaTrain，透過 CPU-GPU 協同計算與管線優化，在單一 H200 GPU 上實現 120B 參數模型的全精度訓練，吞吐量較 DeepSpeed ZeRO-3 提升 84%