編輯評論

NousCoder-14B 的釋出恰逢其時。在 Anthropic 的 Claude Code 於 2026 年初席捲開發者社群、以「端對端軟體開發」能力震撼業界之際,這家由加密貨幣投資機構 Paradigm 支持的新創公司,以開源姿態打出了一記漂亮的重拳。

技術層面的意義在於可重現性。 不同於大廠傾向將訓練方法保密,Nous Research 完整公開了 Atropos 框架、強化學習環境、基準測試套件及訓練工具。這意味著任何擁有足夠算力的研究者都能重現或擴展這項工作。在 AI 研究日益「黑盒化」的趨勢下,這種透明度對學術界和開源社群而言無疑是一股清流。

效率對比揭示了當前 AI 的核心矛盾。 研究員 Joe Li 指出,他從 Codeforces 1600 分晉升到 2100 分用了兩年時間、解了約 1,000 題;模型達到同等提升僅需 4 天,但卻需要 24,000 題。人類仍是更高效的樣本學習者。這對於「資料即新石油」的敘事提出了挑戰——在競爭程式設計這個高度結構化的領域,高品質訓練資料已接近枯竭。

資料短缺隱憂浮現。 Li 在技術報告中坦言,訓練資料集已「包含絕大多數可取得、可驗證的競爭程式設計題目」。這暗示 AI 發展可能正撞上資料天花板,未來進步將依賴合成資料生成或更高效的演算法架構。對開發者而言,這意味著 AI 編碼工具的快速演化可能會在短期內放緩,直到新的突破出現。

市場競爭格局正在重塑。 開源模型持續縮小與專有系統的差距,而 Nous Research 獲得的 6,500 萬美元融資反映了投資者對「去中心化 AI 訓練」路線的押注。對開發者來說,好消息是選擇變多了——不僅有 Claude Code、GitHub Copilot 等商業產品,還有能自行部署的開源替代方案。

結論摘要

  • NousCoder-14BLiveCodeBench v6 達到 67.87% 準確率,較基礎模型 Alibaba Qwen3-14B 提升 7.08 個百分點
  • 僅用 48 顆 Nvidia B200 GPU4 天訓練時間,展示開源團隊的高效執行力
  • 完整開源 Atropos 訓練堆疊,包含強化學習環境、基準套件及訓練工具,強調可重現性
  • 資料短缺 已成為競爭程式設計領域的瓶頸,24,000 題已接近網路上所有可用的標準化題目
  • 未來方向 包括多輪強化學習、控制回應長度、以及「題目生成與自我對弈」以突破資料限制

原文翻譯

Nous Research,這家由加密貨幣創投公司 Paradigm 支持的開源人工智慧新創公司,於週一釋出了一款新的競爭程式設計模型,聲稱其性能匹配或超越多個更大的專有系統——僅使用 48 顆 Nvidia 最新的 B200 圖形處理器,訓練時間僅四天。

這款名為 NousCoder-14B 的模型是 AI 程式碼助手擁擠領域中的又一新成員,但它的到來時機格外敏感:競爭對手 Anthropic 的 agentic 程式設計工具 Claude Code 自元旦以來主導了社群媒體討論,開發者們紛紛發布關於其能力的驚嘆見證。這兩項同步發展凸顯了 AI 輔助軟體開發的演進速度之快——以及大大小小的公司如何激烈競爭,以期捕捉許多人認為將成為軟體開發基礎技術的市場。

NousCoder-14B 在 LiveCodeBench v6 上達到 67.87% 的準確率,這是一項標準化評估,測試模型在 2024 年 8 月至 2025 年 5 月間發布的競爭程式設計問題上的表現。根據 Nous Research 同步發布的技術報告,這個數字相較於其訓練基礎模型阿里巴巴的 Qwen3-14B,提升了 7.08 個百分點。

「我給 Claude Code 一個問題描述,它在一小時內生成我們去年花一年時間打造的東西,」Google 負責 Gemini API 的首席工程師 Jaana Dogan 上週在 X 上的一則瘋傳貼文中寫道,這則貼文捕捉了圍繞 AI 程式碼工具的普遍情緒。Dogan 描述的是她的團隊花了一年時間開發的分散式 agent 編排系統——一個 Claude Code 僅憑三段式提示就能近似實現的系統。

這種並置具有啟發意義:雖然 Anthropic 的 Claude Code 以端對端軟體開發的展示俘獲了想像力,但 Nous Research 打賭,在可驗證問題上訓練的開源替代方案能夠縮小差距——而且這些模型建構方式的透明度與原始能力同樣重要。

Nous Research 如何建構任何人都能複製的 AI 程式碼模型

NousCoder-14B 的釋出與許多競爭對手的公告不同之處在於其激進的開放性。Nous Research 不僅發布了模型權重,還公開了完整的強化學習環境、基準測試套件和訓練工具——建立在公司的 Atropos 框架之上——使任何擁有足夠算力的研究者都能重現或擴展這項工作。

「開源 Atropos 堆疊提供了可重現的奧林匹亞級推理研究所需的必要基礎設施,」一位 X 上的觀察者總結了這對學術和開源社群的意義。

該模型由 Nous Research 的駐地研究員 Joe Li 訓練,他本人曾是競爭程式設計選手。Li 的技術報告揭示了一個出乎意料的個人層面:他將模型的提升軌跡與自己在 Codeforces 上的旅程相比較,參與者根據比賽表現獲得評分。

根據將 LiveCodeBench 分數映射到 Codeforces 評分的粗略估計,Li 計算出 NousCoder-14B 的提升——從大約 1600-1750 分範圍到 2100-2200 分——映照了他在 14 歲到 16 歲之間近兩年持續練習才達成的跳躍。模型在四天內實現了同等成就。

「看著最後一次訓練運行展開是一次相當超現實的體驗,」Li 在技術報告中寫道。

但 Li 很快指出了一個重要警告,這說明了關於 AI 效率的更廣泛問題:他在那兩年間解了大約 1,000 題,而模型需要 24,000 題。至少目前,人類仍然是顯著更高效的樣本學習者。

在 24,000 道競爭程式設計題上訓練的強化學習系統內幕

NousCoder-14B 的訓練過程提供了研究人員如何透過強化學習提升 AI 推理能力的日益精密技術的窗口。

該方法依賴研究人員所謂的「可驗證獎勵」——一個模型生成程式碼解、這些解對測試案例執行、模型收到簡單二元信號的系統:正確或錯誤。這個反饋迴圈雖然概念上直觀,但需要大量基礎設施才能擴展執行。

Nous Research 使用雲端運算平台 Modal 並行執行沙盒程式碼執行。24,000 個訓練問題平均每個包含數百個測試案例,系統必須驗證生成的程式碼在時間和記憶體限制內產生正確輸出——分別為 15 秒和 4 GB。

訓練採用了稱為 DAPO(Dynamic Sampling Policy Optimization,動態採樣策略優化)的技術,研究人員發現在其實驗中略優於替代方案。一個關鍵創新涉及「動態採樣」——丟棄模型所有嘗試都解出或都失敗的訓練範例,因為這些對學習沒有用的梯度信號。

研究人員還採用了「迭代上下文擴展」,首先用 32,000 token 上下文窗口訓練模型,然後擴展到 40,000 token。在評估期間,進一步將上下文擴展到大約 80,000 token 產生了最佳結果,準確率達到 67.87%。

或許最顯著的是,訓練管道重疊推理和驗證——一旦模型生成解,它就開始處理下一個問題,同時前一個解正在被檢查。這種管道化,結合多個模型實例並行工作的非同步訓練,最大化了昂貴 GPU 叢集的硬體利用率。

可能減緩 AI 程式碼模型進步的資料短缺隱憂

埋藏在 Li 的技術報告中,有一個對 AI 發展未來具有重要意涵的發現:NousCoder-14B 的訓練資料集涵蓋了「所有易於取得、可驗證的競爭程式設計問題的絕大部分,且為標準化資料集格式」。

換言之,在這個特定領域,研究人員正在接近高品質訓練資料的限制。

「網路上競爭程式設計問題的總數大致在同一數量級,」Li 寫道,指的是用於訓練的 24,000 題。「這表明在競爭程式設計領域內,我們已接近高品質資料的限制。」

這一觀察反映了整個 AI 行業對資源限制日益增長的擔憂。雖然算力根據充分理解的經濟和工程原則持續擴展,但訓練資料正如他所說的「日益有限」。

「看來未來需要進行的一些最重要研究將在合成資料生成和資料高效演算法與架構領域,」他總結道。

這個挑戰對競爭程式設計尤為嚴峻,因為該領域需要具有已知正確解且可自動驗證的問題。與自然語言任務可以使用人工評估或代理指標不同,程式碼要么能運行,要么不能——這使得合成資料生成相當困難。

Li 確定了一條潛在途徑:訓練模型不僅解決問題,還要生成可解決的問題,實現一種類似於在遊戲 AI 系統中證明成功的自我對弈形式。「一旦合成問題生成解決,自我對弈就成為一個非常有趣的方向,」他寫道。

6,500 萬美元的賭注:開源 AI 可以與大型科技公司競爭

Nous Research 在 AI 版圖中開創了獨特定位:一家致力於開源釋出的公司,與專有替代方案競爭——有時甚至超越它們。

該公司於 2025 年 4 月在 Paradigm 領投的一輪融資中籌集了 5,000 萬美元,Paradigm 是 Coinbase 共同創辦人 Fred Ehrsam 創立的加密貨幣聚焦創投公司。據一些報導,總融資達到 6,500 萬美元。這項投資反映了對去中心化 AI 訓練方法日益增長的興趣,Nous Research 在該領域開發了其 Psyche 平台。

先前的釋出包括 Hermes 4,我們報導過這個模型系列「在無內容限制下超越 ChatGPT」,以及 DeepHermes-3,公司稱其為首款「開啟式推理模型」——允許用戶按需激活擴展思考能力。

該公司培育了獨特的美學和社群,引發了一些對風格可能掩蓋實質的懷疑。「當然我要相信一個動畫頭像公司。停止基準最大化吧,」一位 X 上的批評者寫道,指的是 Nous Research 的動畫風格品牌和業界優化基準性能的做法。

其他人提出了技術問題。「根據基準,Nemotron 更好,」一位評論者指出,指的是 Nvidia 的語言模型系列。另一人問 NousCoder-14B 是「專注於 agent 還是僅是『單次』程式設計」——這對實際軟體開發很重要,因為根據反饋迭代通常比單次嘗試產生更好的結果。

研究人員說 AI 程式碼工具持續改進下一步必須發生什麼

該釋出包括幾個未來工作方向,暗示 AI 程式碼研究可能的前進方向。

多輪強化學習位居榜首。目前,模型在生成解後僅收到最終二元獎勵——通過或失敗。但競爭程式設計問題通常包含提供中間反饋的公開測試案例:編譯錯誤、錯誤輸出、時間限制違規。訓練模型在多次嘗試中整合這些反饋可能顯著提升性能。

控制回應長度也仍是挑戰。研究人員發現錯誤解傾向比正確解更長,而回應長度在訓練期間快速飽和可用上下文窗口——各種演算法修改都未能解決這種模式。

或許最雄心勃勃的是,Li 提出了「問題生成和自我對弈」——訓練模型既解決又創造程式設計問題。這將通過使模型能夠生成自己的訓練課程直接解決資料稀缺問題。

「人類擅長為其他競爭程式設計師生成有趣且有用的問題,但 LLM 在創意問題生成方面似乎仍存在顯著差距,」Li 寫道。

該模型現在可在 Hugging Face 上以 Apache 2.0 授權取得。對於想要在此基礎上建構的研究人員和開發者,Nous Research 同步發布了完整的 Atropos 訓練堆疊。

Li 花了兩年青少年時代的專注才達成的——從 Codeforces 1600 分新手攀升到 2100 分競爭者——AI 在 96 小時內複製了。他需要 1,000 題。模型需要 24,000 題。但很快就夠了,這些系統可能學會撰寫自己的問題、自我教導,並完全將人類基準拋在腦後。

問題不再是機器能否學會寫程式。而是它們是否很快會比我們曾經都是更好的老師。