幾個月前,GSD 還是 Claude Code 上最強大的編排層之一。但幾天前釋出的 GSD 2,徹底改變了定位——它不再依附於 Claude Code,而是基於 Anthropic API SDK 打造的一套獨立 CLI 工具,直接與 Claude Code 競爭。 本文將完整還原 YouTuber 的實測過程,比較 GSD 2 與 Claude Code 在相同需求下的表現,並分析成本、時間與品質的差異。最後我會加上自己的評價與心得。 第 1 章|GSD 2 是什麼?從「編排層」進化為「獨立 CLI」 GSD(Get Stuff Done)最早是 Claude Code 的一個編排層(orchestration layer)。它的核心理念是: 將你的大型專案構想拆解成數個階段(phases) 每個階段再拆解成單一任務(tasks) 每個任務由一個子代理(sub-agent)在獨立的上下文窗口中執行 鐵律:一個任務必須能放進一個上下文窗口。放不下的,就拆成兩個任務。 這樣做的原因是:即使現代模型(如 Opus 4.5、Sonnet 4.5)已經支援很大的上下文,但它們在窗口開頭的表現仍然最好。與其從第 70 萬個 token 開始,不如每次都從零開始。 GSD 2 的最大改變是: 不再需要 Claude Code 成為一個基於 Anthropic API SDK 的獨立 CLI 支援「自動模式」(auto mode):你給一個 prompt,它就會自動完成整個專案,並產出乾淨的 git 歷史 此外,GSD 2 也保留了「步驟模式」(step mode),讓你可以更手動地參與每個階段。 第 2 章|成本問題:離開 Claude Code 生態的代價 這是最關鍵的變化。GSD 2 不再使用 Claude Code 的 Max Plan(每月 200 美元),而是直接呼叫 Anthropic API。 為什麼這很重要? Claude Code Max Plan 的 200 美元,實際上相當於 2,500 到 5,000 美元的 API 額度——這是一個極度補貼的價格。 Anthropic 已經明確表示:你不能把 Max Plan 帳號拿到 Claude Code 以外的工具使用(例如 OpenClaw 事件導致大量帳號被 Ban)。 因此,使用 GSD 2 時,你必須使用自己的 API key(直接從 Anthropic 或透過 OpenRouter 等服務)。 GSD 2 內建了 Token 優化系統,可以為每個專案設定預算上限,避免一覺醒來發現花了 500 美元。但無論如何,API 成本遠高於 Max Plan 的補貼價格。 第 3 章|頭對頭測試:GSD 2 vs. Claude Code 測試任務:建立一個個人開支追蹤 Web App,包含四個功能: 支出表單(expense form) 支出列表(expense list) 儀表板(dashboard) 每月摘要卡片(monthly summary card) 設計要求:乾淨、現代、深色模式,並填入一些假資料。 這個 prompt 既模糊到足以讓兩套工具產生差異,又具體到可以客觀評分。 GSD 2 的操作方式 官方建議開兩個終端機: Terminal 1(工作終端):執行 gsd auto,實際進行 coding 工作 Terminal 2(討論終端):與 GSD 對話,討論需求變更,這些內容會透過讀取磁碟的方式傳遞給工作終端 初始化專案後,GSD 2 會先進行研究與規劃階段。此時你可以選擇切換到 auto 模式,讓它全自動執行。底部會即時顯示已花費的 token 與金額。 Claude Code 的操作方式 使用標準的 plan mode,讓它提問、確認需求,然後執行。Claude Code 不一定會像 GSD 那樣為每個任務產生子代理,但你可以明確要求它使用 agent teams。 第 4 章|結果:時間、金錢、品質的全面對比 視覺與功能 Claude Code:畫面更乾淨、現代,視覺美觀度明顯勝出。 GSD 2:功能都有做到(儀表板、圖表、新增支出、支出列表),但前端設計較為普通,沒有令人驚豔。 兩者都完整實作了需求。 成本 項目 Claude Code GSD 2 花費 不到 5 小時區塊的 1% 使用量(Max Plan) 約 30 美元 API 成本 備註 Max Plan 每月 200 美元,極度補貼 使用 Opus 4.5 規劃 + Sonnet 4.5 執行 時間 項目 Claude Code GSD 2 完成時間 4 分 38 秒 約 1.5 小時 穩定性 順利完成 卡住多次(17 分鐘 + 40 分鐘),需重啟三次才成功 結論對比 Claude Code:更快、更便宜、品質更好 GSD 2:更慢、更貴、品質普通 第 5 章|作者的總結與反思 作者坦言,這樣的結果讓他很難推薦 GSD 2——至少在目前這個時間點。 「如果你已經在使用 Claude Code,沒有任何理由轉向 GSD 2。它更貴、更慢,而且產出沒有更好。」 但他也提出了幾個可能適合 GSD 2 的情境: 你本來就沒有使用 Claude Code(例如只用 API 或其它工具),而且你喜歡 GSD 的任務拆解與上下文管理哲學。 專案極其龐大,需要嚴格的任務邊界與 fresh context。但這也意味著 API 成本會更高。 你不想使用 Anthropic 模型,可以改用更便宜的模型(例如 Gemini 或較小的模型)。但這又增加了「該選哪個模型」的決策負擔。 作者也承認,這次的測試任務(支出追蹤器)對 GSD 2 來說可能太簡單了——就像用核彈打一場小刀戰。GSD 的完整架構在小型專案中反而成為負擔。 我的評價與心得 1. GSD 2 的設計哲學依然優秀,但時機未到 GSD 的核心思想——「每個任務都要有獨立的、乾淨的上下文窗口」——在理論上是完全正確的。隨著專案規模擴大,上下文污染(context pollution)確實會讓 LLM 的表現急遽下降。這個問題在 Claude Code 等工具中仍然存在,只是被補貼價格和便利性掩蓋了。 但 GSD 2 的問題在於:它選擇了一個「經濟上不划算」的時間點獨立出來。API 成本仍然遠高於 Max Plan 的隱含補貼,除非 Anthropic 大幅調降 API 定價,或推出類似的 flat-rate 方案,否則 GSD 2 很難在價格上競爭。 2. 穩定性是致命傷 一個花了 1.5 小時、中間卡死多次、需要手動重啟三次的工具,對於任何嚴肅的開發工作都是不可接受的。這可能只是初期版本的 bug,但也反映出從「Claude Code 外掛」轉變為「獨立 CLI」的工程難度——你需要自己處理進程管理、錯誤恢復、狀態持久化等問題,而這些在 Claude Code 內部已經被抽象掉了。 3. 什麼情況下 GSD 2 才有價值? 我認為有兩個潛在場景: 非 Anthropic 模型使用者:如果你偏好使用 OpenAI、Gemini 或開源模型,而且需要一個能夠自動拆解任務、管理上下文的 CLI,GSD 2 的架構比裸調 API 強得多。 極大型、長週期專案:例如建立一個包含數百個檔案的 SaaS 應用。在這種規模下,Claude Code 的上下文可能會逐漸膨脹到難以管理,而 GSD 強制每個任務獨立窗口的做法可能會有優勢——前提是你願意支付數百甚至數千美元的 API 費用。 4. 對一般開發者的建議 如果你已經是 Claude Code Max Plan 用戶:繼續用 Claude Code。 現階段沒有任何理由遷移到 GSD 2。 如果你還沒有任何 AI 編碼工具: 可以先試試 Claude Code 的免費額度或較低月費方案。除非你有特殊需求(例如必須使用非 Anthropic 模型,或者極度在意上下文管理),否則不建議從 GSD 2 入門。 如果你喜歡 GSD 的設計思想: 可以關注這個專案的發展。當 API 成本下降、穩定性提升之後,它有可能成為一個真正的替代方案。但目前為止,它還只是一個「有潛力但尚未成熟」的工具。 最後一句話 工具的好壞,不僅取決於它的設計哲學,更取決於它在真實世界中的成本、時間與可靠性。GSD 2 的方向是對的,但它選擇了一個艱難的起跑點。 你怎麼看?你會願意為了「更乾淨的上下文」而支付 30 美元換一個半小時的等待嗎?歡迎留言討論。