GSD 2 實測：從 Claude Code 的「外掛」變成「對手」，值得跳槽嗎？

幾個月前，GSD 還是 Claude Code 上最強大的編排層之一。但幾天前釋出的 GSD 2，徹底改變了定位——它不再依附於 Claude Code，而是基於 Anthropic API SDK 打造的一套獨立 CLI 工具，直接與 Claude Code 競爭。 本文將完整還原 YouTuber 的實測過程，比較 GSD 2 與 Claude Code 在相同需求下的表現，並分析成本、時間與品質的差異。最後我會加上自己的評價與心得。 第 1 章｜GSD 2 是什麼？從「編排層」進化為「獨立 CLI」 GSD（Get Stuff Done）最早是 Claude Code 的一個編排層（orchestration layer）。它的核心理念是： 將你的大型專案構想拆解成數個階段（phases） 每個階段再拆解成單一任務（tasks） 每個任務由一個子代理（sub-agent）在獨立的上下文窗口中執行 鐵律：一個任務必須能放進一個上下文窗口。放不下的，就拆成兩個任務。 這樣做的原因是：即使現代模型（如 Opus 4.5、Sonnet 4.5）已經支援很大的上下文，但它們在窗口開頭的表現仍然最好。與其從第 70 萬個 token 開始，不如每次都從零開始。 GSD 2 的最大改變是： 不再需要 Claude Code 成為一個基於 Anthropic API SDK 的獨立 CLI 支援「自動模式」（auto mode）：你給一個 prompt，它就會自動完成整個專案，並產出乾淨的 git 歷史 此外，GSD 2 也保留了「步驟模式」（step mode），讓你可以更手動地參與每個階段。 第 2 章｜成本問題：離開 Claude Code 生態的代價 這是最關鍵的變化。GSD 2 不再使用 Claude Code 的 Max Plan（每月 200 美元），而是直接呼叫 Anthropic API。 為什麼這很重要？ Claude Code Max Plan 的 200 美元，實際上相當於 2,500 到 5,000 美元的 API 額度——這是一個極度補貼的價格。 Anthropic 已經明確表示：你不能把 Max Plan 帳號拿到 Claude Code 以外的工具使用（例如 OpenClaw 事件導致大量帳號被 Ban）。 因此，使用 GSD 2 時，你必須使用自己的 API key（直接從 Anthropic 或透過 OpenRouter 等服務）。 GSD 2 內建了 Token 優化系統，可以為每個專案設定預算上限，避免一覺醒來發現花了 500 美元。但無論如何，API 成本遠高於 Max Plan 的補貼價格。 第 3 章｜頭對頭測試：GSD 2 vs. Claude Code 測試任務：建立一個個人開支追蹤 Web App，包含四個功能： 支出表單（expense form） 支出列表（expense list） 儀表板（dashboard） 每月摘要卡片（monthly summary card） 設計要求：乾淨、現代、深色模式，並填入一些假資料。 這個 prompt 既模糊到足以讓兩套工具產生差異，又具體到可以客觀評分。 GSD 2 的操作方式 官方建議開兩個終端機： Terminal 1（工作終端）：執行 gsd auto，實際進行 coding 工作 Terminal 2（討論終端）：與 GSD 對話，討論需求變更，這些內容會透過讀取磁碟的方式傳遞給工作終端 初始化專案後，GSD 2 會先進行研究與規劃階段。此時你可以選擇切換到 auto 模式，讓它全自動執行。底部會即時顯示已花費的 token 與金額。 Claude Code 的操作方式 使用標準的 plan mode，讓它提問、確認需求，然後執行。Claude Code 不一定會像 GSD 那樣為每個任務產生子代理，但你可以明確要求它使用 agent teams。 第 4 章｜結果：時間、金錢、品質的全面對比 視覺與功能 Claude Code：畫面更乾淨、現代，視覺美觀度明顯勝出。 GSD 2：功能都有做到（儀表板、圖表、新增支出、支出列表），但前端設計較為普通，沒有令人驚豔。 兩者都完整實作了需求。 成本 項目 Claude Code GSD 2 花費 不到 5 小時區塊的 1% 使用量（Max Plan） 約 30 美元 API 成本 備註 Max Plan 每月 200 美元，極度補貼 使用 Opus 4.5 規劃 + Sonnet 4.5 執行 時間 項目 Claude Code GSD 2 完成時間 4 分 38 秒 約 1.5 小時 穩定性 順利完成 卡住多次（17 分鐘 + 40 分鐘），需重啟三次才成功 結論對比 Claude Code：更快、更便宜、品質更好 GSD 2：更慢、更貴、品質普通 第 5 章｜作者的總結與反思 作者坦言，這樣的結果讓他很難推薦 GSD 2——至少在目前這個時間點。 「如果你已經在使用 Claude Code，沒有任何理由轉向 GSD 2。它更貴、更慢，而且產出沒有更好。」 但他也提出了幾個可能適合 GSD 2 的情境： 你本來就沒有使用 Claude Code（例如只用 API 或其它工具），而且你喜歡 GSD 的任務拆解與上下文管理哲學。 專案極其龐大，需要嚴格的任務邊界與 fresh context。但這也意味著 API 成本會更高。 你不想使用 Anthropic 模型，可以改用更便宜的模型（例如 Gemini 或較小的模型）。但這又增加了「該選哪個模型」的決策負擔。 作者也承認，這次的測試任務（支出追蹤器）對 GSD 2 來說可能太簡單了——就像用核彈打一場小刀戰。GSD 的完整架構在小型專案中反而成為負擔。 我的評價與心得 1. GSD 2 的設計哲學依然優秀，但時機未到 GSD 的核心思想——「每個任務都要有獨立的、乾淨的上下文窗口」——在理論上是完全正確的。隨著專案規模擴大，上下文污染（context pollution）確實會讓 LLM 的表現急遽下降。這個問題在 Claude Code 等工具中仍然存在，只是被補貼價格和便利性掩蓋了。 但 GSD 2 的問題在於：它選擇了一個「經濟上不划算」的時間點獨立出來。API 成本仍然遠高於 Max Plan 的隱含補貼，除非 Anthropic 大幅調降 API 定價，或推出類似的 flat-rate 方案，否則 GSD 2 很難在價格上競爭。 2. 穩定性是致命傷 一個花了 1.5 小時、中間卡死多次、需要手動重啟三次的工具，對於任何嚴肅的開發工作都是不可接受的。這可能只是初期版本的 bug，但也反映出從「Claude Code 外掛」轉變為「獨立 CLI」的工程難度——你需要自己處理進程管理、錯誤恢復、狀態持久化等問題，而這些在 Claude Code 內部已經被抽象掉了。 3. 什麼情況下 GSD 2 才有價值？ 我認為有兩個潛在場景： 非 Anthropic 模型使用者：如果你偏好使用 OpenAI、Gemini 或開源模型，而且需要一個能夠自動拆解任務、管理上下文的 CLI，GSD 2 的架構比裸調 API 強得多。 極大型、長週期專案：例如建立一個包含數百個檔案的 SaaS 應用。在這種規模下，Claude Code 的上下文可能會逐漸膨脹到難以管理，而 GSD 強制每個任務獨立窗口的做法可能會有優勢——前提是你願意支付數百甚至數千美元的 API 費用。 4. 對一般開發者的建議 如果你已經是 Claude Code Max Plan 用戶：繼續用 Claude Code。 現階段沒有任何理由遷移到 GSD 2。 如果你還沒有任何 AI 編碼工具： 可以先試試 Claude Code 的免費額度或較低月費方案。除非你有特殊需求（例如必須使用非 Anthropic 模型，或者極度在意上下文管理），否則不建議從 GSD 2 入門。 如果你喜歡 GSD 的設計思想： 可以關注這個專案的發展。當 API 成本下降、穩定性提升之後，它有可能成為一個真正的替代方案。但目前為止，它還只是一個「有潛力但尚未成熟」的工具。 最後一句話 工具的好壞，不僅取決於它的設計哲學，更取決於它在真實世界中的成本、時間與可靠性。GSD 2 的方向是對的，但它選擇了一個艱難的起跑點。 你怎麼看？你會願意為了「更乾淨的上下文」而支付 30 美元換一個半小時的等待嗎？歡迎留言討論。