Opus 4.7 降智之謎：一場你不知道自己被排除在外的產品轉型 – DOFI 的情報術士團：文藝復興 2.0 的時代探索

最近這幾天，社群裡又開始出現熟悉的聲音：「Opus 4.7 降智了。」

Reddit 上有人說程式碼品質大不如前，Hacker News 上有人說指令遵循能力退化，GitHub 上有人直接開 issue 說它「變笨了，而且 token 吃得比以前兇很多」。甚至有人說 Sonnet 4.6 反而比 Opus 4.7 好用——一個中階模型打贏旗艦？

這場景是不是很眼熟？沒錯，三個月前 Opus 4.6 也上演過一模一樣的劇本。

三週前我寫了一篇「Claude Opus 4.7 來了，但你真的需要馬上換嗎？」，當時講的是風格上的水土不服——回應變長、自省機制變成注意力黑洞、「誠實」變成一種表演。那些是 4.7 的「個性問題」。

但這次社群反映的不太一樣。大家的描述有個共同的細節：不是一開始就不好，而是「先好後壞」。

這個細節很關鍵。如果是不適應新版本，應該從第一天就覺得怪。但「先好後壞」意味著——有什麼東西在你不知道的時候變了。

不是引擎壞了，是有人動了你的車

我花了一些時間把英文世界的討論、GitHub issue、官方回應和技術文件翻了一遍。結論是：你感覺到的「降智」，至少有三個不同層次的原因在同時作用，而且大部分使用者根本分不清楚是哪一層。

煞車一：Effort 被靜默降級

GitHub 上有一個很具體的 issue（#52149）：使用者在 session 開始時明確設定 effort 為 max、thinking 開啟，但在使用過程中，effort 被系統靜默降級為 medium——完全沒有通知使用者。

想像一下：你開車上高速公路，明明把檔位推到五檔了，結果車子的電腦在你不知道的情況下偷偷降到三檔。你只會覺得「這台車今天怎麼這麼沒力」，但你不會想到是系統自己動手腳。

煞車二：Context 計算 Bug

Claude Code 有個已修復的 bug：Opus 4.7 的 session 在計算 context 使用量時，用的是 200K 而不是 Opus 4.7 原生的 1M context window。這導致系統以為你的 context 已經快滿了，提前觸發 autocompaction（自動壓縮上下文）。

後果是什麼？對話越長，模型拿到的上下文越殘缺，回應品質就越差。完美符合「一開始好、後來變差」的體感。不是模型退化了，是它的記憶被偷偷截斷了。

煞車三：Adaptive Thinking 的「自作主張」

這是最關鍵的一層，也是最不容易察覺的。

Opus 4.7 引入了 adaptive thinking（適應性思考機制）——模型會自己判斷每一個回合需要「想多深」。聽起來很聰明對吧？問題是，Anthropic 的工程師 Boris Cherny 在 Hacker News 上承認：在某些回合，adaptive thinking 分配了零個推理 token。零。完全不思考。

結果就是精確的幻覺——捏造不存在的 commit SHA、不存在的 apt 套件名、從未發布過的 API 版本。模型不是「想錯了」，是「根本沒想就回答了」。

AMD 的 AI 總監 Stella Laurenzo 更進一步——她分析了 6,852 個 Claude Code session，發現模型的思考量比之前減少了 67%。

而且，4.6 還可以用環境變數 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 強制關閉 adaptive thinking，回到固定思考預算。但 4.7 不行——adaptive thinking 是唯一的模式，你關不掉它。

把這三層攤開來看：

問題層	現象	原因	使用者可控？
Effort 靜默降級	回應品質中途下降	系統自動降低 effort 設定	可手動改回，但可能再次被降
Context 計算 bug	對話越長越笨	200K 誤算觸發過早壓縮	已修復（v2.1.116）
Adaptive thinking	偶爾出現精確幻覺	某些回合零思考 token	4.7 無法關閉

如果故事只到這裡，那這就是一篇技術踩坑分享。但真正有意思的問題是：為什麼 Anthropic 要把 adaptive thinking 做成 4.7 唯一的模式，而且不讓你關掉？

你的 AI 不是變笨了，是正在為別人優化

答案藏在一個更大的產業趨勢裡。

2026 年，AI 產業最熱的關鍵字不是「更聰明的聊天」，是 Agent。Anthropic 有 Claude Code，OpenAI 有 Codex，Google 有 Gemini CLI——每一家都在搶「讓 AI 自主完成整個工作流程」的市場。為什麼？因為 Agent 的商業模式比對話好太多：一個 Agent 跑一個任務可能消耗幾萬 token，API 收入直接掛鉤使用量；對話使用者一個月訂閱 $20，token 消耗量相對小。市場在那邊，資源自然往那邊傾斜。

這是商業決策。但商業決策一旦啟動，技術層面的連鎖反應就跟著來了。

Opus 4.7 的官方公告，重點全部集中在：長時間自主任務執行、自動驗證輸出、更少 subagent、更多自主推理、新的 xhigh effort 層級、Claude Code 的 /ultrareview 指令。翻譯成一句話：這個模型是為 Agent 設計的，不是為對話設計的。

而一旦你要讓模型跑 Agent 任務，一個技術上的必然約束就浮現了：Agent 要自主跑一個長任務，過程中可能要執行幾十甚至上百個回合——讀檔案、跑測試、檢查結果、修 bug、再跑一次。如果每一個回合都用 max effort 全力思考，token 成本會爆炸，速度也會慢到不實用。

所以 adaptive thinking 在 agentic 場景下不是可選的，是必要的。Agent 必須有能力自己判斷「這一步只是讀個檔名，不用想」跟「這一步是架構決策，要認真想」。這不是偷懶，是資源調度——就像一個真正的工程師在工作時，也不會每寫一行 code 都用同樣的專注度。

換句話說：市場決定了廠商要不要往 Agent 方向走，而技術決定了一旦走上這條路，模型必須變成 agentic 的。 這兩層力量疊加在一起，就是我們現在看到的局面。

而且這不只是 Anthropic 一家的選擇。OpenAI 的 GPT-5.5 也在往同一個方向走，Gemini 也是。連學術界都在研究同一個問題——今年二月有篇論文叫「Agent-Omit」，專門訓練 LLM 在不需要深度思考的回合自動跳過推理步驟。

整個產業有一個清楚的共識：未來的 LLM 是 Agent 的引擎，不是對話的夥伴。

有人甚至直接寫了一篇叫「Stop Building Chatbots」（停止建立聊天機器人）的文章，宣稱對話式 AI 的時代正在結束。

但這裡有個直接的代價。MindStudio 對 Opus 4.7 的深度評測發現：4.7 在網路研究任務上比 4.6 退步了——來源歸因準確度下降、矛盾偵測變弱、引用精確度降低。分析的結論很直白：「這很可能反映了一個訓練取捨——提升 agentic 持久性所需的訓練資料，讓模型偏離了 4.6 擅長的仔細交叉引用推理。」

這不是 bug，是有意識的零和取捨。為了讓 Agent 在長任務裡不掉球，犧牲了對話和研究的品質。而且這不是誰的惡意——就算廠商有心兼顧，讓模型同時擅長「自主調度跑長任務」和「深度配合人類對話」，在訓練目標上本來就是互相拉扯的。

用 RPG 來比喻的話：以前你的 AI 隊友是「命令模式」——你說攻擊就攻擊，說防禦就防禦。現在變成了「AI 託管模式」——它自己判斷這場戰鬥值不值得認真打。大部分時候判斷是對的，但偶爾它覺得「這隻小怪不用認真」的時候，你才發現那其實是偽裝成小怪的 Boss⋯⋯

而且，這不是它判斷力差。它被訓練成優先處理「跑完整個副本」的效率，不是優先處理「這一刀砍得漂不漂亮」的品質。目標不同，行為自然不同。

沒有人替你做的那條產品線

問題講清楚了。那最合理的解法是什麼？

兩條產品線。

如果代理型（agentic）跟對話型（conversational）的需求根本矛盾，那就不該用同一個模型、同一組訓練目標來服務兩群人。一條線為 Agent 優化——adaptive thinking、資源調度、長任務不掉球。另一條線為對話優化——深度思考、精確引用、節奏配合、可預測性。

	對話型（Conversational）	代理型（Agentic）
優化目標	深度推理、共鳴、精確引用	資源調度、長任務、自主決策
Thinking 模式	固定、可鎖定	Adaptive、自動調節
節奏	配合使用者、即時回應	自主推進、批次完成
目標用戶	創作者、研究者、對話使用者	開發者、自動化工作流

但目前沒有一家廠商這樣做。

不是因為他們不知道這個問題。Anthropic 的模型層級架構（Haiku / Sonnet / Opus）本來就暗示了某種分工的可能。但現在的分工是按「能力高低」切的，不是按「使用模式」切的。原因是雙重的：一方面，前面說了，Agent 市場的商業價值遠大於對話市場，資源自然優先投入；另一方面，維護兩條訓練路線的成本是真實的——資料集要分開、評估基準要分開、微調策略要分開。對一家還在快速迭代的公司來說，集中力量打一個方向比分兵兩路更務實。

結果就是，你——做寫作的、做編輯的、做教學設計的、做跨域整合創作的、或者就是每天跟 AI 高密度對話的使用者——你成了這場產業轉型的附帶損害。

不是被刻意拋棄，是在資源分配的邏輯下被排到了後面。

你還在用這個產品，但這個產品已經不是為你優化的了。

在前一篇「兩家 AI 大廠連發新版：對你來說，是更好用嗎？」裡，我說「夠用即可是有主權的選擇」。現在要補一句——前提是那個「夠用」的版本還存在。GPT-4o 已經在今年二月被下架了，舊版 Claude 模型也在陸續退役。你選中的那台手排車，可能某天就停產了。

那我們可以做什麼？

先講實際的。

如果你用 Claude Code：

可以用環境變數鎖住 effort level：export CLAUDE_CODE_EFFORT_LEVEL=max，但要知道 4.7 的 adaptive thinking 關不掉，模型仍然保留「這題我覺得不用想太深」的自主權。你能做的是把地板抬高，但地板跟天花板之間的浮動，模型自己在控制。

也可以在 CLAUDE.md 裡加上「think carefully before responding」（回應之前先仔細思考）之類的引導語，或者在需要穩定性的工作上，暫時釘選 4.6。

如果你跟我一樣主要用網頁對話：

坦白說能做的有限——effort 設定在網頁端不開放。但可以在 prompt 裡明確標示任務的重要性，用語言去踩那個你沒有的油門踏板。混用策略也可以——4.6 當日常主力，4.7 留給特定需要高解析度圖片或超長 context 的場景。

更根本的：

把脈絡層做成自己的。記憶、判準、工作流定義——這些東西放在你自己那邊，不要依賴特定模型版本。底層模型會換、會被改、會退役，但你的脈絡是你的。這一點在模型訓練目標持續往 agentic 方向偏移的趨勢下，只會越來越重要。

學會模型導向機制（model routing）的思維。不同任務用不同模型，不要綁死在一個版本上。Anthropic 最近推出的 Advisor Tool——用 Sonnet 執行搭配 Opus 當顧問——其實暗示了分層使用的方向。既然廠商不替你切兩條產品線，你可以自己在使用層做這個分流。

然後留意一件事：當所有大廠都在為 Agent 優化的時候，「為對話優化的 AI」可能會變成一個被低估的市場缺口。開源模型（像 DeepSeek V4）沒有 agentic 的商業包袱，搞不好反而會成為對話使用者的替代選項。

寫在最後

回頭看這三篇文章的演化：

第一篇我說「把對的引擎裝在對的車上」——那是在講你要會選。第二篇我說「升級不升級是工具哲學選擇」——那是在講你要有立場。這一篇我想說的是：引擎不只是換了，是整個造車工業的方向變了。它們在造自駕車，而你想要的是一台手排。

不是你的需求錯了，是這個產業的重心移開了。

知道這件事不會讓 4.7 變好用，但至少你會知道——下次覺得 AI 變笨的時候，不用懷疑自己。它不是變笨了，它只是在忙別的事。

所以現在的處境有點像是——你在餐廳坐下來，想跟主廚好好聊聊今天推薦什麼菜，結果主廚跟你說他現在專注做外送了，你的桌邊服務由 adaptive thinking 代理⋯⋯（蛤!!??

參考資訊：

Anthropic 工程事後檢討文（4/23）：An update on recent Claude Code quality reports
GitHub issue #52149：Opus 4.7 effort 靜默降級
GitHub issue #50623：Opus 4.7 品質退化 + token 消耗暴增
MindStudio：Claude Opus 4.7 Review
MindStudio：Was Claude Opus 4.6 Nerfed?
Marginlab：Claude Code Opus 4.7 Performance Tracker
Claude API Docs：Effort
前作：Claude Opus 4.7 來了，但你真的需要馬上換嗎？
前作：4 月底兩家 AI 大廠連發新版：對你來說，是更好用嗎？

不是引擎壞了，是有人動了你的車

煞車一：Effort 被靜默降級

煞車二：Context 計算 Bug

煞車三：Adaptive Thinking 的「自作主張」

你的 AI 不是變笨了，是正在為別人優化

沒有人替你做的那條產品線

那我們可以做什麼？

寫在最後

Related Articles

Vibe Coding 已死？還是 Agentic Engineering 起飛？——或許是 AI 工具的兩條產品線

還有人在意AI是不是你的思考夥伴嗎？從ChatGPT放棄4o開始

從「第二大腦」到「第二注意力」—AI 時代，我們可能需要一個更精準的定位