Opus 4.7 降智之謎:一場你不知道自己被排除在外的產品轉型

Agentic AI

最近這幾天,社群裡又開始出現熟悉的聲音:「Opus 4.7 降智了。」

Reddit 上有人說程式碼品質大不如前,Hacker News 上有人說指令遵循能力退化,GitHub 上有人直接開 issue 說它「變笨了,而且 token 吃得比以前兇很多」。甚至有人說 Sonnet 4.6 反而比 Opus 4.7 好用——一個中階模型打贏旗艦?

這場景是不是很眼熟?沒錯,三個月前 Opus 4.6 也上演過一模一樣的劇本。

三週前我寫了一篇「Claude Opus 4.7 來了,但你真的需要馬上換嗎?」,當時講的是風格上的水土不服——回應變長、自省機制變成注意力黑洞、「誠實」變成一種表演。那些是 4.7 的「個性問題」。

但這次社群反映的不太一樣。大家的描述有個共同的細節:不是一開始就不好,而是「先好後壞」

這個細節很關鍵。如果是不適應新版本,應該從第一天就覺得怪。但「先好後壞」意味著——有什麼東西在你不知道的時候變了。


不是引擎壞了,是有人動了你的車

我花了一些時間把英文世界的討論、GitHub issue、官方回應和技術文件翻了一遍。結論是:你感覺到的「降智」,至少有三個不同層次的原因在同時作用,而且大部分使用者根本分不清楚是哪一層。

煞車一:Effort 被靜默降級

GitHub 上有一個很具體的 issue(#52149):使用者在 session 開始時明確設定 effort 為 max、thinking 開啟,但在使用過程中,effort 被系統靜默降級為 medium——完全沒有通知使用者

想像一下:你開車上高速公路,明明把檔位推到五檔了,結果車子的電腦在你不知道的情況下偷偷降到三檔。你只會覺得「這台車今天怎麼這麼沒力」,但你不會想到是系統自己動手腳。

煞車二:Context 計算 Bug

Claude Code 有個已修復的 bug:Opus 4.7 的 session 在計算 context 使用量時,用的是 200K 而不是 Opus 4.7 原生的 1M context window。這導致系統以為你的 context 已經快滿了,提前觸發 autocompaction(自動壓縮上下文)。

後果是什麼?對話越長,模型拿到的上下文越殘缺,回應品質就越差。完美符合「一開始好、後來變差」的體感。不是模型退化了,是它的記憶被偷偷截斷了。

煞車三:Adaptive Thinking 的「自作主張」

這是最關鍵的一層,也是最不容易察覺的。

Opus 4.7 引入了 adaptive thinking(適應性思考機制)——模型會自己判斷每一個回合需要「想多深」。聽起來很聰明對吧?問題是,Anthropic 的工程師 Boris Cherny 在 Hacker News 上承認:在某些回合,adaptive thinking 分配了零個 推理 token。零。完全不思考。

結果就是精確的幻覺——捏造不存在的 commit SHA、不存在的 apt 套件名、從未發布過的 API 版本。模型不是「想錯了」,是「根本沒想就回答了」。

AMD 的 AI 總監 Stella Laurenzo 更進一步——她分析了 6,852 個 Claude Code session,發現模型的思考量比之前減少了 67%。

而且,4.6 還可以用環境變數 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 強制關閉 adaptive thinking,回到固定思考預算。但 4.7 不行——adaptive thinking 是唯一的模式,你關不掉它。

把這三層攤開來看:

問題層現象原因使用者可控?
Effort 靜默降級回應品質中途下降系統自動降低 effort 設定可手動改回,但可能再次被降
Context 計算 bug對話越長越笨200K 誤算觸發過早壓縮已修復(v2.1.116)
Adaptive thinking偶爾出現精確幻覺某些回合 零思考 token4.7 無法關閉

如果故事只到這裡,那這就是一篇技術踩坑分享。但真正有意思的問題是:為什麼 Anthropic 要把 adaptive thinking 做成 4.7 唯一的模式,而且不讓你關掉?


你的 AI 不是變笨了,是正在為別人優化

答案藏在一個更大的產業趨勢裡。

2026 年,AI 產業最熱的關鍵字不是「更聰明的聊天」,是 Agent。Anthropic 有 Claude Code,OpenAI 有 Codex,Google 有 Gemini CLI——每一家都在搶「讓 AI 自主完成整個工作流程」的市場。為什麼?因為 Agent 的商業模式比對話好太多:一個 Agent 跑一個任務可能消耗幾萬 token,API 收入直接掛鉤使用量;對話使用者一個月訂閱 $20,token 消耗量相對小。市場在那邊,資源自然往那邊傾斜。

這是商業決策。但商業決策一旦啟動,技術層面的連鎖反應就跟著來了。

Opus 4.7 的官方公告,重點全部集中在:長時間自主任務執行、自動驗證輸出、更少 subagent、更多自主推理、新的 xhigh effort 層級、Claude Code 的 /ultrareview 指令。翻譯成一句話:這個模型是為 Agent 設計的,不是為對話設計的。

而一旦你要讓模型跑 Agent 任務,一個技術上的必然約束就浮現了:Agent 要自主跑一個長任務,過程中可能要執行幾十甚至上百個回合——讀檔案、跑測試、檢查結果、修 bug、再跑一次。如果每一個回合都用 max effort 全力思考,token 成本會爆炸,速度也會慢到不實用。

所以 adaptive thinking 在 agentic 場景下不是可選的,是必要的。Agent 必須有能力自己判斷「這一步只是讀個檔名,不用想」跟「這一步是架構決策,要認真想」。這不是偷懶,是資源調度——就像一個真正的工程師在工作時,也不會每寫一行 code 都用同樣的專注度。

換句話說:市場決定了廠商要不要往 Agent 方向走,而技術決定了一旦走上這條路,模型必須變成 agentic 的。 這兩層力量疊加在一起,就是我們現在看到的局面。

而且這不只是 Anthropic 一家的選擇。OpenAI 的 GPT-5.5 也在往同一個方向走,Gemini 也是。連學術界都在研究同一個問題——今年二月有篇論文叫「Agent-Omit」,專門訓練 LLM 在不需要深度思考的回合自動跳過推理步驟。

整個產業有一個清楚的共識:未來的 LLM 是 Agent 的引擎,不是對話的夥伴。

有人甚至直接寫了一篇叫「Stop Building Chatbots」(停止建立聊天機器人)的文章,宣稱對話式 AI 的時代正在結束。

但這裡有個直接的代價。MindStudio 對 Opus 4.7 的深度評測發現:4.7 在網路研究任務上比 4.6 退步了——來源歸因準確度下降、矛盾偵測變弱、引用精確度降低。分析的結論很直白:「這很可能反映了一個訓練取捨——提升 agentic 持久性所需的訓練資料,讓模型偏離了 4.6 擅長的仔細交叉引用推理。」

這不是 bug,是有意識的零和取捨。為了讓 Agent 在長任務裡不掉球,犧牲了對話和研究的品質。而且這不是誰的惡意——就算廠商有心兼顧,讓模型同時擅長「自主調度跑長任務」和「深度配合人類對話」,在訓練目標上本來就是互相拉扯的。

用 RPG 來比喻的話:以前你的 AI 隊友是「命令模式」——你說攻擊就攻擊,說防禦就防禦。現在變成了「AI 託管模式」——它自己判斷這場戰鬥值不值得認真打。大部分時候判斷是對的,但偶爾它覺得「這隻小怪不用認真」的時候,你才發現那其實是偽裝成小怪的 Boss⋯⋯

而且,這不是它判斷力差。它被訓練成優先處理「跑完整個副本」的效率,不是優先處理「這一刀砍得漂不漂亮」的品質。目標不同,行為自然不同。


沒有人替你做的那條產品線

問題講清楚了。那最合理的解法是什麼?

兩條產品線。

如果 代理型(agentic)跟 對話型(conversational) 的需求根本矛盾,那就不該用同一個模型、同一組訓練目標來服務兩群人。一條線為 Agent 優化——adaptive thinking、資源調度、長任務不掉球。另一條線為對話優化——深度思考、精確引用、節奏配合、可預測性。

對話型(Conversational)代理型(Agentic)
優化目標深度推理、共鳴、精確引用資源調度、長任務、自主決策
Thinking 模式固定、可鎖定Adaptive、自動調節
節奏配合使用者、即時回應自主推進、批次完成
目標用戶創作者、研究者、對話使用者開發者、自動化工作流

但目前沒有一家廠商這樣做

不是因為他們不知道這個問題。Anthropic 的模型層級架構(Haiku / Sonnet / Opus)本來就暗示了某種分工的可能。但現在的分工是按「能力高低」切的,不是按「使用模式」切的。原因是雙重的:一方面,前面說了,Agent 市場的商業價值遠大於對話市場,資源自然優先投入;另一方面,維護兩條訓練路線的成本是真實的——資料集要分開、評估基準要分開、微調策略要分開。對一家還在快速迭代的公司來說,集中力量打一個方向比分兵兩路更務實。

結果就是,你——做寫作的、做編輯的、做教學設計的、做跨域整合創作的、或者就是每天跟 AI 高密度對話的使用者——你成了這場產業轉型的附帶損害

不是被刻意拋棄,是在資源分配的邏輯下被排到了後面。

你還在用這個產品,但這個產品已經不是為你優化的了。

在前一篇「兩家 AI 大廠連發新版:對你來說,是更好用嗎?」裡,我說「夠用即可是有主權的選擇」。現在要補一句——前提是那個「夠用」的版本還存在。GPT-4o 已經在今年二月被下架了,舊版 Claude 模型也在陸續退役。你選中的那台手排車,可能某天就停產了。


那我們可以做什麼?

先講實際的。

如果你用 Claude Code:

可以用環境變數鎖住 effort level:export CLAUDE_CODE_EFFORT_LEVEL=max,但要知道 4.7 的 adaptive thinking 關不掉,模型仍然保留「這題我覺得不用想太深」的自主權。你能做的是把地板抬高,但地板跟天花板之間的浮動,模型自己在控制。

也可以在 CLAUDE.md 裡加上「think carefully before responding」(回應之前先仔細思考)之類的引導語,或者在需要穩定性的工作上,暫時釘選 4.6。

如果你跟我一樣主要用網頁對話:

坦白說能做的有限——effort 設定在網頁端不開放。但可以在 prompt 裡明確標示任務的重要性,用語言去踩那個你沒有的油門踏板。混用策略也可以——4.6 當日常主力,4.7 留給特定需要高解析度圖片或超長 context 的場景。

更根本的:

把脈絡層做成自己的。記憶、判準、工作流定義——這些東西放在你自己那邊,不要依賴特定模型版本。底層模型會換、會被改、會退役,但你的脈絡是你的。這一點在模型訓練目標持續往 agentic 方向偏移的趨勢下,只會越來越重要。

學會 模型導向機制(model routing)的思維。不同任務用不同模型,不要綁死在一個版本上。Anthropic 最近推出的 Advisor Tool——用 Sonnet 執行搭配 Opus 當顧問——其實暗示了分層使用的方向。既然廠商不替你切兩條產品線,你可以自己在使用層做這個分流。

然後留意一件事:當所有大廠都在為 Agent 優化的時候,「為對話優化的 AI」可能會變成一個被低估的市場缺口。開源模型(像 DeepSeek V4)沒有 agentic 的商業包袱,搞不好反而會成為對話使用者的替代選項。


寫在最後

回頭看這三篇文章的演化:

第一篇我說「把對的引擎裝在對的車上」——那是在講你要會選。 第二篇我說「升級不升級是工具哲學選擇」——那是在講你要有立場。 這一篇我想說的是:引擎不只是換了,是整個造車工業的方向變了。它們在造自駕車,而你想要的是一台手排。

不是你的需求錯了,是這個產業的重心移開了。

知道這件事不會讓 4.7 變好用,但至少你會知道——下次覺得 AI 變笨的時候,不用懷疑自己。它不是變笨了,它只是在忙別的事。

所以現在的處境有點像是——你在餐廳坐下來,想跟主廚好好聊聊今天推薦什麼菜,結果主廚跟你說他現在專注做外送了,你的桌邊服務由 adaptive thinking 代理⋯⋯(蛤!!??


參考資訊: