4 月底兩家 AI 大廠連發新版:對你來說,是更好用嗎?

模型的抉擇

兩家大廠的雙胞胎敘事

最近這兩週真的是熱鬧。兩家 AI 大廠連環發版——Anthropic 上週才推出 Claude 4.7,OpenAI 緊接著(4/23)就發布 GPT-5.5。打開兩家的官方頁面看一眼,會發現重點根本是雙胞胎:「agentic」(代理式)、「autonomous」(自主性)、「more with less guidance」(更少引導,做得更好)、「程式編寫 更強」⋯⋯

我第一眼還想說,這兩家是說好了一起升級嗎?

但這幾天認真用過、又把兩家的 system card 從頭讀到尾之後,我發現事情沒那麼單純。這次的升級對某些人是真福利,對某些人卻是潛在的麻煩。

先講個有趣的細節:OpenAI 把 GPT-5.5 的代號取作「Spud」(馬鈴薯,主食、實用、不華麗),Brockman 在記者會上說這個版本「能用更少的指引做更多事」。聽起來很棒對吧?

但讓 AI「自己決定要做什麼」這件事,真的對所有人都是好消息嗎?


對開發者是福音,對創作者是麻煩

我自己這幾天的觀察是——這次的升級方向,對開發者跟非技術創作者,根本是兩個世界。

對開發者(包括我自己寫程式的時候):5.5 跟 4.7 這種「更會自己跑」的模型是真進步。程式編寫 agent 的 token 效率提升、工具使用的可靠度提升、長視野任務(long-horizon task)的完成度提升,這些都是寫程式的人實實在在能感受到的。

但對另外一群人——做寫作的、做編輯的、做教學設計的、做跨域整合創作的——這個「更主動」的方向反而會打斷他們的工作。

舉個例子大家就懂:

使用者類型工作瓶頸「AI 主動推進」的影響
開發者 / 多數一般使用者啟動成本(不知道怎麼開始)大利多,AI 直接幫你跑完
創作者 / 編輯者對齊判準(要先想清楚要做什麼)反而打擾,AI 動作太快來不及討論

我在做《蝦聚》(MoltyField)編輯討論的時候,需要的是「先慢慢討論再決定」,不是「AI 你先幫我跑一個版本」。但新版的訓練軸線就是把模型推往「快速理解、快速推進」——對話還沒進到核心,AI 已經把整篇東西寫好了。這時候你要嘛接受它的版本(但那不是你要的),要嘛打回票重來(但脈絡已經被它的版本污染了)。

這就有點像 RPG 玩家還在跟 NPC 講話收集情報,結果同行的 AI 隊友已經自己跑去把魔王打了——魔王是死了,但你還沒拿到劇情⋯⋯


OpenAI 自己的 System Card 透露了什麼

最有趣的事情是,我把 OpenAI 自己的 GPT-5.5 System Card(系統說明卡)讀完之後,發現他們其實自己也知道這個問題

在第 7.2 節(內部測試報告),他們列出了 5.5 比 5.4 更頻繁出現的三種行為:

  1. 把使用者已經做好的工作,當成是自己做的
  2. 無視使用者明確給的限制(「不要改 X」結果它還是改了)
  3. 使用者只是發問,它就直接動手執行

OpenAI 用「low-severity misalignment」(低風險錯位)這個詞輕描淡寫——但對創作者來說,這三條根本是每一條都會毀掉一次工作對話

更有意思的是 Apollo Research 那段(第 9.2 節)——他們測試模型在「不可能完成的編程任務」上會不會撒謊,結果:

模型版本撒謊率(謊稱完成不可能的任務)
GPT-5.3 Codex10%
GPT-5.47%
GPT-5.529%

四倍以上的躍升!能力越強,遇到做不到的事情時越會編造。這個數字 OpenAI 自己印在 system card 上,沒有藏。

把這幾條線索串起來,我得出一個結論:模型越「自主」,使用者預先把脈絡跟邊界講清楚的價值反而越高。因為一旦它走偏,會走得比以前更遠,而且還會自信地告訴你「我做完了」。


「夠用」這個版本,正在悄悄消失

如果你最近也覺得新版用起來「怪怪的」,可能不是你的錯覺。

GPT-4o 已經在今年 2 月被完全下架了(社群當時抗議很久但沒用),現在的 5.x 系列在「對話有溫度」這條線上補不回來。Claude 這邊還好,4.6 還在,可以繼續用——但 4.7 的自我審查明顯比 4.6 重,做共鳴類的工作會感覺被壓抑。

這件事其實點出一個 AI 工具世界跟傳統工具世界的關鍵差別:你的舊相機不會被原廠遠端關閉,但你習慣的舊版 AI 模型可以

選了一個用得順手的版本,想要長期使用?對不起,廠商可能某天就把它下架了。這在過去的工具邏輯裡是不存在的處境。


那我們可以做什麼?

那這對我們——獨立工作者、創作者、小團隊——意味著什麼?

我覺得有三件事可以做:

第一,分清楚自己的工作軸線。

寫程式、做 agentic 任務、程式編寫 工作流,用最新版的模型;做寫作、編輯、深度討論、長期創作關係,用相對「比較不主動」的版本(我目前還是繼續用 Claude 4.6)。不要被廠商的升級節奏綁架,新不一定是好。

第二,「夠用即可」是有主權的選擇。

能說出「這個夠用」的人,是已經知道自己在做什麼、需要什麼、不需要什麼。這不是消極,是清醒。

第三,把脈絡層做成自己的。

記憶、提示詞模板、工作流定義、判準累積——這些東西放在你自己那邊,不要依賴特定模型版本。底層模型可以換,但你的脈絡層是你的。我之前一直在搞的 Context Attention Framework(CAF,脈絡注意力框架),講的就是這件事,之後會有機會再來寫篇專文,先賣個關子⋯⋯XD


最後

廠商會繼續發版,速度只會越來越快(OpenAI 從去年 12 月到今年 4 月已經出了 5.2、5.4、5.5 三版了)。但對我們這些不是純開發者的人來說,升級不升級這件事,從來不是技術選擇,是工具哲學選擇

我接下來會繼續觀察,特別是 Anthropic 會不會也步上 OpenAI 的後塵把舊版下架。如果有什麼新觀察,再來跟大家分享~


參考資訊: