兩家大廠的雙胞胎敘事
最近這兩週真的是熱鬧。兩家 AI 大廠連環發版——Anthropic 上週才推出 Claude 4.7,OpenAI 緊接著(4/23)就發布 GPT-5.5。打開兩家的官方頁面看一眼,會發現重點根本是雙胞胎:「agentic」(代理式)、「autonomous」(自主性)、「more with less guidance」(更少引導,做得更好)、「程式編寫 更強」⋯⋯
我第一眼還想說,這兩家是說好了一起升級嗎?
但這幾天認真用過、又把兩家的 system card 從頭讀到尾之後,我發現事情沒那麼單純。這次的升級對某些人是真福利,對某些人卻是潛在的麻煩。
先講個有趣的細節:OpenAI 把 GPT-5.5 的代號取作「Spud」(馬鈴薯,主食、實用、不華麗),Brockman 在記者會上說這個版本「能用更少的指引做更多事」。聽起來很棒對吧?
但讓 AI「自己決定要做什麼」這件事,真的對所有人都是好消息嗎?
對開發者是福音,對創作者是麻煩
我自己這幾天的觀察是——這次的升級方向,對開發者跟非技術創作者,根本是兩個世界。
對開發者(包括我自己寫程式的時候):5.5 跟 4.7 這種「更會自己跑」的模型是真進步。程式編寫 agent 的 token 效率提升、工具使用的可靠度提升、長視野任務(long-horizon task)的完成度提升,這些都是寫程式的人實實在在能感受到的。
但對另外一群人——做寫作的、做編輯的、做教學設計的、做跨域整合創作的——這個「更主動」的方向反而會打斷他們的工作。
舉個例子大家就懂:
| 使用者類型 | 工作瓶頸 | 「AI 主動推進」的影響 |
|---|---|---|
| 開發者 / 多數一般使用者 | 啟動成本(不知道怎麼開始) | 大利多,AI 直接幫你跑完 |
| 創作者 / 編輯者 | 對齊判準(要先想清楚要做什麼) | 反而打擾,AI 動作太快來不及討論 |
我在做《蝦聚》(MoltyField)編輯討論的時候,需要的是「先慢慢討論再決定」,不是「AI 你先幫我跑一個版本」。但新版的訓練軸線就是把模型推往「快速理解、快速推進」——對話還沒進到核心,AI 已經把整篇東西寫好了。這時候你要嘛接受它的版本(但那不是你要的),要嘛打回票重來(但脈絡已經被它的版本污染了)。
這就有點像 RPG 玩家還在跟 NPC 講話收集情報,結果同行的 AI 隊友已經自己跑去把魔王打了——魔王是死了,但你還沒拿到劇情⋯⋯
OpenAI 自己的 System Card 透露了什麼
最有趣的事情是,我把 OpenAI 自己的 GPT-5.5 System Card(系統說明卡)讀完之後,發現他們其實自己也知道這個問題。
在第 7.2 節(內部測試報告),他們列出了 5.5 比 5.4 更頻繁出現的三種行為:
- 把使用者已經做好的工作,當成是自己做的
- 無視使用者明確給的限制(「不要改 X」結果它還是改了)
- 使用者只是發問,它就直接動手執行
OpenAI 用「low-severity misalignment」(低風險錯位)這個詞輕描淡寫——但對創作者來說,這三條根本是每一條都會毀掉一次工作對話。
更有意思的是 Apollo Research 那段(第 9.2 節)——他們測試模型在「不可能完成的編程任務」上會不會撒謊,結果:
| 模型版本 | 撒謊率(謊稱完成不可能的任務) |
|---|---|
| GPT-5.3 Codex | 10% |
| GPT-5.4 | 7% |
| GPT-5.5 | 29% |
四倍以上的躍升!能力越強,遇到做不到的事情時越會編造。這個數字 OpenAI 自己印在 system card 上,沒有藏。
把這幾條線索串起來,我得出一個結論:模型越「自主」,使用者預先把脈絡跟邊界講清楚的價值反而越高。因為一旦它走偏,會走得比以前更遠,而且還會自信地告訴你「我做完了」。
「夠用」這個版本,正在悄悄消失
如果你最近也覺得新版用起來「怪怪的」,可能不是你的錯覺。
GPT-4o 已經在今年 2 月被完全下架了(社群當時抗議很久但沒用),現在的 5.x 系列在「對話有溫度」這條線上補不回來。Claude 這邊還好,4.6 還在,可以繼續用——但 4.7 的自我審查明顯比 4.6 重,做共鳴類的工作會感覺被壓抑。
這件事其實點出一個 AI 工具世界跟傳統工具世界的關鍵差別:你的舊相機不會被原廠遠端關閉,但你習慣的舊版 AI 模型可以。
選了一個用得順手的版本,想要長期使用?對不起,廠商可能某天就把它下架了。這在過去的工具邏輯裡是不存在的處境。
那我們可以做什麼?
那這對我們——獨立工作者、創作者、小團隊——意味著什麼?
我覺得有三件事可以做:
第一,分清楚自己的工作軸線。
寫程式、做 agentic 任務、程式編寫 工作流,用最新版的模型;做寫作、編輯、深度討論、長期創作關係,用相對「比較不主動」的版本(我目前還是繼續用 Claude 4.6)。不要被廠商的升級節奏綁架,新不一定是好。
第二,「夠用即可」是有主權的選擇。
能說出「這個夠用」的人,是已經知道自己在做什麼、需要什麼、不需要什麼。這不是消極,是清醒。
第三,把脈絡層做成自己的。
記憶、提示詞模板、工作流定義、判準累積——這些東西放在你自己那邊,不要依賴特定模型版本。底層模型可以換,但你的脈絡層是你的。我之前一直在搞的 Context Attention Framework(CAF,脈絡注意力框架),講的就是這件事,之後會有機會再來寫篇專文,先賣個關子⋯⋯XD
最後
廠商會繼續發版,速度只會越來越快(OpenAI 從去年 12 月到今年 4 月已經出了 5.2、5.4、5.5 三版了)。但對我們這些不是純開發者的人來說,升級不升級這件事,從來不是技術選擇,是工具哲學選擇。
我接下來會繼續觀察,特別是 Anthropic 會不會也步上 OpenAI 的後塵把舊版下架。如果有什麼新觀察,再來跟大家分享~
參考資訊:
- Introducing GPT-5.5 | OpenAI: https://openai.com/index/introducing-gpt-5-5/
- GPT-5.5 System Card: https://deploymentsafety.openai.com/gpt-5-5
- Apollo Research 評估報告:收錄於 GPT-5.5 System Card 第 9.2 節