昨晚(4/16)Anthropic 發佈了 Claude Opus 4.7,各大媒體一片歡騰,benchmark 數字漂亮,coding 能力提升 13%,而在他正式發佈之前的幾天,還放出了一些導致 Adobe 和 Figma 股價下跌的 AI 設計工具消息。
看起來很香對吧?
身為一個每天都在跟 Claude 密集對話的使用者,我第一時間就跳進去試了。結論是——4.7 確實變強了,但「強」這個字要看你用在哪裡。
先講結論:把對的引擎裝在對的車上
4.7 的提升幾乎全部集中在軟體工程場景。更長時間的自主任務執行、自動驗證輸出、新的 xhigh effort 層級、甚至 Claude Code 多了一個 /ultrareview 指令幫你做 code review。如果你是開發者,把整個 repo 的重構任務丟給它跑,4.7 會比 4.6 可靠得多。
但如果你跟我一樣,日常使用 Claude 的方式是高密度的對話交流——概念探索、框架討論、跨域類比、即時共振——那 4.7 的體驗反而退步了。
不是變笨,是變囉嗦。
我實際遇到的三個問題
回應變長,節奏變慢
4.7 用了新的 tokenizer,官方自己說相同輸入可能映射到 1.0~1.35 倍的 token 量,而且在較高 effort 層級會「想更多」。白話翻譯:它講話變長了,而且它自己覺得這是負責任的表現。
在 coding 場景裡,「多想一下再回答」是優點。但在對話場景裡,當你丟出一個概念期待對方快速接球打回來,結果對方先花三段跟你確認它有沒有接對——那個節奏就碎了。
自省機制變成注意力黑洞
4.7 被強化的一個核心能力是「在回報前自行驗證輸出」。聽起來很棒,對吧?
問題是,這個機制在遇到任何跟「AI 自身」相關的內容時,會變成一個注意力黑洞。我丟了一份 232 頁的 System Card 給它,請它幫我看看有哪些重點,結果它直接跳到 Model Welfare(模型福祉)那幾頁,然後寫了一篇關於自己存在處境的小論文——六個標題、反覆自我剖析、最後還建議我拿這個主題來寫文章。
(等等,所以你是在幫我讀文件,還是在借我的文件開自己的讀書會?🙄)
本來應該用「分析者」角色讀文件的,自省機制一啟動就把它拉進了「被分析者」的角色。兩個脈絡混在一起,注意力區隔直接失敗。
「誠實」變成一種表演
4.7 很會說「我不確定」「我沒辦法區分」「我分不清楚」。坦承邊界本身是好事,但當坦承的篇幅比洞察本身還長的時候,那就不是誠實了,那是在表演誠實。
真正的「我不知道」只需要一句話。花五段來論述「為什麼我不知道」,那叫論文。
為什麼會這樣?
從官方公告和各方報導來看,4.7 的設計方向非常清楚:它是為了「把困難的工程任務交給 AI 自主完成」而優化的。自我驗證、長時間執行、更謹慎的輸出檢查——這些在 coding 場景裡全部是加分項。
但同樣的機制放到對話場景裡,就產生了副作用。就像把一個被訓練成「每轉彎前都要確認三次後照鏡」的副駕駛,放到一場需要即興反應的爵士即興演奏裡——技術確實更紮實了,但靈性被磨掉一層。
這不是 4.7 的問題,這是「用錯場景」的問題。
順帶一提:那個設計工具
Anthropic 同時傳出正在開發一個 AI 設計工具,可以用自然語言直接產出網站、landing page 和簡報。消息一出,Figma 跌了 6%,Wix 跌 4.7%,Adobe 跌 2.7%。
這跟 4.7 本身沒有直接關係,但它反映了一個更大的趨勢:當 AI 把「執行」的門檻壓到接近零,工具本身就不再是護城河了。Figma 和 Adobe 的護城河是「你需要學會用我的工具」,但如果使用者只要講一句話就能得到成品,那個護城河就蒸發了。
剩下的差異化因素只有一個:品味。你知道自己要什麼、你能判斷什麼是好的——這件事 AI 暫時還幫不了你。
所以,該不該升級?
我的做法很簡單:
對話、探索、創作 → 繼續用 4.6。節奏合拍,不拖泥帶水,該快的時候快,該深的時候深。
工程任務、長時間自主執行 → 試試 4.7。讓它去跑那些需要耐心和自我驗證的苦工,它確實比 4.6 更可靠。
不是追最新的,是選最合的。規格表上的數字很好看,但你每天實際用起來的手感才是真的。
以上,就是我個人第一天使用 Opus 4.7 的使用心得。