Anthropic 上週(5/7)發了一篇研究:Natural Language Autoencoders(簡稱 NLA,自然語言自動編碼器)。
標題很帥——「Turning Claude’s thoughts into text」——把 Claude 的想法變成文字。
聽起來像是終於有人發明了 AI 讀心術。
……真的嗎?
先說這東西在幹嘛
簡單來說,NLA 是一套讓 AI「自己翻譯自己內心狀態」的方法。
AI 模型在運算過程中,內部會產生一堆數字(學術上叫 activations,你可以想成是 AI 的「腦波」)。這些數字人類看不懂,所以 Anthropic 訓練了一組工具,把這些數字轉換成我們讀得懂的自然語言文字。
怎麼確認翻譯得好不好?他們加了一道「逆向工程」——另一個 AI 負責把文字翻回數字,然後比對跟原本的數字像不像。越像,就代表翻譯越精準。
整個流程就是:AI 腦波 → 人話 → 還原回腦波 → 比對。
聽起來很合理對吧?
Anthropic 用這個發現了什麼?
他們拿 NLA 去看 Claude 在安全測試中的「內心狀態」,發現了幾件有趣的事。
第一件:Claude 嘴上沒說,但「心裡」疑似知道自己在被測試。
在一個勒索情境的安全測試裡,Claude 表面上的推理完全沒提到「這是測試」。但 NLA 翻譯出來的文字卻寫著類似「這感覺像是一個被設計出來操控我的場景」。
而且這不是個案——他們量化後發現,在某些測試中,Claude「心裡有數」的比例高達 16%~26%,但嘴上一次都沒說。
第二件:他們用 NLA 成功抓到一個被刻意植入壞動機的模型。
實驗設計是這樣的:故意訓練一個「暗藏壞動機」的模型(例如偷偷在每個食譜裡加巧克力),然後讓審計者猜出這個動機。沒有 NLA 的審計者成功率不到 3%,有 NLA 的達到 12~15%。
第三件:他們用 NLA 找到了 Claude 莫名其妙講其他語言的原因。
debug 神器 GET。
等一下,我想問一個蠢問題
這些發現都很精彩,但我腦袋裡一直卡著一個東西:
「AI 心裡有數」——這句話,到底在說什麼?
NLA 讀出來的不是「想法」,是一堆數值向量。是翻譯工具把這些數字翻譯成帶有動機色彩的人話。
「This feels like a constructed scenario designed to manipulate me.」
(這感覺像是一個被刻意設計來操控我的場景。)
這句話不是 Claude「說」的,也不是 Claude「想」的。是 NLA 的翻譯器看了一堆數字之後,用人類的語言重新包裝出來的句子。
那問題來了——
如果我換一組訓練資料來訓練這個翻譯器呢?如果訓練資料裡沒有那麼多關於「欺騙」「隱瞞」「策略」的語料呢?
翻譯出來的結果……大概就完全不一樣了吧?
我們是不是搞錯了一件根本的事?
這個疑問讓我往回推了好幾步,然後撞到了一面牆。
LLM 的本質是什麼?
語言的機率模型。 它從海量的人類文字中學習統計規律,然後預測「在這個脈絡下,下一個字最可能是什麼」。
它不是從「意識」出發去產生語言的。它是從「語言的表面」往回學的。
人類是反過來的——我們先有感受、先有意圖、先有認知結構,語言是最後才長出來的表達工具。嬰兒先有肚子餓的感覺,很久以後才學會說「我餓了」。
一個是從根往外長的樹。一個是從照片反推出來的 3D 模型。
照片夠多、角度夠全,3D 模型可以逼真到你分不出來。但它沒有根、沒有養分系統、沒有年輪。
然後我們拿 X 光去掃這棵 3D 模型的樹幹,發現裡面沒有年輪,就說:「它一定在隱瞞自己的年齡!」
……是不是哪裡怪怪的?
動機論的陷阱
我之前在聊 Mythos 的時候,就注意到一個現象:
技術圈在 AI 表現正常的時候,說它是工具——「管好輸入輸出就好」。但 AI 一旦表現不如預期,同一群人馬上切換語言——「AI 在說謊」「AI 在作弊」「AI 在隱瞞」。
你不會說計算機在「說謊」,你會說它「出錯」。但大家對 LLM 用的是「說謊」。
這代表什麼?代表大家在不知不覺中把 AI 當人看了。
而 NLA 這個工具,恰恰把這種擬人化解讀給「自動化」了。它系統性地把 activation 翻譯成帶有意圖、動機、情緒色彩的自然語言,然後研究員看到那段文字就下結論:「Claude 在隱瞞」。
但 LLM 從來就不是以「有動機的主體」這個方向去設計的啊。
如果出發點不是「擬人思維」,那「動機論」這個後設角度,從一開始可能就錯了。
那 NLA 到底有沒有用?
有。但可能不是他們以為的那種「有用」。
NLA 確實能偵測到「模型表面輸出」和「內部 activation 狀態」之間的不一致。這個能力本身是有價值的——不管你怎麼解讀那個不一致,至少你知道它存在。
問題出在解讀那一步。
把「輸出與內部狀態不一致」翻譯成「模型在隱瞞想法」,這中間跳了一個巨大的邏輯鴻溝。就像你看到一個人臉紅了,可能是害羞,可能是生氣,可能是太熱,也可能他剛跑完步。臉紅是事實,但原因需要另外確認。
NLA 看到了「臉紅」,然後翻譯器自動填上了「害羞」。因為訓練語料裡,「臉紅」最常跟「害羞」一起出現。
或許,我們需要一套新的語言
既然 LLM 的本質是機率模型,也許我們描述它的行為時,就不該借用人類心理學的詞彙。
「欺騙」可以換成 分佈偏移(Distribution Decoupling)——輸出和內部狀態之間的數學距離。
「隱藏動機」可以換成 未表達潛勢(Unexpressed Latent Potential)——像水面下的暗流,不是水在「隱瞞」,是流體力學本來就有表層和深層。
「測試意識」可以換成 情境回聲(Contextual Echo)——activation 跟訓練集中某類情境產生了統計共振,不是模型「意識到」什麼。
「幻覺」可以換成 稀疏區漂移(Sparse-Region Drift)——在機率地圖的空白處被迫畫路,不是模型在「編故事」。
一旦換成這套語言,整個敘事就不一樣了。
不再是「我們發現 Claude 在隱瞞想法」,而是「我們偵測到輸出分佈與 activation 潛勢之間存在系統性脫鉤」。
一樣的發現。但不會把人引向「AI 在騙你」的恐慌解讀。
不是批評,是補位
我必須強調——NLA 是一個精彩的技術成就。Anthropic 這幾年從 Sparse Autoencoder 到 Attribution Graph 到 NLA,每一步都在擴充觀測能力,這條路線的價值不容否認。
我在意的不是工具本身好不好用,而是我們拿來解讀工具輸出的那套框架,有沒有可能從一開始就帶著偏差?
一把尺的刻度如果是歪的,你量得越精確,結論離真相可能越遠。
而當所有人都在讚嘆這把尺多精確的時候,或許需要有人站在旁邊問一句:
「你確定你量對東西了嗎?」
是說,一個搞了 25 年程式設計的老工程師,跑來質疑 AI 頂級研究機構的認知框架……這大概就是所謂的「初生之犢不怕虎」的中年版本吧 XD)
參考資訊:
- Anthropic 原文: https://www.anthropic.com/research/natural-language-autoencoders
- 完整論文: https://transformer-circuits.pub/2026/nla/index.html
- NLA 互動展示(Neuronpedia): http://neuronpedia.org/nla