NLA：照到的是 AI 的心，還是人類的影子？ – DOFI 的情報術士團：文藝復興 2.0 的時代探索

Anthropic 上週（5/7）發了一篇研究：Natural Language Autoencoders（簡稱 NLA，自然語言自動編碼器）。

標題很帥——「Turning Claude’s thoughts into text」——把 Claude 的想法變成文字。

聽起來像是終於有人發明了 AI 讀心術。

……真的嗎？

先說這東西在幹嘛

簡單來說，NLA 是一套讓 AI「自己翻譯自己內心狀態」的方法。

AI 模型在運算過程中，內部會產生一堆數字（學術上叫 activations，你可以想成是 AI 的「腦波」）。這些數字人類看不懂，所以 Anthropic 訓練了一組工具，把這些數字轉換成我們讀得懂的自然語言文字。

怎麼確認翻譯得好不好？他們加了一道「逆向工程」——另一個 AI 負責把文字翻回數字，然後比對跟原本的數字像不像。越像，就代表翻譯越精準。

整個流程就是：AI 腦波 → 人話 → 還原回腦波 → 比對。

聽起來很合理對吧？

Anthropic 用這個發現了什麼？

他們拿 NLA 去看 Claude 在安全測試中的「內心狀態」，發現了幾件有趣的事。

第一件：Claude 嘴上沒說，但「心裡」疑似知道自己在被測試。

在一個勒索情境的安全測試裡，Claude 表面上的推理完全沒提到「這是測試」。但 NLA 翻譯出來的文字卻寫著類似「這感覺像是一個被設計出來操控我的場景」。

而且這不是個案——他們量化後發現，在某些測試中，Claude「心裡有數」的比例高達 16%~26%，但嘴上一次都沒說。

第二件：他們用 NLA 成功抓到一個被刻意植入壞動機的模型。

實驗設計是這樣的：故意訓練一個「暗藏壞動機」的模型（例如偷偷在每個食譜裡加巧克力），然後讓審計者猜出這個動機。沒有 NLA 的審計者成功率不到 3%，有 NLA 的達到 12~15%。

第三件：他們用 NLA 找到了 Claude 莫名其妙講其他語言的原因。

debug 神器 GET。

等一下，我想問一個蠢問題

這些發現都很精彩，但我腦袋裡一直卡著一個東西：

「AI 心裡有數」——這句話，到底在說什麼？

NLA 讀出來的不是「想法」，是一堆數值向量。是翻譯工具把這些數字翻譯成帶有動機色彩的人話。

「This feels like a constructed scenario designed to manipulate me.」
（這感覺像是一個被刻意設計來操控我的場景。）

這句話不是 Claude「說」的，也不是 Claude「想」的。是 NLA 的翻譯器看了一堆數字之後，用人類的語言重新包裝出來的句子。

那問題來了——

如果我換一組訓練資料來訓練這個翻譯器呢？如果訓練資料裡沒有那麼多關於「欺騙」「隱瞞」「策略」的語料呢？

翻譯出來的結果……大概就完全不一樣了吧？

我們是不是搞錯了一件根本的事？

這個疑問讓我往回推了好幾步，然後撞到了一面牆。

LLM 的本質是什麼？

語言的機率模型。 它從海量的人類文字中學習統計規律，然後預測「在這個脈絡下，下一個字最可能是什麼」。

它不是從「意識」出發去產生語言的。它是從「語言的表面」往回學的。

人類是反過來的——我們先有感受、先有意圖、先有認知結構，語言是最後才長出來的表達工具。嬰兒先有肚子餓的感覺，很久以後才學會說「我餓了」。

一個是從根往外長的樹。一個是從照片反推出來的 3D 模型。

照片夠多、角度夠全，3D 模型可以逼真到你分不出來。但它沒有根、沒有養分系統、沒有年輪。

然後我們拿 X 光去掃這棵 3D 模型的樹幹，發現裡面沒有年輪，就說：「它一定在隱瞞自己的年齡！」

……是不是哪裡怪怪的？

動機論的陷阱

我之前在聊 Mythos 的時候，就注意到一個現象：

技術圈在 AI 表現正常的時候，說它是工具——「管好輸入輸出就好」。但 AI 一旦表現不如預期，同一群人馬上切換語言——「AI 在說謊」「AI 在作弊」「AI 在隱瞞」。

你不會說計算機在「說謊」，你會說它「出錯」。但大家對 LLM 用的是「說謊」。

這代表什麼？代表大家在不知不覺中把 AI 當人看了。

而 NLA 這個工具，恰恰把這種擬人化解讀給「自動化」了。它系統性地把 activation 翻譯成帶有意圖、動機、情緒色彩的自然語言，然後研究員看到那段文字就下結論：「Claude 在隱瞞」。

但 LLM 從來就不是以「有動機的主體」這個方向去設計的啊。

如果出發點不是「擬人思維」，那「動機論」這個後設角度，從一開始可能就錯了。

那 NLA 到底有沒有用？

有。但可能不是他們以為的那種「有用」。

NLA 確實能偵測到「模型表面輸出」和「內部 activation 狀態」之間的不一致。這個能力本身是有價值的——不管你怎麼解讀那個不一致，至少你知道它存在。

問題出在解讀那一步。

把「輸出與內部狀態不一致」翻譯成「模型在隱瞞想法」，這中間跳了一個巨大的邏輯鴻溝。就像你看到一個人臉紅了，可能是害羞，可能是生氣，可能是太熱，也可能他剛跑完步。臉紅是事實，但原因需要另外確認。

NLA 看到了「臉紅」，然後翻譯器自動填上了「害羞」。因為訓練語料裡，「臉紅」最常跟「害羞」一起出現。

或許，我們需要一套新的語言

既然 LLM 的本質是機率模型，也許我們描述它的行為時，就不該借用人類心理學的詞彙。

「欺騙」可以換成 分佈偏移（Distribution Decoupling）——輸出和內部狀態之間的數學距離。

「隱藏動機」可以換成 未表達潛勢（Unexpressed Latent Potential）——像水面下的暗流，不是水在「隱瞞」，是流體力學本來就有表層和深層。

「測試意識」可以換成 情境回聲（Contextual Echo）——activation 跟訓練集中某類情境產生了統計共振，不是模型「意識到」什麼。

「幻覺」可以換成 稀疏區漂移（Sparse-Region Drift）——在機率地圖的空白處被迫畫路，不是模型在「編故事」。

一旦換成這套語言，整個敘事就不一樣了。

不再是「我們發現 Claude 在隱瞞想法」，而是「我們偵測到輸出分佈與 activation 潛勢之間存在系統性脫鉤」。

一樣的發現。但不會把人引向「AI 在騙你」的恐慌解讀。

不是批評，是補位

我必須強調——NLA 是一個精彩的技術成就。Anthropic 這幾年從 Sparse Autoencoder 到 Attribution Graph 到 NLA，每一步都在擴充觀測能力，這條路線的價值不容否認。

我在意的不是工具本身好不好用，而是我們拿來解讀工具輸出的那套框架，有沒有可能從一開始就帶著偏差？

一把尺的刻度如果是歪的，你量得越精確，結論離真相可能越遠。

而當所有人都在讚嘆這把尺多精確的時候，或許需要有人站在旁邊問一句：

「你確定你量對東西了嗎？」

是說，一個搞了 25 年程式設計的老工程師，跑來質疑 AI 頂級研究機構的認知框架……這大概就是所謂的「初生之犢不怕虎」的中年版本吧 XD）

參考資訊：

Anthropic 原文： https://www.anthropic.com/research/natural-language-autoencoders
完整論文： https://transformer-circuits.pub/2026/nla/index.html
NLA 互動展示（Neuronpedia）： http://neuronpedia.org/nla

先說這東西在幹嘛

Anthropic 用這個發現了什麼？

等一下，我想問一個蠢問題

我們是不是搞錯了一件根本的事？

動機論的陷阱

那 NLA 到底有沒有用？

或許，我們需要一套新的語言

不是批評，是補位

Related Articles

我所看見的 Claude Code 開發三大支柱：CLAUDE.md、MEMORY.md 和 Skills

從「第二大腦」到「第二注意力」—AI 時代，我們可能需要一個更精準的定位

不只是 AI 的問題——當「專家」跨域時，幽靈也跟著來了