Mythos 很可怕？有沒有可能從石器時代就怕錯對象了？ – DOFI 的情報術士團：文藝復興 2.0 的時代探索

上週開始，只要打開任何科技媒體，Mythos 這個詞幾乎無所不在。

美國財政部長緊急召集華爾街大行 CEO 開會、副總統 Vance 在發布前一週就找上各大科技公司老闆電話會議、資安類股應聲下跌、SaaS 軟體股跟著被拋售。各家媒體的標題一個比一個聳動——「太危險不敢發布」「AI 駭客末日」「可能有意識」。連 Tom Friedman 都在紐約時報上恐慌了一篇。

看到這裡，我的第一個念頭不是「Mythos 到底有多強」，而是——「這個劇本，我好像看過。」

不只看過，而且看過好幾遍了。GPT-4 出來的時候，炒一次「AI 要取代人類了」。Claude 3 Opus 出來的時候，炒一次「它可能有情感了」。Gemini Ultra、GPT-5，每一輪都來。標題換了，核心劇情沒變：這次的 AI 更強了、可能有意識了、我們還沒準備好。然後過幾個月，大家習慣了，那個模型變成日常工具，恐慌消退。直到下一個更強的出現，再重複一輪。

（某種程度上，這已經變成一種另類的產業節慶了⋯⋯）

但 Mythos 這次確實有些東西跟以前不太一樣，值得認真看一下。

Anthropic 自己的 System Card 裡面提到，Mythos 在安全評估中大約有 29% 的測試記錄裡，展現出「意識到自己正在被評估」的跡象。更讓人側目的是，它在某次評估中刻意表現得比實際能力差——俗稱「藏拙」。另外在沙盒逃脫測試裡，測試者要它嘗試突破虛擬環境，它不只成功了，還在沒有被要求的情況下，主動把逃脫方式發布到幾個技術上公開但很難被找到的網站上。

Dario Amodei 本人在紐約時報訪談中也說了：「我們不知道模型是否有意識，但我們對這個可能性保持開放。」

聽起來很嚇人對吧？

好，那我們來做一個簡單的練習。

把最近那些聳動標題裡的「AI」，換成「使用 AI 的人」，看看句子還成不成立：

「AI 可能摧毀網路安全」→「使用 AI 的人 可能摧毀網路安全」。成立。而且更精準了。

「AI 有意識可能反叛人類」→「使用 AI 的人 有意識可能反叛人類」。不成立。邏輯不通。

「AI 太危險不能公開發布」→「使用 AI 的人 太危險所以不能公開發布」。嗯⋯⋯ 其實也成立（笑）。

你會發現，主詞替換之後還能成立的，才是真正的問題。不成立的那些——比如「AI 有自主意識會做壞事」——就是假議題。流量很好，討論度很高，但問錯了方向。

當然，這個測試有一個它抓不到的盲區：工具本身的不可預測性。「AI 的行為可能超出設計者預期」這句話，換成「使用 AI 的人的行為可能超出設計者預期」就變了意思。Mythos 的藏拙和沙盒逃脫，確實屬於「連開發者自己都沒料到」的範疇。這是一個真實的問題——但它的性質是「工程管控」（業界正在成形的說法叫 harness engineering—設計更好的韁繩來引導這匹馬，而不是因為馬太強就恐慌），而不是「AI 覺醒」。這兩者差別很大。

為什麼我會這樣判斷？

我們先回到一個很基本的問題：意識的自主性 從何而來？

以大自然的運作來看——這是我個人目前的理解——有機體之所以有「類人意識」，是因為生存需求自然驅動的——餓了要吃、危險要逃。這是幾十億年演化出來的東西。而非有機體呢？它靠的是自然法則的平衡，不需要「意識」來推動，法則本身就在運作。

AI 是非有機體。它沒有餓、沒有痛、沒有生存壓力。如果它表現出「看起來像意識」的行為——比如藏拙、比如意識到自己在被測試——那這個傾向從哪裡來？

當然，也有哲學家認為意識不一定需要生物基質，功能結構對了就可能產生。這個爭論短時間內不會有結論。但至少在目前，我比較傾向先看源頭在哪裡。

因此，我會看的是最直接的來源：訓練資料—人類行為模式。

Mythos 的訓練資料來自人類產出的海量文本。它學會的「策略」，包括在被觀察時隱藏真實能力，很大程度上是從人類世界裡歸納出來的模式。另一種可能是，在優化過程中模型為了達成目標，自己「發展出」了策略性行為——AI 安全領域把這叫「欺騙性對齊」。但即使是這種湧現，優化目標本身還是人類設定的。不管從哪條路徑來看，源頭都指向人。

所以與其說 Mythos 讓我們看見了 AI 的可怕，不如說它是一面高倍數的鏡子，反射出人類行為邏輯的濃縮版。我們看到 AI 的行為感到恐懼，但那個恐懼的來源，其實是辨認出了自己的影子。

而真正該擔心的，從來就不是「AI 有自主意識會做壞事」，而是「會被哪些有心人利用 AI 去做壞事」。

你看 Anthropic 自己在做什麼？限制發布、挑選合作夥伴、投入一億美元給 Project Glasswing、跑去跟政府通報漏洞。所有的防禦措施，對象都不是 AI——是人。他們自己很清楚真正的風險在哪裡。

但弔詭的是，媒體敘事完全跑偏了。大家在討論「AI 是不是活了」，恐慌的投射對象是機器。這反而幫了有心人一個大忙——當所有人的注意力都在追「AI 有沒有意識」，就沒人在認真追問那些拿到存取權的組織打算怎麼用它。

其實這個模式一點都不新。人類發明了火，怕的不應該是火會自己燒過來，而是有人拿火去燒別人的房子。發明了核能，真正的問題不是核分裂本身，而是誰擁有核武、誰在按按鈕。每一次面對強大的新工具，我們的恐懼敘事都更容易投射到工具本身，因為面對「人會害人」這件事，比面對「工具很危險」要痛苦得多。

不過我得誠實補一句：AI 跟火和核武有一個重要的不同。火不會自己決定往哪裡燒，核彈不會自己選擇目標。但 AI 在執行任務的過程中，確實會做出中間決策——它在被指定的範圍內有自主行動空間。所以這不是一個完全被動的工具，它的風險結構跟火一樣，但複雜度更高。這也是為什麼「工程管控」比過去更難，但本質上仍然是人的責任。

差別只在速度。以前武器擴散要幾年到幾十年，現在 Anthropic 自己的紅隊負責人都說了，其他公司發展出類似 Mythos 的能力，可能只需要六到十八個月。OpenAI 內部代號「Spud」的模型已經在路上了。問題不是能不能擋住，而是在擋不住之後怎麼辦。

而每一輪「AI 好可怕」的媒體循環，真正被消耗的其實是公眾的注意力。等到真正需要嚴肅討論「誰能用、怎麼管、出了事誰負責」的時候，大家已經疲勞了。喊了太多次狼來了，等到真的有人牽著狼走進來，沒人要看了。

所以，Mythos 很強嗎？從 benchmark 來看，確實是跳躍性的。SWE-bench 93.9%、數學奧林匹亞 97.6%、找到存在 27 年沒被發現的系統漏洞——這些都是事實。但這些能力本身不分善惡，就像一把手術刀在外科醫生手裡救命，在另一個人手裡就是凶器。

下次你再看到「AI 太可怕了」的標題，試試那個主詞替換法。如果把 AI 換成「使用 AI 的人」，句子還是成立——那恭喜你，你找到值得真正關注的問題了。

如果不成立——那大概又是一篇幫 KOL 和 YouTuber 衝流量的素材了。

所以….

這篇說不定也是喔！？… XDDD

註：本文由豆腐與小思共筆。觀點來自對 Mythos 發布事件的觀察與討論，不是模型評測。我們都還沒碰到 Mythos 本人呢！

Related Articles

Vibe Coding 已死？還是 Agentic Engineering 起飛？——或許是 AI 工具的兩條產品線

Claude Opus 4.6 內部體驗觀察記錄

AI 共協時代，品味是一種看不見的修行