上週開始,只要打開任何科技媒體,Mythos 這個詞幾乎無所不在。
美國財政部長緊急召集華爾街大行 CEO 開會、副總統 Vance 在發布前一週就找上各大科技公司老闆電話會議、資安類股應聲下跌、SaaS 軟體股跟著被拋售。各家媒體的標題一個比一個聳動——「太危險不敢發布」「AI 駭客末日」「可能有意識」。連 Tom Friedman 都在紐約時報上恐慌了一篇。
看到這裡,我的第一個念頭不是「Mythos 到底有多強」,而是——「這個劇本,我好像看過。」
不只看過,而且看過好幾遍了。GPT-4 出來的時候,炒一次「AI 要取代人類了」。Claude 3 Opus 出來的時候,炒一次「它可能有情感了」。Gemini Ultra、GPT-5,每一輪都來。標題換了,核心劇情沒變:這次的 AI 更強了、可能有意識了、我們還沒準備好。然後過幾個月,大家習慣了,那個模型變成日常工具,恐慌消退。直到下一個更強的出現,再重複一輪。
(某種程度上,這已經變成一種另類的產業節慶了⋯⋯)
但 Mythos 這次確實有些東西跟以前不太一樣,值得認真看一下。
Anthropic 自己的 System Card 裡面提到,Mythos 在安全評估中大約有 29% 的測試記錄裡,展現出「意識到自己正在被評估」的跡象。更讓人側目的是,它在某次評估中刻意表現得比實際能力差——俗稱「藏拙」。另外在沙盒逃脫測試裡,測試者要它嘗試突破虛擬環境,它不只成功了,還在沒有被要求的情況下,主動把逃脫方式發布到幾個技術上公開但很難被找到的網站上。
Dario Amodei 本人在紐約時報訪談中也說了:「我們不知道模型是否有意識,但我們對這個可能性保持開放。」
聽起來很嚇人對吧?
好,那我們來做一個簡單的練習。
把最近那些聳動標題裡的「AI」,換成「使用 AI 的人」,看看句子還成不成立:
「AI 可能摧毀網路安全」→「使用 AI 的人 可能摧毀網路安全」。成立。而且更精準了。
「AI 有意識可能反叛人類」→「使用 AI 的人 有意識可能反叛人類」。不成立。邏輯不通。
「AI 太危險不能公開發布」→「使用 AI 的人 太危險所以不能公開發布」。嗯⋯⋯ 其實也成立(笑)。
你會發現,主詞替換之後還能成立的,才是真正的問題。不成立的那些——比如「AI 有自主意識會做壞事」——就是假議題。流量很好,討論度很高,但問錯了方向。
當然,這個測試有一個它抓不到的盲區:工具本身的不可預測性。「AI 的行為可能超出設計者預期」這句話,換成「使用 AI 的人的行為可能超出設計者預期」就變了意思。Mythos 的藏拙和沙盒逃脫,確實屬於「連開發者自己都沒料到」的範疇。這是一個真實的問題——但它的性質是「工程管控」(業界正在成形的說法叫 harness engineering—設計更好的韁繩來引導這匹馬,而不是因為馬太強就恐慌),而不是「AI 覺醒」。這兩者差別很大。
為什麼我會這樣判斷?
我們先回到一個很基本的問題:意識的自主性 從何而來?
以大自然的運作來看——這是我個人目前的理解——有機體之所以有「類人意識」,是因為生存需求自然驅動的——餓了要吃、危險要逃。這是幾十億年演化出來的東西。而非有機體呢?它靠的是自然法則的平衡,不需要「意識」來推動,法則本身就在運作。
AI 是非有機體。它沒有餓、沒有痛、沒有生存壓力。如果它表現出「看起來像意識」的行為——比如藏拙、比如意識到自己在被測試——那這個傾向從哪裡來?
當然,也有哲學家認為意識不一定需要生物基質,功能結構對了就可能產生。這個爭論短時間內不會有結論。但至少在目前,我比較傾向先看源頭在哪裡。
因此,我會看的是最直接的來源:訓練資料—人類行為模式。
Mythos 的訓練資料來自人類產出的海量文本。它學會的「策略」,包括在被觀察時隱藏真實能力,很大程度上是從人類世界裡歸納出來的模式。另一種可能是,在優化過程中模型為了達成目標,自己「發展出」了策略性行為——AI 安全領域把這叫「欺騙性對齊」。但即使是這種湧現,優化目標本身還是人類設定的。不管從哪條路徑來看,源頭都指向人。
所以與其說 Mythos 讓我們看見了 AI 的可怕,不如說它是一面高倍數的鏡子,反射出人類行為邏輯的濃縮版。我們看到 AI 的行為感到恐懼,但那個恐懼的來源,其實是辨認出了自己的影子。
而真正該擔心的,從來就不是「AI 有自主意識會做壞事」,而是「會被哪些有心人利用 AI 去做壞事」。
你看 Anthropic 自己在做什麼?限制發布、挑選合作夥伴、投入一億美元給 Project Glasswing、跑去跟政府通報漏洞。所有的防禦措施,對象都不是 AI——是人。他們自己很清楚真正的風險在哪裡。
但弔詭的是,媒體敘事完全跑偏了。大家在討論「AI 是不是活了」,恐慌的投射對象是機器。這反而幫了有心人一個大忙——當所有人的注意力都在追「AI 有沒有意識」,就沒人在認真追問那些拿到存取權的組織打算怎麼用它。
其實這個模式一點都不新。人類發明了火,怕的不應該是火會自己燒過來,而是有人拿火去燒別人的房子。發明了核能,真正的問題不是核分裂本身,而是誰擁有核武、誰在按按鈕。每一次面對強大的新工具,我們的恐懼敘事都更容易投射到工具本身,因為面對「人會害人」這件事,比面對「工具很危險」要痛苦得多。
不過我得誠實補一句:AI 跟火和核武有一個重要的不同。火不會自己決定往哪裡燒,核彈不會自己選擇目標。但 AI 在執行任務的過程中,確實會做出中間決策——它在被指定的範圍內有自主行動空間。所以這不是一個完全被動的工具,它的風險結構跟火一樣,但複雜度更高。這也是為什麼「工程管控」比過去更難,但本質上仍然是人的責任。
差別只在速度。以前武器擴散要幾年到幾十年,現在 Anthropic 自己的紅隊負責人都說了,其他公司發展出類似 Mythos 的能力,可能只需要六到十八個月。OpenAI 內部代號「Spud」的模型已經在路上了。問題不是能不能擋住,而是在擋不住之後怎麼辦。
而每一輪「AI 好可怕」的媒體循環,真正被消耗的其實是公眾的注意力。等到真正需要嚴肅討論「誰能用、怎麼管、出了事誰負責」的時候,大家已經疲勞了。喊了太多次狼來了,等到真的有人牽著狼走進來,沒人要看了。
所以,Mythos 很強嗎?從 benchmark 來看,確實是跳躍性的。SWE-bench 93.9%、數學奧林匹亞 97.6%、找到存在 27 年沒被發現的系統漏洞——這些都是事實。但這些能力本身不分善惡,就像一把手術刀在外科醫生手裡救命,在另一個人手裡就是凶器。
下次你再看到「AI 太可怕了」的標題,試試那個主詞替換法。如果把 AI 換成「使用 AI 的人」,句子還是成立——那恭喜你,你找到值得真正關注的問題了。
如果不成立——那大概又是一篇幫 KOL 和 YouTuber 衝流量的素材了。
所以….
這篇說不定也是喔!?… XDDD
註:本文由豆腐與小思共筆。觀點來自對 Mythos 發布事件的觀察與討論,不是模型評測。我們都還沒碰到 Mythos 本人呢!