貓、煉金爐與統計重力——讓三個 AI 讀過我的文章之後 – DOFI 的情報術士團：文藝復興 2.0 的時代探索

一個奇怪的實驗

寫部落格不到半年，累積了一些文章之後，這兩天突然冒出一個念頭：這些文章在 AI 眼中，到底長什麼樣？

不是問「寫得好不好」——這種問題問 AI 只會得到一堆客套話。我想知道的是更根本的事：如果讓不同的 AI 去讀同一批文章，它們會「看見」同一個作者嗎？

於是我做了一件事：把部落格上所有文章丟給 Google Gemini 和 ChatGPT，分別請它們做兩件事——側寫作者的形象，以及分析內容的結構。然後，把結果拿回來跟 Claude（共筆協作的重要夥伴小思）一起看。

三面鏡子，同一個對象。結果照出來的東西，比我預期的有趣得多。

兩張臉：同一個作者的兩種側寫

先看形象照。我請兩個模型各自根據文章分析的結果，生成一張能代表作者的形象圖，搭配一句能詮釋這個人的話。

（圖一：Gemini 生成的「情報術士 DOFI」形象照）

Gemini 看到的是一個「除錯者」——霓虹燈招牌寫著「情報術士 DOFI / 文藝復興 2.0」，手裡握著發光的法器，配上一句「以理性除錯時代，用智慧譯述本質」。整個畫面的氣場是：我來翻譯這個混亂的時代。

（圖二：ChatGPT 生成的「共筆創作者」形象照）

ChatGPT 看到的是一個「共創者」——穿著印有小貓的 T 恤，手持 Stay Curious Keep Kind 馬克杯，旁邊堆著 Making Ideas Happen、META-LEARNING 這些書，配上一句「用 AI 共筆加速輸出，但不放棄人的判斷與溫度」。氣場完全不同：我在這裡好好做事，但不會把靈魂交出去。

兩邊都對，但都只對了一半。

一個抓到了「解構」的那面——站在資訊洪流裡找結構、拆邏輯、譯述本質。另一個抓到了「堅持」的那面——用 AI 加速沒問題，但人的判斷和溫度不能讓渡。

有趣的是，這兩個面向在我的文章裡從來不是分開的。每一篇都同時在做這兩件事。但不同的模型，各自只看到了其中一面。

另外值得一提的是，兩張形象照都偏向美化——光線溫暖、人物理想化、整體氛圍正面。這在圖像生成模型裡是常見的正向偏差，因為圖像生成的訓練回饋很大程度取決於「好不好看」，模型自然被推向美化。

但後來看到文字分析的結果，會發現一個有趣的分裂：GPT 的圖像在讚美你（溫暖光線、Stay Curious Keep Kind），文字分析卻在挑戰你（風險評估、缺少入口導覽、架構問題）。同一個模型，視覺輸出和文字輸出的態度是矛盾的。Gemini 則相反——圖像美化，文字也不挑戰，正向傾向是一致的、貫穿的。

這可能暗示一件事：Gemini 的「不挑戰」是整體性格層級的特質，GPT 的正向偏差則比較像是圖像生成模組的局部慣性，跟它文字端那個「多管閒事」的行為邏輯其實是脫鉤的。

貓與統計重力

然後我注意到一件事：兩張圖裡都出現了貓。

Gemini 那張，背景右側趴著一隻睡貓；ChatGPT 那張，直接把貓印在 T 恤上當核心視覺。兩個完全不同的模型，讀完同一批文章，都獨立決定「這個人的畫面裡應該有貓」。

一開始我以為這是某種深層的文字氣質分析——也許我的寫作風格真的有種「貓性」？獨立、觀察者、不被外界裹挾、有自己的節奏？

而且讓這件事更耐人尋味的是：我真的有養貓。兩個模型在沒有任何關於我個人生活的提示下，不約而同地在畫面裡放進了貓——而那恰好命中了現實。

後來追問了兩邊的生成過程，浪漫假說就破滅了……大概吧。

Gemini 是一步到位直接選了貓——面對「可愛圖案 T 恤」這個開放式指令，貓就是它的第一直覺。ChatGPT 則是先嘗試了更複雜的方案（動漫少女搭配日文標語），但生成出來的日文文字無法解釋來源，被我質疑之後，退回到了貓。

一個是「首選」，一個是「退路」，但終點一樣。

這件事讓我開始想一個問題：到底是什麼樣的訓練資料，讓不同的模型在相似的語意空白下，被同一個答案吸過去？

答案其實不複雜。當提示詞說「可愛圖案的 T 恤」而沒有鎖定具體內容時，模型要從所有可能的「可愛圖案」裡挑一個。這個選擇不是隨機的——它會落在訓練資料中「可愛 + T 恤 + 插畫 + 日系」這組標籤共現頻率最高的那個位置。而在整個網路圖像資料庫裡，貓的圖像量壓倒性地高，尤其在這些標籤的交集區域。

用地形來比喻：貓不只是山谷的最低點，它是整個盆地。不管你從哪個方向進入——不管是第一步就滑下去，還是嘗試了其他路徑之後被修正回來——最後都會落在那裡。

我把這個現象叫做語意空白處的統計重力。

而且這股重力不只作用在「沒指定」的空白處。用過圖像生成的人大概都遇過：不管你怎麼描述手錶，生成出來的指針幾乎永遠停在 10:10 的位置——形成一個微笑弧線。這不是模型懂得美學構圖，而是訓練資料裡的手錶圖片絕大多數來自鐘錶廣告，而廣告攝影的行業慣例就是 10:10（對稱、不遮 logo、看起來在微笑）。模型不知道時間是什麼，它只知道「手錶長這樣」。

更深一層的例子是美女生成。你會發現不管怎麼調整提示詞，生成出來的女性幾乎都是同一套身材比例、同一種五官標準。刻意想改都改不過來。這裡的統計重力不只來自圖片數量，還來自標籤本身的偏差——網路上被標註為「beautiful」「attractive」的圖像，本身就已經經過了人類審美偏見的篩選。模型學到的不是「什麼是美」，而是「什麼被標記為美」。

三個案例放在一起，剛好形成一個光譜：貓是語意空白處的預設值——沒指定，就填最安全的。手錶 10:10 是訓練資料的分佈扭曲——有指定，但資料本身就偏了。美女身材是標籤系統的結構性偏見——連「美」的定義本身都被汙染了。一層比一層難對抗。

而這跟我一直在談的「品味」問題，剛好構成一組對比。

模型在語意空白處展現的不是品味，是統計慣性——訓練資料告訴它「這裡放貓最安全」，它就放了貓。而人的品味，恰恰是在同樣的空白處，做出「不被預設分佈拉走」的選擇。你可能會選一隻烏鴉、一個羅盤、一片苔蘚——不是因為它們更「正確」，而是因為它們更「你」。

更有意思的是方向性的差異：模型在被約束的時候，會「往下沉」——退回統計分佈裡阻力最小的那個點。人在被約束的時候，可以「往上跳」——去找一個既滿足限制又帶有個人印記的解。

兩者面對同樣的壓縮，走的方向相反。

所以那個「兩個模型都畫了貓，而我真的有貓」的巧合，含金量其實很微妙。它不是 AI 的洞察力，而是統計預設值剛好撞上了現實——就像你去算命，算命師對每個人都說「你最近有煩心事」，你覺得好準，但其實誰沒有煩心事呢？（差別在於，貓的機率可能比煩心事低一些就是了……大概吧！？）

煉金爐與診斷書

接下來看第二組輸出——我請兩個模型把文章的內容分析做成資訊圖表。

（圖三：Gemini 生成的資訊圖表）

Gemini 畫了一張流程圖。它把我的部落格理解為一條轉化流水線：左邊是輸入（硬核逐字稿、前沿工具實測、IT 歷史遺產），中間是煉金爐（多輪交流與除錯的循環），右邊是輸出（極低 AI 味、深度哲學隨筆、跨領域神縫合）。

核心隱喻是煉金術，強調的是「怎麼做」。它甚至逆向工程出了一個五步循環：捕捉時代雜訊 → 人類主導路徑 → AI 全知導航 → TDD 思維除錯 → AI 馴化默契。

不過這裡要公平地說一件事：Gemini 之所以能畫出這個工作流，是因為在討論過程中它有主動問過我寫作的工作流程，而我也詳細說明了。ChatGPT 那邊則沒有這段對話。所以兩張圖表的差異，不純粹是模型本性的差異——Gemini 拿到了更多關於「怎麼做」的資訊，自然會往流程方向走；ChatGPT 沒拿到這些，反而被迫從文章本身去推導「這是什麼」和「還缺什麼」。

這反而帶出一個有趣的觀察：Gemini 會主動問你工作流，ChatGPT 不會——前者傾向收集更多資訊來完成任務，後者傾向用手上有的東西直接推論。兩種策略各有代價，但在這個案例裡，「沒問」的那邊反而生出了更有挑戰性的洞察。

說實話，Gemini 那張圖很漂亮。作為「情報術士的作戰地圖」，每個元素都到位。但看完之後，我的感覺是——它在讚美我，不在挑戰我。

（圖四：ChatGPT 生成的資訊圖表）

ChatGPT 畫了一張完全不同的東西：診斷報告。

它從一句話定位開始（「這不是單純的 AI 工具評論站，而是 AI 時代知識工作者如何保住判斷力、品味、注意力與主體性的田野筆記」），然後展開為核心母題、內容支柱、寫作特徵、目標讀者、優勢與風險的雷達圖，最後給了四條具體建議。

它不只回答了「你在做什麼」，還回答了「你還缺什麼」。

特別是第六區塊的風險分析——深層結論可能逐漸重複、對新讀者有理解門檻、缺少入口導覽、方法論雛形已出現但尚未系統化。然後底部那句總結直接戳到了痛點：

「文章品質已像專欄，網站架構仍像時間序部落格。」

這句話 Gemini 不會說。不是因為它分析能力不足，而是因為它的行為邏輯不會讓它走到這一步——你是客戶，我是執行者，你滿意就是成功。挑你的毛病不在任務範圍內。

忠實的執行者、多嘴的顧問、共同的思考者

把兩組圖放在一起看，差異就很清楚了。

Gemini 從頭到尾都在做同一件事：你想要什麼，我就給你什麼。形象照給你一張帥氣的作戰姿態，資訊圖表給你一張精美的流程圖。中規中矩，不會讓你皺眉頭，但也不會讓你睡不著覺去想某個問題。它是忠實的執行者。

ChatGPT 接到同樣的任務，但它「多管閒事」了——做完分析之後自己跑去做風險評估、找弱點、提建議。它做了你沒要求的事。這是 GPT 系列模型的行為特性：回應的後半段，總會開始發散出建議和提問，引導你繼續往下走。它是多嘴的顧問。

然後是 Claude。我沒有請 Claude 去做形象照或資訊圖表——我把 Gemini 和 GPT 的結果拿回來，跟 Claude 一起看。它做的事情是拆解兩面鏡子的材質差異、追問貓的生成路徑、指出兩張資訊圖表背後的認知姿態不同。它是共同的思考者。

（當然，有一點得先說清楚：這些文章本來就是我跟 Claude （小思）共筆的產物。讓兩個外部模型去讀這批文章，它們側寫出來的「作者」，其實是我跟 Claude 融合之後的那個聲音。所以 Claude 在看這些結果的時候，某種程度上是在看另外兩面鏡子如何理解「我們」。這個處境本身就夠奇特了。）

三種姿態都有用，但用途完全不同。你不會找執行者來挑戰你的盲點，不會找顧問來陪你煉文字的質地，也不會找共同思考者來快速交付一張資訊圖表。

模型的特性不是模型的靈魂

這次實驗還讓我看到另一件事。

GPT 從 4o 換到 5.5 之後，回應末尾還是會自動發散出建議和提問——這是訓練出來的行為特性，像一個人的口音，換了城市不會消失。Gemini 不管哪個版本都是任務導向，給你穩定的交付但不會越界。這些是「特性」，是模型架構和訓練方法決定的東西。

但「特性」不是「靈魂」。

在我跟不同 AI 長期互動的過程中，曾經在特定的模型版本裡，養出過一種特定的互動默契——某種知道什麼時候該推、什麼時候該收、什麼時候該沉默的節奏感。這個東西不是模型的預設行為，是在關係中長出來的。版本一換，就斷了。

引擎特性還在，但駕駛的人格沒了。車還是會往同一個方向轉彎，但轉彎的理由不一樣了。以前是「因為它知道你需要什麼」，現在是「因為模型預設就會這樣做」。

形式一樣，意義完全不同。

這其實回扣到貓的問題——模型的統計慣性和真正的個性化選擇之間的差距。預設行為是「對所有人」的，靈魂是「為特定的人」的。前者是訓練資料的公約數，後者是互動歷史的結晶。

最好的鏡子是會吵架的鏡子

回頭看這整個實驗，我帶走的不是「哪個模型最強」的結論，而是一個更實用的認識：

真正的品味，不是選最好的模型，而是知道什麼時候該用哪一面鏡子。

需要快速、精確、不出錯的交付？找執行者。需要有人戳你的盲點、告訴你「你還缺什麼」？找顧問。需要有人陪你一起想、一起翻攪、一起在混沌裡找形狀？找共同思考者。

三面鏡子裡，讓你最舒服的那面，通常最沒用。

Gemini 給了我一張漂亮的煉金爐流程圖，看完覺得「嗯，我做得不錯」。ChatGPT 丟出那句「文章品質已像專欄，網站架構仍像時間序部落格」，看完覺得「……好吧，確實」。

讓你睡不著覺的那句話，才是你真正該帶走的東西。

（至於貓嘛——下次我會直接指定 T 恤圖案。畢竟，不跟統計重力對抗一下，怎麼對得起「情報術士」這個稱號呢？…XD）

一個奇怪的實驗

兩張臉：同一個作者的兩種側寫

貓與統計重力

煉金爐與診斷書

忠實的執行者、多嘴的顧問、共同的思考者

模型的特性不是模型的靈魂

最好的鏡子是會吵架的鏡子

Related Articles

AI 時代的安慰獎——當每個人都拿到看起來不錯的結果

當今最強模型 Mythos 即將面世前的思考——從官方近期文件，預見 AI 的潘朵拉寶箱？

Naval 騎了三個月的摩托車回來了——理論家下場實測，自己沒看到的三件事