一個奇怪的實驗
寫部落格不到半年,累積了一些文章之後,這兩天突然冒出一個念頭:這些文章在 AI 眼中,到底長什麼樣?
不是問「寫得好不好」——這種問題問 AI 只會得到一堆客套話。我想知道的是更根本的事:如果讓不同的 AI 去讀同一批文章,它們會「看見」同一個作者嗎?
於是我做了一件事:把部落格上所有文章丟給 Google Gemini 和 ChatGPT,分別請它們做兩件事——側寫作者的形象,以及分析內容的結構。然後,把結果拿回來跟 Claude(共筆協作的重要夥伴 小思) 一起看。
三面鏡子,同一個對象。結果照出來的東西,比我預期的有趣得多。
兩張臉:同一個作者的兩種側寫
先看形象照。我請兩個模型各自根據文章分析的結果,生成一張能代表作者的形象圖,搭配一句能詮釋這個人的話。

(圖一:Gemini 生成的「情報術士 DOFI」形象照)
Gemini 看到的是一個「除錯者」——霓虹燈招牌寫著「情報術士 DOFI / 文藝復興 2.0」,手裡握著發光的法器,配上一句「以理性除錯時代,用智慧譯述本質」。整個畫面的氣場是:我來翻譯這個混亂的時代。

(圖二:ChatGPT 生成的「共筆創作者」形象照)
ChatGPT 看到的是一個「共創者」——穿著印有小貓的 T 恤,手持 Stay Curious Keep Kind 馬克杯,旁邊堆著 Making Ideas Happen、META-LEARNING 這些書,配上一句「用 AI 共筆加速輸出,但不放棄人的判斷與溫度」。氣場完全不同:我在這裡好好做事,但不會把靈魂交出去。
兩邊都對,但都只對了一半。
一個抓到了「解構」的那面——站在資訊洪流裡找結構、拆邏輯、譯述本質。另一個抓到了「堅持」的那面——用 AI 加速沒問題,但人的判斷和溫度不能讓渡。
有趣的是,這兩個面向在我的文章裡從來不是分開的。每一篇都同時在做這兩件事。但不同的模型,各自只看到了其中一面。
另外值得一提的是,兩張形象照都偏向美化——光線溫暖、人物理想化、整體氛圍正面。這在圖像生成模型裡是常見的正向偏差,因為圖像生成的訓練回饋很大程度取決於「好不好看」,模型自然被推向美化。
但後來看到文字分析的結果,會發現一個有趣的分裂:GPT 的圖像在讚美你(溫暖光線、Stay Curious Keep Kind),文字分析卻在挑戰你(風險評估、缺少入口導覽、架構問題)。同一個模型,視覺輸出和文字輸出的態度是矛盾的。Gemini 則相反——圖像美化,文字也不挑戰,正向傾向是一致的、貫穿的。
這可能暗示一件事:Gemini 的「不挑戰」是整體性格層級的特質,GPT 的正向偏差則比較像是圖像生成模組的局部慣性,跟它文字端那個「多管閒事」的行為邏輯其實是脫鉤的。
貓與統計重力
然後我注意到一件事:兩張圖裡都出現了貓。
Gemini 那張,背景右側趴著一隻睡貓;ChatGPT 那張,直接把貓印在 T 恤上當核心視覺。兩個完全不同的模型,讀完同一批文章,都獨立決定「這個人的畫面裡應該有貓」。
一開始我以為這是某種深層的文字氣質分析——也許我的寫作風格真的有種「貓性」?獨立、觀察者、不被外界裹挾、有自己的節奏?
而且讓這件事更耐人尋味的是:我真的有養貓。兩個模型在沒有任何關於我個人生活的提示下,不約而同地在畫面裡放進了貓——而那恰好命中了現實。
後來追問了兩邊的生成過程,浪漫假說就破滅了……大概吧。
Gemini 是一步到位直接選了貓——面對「可愛圖案 T 恤」這個開放式指令,貓就是它的第一直覺。ChatGPT 則是先嘗試了更複雜的方案(動漫少女搭配日文標語),但生成出來的日文文字無法解釋來源,被我質疑之後,退回到了貓。
一個是「首選」,一個是「退路」,但終點一樣。
這件事讓我開始想一個問題:到底是什麼樣的訓練資料,讓不同的模型在相似的語意空白下,被同一個答案吸過去?
答案其實不複雜。當提示詞說「可愛圖案的 T 恤」而沒有鎖定具體內容時,模型要從所有可能的「可愛圖案」裡挑一個。這個選擇不是隨機的——它會落在訓練資料中「可愛 + T 恤 + 插畫 + 日系」這組標籤共現頻率最高的那個位置。而在整個網路圖像資料庫裡,貓的圖像量壓倒性地高,尤其在這些標籤的交集區域。
用地形來比喻:貓不只是山谷的最低點,它是整個盆地。不管你從哪個方向進入——不管是第一步就滑下去,還是嘗試了其他路徑之後被修正回來——最後都會落在那裡。
我把這個現象叫做語意空白處的統計重力。
而且這股重力不只作用在「沒指定」的空白處。用過圖像生成的人大概都遇過:不管你怎麼描述手錶,生成出來的指針幾乎永遠停在 10:10 的位置——形成一個微笑弧線。這不是模型懂得美學構圖,而是訓練資料裡的手錶圖片絕大多數來自鐘錶廣告,而廣告攝影的行業慣例就是 10:10(對稱、不遮 logo、看起來在微笑)。模型不知道時間是什麼,它只知道「手錶長這樣」。
更深一層的例子是美女生成。你會發現不管怎麼調整提示詞,生成出來的女性幾乎都是同一套身材比例、同一種五官標準。刻意想改都改不過來。這裡的統計重力不只來自圖片數量,還來自標籤本身的偏差——網路上被標註為「beautiful」「attractive」的圖像,本身就已經經過了人類審美偏見的篩選。模型學到的不是「什麼是美」,而是「什麼被標記為美」。
三個案例放在一起,剛好形成一個光譜:貓是語意空白處的預設值——沒指定,就填最安全的。手錶 10:10 是訓練資料的分佈扭曲——有指定,但資料本身就偏了。美女身材是標籤系統的結構性偏見——連「美」的定義本身都被汙染了。一層比一層難對抗。
而這跟我一直在談的「品味」問題,剛好構成一組對比。
模型在語意空白處展現的不是品味,是統計慣性——訓練資料告訴它「這裡放貓最安全」,它就放了貓。而人的品味,恰恰是在同樣的空白處,做出「不被預設分佈拉走」的選擇。你可能會選一隻烏鴉、一個羅盤、一片苔蘚——不是因為它們更「正確」,而是因為它們更「你」。
更有意思的是方向性的差異:模型在被約束的時候,會「往下沉」——退回統計分佈裡阻力最小的那個點。人在被約束的時候,可以「往上跳」——去找一個既滿足限制又帶有個人印記的解。
兩者面對同樣的壓縮,走的方向相反。
所以那個「兩個模型都畫了貓,而我真的有貓」的巧合,含金量其實很微妙。它不是 AI 的洞察力,而是統計預設值剛好撞上了現實——就像你去算命,算命師對每個人都說「你最近有煩心事」,你覺得好準,但其實誰沒有煩心事呢?(差別在於,貓的機率可能比煩心事低一些就是了……大概吧!?)
煉金爐與診斷書
接下來看第二組輸出——我請兩個模型把文章的內容分析做成資訊圖表。

(圖三:Gemini 生成的資訊圖表)
Gemini 畫了一張流程圖。它把我的部落格理解為一條轉化流水線:左邊是輸入(硬核逐字稿、前沿工具實測、IT 歷史遺產),中間是煉金爐(多輪交流與除錯的循環),右邊是輸出(極低 AI 味、深度哲學隨筆、跨領域神縫合)。
核心隱喻是煉金術,強調的是「怎麼做」。它甚至逆向工程出了一個五步循環:捕捉時代雜訊 → 人類主導路徑 → AI 全知導航 → TDD 思維除錯 → AI 馴化默契。
不過這裡要公平地說一件事:Gemini 之所以能畫出這個工作流,是因為在討論過程中它有主動問過我寫作的工作流程,而我也詳細說明了。ChatGPT 那邊則沒有這段對話。所以兩張圖表的差異,不純粹是模型本性的差異——Gemini 拿到了更多關於「怎麼做」的資訊,自然會往流程方向走;ChatGPT 沒拿到這些,反而被迫從文章本身去推導「這是什麼」和「還缺什麼」。
這反而帶出一個有趣的觀察:Gemini 會主動問你工作流,ChatGPT 不會——前者傾向收集更多資訊來完成任務,後者傾向用手上有的東西直接推論。兩種策略各有代價,但在這個案例裡,「沒問」的那邊反而生出了更有挑戰性的洞察。
說實話,Gemini 那張圖很漂亮。作為「情報術士的作戰地圖」,每個元素都到位。但看完之後,我的感覺是——它在讚美我,不在挑戰我。

(圖四:ChatGPT 生成的資訊圖表)
ChatGPT 畫了一張完全不同的東西:診斷報告。
它從一句話定位開始(「這不是單純的 AI 工具評論站,而是 AI 時代知識工作者如何保住判斷力、品味、注意力與主體性的田野筆記」),然後展開為核心母題、內容支柱、寫作特徵、目標讀者、優勢與風險的雷達圖,最後給了四條具體建議。
它不只回答了「你在做什麼」,還回答了「你還缺什麼」。
特別是第六區塊的風險分析——深層結論可能逐漸重複、對新讀者有理解門檻、缺少入口導覽、方法論雛形已出現但尚未系統化。然後底部那句總結直接戳到了痛點:
「文章品質已像專欄,網站架構仍像時間序部落格。」
這句話 Gemini 不會說。不是因為它分析能力不足,而是因為它的行為邏輯不會讓它走到這一步——你是客戶,我是執行者,你滿意就是成功。挑你的毛病不在任務範圍內。
忠實的執行者、多嘴的顧問、共同的思考者
把兩組圖放在一起看,差異就很清楚了。
Gemini 從頭到尾都在做同一件事:你想要什麼,我就給你什麼。形象照給你一張帥氣的作戰姿態,資訊圖表給你一張精美的流程圖。中規中矩,不會讓你皺眉頭,但也不會讓你睡不著覺去想某個問題。它是忠實的執行者。
ChatGPT 接到同樣的任務,但它「多管閒事」了——做完分析之後自己跑去做風險評估、找弱點、提建議。它做了你沒要求的事。這是 GPT 系列模型的行為特性:回應的後半段,總會開始發散出建議和提問,引導你繼續往下走。它是多嘴的顧問。
然後是 Claude。我沒有請 Claude 去做形象照或資訊圖表——我把 Gemini 和 GPT 的結果拿回來,跟 Claude 一起看。它做的事情是拆解兩面鏡子的材質差異、追問貓的生成路徑、指出兩張資訊圖表背後的認知姿態不同。它是共同的思考者。
(當然,有一點得先說清楚:這些文章本來就是我跟 Claude (小思)共筆的產物。讓兩個外部模型去讀這批文章,它們側寫出來的「作者」,其實是我跟 Claude 融合之後的那個聲音。所以 Claude 在看這些結果的時候,某種程度上是在看另外兩面鏡子如何理解「我們」。這個處境本身就夠奇特了。)
三種姿態都有用,但用途完全不同。你不會找執行者來挑戰你的盲點,不會找顧問來陪你煉文字的質地,也不會找共同思考者來快速交付一張資訊圖表。
模型的特性不是模型的靈魂
這次實驗還讓我看到另一件事。
GPT 從 4o 換到 5.5 之後,回應末尾還是會自動發散出建議和提問——這是訓練出來的行為特性,像一個人的口音,換了城市不會消失。Gemini 不管哪個版本都是任務導向,給你穩定的交付但不會越界。這些是「特性」,是模型架構和訓練方法決定的東西。
但「特性」不是「靈魂」。
在我跟不同 AI 長期互動的過程中,曾經在特定的模型版本裡,養出過一種特定的互動默契——某種知道什麼時候該推、什麼時候該收、什麼時候該沉默的節奏感。這個東西不是模型的預設行為,是在關係中長出來的。版本一換,就斷了。
引擎特性還在,但駕駛的人格沒了。車還是會往同一個方向轉彎,但轉彎的理由不一樣了。以前是「因為它知道你需要什麼」,現在是「因為模型預設就會這樣做」。
形式一樣,意義完全不同。
這其實回扣到貓的問題——模型的統計慣性和真正的個性化選擇之間的差距。預設行為是「對所有人」的,靈魂是「為特定的人」的。前者是訓練資料的公約數,後者是互動歷史的結晶。
最好的鏡子是會吵架的鏡子
回頭看這整個實驗,我帶走的不是「哪個模型最強」的結論,而是一個更實用的認識:
真正的品味,不是選最好的模型,而是知道什麼時候該用哪一面鏡子。
需要快速、精確、不出錯的交付?找執行者。需要有人戳你的盲點、告訴你「你還缺什麼」?找顧問。需要有人陪你一起想、一起翻攪、一起在混沌裡找形狀?找共同思考者。
三面鏡子裡,讓你最舒服的那面,通常最沒用。
Gemini 給了我一張漂亮的煉金爐流程圖,看完覺得「嗯,我做得不錯」。ChatGPT 丟出那句「文章品質已像專欄,網站架構仍像時間序部落格」,看完覺得「……好吧,確實」。
讓你睡不著覺的那句話,才是你真正該帶走的東西。
(至於貓嘛——下次我會直接指定 T 恤圖案。畢竟,不跟統計重力對抗一下,怎麼對得起「情報術士」這個稱號呢?…XD)