當你遇到「AI 幻覺」，有想過是什麼原因嗎？ – DOFI 的情報術士團：文藝復興 2.0 的時代探索

每隔一陣子，就會看到有人在文章裡提到「AI 幻覺」（AI Hallucination）這個詞，突然想到一件事——大家對這個東西的認知到底停在哪一層？

「AI 會胡說八道，不能全信。」大概大多數人，包括技術人，停在這裡。知道有這回事，會提醒別人要查證，但如果追問一句「所以它為什麼會胡說八道？」，能說清楚的人其實不多。

主流怎麼解釋的？

我去搜了一輪，Google Cloud、IBM、Coursera 這些大廠的官方文章，解釋基本上都差不多：訓練資料不完整、資料有偏差、模型太複雜。

嗯…這些不能說錯，但總覺得哪裡不到位。

就像你問一個人為什麼感冒，他回答「因為天氣冷」——沒錯，但你還是不知道病毒怎麼進來的、免疫系統發生了什麼事。這些解釋講的是「條件」，不是「機制」。

更有趣的是，越權威的來源反而解釋得越表面。真正觸及核心的分析，散落在少數個人部落格和學術論文裡。這個落差本身就很值得玩味。

其實原因很簡單，兩件事

想了一下，我覺得 AI 幻覺的成因，其實兩句話就能講完：

第一，AI 被迫一定要對使用者的問題產生答案。

這不是 bug，是設計。你問它一個問題，它不被允許說「我不知道」就閉嘴走人。它必須給你東西。

第二，在上述的前提下，語言模型找的是最像的答案，而不是正確的答案。

LLM 的本質是統計機率的語言模型。每次生成都是在選「最可能的下一個 token」。它選的是「聽起來最像答案的東西」，而不是「真的是答案的東西」。當事實約束足夠的時候，這兩者剛好重疊，它就答對了。但當事實約束不足的時候，它照樣會選出一個語言上完美、事實上錯誤的答案——而且信心滿滿。

所以幻覺不是故障。它是「被迫回答」加上「正常的機率機制」的必然產物。

就這樣。沒有什麼更神秘的原因了。

那大家都在怎麼解決？

目前業界投入了大量資源在減少幻覺，方法不少，但如果用上面兩點來對照，會發現一件很有趣的事——幾乎所有人都在拼命優化第二點，很少人在動第一點。

針對第二點的方法，大概是這些：

方法	做法	目的
RAG（檢索增強生成）	外掛知識庫，讓模型有資料可查	讓高權重的正確答案存在
降低 Temperature	壓縮機率分布	減少選到低權重結果的機會
Chain-of-Thought	讓推理過程顯性化	間接提高正確路徑的權重
Self-Consistency	跑多次取共識	用多數決過濾掉偏差
訓練資料品質提升	更乾淨、更完整的資料	讓權重本身更準確

各家大廠的策略也有差異。Google 靠即時搜尋做基礎建構（grounding），把答案錨定在外部資料上。Anthropic 讓模型傾向拒答而非猜測，幻覺率最低但準確率也相對低。OpenAI 走另一個方向，GPT-5.5 準確率最高，但在不知道答案的時候，有 86% 的機率會編造（驚!!!）。

這些努力都很好，也確實有效果。最好的模型已經把幻覺率從 2021 年的 21.8% 壓到了 2025 年的 0.7%，進步非常顯著。

但問題是——只做第二點，永遠壓不到零。

因為不管第二點優化到多好，一定存在某些問題是訓練資料裡沒有、RAG 也撈不到、推理也推不出來的。到了那個點，如果模型仍然被迫要給出答案，它就只能選一個「最像答案」的東西給你——不管那是不是真的。

那就是幻覺。

第一點才是治本

所以如果要根除幻覺（或者至少封住那個結構性的漏洞），第一點是必須的——讓 AI 可以不回答。

有趣的是，這不是什麼新發現。Anthropic 自己的可解釋性研究就揭示了一件事：Claude 的內部其實有「拒答迴路」，模型的預設行為本來就是不回答不確定的問題。是後來的訓練和優化，為了讓它「更有用」，把這個預設蓋掉了，教它「猜比不答好」。

然後再花幾百億美金去解決蓋掉之後產生的問題。

（嗯…這很 AI 時代。）

但第一點的解決方案之所以沒有成為主流，原因不在技術，在商業——使用者不接受。人付錢用 AI，期待的是得到答案。如果 AI 一直說「我不知道」，使用者會覺得它笨、沒用、不值得付費。所以市場壓力把業界推向了更複雜的第二點，而不是更簡單的第一點。

技術上最簡單的解法，被商業邏輯擋住了。

那我們能做什麼？

第一點和第二點不是二選一，而是要疊加的。第二點讓「真的需要回答的時候答得更準」，第一點讓「真的不知道的時候可以不答」。兩個一起才是完整的結構。

而且第一點的解法，在現有的環境下其實就做得到，不需要去改模型架構。

我把這種方式叫做語境塑形（Context Shaping）——不是給 AI 一條指令叫它「不確定就說不知道」（這種直接指令很容易被模型自身的高信心蓋過），而是透過多輪對話中上下文脈絡的層層引導，讓「留白」在整個對話語境中變成自然的高權重選項。

簡單來說，就像「圍堵」。不是從同一個方向推十次，而是從不同方向各推一次，讓「我不確定」這個選項被包圍在高權重區域裡。每一個方向單獨看都只是微弱的偏好，但交叉起來就形成了一個語境場，讓 AI 自然傾向留白而不是硬猜。

來看兩個真實案例，感受一下如果有做語境塑形，結果可能會有什麼不同。

案例一：律師引用了不存在的判例

2023 年，一位美國律師用 ChatGPT 起草法庭文件，結果引用了六個完全不存在的判例——案名、卷號、法律推理，全部是 AI 編造的，但格式完美，看起來完全可信。更慘的是，他還拿回去問 ChatGPT「這些案例是真的嗎？」，ChatGPT 確認「是真的，可以在 LexisNexis 上找到」。

如果他當初在使用的時候，先透過幾輪對話做語境塑形——例如從不同角度引導 AI 在不確定時標註信心程度、在找不到可靠來源時直接告知、在格式正確但無法驗證時主動提醒——這類幻覺的發生機率應該可以大幅降低。

案例二：報紙刊出了虛構的書單

Chicago Sun-Times 刊出一份「2025 夏季閱讀書單」，15 本書裡面只有 5 本是真的存在的。其餘 10 本都是 AI 虛構的，還附上了逼真的書籍描述。

同樣的，如果在生成書單的過程中，有透過語境塑形讓 AI 可以表達「這本書我無法確認是否存在」的空間，結果可能完全不同。

（補充說明：這裡所說的語境塑形，不是靠單獨一句指令就能保證解決的。它指的是透過多輪對話中的語境引導，讓 AI 在整個脈絡中自然傾向於留白或表達不確定。效果取決於引導的層次和方向，不是加一句話的事。但方向是對的：給 AI 一個可以說「我不確定」的空間。）

寫在最後

AI 幻覺這個議題，大家聊了好幾年，投入了超過 128 億美金在研究怎麼解決，各種方法越來越精密複雜。但回到根本，成因就是兩件事，而其中更治本的那一件——讓 AI 可以不回答——反而是最簡單、成本最低、卻最被忽略的。

不是因為技術做不到，是因為我們不接受。

我們要求 AI 永遠有答案，然後驚訝它有時候會亂講。

嗯…仔細想想，這好像也不只是 AI 的問題齁！？

參考資訊

Mata v. Avianca, Inc.——史上最知名的 AI 幻覺法律案例（2023）：
https://en.wikipedia.org/wiki/Mata_v._Avianca,_Inc.
AI Hallucination Cases 資料庫——Damien Charlotin 追蹤的 1455+ 件法律幻覺案例：
https://www.damiencharlotin.com/hallucinations/
OpenAI (2025), “Why Language Models Hallucinate”——官方承認訓練目標本身鼓勵猜測： https://www.lakera.ai/blog/guide-to-hallucinations-in-large-language-models
R-Tuning: Instructing Large Language Models to Say ‘I Don’t Know’——訓練模型拒答的研究：
https://arxiv.org/pdf/2311.09677
Johns Hopkins University——教 AI 用信心分數判斷何時該說「我不知道」：
https://hub.jhu.edu/2025/06/26/teaching-ai-to-admit-uncertainty/
Anthropic 可解釋性研究——發現 Claude 內部的拒答迴路（模型預設其實是不回答）： https://weichen221.substack.com/p/why-are-models-afraid-to-say-i-dont
ICPO: Illocution-Calibrated Policy Optimization for Multi-Turn Conversation——越晚回答表現越好： https://arxiv.org/pdf/2601.15330
Vectara Hallucination Leaderboard——各模型幻覺率公開排名：
https://www.aboutchromebooks.com/ai-hallucination-rates-across-different-models/
AI Hallucination Rates & Benchmarks 2026——各家策略與數據比較：
https://suprmind.ai/hub/ai-hallucination-rates-and-benchmarks/
AI Hallucination Report 2026 (AllAboutAI)——2023-2025 年間業界投入 128 億美金解決幻覺問題的統計：
https://www.allaboutai.com/resources/ai-statistics/ai-hallucinations/

主流怎麼解釋的？

其實原因很簡單，兩件事

那大家都在怎麼解決？

第一點才是治本

那我們能做什麼？

寫在最後

參考資訊

Related Articles

Claude Opus 4.7 來了，但你真的需要馬上換嗎？

當 AI 比你更會自作主張——讀 Thariq 的 Unknowns 方法論，以及他沒說的事

搶人大作戰！當 AI 要搬家，記憶怎麼打包？- 三大模型記憶匯出實測