[ai/a03] AI 不能做什麼？比起「會幻覺」更現實的限制

cover

大家都說 AI 會幻覺、會騙人。我這幾個月一線用下來，覺得「不算騙」。它的限制比這個更微妙，也更值得聊。

「AI 會幻覺」這個說法我有意見

網路上講 AI 限制最常出現的詞是「幻覺」——意思是 AI 會編造不存在的東西，引用不存在的書、給不存在的法條、說某個人講過他根本沒講過的話。

這個現象是真的，但「會幻覺所以不能信任」這個結論我不認同。

我跟團隊最近在做一個系統的 prototype（就是「先做一個能跑的版本驗證可行性」），整套用 AI 協助寫出來。功能跑得起來、邏輯走得通、把當初想驗證的事情都驗證了。

然後我們進壓力測試（就是模擬大量使用者同時用，看系統會不會掛）。爆。爆得很慘。某些函式在高併發下會搶資源、某段邏輯在壓力下會 timeout、某個資料結構吃太多記憶體。

整個重來改了三天才穩。

但你說 AI 騙我嗎？沒有啊。它寫的東西真的能跑、真的解決了當下的問題。「能跑的版本」跟「能扛壓力的版本」中間的距離，就算我自己一個人從頭手刻也會遇到。寫程式十幾年的人都知道，prototype 跟 production 之間就是會有一道牆，這跟用不用 AI 沒有關係。

所以我覺得「AI 會幻覺」這個框架太簡化了。它真正的限制比這個更微妙。

真正的限制一：它會跟你拗某個做法

我有一個觀察是這樣的。

寫程式的時候，所有打外部 API 的事情（就是去跟別人的服務拿資料或送資料），應該設計一個統一的入口去處理——不管是加追蹤 ID、處理錯誤、設定超時、重試失敗，全部在一個地方做。這樣未來要改只要改一個地方，不會散落滿地。

這在前端是業界共識，差不多就是用 axios 這類工具建一個共用的 instance。但很多後端工程師不理解為什麼要這樣，會跟你說「每個 API 自己處理就好啊，幹嘛多搞一層」。

AI 有時候會呈現完全一樣的狀態。

我做 code review 的時候，會跟 AI 說「這個地方應該抽出來統一處理」，它有時候會反駁我「現在這樣寫也可以運作，沒必要過度設計」。如果我不夠堅持，照它說的做，三個月後當我要加一個新功能、需要動到所有打 API 的地方，我就會崩潰。

這個現象不只在 axios 這種小事上。AI 在很多「最佳實踐」議題上會給你一個「能動」但「不夠好」的版本，而且還會跟你拗那個版本沒問題。

要看穿這件事，你自己得對那個領域有判斷力。沒有判斷力的話，AI 會把你帶到一個「現在能跑、未來會痛」的地方。

真正的限制二：不同 AI 意見不同，融合很累

我同時在用 ChatGPT、Gemini、Claude Code 三套（後面那篇會聊我為什麼選這幾個）。

如果你問三個一模一樣的問題，會發現三個答案常常不一樣。不是表面文字不同，是實質的做法不同。

舉例：「這個 API 的錯誤處理應該寫在哪一層？」三套 AI 可能給你三種架構建議，每一種看起來都有道理。

這對我來說最累的不是「選哪一個」，是「想辦法融合」。

每個答案常常各自解決了問題的某一個面向。我做 code review 的時候，要把三個版本攤開來看，挑出每個的優點，自己手動拼出第四個版本——那個版本才是我真正要的。

這件事很消耗心力。如果你只看一個 AI 的答案就照做，你會錯過另外兩種視角；如果你都看，融合的成本又很高。

我目前還沒找到很漂亮的解法。最務實的做法是：簡單問題只問一個，重要決策問兩個對比，真的關鍵的設計問三個然後自己整合。

真正的限制三：不確定領域品質很不穩

AI 的品質跟領域本身的「資料密度」有強烈關係。

資訊類、程式類、英文寫作這種網路上有海量資料的領域，AI 表現非常穩定。你問十個問題大概九個半都能拿到能用的答案。

但我最近在看一些資料密度低的領域——命理、心理學、某些冷門的歷史細節——AI 的品質會差到讓人不敢用。

命理這塊特別誇張。我問某個八字的解釋，三個 AI 給三套完全不同的論述，而且每一套的內部邏輯都怪怪的。問它依據哪本書，給的書名有真的也有編的。再追下去，它會自圓其說但越說越虛。

心理學好一點，但也明顯感覺得到。一些有實證基礎的概念（認知行為、依附理論這類）AI 答得不錯；但你問到「某某學派對某個現象的解釋」這種需要研究方法支撐的問題，AI 會給你一個聽起來合理但其實混雜了不同學派、不同時期觀點的拼盤。

這背後的差別是：在資料密度高的領域，AI 是「壓縮整理」海量素材；在資料密度低的領域，AI 是「猜測拼湊」少量素材，而且它不會告訴你它在猜。

如果你要研究的領域是後者，AI 只能當起點，不能當終點。你還是要回到原始文獻、找到該領域的專家、自己建立判斷力。

那些經典限制還是有，但相對小

最後簡短帶過大家熟悉的那幾個：

時效性——大部分 AI 的訓練資料有截止日期，所以你問「上週某某事情怎麼了」它可能不知道。現在很多 AI 有接搜尋功能，但搜尋出來的資料品質還是要自己判斷。

算術——LLM 不是計算機，加減乘除超過一定位數就會錯。要算錢、算數字的事情用 Excel 或計算機，不要叫 AI 算。

編造書名、論文、法條——這個是「幻覺」最具體的呈現。它會給你一個看起來很真的書名加作者加出版年份，然後實際上 Google 不到。重要引用一定要自己驗證。

這些是真的限制，但我自己覺得，比起前面講的那三個（會跟你拗、不同 AI 意見不同、不確定領域不穩），這幾個經典限制反而比較好處理——因為你已經有警覺了。

兩種極端都不對

最後想潑兩種人的冷水。

「AI 完全可信任」這種人很危險。他們把 AI 當成全知顧問，從醫療到法律到投資全都聽 AI 的。AI 在這些領域給的答案有相當比例是錯的或是片面的，照做會出事。

但「AI 全是廢物、根本不能用」這種人也錯了。我看過有人試用 ChatGPT 一次，覺得答案很爛就再也不碰，然後繼續花三倍時間做 AI 五分鐘可以幫忙處理掉的事。這同樣浪費。

對的姿勢是把 AI 當成一個「很努力但偶爾會犯錯、某些領域很強某些領域很弱」的同事。你會檢查同事的工作，也會在某些議題上跟同事爭論，也知道哪些問題不該問哪個同事——對 AI 的態度應該完全一樣。

系列導覽

上一篇	下一篇
AI 能幫你做什麼？我自己這幾個月真的用 AI 做完的事	AI 工具怎麼選？我用過的、棄掉的、推薦的

Terry Yao's Blog

目錄

AI 不能做什麼？比起「會幻覺」更現實的限制