
大家都說 AI 會幻覺、會騙人。我這幾個月一線用下來,覺得「不算騙」。它的限制比這個更微妙,也更值得聊。
「AI 會幻覺」這個說法我有意見
網路上講 AI 限制最常出現的詞是「幻覺」——意思是 AI 會編造不存在的東西,引用不存在的書、給不存在的法條、說某個人講過他根本沒講過的話。
這個現象是真的,但「會幻覺所以不能信任」這個結論我不認同。
我跟團隊最近在做一個系統的 prototype(就是「先做一個能跑的版本驗證可行性」),整套用 AI 協助寫出來。功能跑得起來、邏輯走得通、把當初想驗證的事情都驗證了。
然後我們進壓力測試(就是模擬大量使用者同時用,看系統會不會掛)。爆。爆得很慘。某些函式在高併發下會搶資源、某段邏輯在壓力下會 timeout、某個資料結構吃太多記憶體。
整個重來改了三天才穩。
但你說 AI 騙我嗎?沒有啊。它寫的東西真的能跑、真的解決了當下的問題。「能跑的版本」跟「能扛壓力的版本」中間的距離,就算我自己一個人從頭手刻也會遇到。寫程式十幾年的人都知道,prototype 跟 production 之間就是會有一道牆,這跟用不用 AI 沒有關係。
所以我覺得「AI 會幻覺」這個框架太簡化了。它真正的限制比這個更微妙。
真正的限制一:它會跟你拗某個做法
我有一個觀察是這樣的。
寫程式的時候,所有打外部 API 的事情(就是去跟別人的服務拿資料或送資料),應該設計一個統一的入口去處理——不管是加追蹤 ID、處理錯誤、設定超時、重試失敗,全部在一個地方做。這樣未來要改只要改一個地方,不會散落滿地。
這在前端是業界共識,差不多就是用 axios 這類工具建一個共用的 instance。但很多後端工程師不理解為什麼要這樣,會跟你說「每個 API 自己處理就好啊,幹嘛多搞一層」。
AI 有時候會呈現完全一樣的狀態。
我做 code review 的時候,會跟 AI 說「這個地方應該抽出來統一處理」,它有時候會反駁我「現在這樣寫也可以運作,沒必要過度設計」。如果我不夠堅持,照它說的做,三個月後當我要加一個新功能、需要動到所有打 API 的地方,我就會崩潰。
這個現象不只在 axios 這種小事上。AI 在很多「最佳實踐」議題上會給你一個「能動」但「不夠好」的版本,而且還會跟你拗那個版本沒問題。
要看穿這件事,你自己得對那個領域有判斷力。沒有判斷力的話,AI 會把你帶到一個「現在能跑、未來會痛」的地方。
真正的限制二:不同 AI 意見不同,融合很累
我同時在用 ChatGPT、Gemini、Claude Code 三套(後面那篇會聊我為什麼選這幾個)。
如果你問三個一模一樣的問題,會發現三個答案常常不一樣。不是表面文字不同,是實質的做法不同。
舉例:「這個 API 的錯誤處理應該寫在哪一層?」三套 AI 可能給你三種架構建議,每一種看起來都有道理。
這對我來說最累的不是「選哪一個」,是「想辦法融合」。
每個答案常常各自解決了問題的某一個面向。我做 code review 的時候,要把三個版本攤開來看,挑出每個的優點,自己手動拼出第四個版本——那個版本才是我真正要的。
這件事很消耗心力。如果你只看一個 AI 的答案就照做,你會錯過另外兩種視角;如果你都看,融合的成本又很高。
我目前還沒找到很漂亮的解法。最務實的做法是:簡單問題只問一個,重要決策問兩個對比,真的關鍵的設計問三個然後自己整合。
真正的限制三:不確定領域品質很不穩
AI 的品質跟領域本身的「資料密度」有強烈關係。
資訊類、程式類、英文寫作這種網路上有海量資料的領域,AI 表現非常穩定。你問十個問題大概九個半都能拿到能用的答案。
但我最近在看一些資料密度低的領域——命理、心理學、某些冷門的歷史細節——AI 的品質會差到讓人不敢用。
命理這塊特別誇張。我問某個八字的解釋,三個 AI 給三套完全不同的論述,而且每一套的內部邏輯都怪怪的。問它依據哪本書,給的書名有真的也有編的。再追下去,它會自圓其說但越說越虛。
心理學好一點,但也明顯感覺得到。一些有實證基礎的概念(認知行為、依附理論這類)AI 答得不錯;但你問到「某某學派對某個現象的解釋」這種需要研究方法支撐的問題,AI 會給你一個聽起來合理但其實混雜了不同學派、不同時期觀點的拼盤。
這背後的差別是:在資料密度高的領域,AI 是「壓縮整理」海量素材;在資料密度低的領域,AI 是「猜測拼湊」少量素材,而且它不會告訴你它在猜。
如果你要研究的領域是後者,AI 只能當起點,不能當終點。你還是要回到原始文獻、找到該領域的專家、自己建立判斷力。
那些經典限制還是有,但相對小
最後簡短帶過大家熟悉的那幾個:
時效性——大部分 AI 的訓練資料有截止日期,所以你問「上週某某事情怎麼了」它可能不知道。現在很多 AI 有接搜尋功能,但搜尋出來的資料品質還是要自己判斷。
算術——LLM 不是計算機,加減乘除超過一定位數就會錯。要算錢、算數字的事情用 Excel 或計算機,不要叫 AI 算。
編造書名、論文、法條——這個是「幻覺」最具體的呈現。它會給你一個看起來很真的書名加作者加出版年份,然後實際上 Google 不到。重要引用一定要自己驗證。
這些是真的限制,但我自己覺得,比起前面講的那三個(會跟你拗、不同 AI 意見不同、不確定領域不穩),這幾個經典限制反而比較好處理——因為你已經有警覺了。
兩種極端都不對
最後想潑兩種人的冷水。
「AI 完全可信任」這種人很危險。他們把 AI 當成全知顧問,從醫療到法律到投資全都聽 AI 的。AI 在這些領域給的答案有相當比例是錯的或是片面的,照做會出事。
但「AI 全是廢物、根本不能用」這種人也錯了。我看過有人試用 ChatGPT 一次,覺得答案很爛就再也不碰,然後繼續花三倍時間做 AI 五分鐘可以幫忙處理掉的事。這同樣浪費。
對的姿勢是把 AI 當成一個「很努力但偶爾會犯錯、某些領域很強某些領域很弱」的同事。你會檢查同事的工作,也會在某些議題上跟同事爭論,也知道哪些問題不該問哪個同事——對 AI 的態度應該完全一樣。
