上一篇搞懂了 AI/ML/DL/LLM 的關係,這篇來聊你一定會遇到的 5 個術語。看完這篇,技術文件就不再像天書了。
先講結論
這篇只聊 5 個詞:Token、Context Window、Embedding、Temperature、Hallucination。
為什麼是這 5 個?因為你用 LLM API 的時候,帳單上印的是 Token、報錯是 Context Window 超過、搜尋功能靠 Embedding、輸出品質調 Temperature、出包是因為 Hallucination。
搞懂這 5 個,其他術語遇到再查就好。
Token:不是字、不是詞、是 AI 的咀嚼單位
這大概是最多人搞混的概念。
Token ≠ 字元(character),Token ≠ 單字(word)。它是 LLM 的 tokenizer(分詞器)切出來的「小塊」,每個模型切法不一樣。
"Hello world" → ["Hello", " world"] → 2 tokens
"你好世界" → ["你好", "世界"] → 2 tokens(可能)
"ChatGPT" → ["Chat", "G", "PT"] → 3 tokens(可能)
重點來了——中文比英文貴。英文大約 1 token ≈ 0.75 個字,中文大約 1 個字 ≈ 1-2 個 token。所以同樣一段內容,中文版的 API 帳單會比英文版高。
你問我怎麼知道的?因為我第一次收到 API 帳單的時候嚇了一跳,仔細看才發現中文 token 數比預估的多了快一倍。荷包的教訓最刻骨銘心。
為什麼你要在乎 Token?三個理由:
- API 帳單是按 Token 計費的
- Context Window的上限是用 Token 算的
- 回應速度跟要生成的 Token 數正相關
Context Window:模型的「工作記憶」上限
Context Window 就是模型一次能「看到」的文字量上限,包含你的輸入(prompt)和它的輸出(completion)加在一起。
常見大小(2024-2025):
GPT-4o: 128K tokens ≈ 一本小說
Claude 3.5: 200K tokens ≈ 一本半小說
Gemini 1.5 Pro: 1M+ tokens ≈ 好幾本小說
聽起來很大對吧?但實務上你會發現根本不夠用。因為一個 RAG 系統可能這樣吃 token:
- System prompt:500 tokens
- 對話歷史:2000 tokens
- 搜尋到的文件:3000 tokens
- 使用者問題:100 tokens
- → 光輸入就 5600 tokens 了,還沒算輸出
更坑的是:有研究發現 LLM 對「中間的內容」注意力比較差(叫做 “Lost in the Middle” 問題)。所以不是塞越多資料越好,重要的東西要放前面或後面。
Embedding:讓 AI 「懂」語意的魔法
這個概念初看有點抽象,但其實超實用。
Embedding 就是把一段文字轉成一組數字(向量),語意相近的文字,數字也會相近。
"國王" → [0.21, -0.45, 0.89, ...]
"皇帝" → [0.23, -0.42, 0.85, ...] ← 很接近
"蘋果" → [-0.71, 0.33, 0.12, ...] ← 離很遠
為什麼這很重要?因為 RAG 的核心就是靠 Embedding。
你把公司的文件全部轉成 embedding 存進 Vector DB(向量資料庫),使用者問問題的時候,也把問題轉成 embedding,然後用「向量距離」找出最相關的文件。這就是語意搜尋——不用精確匹配關鍵字,AI 也能找到相關的內容。
注意:生成 embedding 的模型和生成文字的 LLM 是不同的東西。你不會拿 GPT-4o 來算 embedding(太貴),而是用專門的 embedding 模型,像是 OpenAI 的 text-embedding-3-small。
Temperature:調整 AI 的「瘋狂程度」
Temperature 控制模型輸出的隨機性。數字越低越「正經」,越高越「創意」(也越可能胡說)。
| Temperature | 效果 | 你該用在哪 |
|---|---|---|
| 0 | 幾乎確定性輸出 | 寫程式、擷取資料 |
| 0.3-0.5 | 穩定但不死板 | 一般問答、翻譯 |
| 0.7-0.9 | 有點隨性 | 創意寫作、brainstorming |
| 1.0+ | 你確定嗎? |
技術上:LLM 在每一步會算出所有可能下一個 token 的機率。Temperature 就是在調這個機率分佈的「銳利度」——低溫讓最可能的選項更突出,高溫讓分佈更平均。
我的經驗:大部分場景用 0.3 就好。寫 code 用 0,brainstorming 用 0.7-0.8。超過 1.0 我幾乎沒用過,除非你想看 AI 寫詩(那確實蠻好笑的)。
另外兩個相關參數 Top-p 和 Top-k 也是控制隨機性的,但通常調 temperature 就夠了,不用想太多。
Hallucination:AI 最大的 bug,而且修不好
Hallucination(幻覺)是 LLM 自信滿滿地胡說八道。
這不是 bug,這是 feature——好吧不是 feature,但這是 LLM 架構的根本特性。它是基於機率產生「看起來合理的文字」,不是去資料庫查事實。所以它可以一本正經地跟你說一個不存在的 npm 套件,還附上看起來完全合理的 API。
我自己踩過最慘的一次:請 AI 幫我寫一段用某個 library 的 code,它寫得超流暢,但那個 function 根本不存在。我 debug 了半小時才發現——不是我寫錯,是 AI 瞎掰的。
怎麼防?
- AI 生成的 code 一定要跑看看
- AI 引用的文件、套件、API 一定要去查
- 用 RAG 給它參考資料,能大幅降低亂講的機率
- 接受它就是會出錯,別建構「AI 說什麼就做什麼」的系統
下一篇
術語搞懂了,接下來聊三個你一定會遇到的選擇題:
Token 就像瓦斯費——你不注意它的時候,帳單會教你注意。