上一篇搞懂了 AI/ML/DL/LLM 的關係,這篇來聊你一定會遇到的 5 個術語。看完這篇,技術文件就不再像天書了。

先講結論

這篇只聊 5 個詞:Token、Context Window、Embedding、Temperature、Hallucination

為什麼是這 5 個?因為你用 LLM API 的時候,帳單上印的是 Token、報錯是 Context Window 超過、搜尋功能靠 Embedding、輸出品質調 Temperature、出包是因為 Hallucination。

搞懂這 5 個,其他術語遇到再查就好。


Token:不是字、不是詞、是 AI 的咀嚼單位

這大概是最多人搞混的概念。

Token ≠ 字元(character),Token ≠ 單字(word)。它是 LLM 的 tokenizer(分詞器)切出來的「小塊」,每個模型切法不一樣。

"Hello world"  → ["Hello", " world"]     → 2 tokens
"你好世界"      → ["你好", "世界"]          → 2 tokens(可能)
"ChatGPT"      → ["Chat", "G", "PT"]     → 3 tokens(可能)

重點來了——中文比英文貴。英文大約 1 token ≈ 0.75 個字,中文大約 1 個字 ≈ 1-2 個 token。所以同樣一段內容,中文版的 API 帳單會比英文版高。

你問我怎麼知道的?因為我第一次收到 API 帳單的時候嚇了一跳,仔細看才發現中文 token 數比預估的多了快一倍。荷包的教訓最刻骨銘心。

為什麼你要在乎 Token?三個理由:

  1. API 帳單是按 Token 計費的
  2. Context Window的上限是用 Token 算的
  3. 回應速度跟要生成的 Token 數正相關

Context Window:模型的「工作記憶」上限

Context Window 就是模型一次能「看到」的文字量上限,包含你的輸入(prompt)和它的輸出(completion)加在一起。

常見大小(2024-2025):
GPT-4o:          128K tokens  ≈ 一本小說
Claude 3.5:      200K tokens  ≈ 一本半小說
Gemini 1.5 Pro:  1M+ tokens   ≈ 好幾本小說

聽起來很大對吧?但實務上你會發現根本不夠用。因為一個 RAG 系統可能這樣吃 token:

  • System prompt:500 tokens
  • 對話歷史:2000 tokens
  • 搜尋到的文件:3000 tokens
  • 使用者問題:100 tokens
  • → 光輸入就 5600 tokens 了,還沒算輸出

更坑的是:有研究發現 LLM 對「中間的內容」注意力比較差(叫做 “Lost in the Middle” 問題)。所以不是塞越多資料越好,重要的東西要放前面或後面。


Embedding:讓 AI 「懂」語意的魔法

這個概念初看有點抽象,但其實超實用。

Embedding 就是把一段文字轉成一組數字(向量),語意相近的文字,數字也會相近。

"國王" → [0.21, -0.45, 0.89, ...]
"皇帝" → [0.23, -0.42, 0.85, ...]   ← 很接近
"蘋果" → [-0.71, 0.33, 0.12, ...]   ← 離很遠

為什麼這很重要?因為 RAG 的核心就是靠 Embedding

你把公司的文件全部轉成 embedding 存進 Vector DB(向量資料庫),使用者問問題的時候,也把問題轉成 embedding,然後用「向量距離」找出最相關的文件。這就是語意搜尋——不用精確匹配關鍵字,AI 也能找到相關的內容。

注意:生成 embedding 的模型和生成文字的 LLM 是不同的東西。你不會拿 GPT-4o 來算 embedding(太貴),而是用專門的 embedding 模型,像是 OpenAI 的 text-embedding-3-small


Temperature:調整 AI 的「瘋狂程度」

Temperature 控制模型輸出的隨機性。數字越低越「正經」,越高越「創意」(也越可能胡說)。

Temperature效果你該用在哪
0幾乎確定性輸出寫程式、擷取資料
0.3-0.5穩定但不死板一般問答、翻譯
0.7-0.9有點隨性創意寫作、brainstorming
1.0+開始不正常 高度隨機你確定嗎?

技術上:LLM 在每一步會算出所有可能下一個 token 的機率。Temperature 就是在調這個機率分佈的「銳利度」——低溫讓最可能的選項更突出,高溫讓分佈更平均。

我的經驗:大部分場景用 0.3 就好。寫 code 用 0,brainstorming 用 0.7-0.8。超過 1.0 我幾乎沒用過,除非你想看 AI 寫詩(那確實蠻好笑的)。

另外兩個相關參數 Top-p 和 Top-k 也是控制隨機性的,但通常調 temperature 就夠了,不用想太多。


Hallucination:AI 最大的 bug,而且修不好

Hallucination(幻覺)是 LLM 自信滿滿地胡說八道

這不是 bug,這是 feature——好吧不是 feature,但這是 LLM 架構的根本特性。它是基於機率產生「看起來合理的文字」,不是去資料庫查事實。所以它可以一本正經地跟你說一個不存在的 npm 套件,還附上看起來完全合理的 API。

我自己踩過最慘的一次:請 AI 幫我寫一段用某個 library 的 code,它寫得超流暢,但那個 function 根本不存在。我 debug 了半小時才發現——不是我寫錯,是 AI 瞎掰的。

怎麼防?

  1. AI 生成的 code 一定要跑看看
  2. AI 引用的文件、套件、API 一定要去查
  3. 用 RAG 給它參考資料,能大幅降低亂講的機率
  4. 接受它就是會出錯,別建構「AI 說什麼就做什麼」的系統

下一篇

術語搞懂了,接下來聊三個你一定會遇到的選擇題:


Token 就像瓦斯費——你不注意它的時候,帳單會教你注意。