[ai/01-2] Token、Embedding、Temperature：LLM 最常遇到的術語

上一篇搞懂了 AI/ML/DL/LLM 的關係，這篇來聊你一定會遇到的 5 個術語。看完這篇，技術文件就不再像天書了。

先講結論

這篇只聊 5 個詞：Token、Context Window、Embedding、Temperature、Hallucination。

為什麼是這 5 個？因為你用 LLM API 的時候，帳單上印的是 Token、報錯是 Context Window 超過、搜尋功能靠 Embedding、輸出品質調 Temperature、出包是因為 Hallucination。

搞懂這 5 個，其他術語遇到再查就好。

Token：不是字、不是詞、是 AI 的咀嚼單位

這大概是最多人搞混的概念。

Token ≠ 字元（character），Token ≠ 單字（word）。它是 LLM 的 tokenizer（分詞器）切出來的「小塊」，每個模型切法不一樣。

"Hello world"  → ["Hello", " world"]     → 2 tokens
"你好世界"      → ["你好", "世界"]          → 2 tokens（可能）
"ChatGPT"      → ["Chat", "G", "PT"]     → 3 tokens（可能）

重點來了——中文比英文貴。英文大約 1 token ≈ 0.75 個字，中文大約 1 個字 ≈ 1-2 個 token。所以同樣一段內容，中文版的 API 帳單會比英文版高。

你問我怎麼知道的？因為我第一次收到 API 帳單的時候嚇了一跳，仔細看才發現中文 token 數比預估的多了快一倍。~~荷包的教訓最刻骨銘心。~~

為什麼你要在乎 Token？三個理由：

API 帳單是按 Token 計費的
Context Window的上限是用 Token 算的
回應速度跟要生成的 Token 數正相關

Context Window：模型的「工作記憶」上限

Context Window 就是模型一次能「看到」的文字量上限，包含你的輸入（prompt）和它的輸出（completion）加在一起。

常見大小（2024-2025）：
GPT-4o:          128K tokens  ≈ 一本小說
Claude 3.5:      200K tokens  ≈ 一本半小說
Gemini 1.5 Pro:  1M+ tokens   ≈ 好幾本小說

聽起來很大對吧？但實務上你會發現根本不夠用。因為一個 RAG 系統可能這樣吃 token：

System prompt：500 tokens
對話歷史：2000 tokens
搜尋到的文件：3000 tokens
使用者問題：100 tokens
→ 光輸入就 5600 tokens 了，還沒算輸出

更坑的是：有研究發現 LLM 對「中間的內容」注意力比較差（叫做 “Lost in the Middle” 問題）。所以不是塞越多資料越好，重要的東西要放前面或後面。

Embedding：讓 AI 「懂」語意的魔法

這個概念初看有點抽象，但其實超實用。

Embedding 就是把一段文字轉成一組數字（向量），語意相近的文字，數字也會相近。

"國王" → [0.21, -0.45, 0.89, ...]
"皇帝" → [0.23, -0.42, 0.85, ...]   ← 很接近
"蘋果" → [-0.71, 0.33, 0.12, ...]   ← 離很遠

為什麼這很重要？因為 RAG 的核心就是靠 Embedding。

你把公司的文件全部轉成 embedding 存進 Vector DB（向量資料庫），使用者問問題的時候，也把問題轉成 embedding，然後用「向量距離」找出最相關的文件。這就是語意搜尋——不用精確匹配關鍵字，AI 也能找到相關的內容。

注意：生成 embedding 的模型和生成文字的 LLM 是不同的東西。你不會拿 GPT-4o 來算 embedding（太貴），而是用專門的 embedding 模型，像是 OpenAI 的 text-embedding-3-small。

Temperature：調整 AI 的「瘋狂程度」

Temperature 控制模型輸出的隨機性。數字越低越「正經」，越高越「創意」（也越可能胡說）。

Temperature	效果	你該用在哪
0	幾乎確定性輸出	寫程式、擷取資料
0.3-0.5	穩定但不死板	一般問答、翻譯
0.7-0.9	有點隨性	創意寫作、brainstorming
1.0+	~~開始不正常~~ 高度隨機	你確定嗎？

技術上：LLM 在每一步會算出所有可能下一個 token 的機率。Temperature 就是在調這個機率分佈的「銳利度」——低溫讓最可能的選項更突出，高溫讓分佈更平均。

我的經驗：大部分場景用 0.3 就好。寫 code 用 0，brainstorming 用 0.7-0.8。超過 1.0 我幾乎沒用過，除非你想看 AI 寫詩（那確實蠻好笑的）。

另外兩個相關參數 Top-p 和 Top-k 也是控制隨機性的，但通常調 temperature 就夠了，不用想太多。

Hallucination：AI 最大的 bug，而且修不好

Hallucination（幻覺）是 LLM 自信滿滿地胡說八道。

這不是 bug，這是 feature——好吧不是 feature，但這是 LLM 架構的根本特性。它是基於機率產生「看起來合理的文字」，不是去資料庫查事實。所以它可以一本正經地跟你說一個不存在的 npm 套件，還附上看起來完全合理的 API。

我自己踩過最慘的一次：請 AI 幫我寫一段用某個 library 的 code，它寫得超流暢，但那個 function 根本不存在。我 debug 了半小時才發現——不是我寫錯，是 AI 瞎掰的。

怎麼防？

AI 生成的 code 一定要跑看看
AI 引用的文件、套件、API 一定要去查
用 RAG 給它參考資料，能大幅降低亂講的機率
接受它就是會出錯，別建構「AI 說什麼就做什麼」的系統

術語搞懂了，接下來聊三個你一定會遇到的選擇題：

Fine-tuning vs RAG vs Prompt Engineering：三條路怎麼選？

Token 就像瓦斯費——你不注意它的時候，帳單會教你注意。

Terry Yao's Blog

分類

目錄