模型選好了、prompt 寫好了、RAG 也接了——然後你打開帳單,發現比你的雲端主機還貴。

先講結論

兩個選擇:

  • API 模式:呼叫 OpenAI / Anthropic / Google 的 API。簡單、不用管硬體,按量付費
  • Self-hosting:自己架模型。前期投入高,但長期可能更便宜

大部分團隊應該 從 API 開始。等月帳單超過 500 美金,再認真考慮自架。


API 的帳單怎麼算

幾乎所有 LLM API 都這樣算:

費用 = (Input tokens × 單價) + (Output tokens × 單價)

注意:Output 比 Input 貴 2-4 倍,因為生成文字比讀取文字更耗算力。

來算一個真實案例——你做了一個客服 chatbot:

每次對話:
- System prompt:  500 tokens
- 對話歷史:       2,000 tokens
- RAG 文件:       1,500 tokens
- 使用者問題:      100 tokens
- → Input 合計:   4,100 tokens
- → Output 平均:  300 tokens

用 GPT-4o($2.50 / $10.00 per 1M tokens):
- 單次 = $0.01325
- 每天 1,000 次 = $13.25
- 每月 ≈ $400

用 GPT-4o mini($0.15 / $0.60 per 1M tokens):
- 單次 = $0.0008
- 每天 1,000 次 = $0.80
- 每月 ≈ $24

差距 16 倍。所以第一個省錢秘訣:不是每個場景都需要最強的模型。簡單的客服分類用 mini 就夠了,只有複雜的推理才需要上 4o 或 Claude。

我自己的做法:先全用最便宜的模型跑,哪個任務表現不好,再針對那個任務升級。反過來做的話,你的錢包會先升天。


什麼時候該自己架

自架模型的成本主要是 GPU:

雲端 GPU(大約):
- A100 80GB:  $30-40/hr
- H100:       $50-60/hr
- A10G:       $1-2/hr

消費級硬體(一次買斷):
- RTX 4090 (24GB):  ~$1,600
- 能跑 7B-13B 的量化模型

粗估公式:

月 API 費 < $500     → 用 API,不要自找麻煩
月 API 費 $500-2,000 → 可以評估
月 API 費 > $2,000   → 認真考慮自架

但別忘了自架的隱藏成本:維運人力、硬體壞掉、模型更新、監控、半夜 on-call。如果你是小團隊沒有 DevOps,這些成本可能比 API 帳單還高。


Quantization:讓大模型跑在小 GPU 上

Quantization(量化)就是降低模型精度,換取更小的記憶體需求。

原始 (FP32): 每參數 32 bits → 7B 模型 ≈ 28 GB
半精度 (FP16): 每參數 16 bits → 7B 模型 ≈ 14 GB
8-bit (INT8): 每參數 8 bits → 7B 模型 ≈ 7 GB
4-bit (INT4): 每參數 4 bits → 7B 模型 ≈ 3.5 GB

4-bit 量化的品質損失通常可以接受。這代表一張 RTX 3060(12GB)就能跑 7B 模型——你的筆電可能就行。

想在自己電腦上試?裝 ollama,一行指令就能跑:

ollama run llama3

它預設就是量化過的,不用自己處理。我第一次在自己的桌機上跑起一個 LLM 的時候,有一種莫名的感動——雖然它跑得跟烏龜一樣。


VRAM:跑 AI 最重要的一個數字

VRAM 是 GPU 的記憶體。跑 AI 模型時,VRAM 比 GPU 的運算速度更常成為瓶頸。

簡單對照:

GPUVRAM能跑什麼
RTX 306012 GB7B 量化
RTX 3090 / 409024 GB13B 量化
A10080 GB70B 量化

經驗法則:模型需要的 VRAM ≈ 參數量(B) × 每參數位元數 ÷ 8,再加一些 overhead。

如果你只是想在本機玩玩,24GB 的 4090 是甜蜜點——能跑大部分你用得到的開源模型。


模型選型:別想太多

2025 年的主流選擇其實很簡單:

需要最強能力 → Claude / GPT-4o 用 API,按量付費。大部分商業應用的首選。

需要省錢 → GPT-4o mini / Claude Haiku / Gemini Flash 便宜 10-20 倍,簡單任務夠用了。

需要隱私 → 自架 Llama / Mistral / Qwen 資料不出自己的網路。

需要超長文件 → Gemini 100 萬 token 的 context window,一次丟整本書進去。

不要花太多時間比較模型。選一個開始做,效果不好再換。我見過太多團隊花了一個月在「選型」,結果一行 code 都沒寫。


下一篇

模型選好、架好、省完錢了。但上線前你還得知道 AI 可能會怎麼搞砸你的系統:


AI 的成本控制跟寫程式一樣:先讓它 work,再讓它 work efficiently。