模型選好了、prompt 寫好了、RAG 也接了——然後你打開帳單,發現比你的雲端主機還貴。
先講結論
兩個選擇:
- API 模式:呼叫 OpenAI / Anthropic / Google 的 API。簡單、不用管硬體,按量付費
- Self-hosting:自己架模型。前期投入高,但長期可能更便宜
大部分團隊應該 從 API 開始。等月帳單超過 500 美金,再認真考慮自架。
API 的帳單怎麼算
幾乎所有 LLM API 都這樣算:
費用 = (Input tokens × 單價) + (Output tokens × 單價)
注意:Output 比 Input 貴 2-4 倍,因為生成文字比讀取文字更耗算力。
來算一個真實案例——你做了一個客服 chatbot:
每次對話:
- System prompt: 500 tokens
- 對話歷史: 2,000 tokens
- RAG 文件: 1,500 tokens
- 使用者問題: 100 tokens
- → Input 合計: 4,100 tokens
- → Output 平均: 300 tokens
用 GPT-4o($2.50 / $10.00 per 1M tokens):
- 單次 = $0.01325
- 每天 1,000 次 = $13.25
- 每月 ≈ $400
用 GPT-4o mini($0.15 / $0.60 per 1M tokens):
- 單次 = $0.0008
- 每天 1,000 次 = $0.80
- 每月 ≈ $24
差距 16 倍。所以第一個省錢秘訣:不是每個場景都需要最強的模型。簡單的客服分類用 mini 就夠了,只有複雜的推理才需要上 4o 或 Claude。
我自己的做法:先全用最便宜的模型跑,哪個任務表現不好,再針對那個任務升級。反過來做的話,你的錢包會先升天。
什麼時候該自己架
自架模型的成本主要是 GPU:
雲端 GPU(大約):
- A100 80GB: $30-40/hr
- H100: $50-60/hr
- A10G: $1-2/hr
消費級硬體(一次買斷):
- RTX 4090 (24GB): ~$1,600
- 能跑 7B-13B 的量化模型
粗估公式:
月 API 費 < $500 → 用 API,不要自找麻煩
月 API 費 $500-2,000 → 可以評估
月 API 費 > $2,000 → 認真考慮自架
但別忘了自架的隱藏成本:維運人力、硬體壞掉、模型更新、監控、半夜 on-call。如果你是小團隊沒有 DevOps,這些成本可能比 API 帳單還高。
Quantization:讓大模型跑在小 GPU 上
Quantization(量化)就是降低模型精度,換取更小的記憶體需求。
原始 (FP32): 每參數 32 bits → 7B 模型 ≈ 28 GB
半精度 (FP16): 每參數 16 bits → 7B 模型 ≈ 14 GB
8-bit (INT8): 每參數 8 bits → 7B 模型 ≈ 7 GB
4-bit (INT4): 每參數 4 bits → 7B 模型 ≈ 3.5 GB
4-bit 量化的品質損失通常可以接受。這代表一張 RTX 3060(12GB)就能跑 7B 模型——你的筆電可能就行。
想在自己電腦上試?裝 ollama,一行指令就能跑:
ollama run llama3它預設就是量化過的,不用自己處理。我第一次在自己的桌機上跑起一個 LLM 的時候,有一種莫名的感動——雖然它跑得跟烏龜一樣。
VRAM:跑 AI 最重要的一個數字
VRAM 是 GPU 的記憶體。跑 AI 模型時,VRAM 比 GPU 的運算速度更常成為瓶頸。
簡單對照:
| GPU | VRAM | 能跑什麼 |
|---|---|---|
| RTX 3060 | 12 GB | 7B 量化 |
| RTX 3090 / 4090 | 24 GB | 13B 量化 |
| A100 | 80 GB | 70B 量化 |
經驗法則:模型需要的 VRAM ≈ 參數量(B) × 每參數位元數 ÷ 8,再加一些 overhead。
如果你只是想在本機玩玩,24GB 的 4090 是甜蜜點——能跑大部分你用得到的開源模型。
模型選型:別想太多
2025 年的主流選擇其實很簡單:
需要最強能力 → Claude / GPT-4o 用 API,按量付費。大部分商業應用的首選。
需要省錢 → GPT-4o mini / Claude Haiku / Gemini Flash 便宜 10-20 倍,簡單任務夠用了。
需要隱私 → 自架 Llama / Mistral / Qwen 資料不出自己的網路。
需要超長文件 → Gemini 100 萬 token 的 context window,一次丟整本書進去。
不要花太多時間比較模型。選一個開始做,效果不好再換。我見過太多團隊花了一個月在「選型」,結果一行 code 都沒寫。
下一篇
模型選好、架好、省完錢了。但上線前你還得知道 AI 可能會怎麼搞砸你的系統:
AI 的成本控制跟寫程式一樣:先讓它 work,再讓它 work efficiently。