[ai/01-4] AI 部署與成本：API 還是自己架？

模型選好了、prompt 寫好了、RAG 也接了——然後你打開帳單，發現比你的雲端主機還貴。

先講結論

兩個選擇：

API 模式：呼叫 OpenAI / Anthropic / Google 的 API。簡單、不用管硬體，按量付費
Self-hosting：自己架模型。前期投入高，但長期可能更便宜

大部分團隊應該 從 API 開始。等月帳單超過 500 美金，再認真考慮自架。

API 的帳單怎麼算

幾乎所有 LLM API 都這樣算：

費用 = (Input tokens × 單價) + (Output tokens × 單價)

注意：Output 比 Input 貴 2-4 倍，因為生成文字比讀取文字更耗算力。

來算一個真實案例——你做了一個客服 chatbot：

每次對話：
- System prompt:  500 tokens
- 對話歷史:       2,000 tokens
- RAG 文件:       1,500 tokens
- 使用者問題:      100 tokens
- → Input 合計:   4,100 tokens
- → Output 平均:  300 tokens

用 GPT-4o（$2.50 / $10.00 per 1M tokens）：
- 單次 = $0.01325
- 每天 1,000 次 = $13.25
- 每月 ≈ $400

用 GPT-4o mini（$0.15 / $0.60 per 1M tokens）：
- 單次 = $0.0008
- 每天 1,000 次 = $0.80
- 每月 ≈ $24

差距 16 倍。所以第一個省錢秘訣：不是每個場景都需要最強的模型。簡單的客服分類用 mini 就夠了，只有複雜的推理才需要上 4o 或 Claude。

我自己的做法：先全用最便宜的模型跑，哪個任務表現不好，再針對那個任務升級。~~反過來做的話，你的錢包會先升天。~~

什麼時候該自己架

自架模型的成本主要是 GPU：

雲端 GPU（大約）：
- A100 80GB:  $30-40/hr
- H100:       $50-60/hr
- A10G:       $1-2/hr

消費級硬體（一次買斷）：
- RTX 4090 (24GB):  ~$1,600
- 能跑 7B-13B 的量化模型

粗估公式：

月 API 費 < $500     → 用 API，不要自找麻煩
月 API 費 $500-2,000 → 可以評估
月 API 費 > $2,000   → 認真考慮自架

但別忘了自架的隱藏成本：維運人力、硬體壞掉、模型更新、監控、半夜 on-call。如果你是小團隊沒有 DevOps，這些成本可能比 API 帳單還高。

Quantization：讓大模型跑在小 GPU 上

Quantization（量化）就是降低模型精度，換取更小的記憶體需求。

原始 (FP32): 每參數 32 bits → 7B 模型 ≈ 28 GB
半精度 (FP16): 每參數 16 bits → 7B 模型 ≈ 14 GB
8-bit (INT8): 每參數 8 bits → 7B 模型 ≈ 7 GB
4-bit (INT4): 每參數 4 bits → 7B 模型 ≈ 3.5 GB

4-bit 量化的品質損失通常可以接受。這代表一張 RTX 3060（12GB）就能跑 7B 模型——你的筆電可能就行。

想在自己電腦上試？裝 ollama，一行指令就能跑：

ollama run llama3

它預設就是量化過的，不用自己處理。我第一次在自己的桌機上跑起一個 LLM 的時候，有一種莫名的感動——~~雖然它跑得跟烏龜一樣。~~

VRAM：跑 AI 最重要的一個數字

VRAM 是 GPU 的記憶體。跑 AI 模型時，VRAM 比 GPU 的運算速度更常成為瓶頸。

簡單對照：

GPU	VRAM	能跑什麼
RTX 3060	12 GB	7B 量化
RTX 3090 / 4090	24 GB	13B 量化
A100	80 GB	70B 量化

經驗法則：模型需要的 VRAM ≈ 參數量(B) × 每參數位元數 ÷ 8，再加一些 overhead。

如果你只是想在本機玩玩，24GB 的 4090 是甜蜜點——能跑大部分你用得到的開源模型。

模型選型：別想太多

2025 年的主流選擇其實很簡單：

需要最強能力 → Claude / GPT-4o 用 API，按量付費。大部分商業應用的首選。

需要省錢 → GPT-4o mini / Claude Haiku / Gemini Flash 便宜 10-20 倍，簡單任務夠用了。

需要隱私 → 自架 Llama / Mistral / Qwen 資料不出自己的網路。

需要超長文件 → Gemini 100 萬 token 的 context window，一次丟整本書進去。

不要花太多時間比較模型。選一個開始做，效果不好再換。我見過太多團隊花了一個月在「選型」，結果一行 code 都沒寫。

模型選好、架好、省完錢了。但上線前你還得知道 AI 可能會怎麼搞砸你的系統：

AI 的風險清單：上線前你必須知道的事

AI 的成本控制跟寫程式一樣：先讓它 work，再讓它 work efficiently。

Terry Yao's Blog

分類

目錄