
常見 AI 工具介紹與比較:工程師的選型指南
2024-2025 年 AI 工具爆發,每個月都有新產品上線、舊產品大改版。身為工程師,你打開 Hacker News 看到的是一堆工具名字在飛——ChatGPT、Claude、Gemini、Copilot、Cursor、Midjourney、Whisper——但到底哪個適合你?哪個值得付費?哪個只是行銷包裝?
這篇文章從工程師的視角,把 AI 工具分成四大類,逐一比較它們的核心特色、定價和適用場景。不是要你每個都用,而是幫你建立一套選型思路。
工具全景
flowchart TD AITools["AI 工具全景"] AITools --> Chat["對話型 AI\nChatGPT / Claude / Gemini"] AITools --> Code["程式碼助手\nCopilot / Cursor / Claude Code"] AITools --> Image["圖像生成\nDALL·E / Midjourney / SD"] AITools --> Media["語音 & 影片\nWhisper / ElevenLabs / Runway"] Chat --> ChatUse["日常問答、寫作\n分析、翻譯、brainstorm"] Code --> CodeUse["寫程式、debug\ncode review、重構"] Image --> ImageUse["設計素材、概念圖\n行銷圖片、UI mockup"] Media --> MediaUse["會議逐字稿、配音\n影片生成、字幕"] style AITools fill:#4a90d9,color:#fff style Chat fill:#f5a623,color:#fff style Code fill:#7ed321,color:#fff style Image fill:#9013fe,color:#fff style Media fill:#d0021b,color:#fff
對話型 AI:ChatGPT vs Claude vs Gemini
這是最多人每天在用的 AI 工具類型。三巨頭各有特色:
ChatGPT(OpenAI)
- 最早也最知名的對話 AI,生態系最完整
- GPT-4o 綜合能力強,回應速度快
- 內建搜尋、圖片生成(DALL-E)、Code Interpreter
- GPTs(自訂 AI 助手)和 Plugin 生態系
- 缺點:有時會「太想幫忙」而給出冗長回答
Claude(Anthropic)
- 以程式碼能力和長文分析著稱
- 200K context window,可以一次讀整本書或整個 codebase
- 風格更精確、更願意說「我不確定」
- Claude Artifacts 可以即時生成互動式內容
- 缺點:不支援即時搜尋(需要透過工具整合)
Gemini(Google)
- 超長 context window(最高 2M tokens)
- 與 Google 生態深度整合(Gmail、Docs、Search)
- 多模態能力強,影片理解優秀
- 免費額度慷慨
- 缺點:在 coding 任務上稍弱於 Claude 和 GPT-4o
| 特性 | ChatGPT (GPT-4o) | Claude 3.5 Sonnet | Gemini 1.5 Pro |
|---|---|---|---|
| Context Window | 128K tokens | 200K tokens | 1M-2M tokens |
| 程式碼能力 | 強 | 最強 | 中上 |
| 多模態 | 圖文、語音 | 圖文 | 圖文、影片、音訊 |
| 免費版本 | GPT-4o mini | Claude 3.5 Sonnet (限量) | Gemini 1.5 Flash |
| 付費價格 | $20/月 (Plus) | $20/月 (Pro) | $20/月 (Advanced) |
| 最適場景 | 通用問答、創意寫作 | 程式碼、分析、長文 | 長文件、Google 整合 |
程式碼助手:Copilot vs Cursor vs Claude Code
這是工程師最關心的類別。三個工具的定位不太一樣:
GitHub Copilot
- 最早的 AI coding assistant,和 GitHub 深度整合
- 支援所有主流 IDE(VS Code、JetBrains、Neovim)
- 擅長行內補全和簡單的 code generation
- Copilot Chat 提供對話式開發體驗
- 價格:19/月(Business)
Cursor
- 基於 VS Code 的 AI-first IDE
- Cursor Tab(智慧補全)+ Cursor Chat + Composer(多檔案編輯)
- 可以選用不同底層模型(GPT-4o、Claude、等)
- Composer 模式可以跨檔案重構,理解整個專案結構
- 價格:$20/月(Pro)
Claude Code
- Anthropic 的 CLI 工具,直接在終端機中運作
- Agent 模式:可以自主讀取檔案、執行指令、跑測試
- 不依賴特定 IDE,適合 terminal-first 的開發者
- 適合大規模重構、建立整個 feature、自動化任務
- 價格:依 API 用量計費
| 特性 | GitHub Copilot | Cursor | Claude Code |
|---|---|---|---|
| 類型 | IDE 外掛 | AI-first IDE | CLI 工具 |
| IDE 支援 | VS Code、JetBrains、Neovim | 自帶 IDE(VS Code fork) | 任何 terminal |
| 補全方式 | 行內即時補全 | 行內 + 多檔案 | Agent 模式 |
| 多檔案操作 | 有限 | Composer 支援 | 原生支援 |
| 最適場景 | 日常 coding、行內補全 | 全方位 AI 開發 | 大規模重構、automation |
| 學習曲線 | 低 | 中 | 中高 |
圖像生成:DALL-E vs Midjourney vs Stable Diffusion
DALL-E 3(OpenAI)
- 整合在 ChatGPT 中,用文字描述就能生成
- 指令理解能力最好,中文 prompt 也能用
- 風格偏「乾淨」,適合商業用途
- 生成速度快,但風格選擇較少
- 商用友善(OpenAI 授權使用者擁有圖片權利)
Midjourney
- 藝術品質公認最高,風格多變
- 透過 Discord 操作(有點不直覺)
- 適合概念設計、行銷素材、藝術創作
- 價格:$10-60/月,依用量和速度分級
- 商用需付費方案
Stable Diffusion
- 完全開源,可本地部署
- 社群模型豐富(Civitai 等平台)
- 可以 fine-tune 自己的風格
- 需要 GPU 和技術能力來設定
- 完全免費(只需硬體成本)
| 面向 | DALL-E 3 | Midjourney | Stable Diffusion |
|---|---|---|---|
| 品質 | 良好 | 最佳 | 依模型而定 |
| 易用性 | 最高(對話生成) | 中(Discord) | 低(需安裝設定) |
| 費用 | 含在 ChatGPT Plus | $10-60/月 | 免費(需 GPU) |
| 自訂性 | 低 | 中 | 最高 |
| 商用授權 | 友善 | 需付費版 | 開源(依 license) |
| 最適場景 | 快速生成、商業用途 | 高品質藝術 | 大量生成、自訂模型 |
語音 & 影片:簡要介紹
這個領域發展也很快,簡要提幾個重要的:
Whisper(OpenAI) — 語音轉文字(STT)。開源、免費、支援多語言。可以本地跑,也可以用 API。會議逐字稿、Podcast 字幕的首選。
ElevenLabs — 文字轉語音(TTS)。語音品質極度自然,支援多語言和聲音克隆。適合 Podcast 配音、影片旁白、有聲書。
Runway — AI 影片生成和編輯。可以從文字或圖片生成影片片段,也支援 AI 影片特效。適合短影片製作、原型展示。
全景比較表
| 工具 | 價格帶 | 核心特色 | 最適場景 |
|---|---|---|---|
| ChatGPT | 免費 / $20/月 | 通用對話、生態系完整 | 日常問答、寫作、brainstorm |
| Claude | 免費 / $20/月 | 長文分析、coding 能力強 | 程式碼、技術文件、深度分析 |
| Gemini | 免費 / $20/月 | 超長 context、Google 整合 | 長文件處理、跨 Google 服務 |
| GitHub Copilot | $10-19/月 | IDE 整合、行內補全 | 日常 coding |
| Cursor | $20/月 | AI-first IDE、多檔案編輯 | 全方位 AI 開發 |
| Claude Code | 依 API 用量 | CLI Agent、自主執行 | 大規模重構、自動化 |
| DALL-E 3 | 含 ChatGPT Plus | 文字生成圖片、簡單易用 | 快速產圖、商業素材 |
| Midjourney | $10-60/月 | 藝術品質最高 | 設計、概念、行銷 |
| Stable Diffusion | 免費(需 GPU) | 開源、可自訂 | 大量生成、客製化 |
| Whisper | 免費 / API 計費 | 語音轉文字、多語言 | 會議紀錄、字幕 |
| ElevenLabs | $5-99/月 | 自然語音合成 | 配音、有聲書 |
| Runway | $12-76/月 | AI 影片生成與編輯 | 短影片、特效 |
我的選法:如何根據任務選工具
經過這一年多的使用,我歸納出一套選型思路:
Step 1:先確定任務類型
你的需求是什麼?
├── 寫程式 → 看 Step 2a
├── 寫文件 / 分析 → 看 Step 2b
├── 生成圖片 → 看 Step 2c
└── 其他(語音、影片...) → 看各領域專用工具
Step 2a:程式碼相關
- 日常 coding(補全、小修改)→ GitHub Copilot(已經融入你的 IDE)
- 需要跨檔案重構、大量生成 → Cursor Composer 或 Claude Code
- 只是問程式問題、要解釋 → Claude(對話模式就夠了)
Step 2b:文字/分析相關
- 需要分析長文件(PDF、程式碼庫)→ Claude(200K context)或 Gemini(1M+ context)
- 需要搜尋最新資訊 → ChatGPT(有搜尋功能)
- 日常翻譯、摘要、寫作 → 三家都行,選你習慣的
Step 2c:圖片相關
- 快速產一張圖,不挑剔品質 → DALL-E(ChatGPT 裡直接用)
- 需要高品質設計素材 → Midjourney
- 需要大量生成或客製風格 → Stable Diffusion
通用原則:
- 不要一次訂閱太多 — 先選一個對話 AI + 一個程式碼助手,夠用再加
- 善用免費額度 — Claude、Gemini、ChatGPT 的免費版已經很強了
- 工具會持續演進 — 半年前的比較可能已經不準,定期重新評估
- 選你常用的生態系 — 如果你 all-in VS Code,Copilot 或 Cursor 就比 CLI 工具方便
延伸閱讀
- AI 全景與核心概念 — AI 基礎概念與模型選型
- Prompt Engineering — 學會寫好 Prompt,讓這些工具發揮最大效用
- AI 輔助開發工具 — 深入比較程式碼助手的演進
- AI 工具選型與工作流 — 從方法論角度看 AI 工具的選擇