[ai] 常見 AI 工具介紹與比較：工程師的選型指南

cover

常見 AI 工具介紹與比較：工程師的選型指南

2024-2025 年 AI 工具爆發，每個月都有新產品上線、舊產品大改版。身為工程師，你打開 Hacker News 看到的是一堆工具名字在飛——ChatGPT、Claude、Gemini、Copilot、Cursor、Midjourney、Whisper——但到底哪個適合你？哪個值得付費？哪個只是行銷包裝？

這篇文章從工程師的視角，把 AI 工具分成四大類，逐一比較它們的核心特色、定價和適用場景。不是要你每個都用，而是幫你建立一套選型思路。

工具全景

flowchart TD
    AITools["AI 工具全景"]

    AITools --> Chat["對話型 AI\nChatGPT / Claude / Gemini"]
    AITools --> Code["程式碼助手\nCopilot / Cursor / Claude Code"]
    AITools --> Image["圖像生成\nDALL·E / Midjourney / SD"]
    AITools --> Media["語音 & 影片\nWhisper / ElevenLabs / Runway"]

    Chat --> ChatUse["日常問答、寫作\n分析、翻譯、brainstorm"]
    Code --> CodeUse["寫程式、debug\ncode review、重構"]
    Image --> ImageUse["設計素材、概念圖\n行銷圖片、UI mockup"]
    Media --> MediaUse["會議逐字稿、配音\n影片生成、字幕"]

    style AITools fill:#4a90d9,color:#fff
    style Chat fill:#f5a623,color:#fff
    style Code fill:#7ed321,color:#fff
    style Image fill:#9013fe,color:#fff
    style Media fill:#d0021b,color:#fff

對話型 AI：ChatGPT vs Claude vs Gemini

這是最多人每天在用的 AI 工具類型。三巨頭各有特色：

ChatGPT（OpenAI）

最早也最知名的對話 AI，生態系最完整
GPT-4o 綜合能力強，回應速度快
內建搜尋、圖片生成（DALL-E）、Code Interpreter
GPTs（自訂 AI 助手）和 Plugin 生態系
缺點：有時會「太想幫忙」而給出冗長回答

Claude（Anthropic）

以程式碼能力和長文分析著稱
200K context window，可以一次讀整本書或整個 codebase
風格更精確、更願意說「我不確定」
Claude Artifacts 可以即時生成互動式內容
缺點：不支援即時搜尋（需要透過工具整合）

Gemini（Google）

超長 context window（最高 2M tokens）
與 Google 生態深度整合（Gmail、Docs、Search）
多模態能力強，影片理解優秀
免費額度慷慨
缺點：在 coding 任務上稍弱於 Claude 和 GPT-4o

特性	ChatGPT (GPT-4o)	Claude 3.5 Sonnet	Gemini 1.5 Pro
Context Window	128K tokens	200K tokens	1M-2M tokens
程式碼能力	強	最強	中上
多模態	圖文、語音	圖文	圖文、影片、音訊
免費版本	GPT-4o mini	Claude 3.5 Sonnet (限量)	Gemini 1.5 Flash
付費價格	$20/月 (Plus)	$20/月 (Pro)	$20/月 (Advanced)
最適場景	通用問答、創意寫作	程式碼、分析、長文	長文件、Google 整合

程式碼助手：Copilot vs Cursor vs Claude Code

這是工程師最關心的類別。三個工具的定位不太一樣：

GitHub Copilot

最早的 AI coding assistant，和 GitHub 深度整合
支援所有主流 IDE（VS Code、JetBrains、Neovim）
擅長行內補全和簡單的 code generation
Copilot Chat 提供對話式開發體驗
價格： $10/ 月（ I n d i v i d u a l ）、$ 19/月（Business）

Cursor

基於 VS Code 的 AI-first IDE
Cursor Tab（智慧補全）+ Cursor Chat + Composer（多檔案編輯）
可以選用不同底層模型（GPT-4o、Claude、等）
Composer 模式可以跨檔案重構，理解整個專案結構
價格：$20/月（Pro）

Claude Code

Anthropic 的 CLI 工具，直接在終端機中運作
Agent 模式：可以自主讀取檔案、執行指令、跑測試
不依賴特定 IDE，適合 terminal-first 的開發者
適合大規模重構、建立整個 feature、自動化任務
價格：依 API 用量計費

特性	GitHub Copilot	Cursor	Claude Code
類型	IDE 外掛	AI-first IDE	CLI 工具
IDE 支援	VS Code、JetBrains、Neovim	自帶 IDE（VS Code fork）	任何 terminal
補全方式	行內即時補全	行內 + 多檔案	Agent 模式
多檔案操作	有限	Composer 支援	原生支援
最適場景	日常 coding、行內補全	全方位 AI 開發	大規模重構、automation
學習曲線	低	中	中高

圖像生成：DALL-E vs Midjourney vs Stable Diffusion

DALL-E 3（OpenAI）

整合在 ChatGPT 中，用文字描述就能生成
指令理解能力最好，中文 prompt 也能用
風格偏「乾淨」，適合商業用途
生成速度快，但風格選擇較少
商用友善（OpenAI 授權使用者擁有圖片權利）

Midjourney

藝術品質公認最高，風格多變
透過 Discord 操作（有點不直覺）
適合概念設計、行銷素材、藝術創作
價格：$10-60/月，依用量和速度分級
商用需付費方案

Stable Diffusion

完全開源，可本地部署
社群模型豐富（Civitai 等平台）
可以 fine-tune 自己的風格
需要 GPU 和技術能力來設定
完全免費（只需硬體成本）

面向	DALL-E 3	Midjourney	Stable Diffusion
品質	良好	最佳	依模型而定
易用性	最高（對話生成）	中（Discord）	低（需安裝設定）
費用	含在 ChatGPT Plus	$10-60/月	免費（需 GPU）
自訂性	低	中	最高
商用授權	友善	需付費版	開源（依 license）
最適場景	快速生成、商業用途	高品質藝術	大量生成、自訂模型

語音 & 影片：簡要介紹

這個領域發展也很快，簡要提幾個重要的：

Whisper（OpenAI） — 語音轉文字（STT）。開源、免費、支援多語言。可以本地跑，也可以用 API。會議逐字稿、Podcast 字幕的首選。

ElevenLabs — 文字轉語音（TTS）。語音品質極度自然，支援多語言和聲音克隆。適合 Podcast 配音、影片旁白、有聲書。

Runway — AI 影片生成和編輯。可以從文字或圖片生成影片片段，也支援 AI 影片特效。適合短影片製作、原型展示。

全景比較表

工具	價格帶	核心特色	最適場景
ChatGPT	免費 / $20/月	通用對話、生態系完整	日常問答、寫作、brainstorm
Claude	免費 / $20/月	長文分析、coding 能力強	程式碼、技術文件、深度分析
Gemini	免費 / $20/月	超長 context、Google 整合	長文件處理、跨 Google 服務
GitHub Copilot	$10-19/月	IDE 整合、行內補全	日常 coding
Cursor	$20/月	AI-first IDE、多檔案編輯	全方位 AI 開發
Claude Code	依 API 用量	CLI Agent、自主執行	大規模重構、自動化
DALL-E 3	含 ChatGPT Plus	文字生成圖片、簡單易用	快速產圖、商業素材
Midjourney	$10-60/月	藝術品質最高	設計、概念、行銷
Stable Diffusion	免費（需 GPU）	開源、可自訂	大量生成、客製化
Whisper	免費 / API 計費	語音轉文字、多語言	會議紀錄、字幕
ElevenLabs	$5-99/月	自然語音合成	配音、有聲書
Runway	$12-76/月	AI 影片生成與編輯	短影片、特效

我的選法：如何根據任務選工具

經過這一年多的使用，我歸納出一套選型思路：

Step 1：先確定任務類型

你的需求是什麼？
├── 寫程式 → 看 Step 2a
├── 寫文件 / 分析 → 看 Step 2b
├── 生成圖片 → 看 Step 2c
└── 其他（語音、影片...） → 看各領域專用工具

Step 2a：程式碼相關

日常 coding（補全、小修改）→ GitHub Copilot（已經融入你的 IDE）
需要跨檔案重構、大量生成 → Cursor Composer 或 Claude Code
只是問程式問題、要解釋 → Claude（對話模式就夠了）

Step 2b：文字/分析相關

需要分析長文件（PDF、程式碼庫）→ Claude（200K context）或 Gemini（1M+ context）
需要搜尋最新資訊 → ChatGPT（有搜尋功能）
日常翻譯、摘要、寫作 → 三家都行，選你習慣的

Step 2c：圖片相關

快速產一張圖，不挑剔品質 → DALL-E（ChatGPT 裡直接用）
需要高品質設計素材 → Midjourney
需要大量生成或客製風格 → Stable Diffusion

通用原則：

不要一次訂閱太多 — 先選一個對話 AI + 一個程式碼助手，夠用再加
善用免費額度 — Claude、Gemini、ChatGPT 的免費版已經很強了
工具會持續演進 — 半年前的比較可能已經不準，定期重新評估
選你常用的生態系 — 如果你 all-in VS Code，Copilot 或 Cursor 就比 CLI 工具方便

Terry Yao's Blog

分類

目錄