計畫文件,不會被 Quartz 渲染。
回主 roadmap → infra/ROADMAP.md
章節目標
Platform Engineering = 建一個內部平台讓產品團隊能自助開發、部署、運維。本章聚焦「建立這個平台的方法論」——IDP(Internal Developer Platform)設計、Backstage 治理、DX 量測、Team Topologies、Self-service infra patterns。
跟 ops-notes/ 分工(重要):
- I10(本章)講 how to build operational capability — 建平台、設計 runbook 系統、定 on-call 流程
ops-notes/ 講 what specifically happened — 真實踩坑案例、具體 runbook 內容、K8s 特定問題的診斷
- 原本 I10 的 F10-D Runbook 設計 / F10-E K8s Troubleshooting 全部歸
ops-notes/
- 原本 I10 的 F10-F FinOps 日常 / Capacity Planning 全部歸 I08 Cloud
跟 backend 分工:backend 講寫 code;本章講讓寫 code 的人生活更好的 platform 工作。
🌱 基本介紹
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 01 | Platform Engineering 是什麼 | 01-what-is-platform-engineering | 🌱 | 2023-2026 興起的新角色;跟 DevOps / SRE 的差異;內部平台團隊的價值 |
❓ 為什麼需要
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 02 | 為什麼 DevOps 不夠還要 Platform | 02-why-platform-eng | 🌱 | 每 team 自己搞 infra 太亂;Cognitive load 爆;內部 platform 把複雜度藏起來 |
| 03 | 為什麼 DX 是 infra 的責任 | 03-why-dx-is-infra-concern | 🌱 | Dev 花時間在 infra 而不是 feature = 浪費;infra 團隊要為 dev 效率負責 |
🕰️ 演進
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 04 | DevOps → SRE → Platform Engineering 演進 | 04-devops-to-platform-evolution | 🌱 | DevOps(2009)→ SRE(Google 2003-2016 book)→ Platform Engineering(2023+);每代解什麼新問題 |
| 05 | Platform 演進驅動力 | 05-platform-evolution-drivers | 🌱 | DevOps 單點依賴撞牆(bus factor)→ SRE 制度化;SRE 專業化太深 dev 不懂撞牆 → Platform 建內部工具;Internal tool 散亂撞牆 → Backstage / IDP 整合 |
🧠 知識型
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 06 | Platform 跟 DevOps / SRE 邊界 | 06-platform-vs-devops-vs-sre | 🌱 | 職責 / 成果 / 工具鏈區分;團隊 structure 選擇 |
| 07 | Team Topologies(Stream / Platform / Enabling / Complicated-subsystem) | 07-team-topologies | 🌱 | 4 種團隊型態;跟組織設計的關係;Conway’s Law |
| 08 | Internal Developer Platform 全景 | 08-idp-landscape | 🌱 | Backstage / Port / Cortex / Humanitec;self-service 核心概念 |
F10-B Developer Experience
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 09 | DX 量測指標(DORA / SPACE / DX Survey) | 09-dx-metrics | 🌱 | Deployment frequency / Lead time / MTTR / Change failure;怎麼量、怎麼改進 |
| 10 | Onboarding 流程 infra 面 | 10-onboarding-infra | 🌱 | 新人 Day-1 能跑起來什麼;Cloud access / tooling / 文件 |
| 11 | Local Dev 環境標準化 | 11-local-dev-standardization | 🌱 | Docker Compose / Tilt / Skaffold / DevPod;跨 team 一致性 |
| 12 | DX 本機開發實戰(吸收 micro-service/52) | ⛔️ backend/micro-service/52-dx-local-development | 🌿 | 跨系列 |
| 13 | DX Debugging 工作流(吸收 micro-service/53) | ⛔️ backend/micro-service/53-dx-debugging | 🌿 | 跨系列 |
F10-C 內部工具 & IDP
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 14 | Backstage 部署與治理 | 14-backstage-deploy | 🌱 | 安裝 / Plugin / TechDocs / Software Templates;跟 org 整合成本 |
| 15 | Service Catalog 設計 | 15-service-catalog | 🌱 | 每個 service 元資料(owner / SLO / runbook link / dashboard link) |
| 16 | Self-service Infra(Template / Blueprint) | 16-self-service-infra | 🌱 | Terraform 模組 / Crossplane XR;dev 用一鍵開 infra;跟 I07 IaC 連動 |
F10-D ChatOps & 知識管理
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 17 | ChatOps 整合 | 17-chatops-integration | 🌱 | Slack / Teams bot;自動化查詢與操作;具體 runbook 內容見 ops-notes/ |
| 18 | Tribal Knowledge 文件化 | 18-tribal-knowledge-docs | 🌱 | 從人腦到 wiki 的流程;知識搜尋;staleness 問題 |
F10-E Developer Environment Strategy(統整)
「開發者能不能跑起來」散落在 I07 Ephemeral Env、I10 onboarding、I10 Local Dev 三處。這節拉出一個統一視角:從 Day-0 onboarding 到 Day-N daily work 的完整 dev env strategy。
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 19 | Developer Environment Strategy 全景 | 19-dev-env-strategy | 🌱 | Day-0(onboarding 機器 / cloud access)、Day-1(first commit / first PR)、Day-N(每日 local dev / test / debug)、Per-PR(Ephemeral env)的 end-to-end 設計;跟 I07 #30、I10 #10、#11 連動 |
| 20 | Remote / Cloud Dev Environment | 20-remote-cloud-dev-env | 🌱 | GitHub Codespaces / Gitpod / Coder / DevPod;個人筆電越來越無力(VRAM / CPU)下,把 dev env 移到雲的策略;跟 local dev 共存 |
🔧 小實作注意事項
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 21 | 從零建個人 IDP(Backstage) | 21-backstage-from-scratch | 🌱 | Hello world → Software Catalog → Templates → TechDocs |
| 22 | Service Catalog 建立 | 22-service-catalog-build | 🌱 | 整理 team 所有 service;owner / SLO / on-call 映射 |
💣 Anti-pattern
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 23 | Platform Engineering Anti-patterns | 23-platform-antipatterns | 🌱 | Platform team 當 ticket agent(變成障礙);Onboarding 靠師傅帶沒文件;IDP 項目買了不用;自助 infra 沒 guardrails 造成亂象;平台團隊不寫 dashboard 不用自己的產品;DX metric 只看產能不看痛點;Dev env 散落沒整體策略;laptop dev 撞資源牆但不考慮 remote dev env |
🧰 對應檢查工具
| # | 主題 | Slug | Stage | 大綱 |
|---|
| 24 | Platform Engineering 工具 | 24-platform-tooling | 🌱 | Backstage / Port / Cortex(IDP)、DX(Jellyfish / LinearB)、Slack / Teams bot、Humanitec(platform orchestration)、GitHub Codespaces / Gitpod / Coder(remote dev env) |
📎 補充
| # | 主題 | Slug | Stage | 大綱 |
|---|
| S01 | 5 人團隊的 Platform 策略 | s01-small-team-platform | 🌱 | 不可能全搞 Backstage;什麼是 minimal platform;外包 vs 自建 |
| S02 | Platform 團隊 metrics | s02-platform-team-metrics | 🌱 | DevEx survey / internal NPS;不是越多 feature 越好 |
章節進度統計
- 知識主題:22 + 2 補充 = 24 項
- 🌿 growing:2(micro-service pointer)
- 🌱 seed:22
本章內容範圍變更(2026-04):
- 改名
platform-day2/ → platform-engineering/
- 移除 F10-D Runbook & Documentation(Runbook 系統設計、ChatOps 深入、Tribal knowledge 的 runbook 面)→ 搬
ops-notes/
- 移除 F10-E K8s Troubleshooting & 維運 → 搬
ops-notes/
- 移除 F10-F Cost & Capacity Management → 搬 I08 Cloud
- 為什麼段 #04 why-Runbook 一起搬
ops-notes/(概念上 Runbook 是 ops-notes 的本位)
- 整章重編號(01-22 + S01/S02,原 30 題縮成 22 題)
跨系列連結
- →
ops-notes/(核心對照系列:Runbook、K8s Troubleshooting、真實 incident case)
- →
backend/micro-service/52-53(DX 實戰已 pointer)
- →
common/people/career/(Platform engineer 職涯)
- →
common/quality/standards/08-good-dx
- →
infra/disaster-recovery/ I09 #26 DR event 閉環 workflow(alert → ticket → runbook → case → postmortem)
- →
management/engineering-process/(開發流程)
- → I07 CI-CD(Self-service infra 跟 IaC 連動)
- → I08 Cloud(FinOps 日常 / Capacity Planning 歸這)