I10 · Platform Engineering 詳細 ROADMAP

計畫文件,不會被 Quartz 渲染。 回主 roadmap → infra/ROADMAP.md


章節目標

Platform Engineering = 建一個內部平台讓產品團隊能自助開發、部署、運維。本章聚焦「建立這個平台的方法論」——IDP(Internal Developer Platform)設計、Backstage 治理、DX 量測、Team Topologies、Self-service infra patterns。

ops-notes/ 分工(重要):

  • I10(本章)講 how to build operational capability — 建平台、設計 runbook 系統、定 on-call 流程
  • ops-notes/what specifically happened — 真實踩坑案例、具體 runbook 內容、K8s 特定問題的診斷
  • 原本 I10 的 F10-D Runbook 設計 / F10-E K8s Troubleshooting 全部歸 ops-notes/
  • 原本 I10 的 F10-F FinOps 日常 / Capacity Planning 全部歸 I08 Cloud

跟 backend 分工:backend 講寫 code;本章講讓寫 code 的人生活更好的 platform 工作


🌱 基本介紹

#主題SlugStage大綱
01Platform Engineering 是什麼01-what-is-platform-engineering🌱2023-2026 興起的新角色;跟 DevOps / SRE 的差異;內部平台團隊的價值

❓ 為什麼需要

#主題SlugStage大綱
02為什麼 DevOps 不夠還要 Platform02-why-platform-eng🌱每 team 自己搞 infra 太亂;Cognitive load 爆;內部 platform 把複雜度藏起來
03為什麼 DX 是 infra 的責任03-why-dx-is-infra-concern🌱Dev 花時間在 infra 而不是 feature = 浪費;infra 團隊要為 dev 效率負責

🕰️ 演進

#主題SlugStage大綱
04DevOps → SRE → Platform Engineering 演進04-devops-to-platform-evolution🌱DevOps(2009)→ SRE(Google 2003-2016 book)→ Platform Engineering(2023+);每代解什麼新問題
05Platform 演進驅動力05-platform-evolution-drivers🌱DevOps 單點依賴撞牆(bus factor)→ SRE 制度化;SRE 專業化太深 dev 不懂撞牆 → Platform 建內部工具;Internal tool 散亂撞牆 → Backstage / IDP 整合

🧠 知識型

F10-A Platform Engineering 基礎

#主題SlugStage大綱
06Platform 跟 DevOps / SRE 邊界06-platform-vs-devops-vs-sre🌱職責 / 成果 / 工具鏈區分;團隊 structure 選擇
07Team Topologies(Stream / Platform / Enabling / Complicated-subsystem)07-team-topologies🌱4 種團隊型態;跟組織設計的關係;Conway’s Law
08Internal Developer Platform 全景08-idp-landscape🌱Backstage / Port / Cortex / Humanitec;self-service 核心概念

F10-B Developer Experience

#主題SlugStage大綱
09DX 量測指標(DORA / SPACE / DX Survey)09-dx-metrics🌱Deployment frequency / Lead time / MTTR / Change failure;怎麼量、怎麼改進
10Onboarding 流程 infra 面10-onboarding-infra🌱新人 Day-1 能跑起來什麼;Cloud access / tooling / 文件
11Local Dev 環境標準化11-local-dev-standardization🌱Docker Compose / Tilt / Skaffold / DevPod;跨 team 一致性
12DX 本機開發實戰(吸收 micro-service/52)⛔️ backend/micro-service/52-dx-local-development🌿跨系列
13DX Debugging 工作流(吸收 micro-service/53)⛔️ backend/micro-service/53-dx-debugging🌿跨系列

F10-C 內部工具 & IDP

#主題SlugStage大綱
14Backstage 部署與治理14-backstage-deploy🌱安裝 / Plugin / TechDocs / Software Templates;跟 org 整合成本
15Service Catalog 設計15-service-catalog🌱每個 service 元資料(owner / SLO / runbook link / dashboard link)
16Self-service Infra(Template / Blueprint)16-self-service-infra🌱Terraform 模組 / Crossplane XR;dev 用一鍵開 infra;跟 I07 IaC 連動

F10-D ChatOps & 知識管理

#主題SlugStage大綱
17ChatOps 整合17-chatops-integration🌱Slack / Teams bot;自動化查詢與操作;具體 runbook 內容見 ops-notes/
18Tribal Knowledge 文件化18-tribal-knowledge-docs🌱從人腦到 wiki 的流程;知識搜尋;staleness 問題

F10-E Developer Environment Strategy(統整)

開發者能不能跑起來」散落在 I07 Ephemeral Env、I10 onboarding、I10 Local Dev 三處。這節拉出一個統一視角:從 Day-0 onboarding 到 Day-N daily work 的完整 dev env strategy。

#主題SlugStage大綱
19Developer Environment Strategy 全景19-dev-env-strategy🌱Day-0(onboarding 機器 / cloud access)、Day-1(first commit / first PR)、Day-N(每日 local dev / test / debug)、Per-PR(Ephemeral env)的 end-to-end 設計;跟 I07 #30、I10 #10、#11 連動
20Remote / Cloud Dev Environment20-remote-cloud-dev-env🌱GitHub Codespaces / Gitpod / Coder / DevPod;個人筆電越來越無力(VRAM / CPU)下,把 dev env 移到雲的策略;跟 local dev 共存

🔧 小實作注意事項

#主題SlugStage大綱
21從零建個人 IDP(Backstage)21-backstage-from-scratch🌱Hello world → Software Catalog → Templates → TechDocs
22Service Catalog 建立22-service-catalog-build🌱整理 team 所有 service;owner / SLO / on-call 映射

💣 Anti-pattern

#主題SlugStage大綱
23Platform Engineering Anti-patterns23-platform-antipatterns🌱Platform team 當 ticket agent(變成障礙);Onboarding 靠師傅帶沒文件;IDP 項目買了不用;自助 infra 沒 guardrails 造成亂象;平台團隊不寫 dashboard 不用自己的產品;DX metric 只看產能不看痛點;Dev env 散落沒整體策略laptop dev 撞資源牆但不考慮 remote dev env

🧰 對應檢查工具

#主題SlugStage大綱
24Platform Engineering 工具24-platform-tooling🌱Backstage / Port / Cortex(IDP)、DX(Jellyfish / LinearB)、Slack / Teams bot、Humanitec(platform orchestration)、GitHub Codespaces / Gitpod / Coder(remote dev env)

📎 補充

#主題SlugStage大綱
S015 人團隊的 Platform 策略s01-small-team-platform🌱不可能全搞 Backstage;什麼是 minimal platform;外包 vs 自建
S02Platform 團隊 metricss02-platform-team-metrics🌱DevEx survey / internal NPS;不是越多 feature 越好

章節進度統計

  • 知識主題:22 + 2 補充 = 24 項
  • 🌿 growing:2(micro-service pointer)
  • 🌱 seed:22

本章內容範圍變更(2026-04)

  • 改名 platform-day2/platform-engineering/
  • 移除 F10-D Runbook & Documentation(Runbook 系統設計、ChatOps 深入、Tribal knowledge 的 runbook 面)→ 搬 ops-notes/
  • 移除 F10-E K8s Troubleshooting & 維運 → 搬 ops-notes/
  • 移除 F10-F Cost & Capacity Management → 搬 I08 Cloud
  • 為什麼段 #04 why-Runbook 一起搬 ops-notes/(概念上 Runbook 是 ops-notes 的本位)
  • 整章重編號(01-22 + S01/S02,原 30 題縮成 22 題)

跨系列連結

  • ops-notes/核心對照系列:Runbook、K8s Troubleshooting、真實 incident case)
  • backend/micro-service/52-53(DX 實戰已 pointer)
  • common/people/career/(Platform engineer 職涯)
  • common/quality/standards/08-good-dx
  • infra/disaster-recovery/ I09 #26 DR event 閉環 workflow(alert → ticket → runbook → case → postmortem)
  • management/engineering-process/(開發流程)
  • → I07 CI-CD(Self-service infra 跟 IaC 連動)
  • → I08 Cloud(FinOps 日常 / Capacity Planning 歸這)