Incident Management & Postmortem Culture — Từ Chaos Đến Learning
Incident response không phải chỉ là "fix bug nhanh". Đó là một discipline có structure: ai lead, ai communicate với stakeholders, ai document timeline, và sau đó làm sao biến incident thành systemic improvement thay vì chỉ là bad memory.
Bài này cover severity classification framework thực tế, incident response roles (Incident Commander, Comms Lead, Scribe), communication cadence trong incident (nội bộ và status page), và — quan trọng nhất — blameless postmortem: không phải để tìm người có lỗi, mà để tìm system weakness và build action items thực sự được resolve. Staff engineer lead high-severity incidents khác gì Senior engineer — và đó là điều bài này sẽ giải thích.
Sẽ sớm cập nhật.