🏗️ Data Platform & Streaming Architecture
Backend engineer và data engineer ngày càng overlap. Khi product cần analytics, recommendation, hoặc real-time dashboard — ai là người thiết kế pipeline? Ai quyết định CDC hay batch ETL? Ai ensure data contract không bị break khi microservice đổi schema?
Data Platform không phải "việc của team Data". Đây là infrastructure concern mà backend engineer ở Staff level cần hiểu đủ để partner với data team, review kiến trúc, và tránh những quyết định làm data pipeline vỡ về sau.
Mục lục
| Bài | Nội dung | Mức độ |
|---|---|---|
| CDC & Event Streaming | Debezium, logical replication, binlog tailing, outbox trong streaming context, exactly-once CDC, schema evolution. | Advanced |
| Data Platform Architecture | Lakehouse (Iceberg/Delta), dbt, orchestration (Airflow/Prefect), data contract, reverse ETL, real-time OLAP (ClickHouse/Druid). | Advanced |
Learning path
- CDC — Hiểu Change Data Capture trước khi thiết kế bất kỳ integration nào giữa services và data warehouse.
- Data Platform — Map được các components của modern data stack và tradeoffs giữa streaming vs batch.