Data Platform Architecture — Modern Data Stack Cho Backend Engineer
Data platform là infrastructure mà mọi analytics, reporting, và ML feature của product đều depend vào. Backend engineer không cần build nó — nhưng cần hiểu đủ để: review kiến trúc, avoid những quyết định microservice làm data pipeline vỡ, và partner hiệu quả với data team.
Bài này map modern data stack: data lakehouse pattern (Delta Lake, Apache Iceberg — tại sao thay thế data warehouse truyền thống), dbt như transformation layer, orchestration (Airflow vs Prefect vs Dagster — trade-offs thực tế), data contract giữa producer và consumer, reverse ETL, và real-time OLAP engines (ClickHouse, Apache Druid, Apache Pinot) cho trường hợp cần analytics với latency milliseconds.
Sẽ sớm cập nhật.