✍️ Khoa📅 19/04/2026☕ 1 phút đọc

🏗️ Data Platform & Streaming Architecture

Backend engineer và data engineer ngày càng overlap. Khi product cần analytics, recommendation, hoặc real-time dashboard — ai là người thiết kế pipeline? Ai quyết định CDC hay batch ETL? Ai ensure data contract không bị break khi microservice đổi schema?

Data Platform không phải "việc của team Data". Đây là infrastructure concern mà backend engineer ở Staff level cần hiểu đủ để partner với data team, review kiến trúc, và tránh những quyết định làm data pipeline vỡ về sau.

Mục lục

Bài Nội dung Mức độ
CDC & Event Streaming Debezium, logical replication, binlog tailing, outbox trong streaming context, exactly-once CDC, schema evolution. Advanced
Data Platform Architecture Lakehouse (Iceberg/Delta), dbt, orchestration (Airflow/Prefect), data contract, reverse ETL, real-time OLAP (ClickHouse/Druid). Advanced

Learning path

  1. CDC — Hiểu Change Data Capture trước khi thiết kế bất kỳ integration nào giữa services và data warehouse.
  2. Data Platform — Map được các components của modern data stack và tradeoffs giữa streaming vs batch.