Search Fundamentals & Elasticsearch — Từ Inverted Index Đến Production Cluster
Elasticsearch có API đơn giản đến mức bạn có thể index data và search trong 10 phút. Nhưng khi cluster có vấn đề — shard unassigned, heap pressure, slow queries, relevance ranking sai — bạn cần hiểu internals mới debug được.
Bài này bắt đầu từ inverted index (tại sao search nhanh như vậy), giải thích TF-IDF và BM25 scoring (tại sao document này xuất hiện trước document kia), rồi đi vào Elasticsearch architecture: shard routing, replica sync, coordination node, và near-real-time search delay. Sau đó là query DSL thực chiến: khi nào dùng match vs term vs bool, và aggregations cho faceted search.
Sẽ sớm cập nhật.