MEDALLION ARCHITECTURE

    Medallion Architecture: Bronze, Silver, Gold trong Data Lakehouse

    Medallion Architecture giúp tổ chức dữ liệu theo mức độ trưởng thành: raw data, dữ liệu đã làm sạch và dữ liệu sẵn sàng cho business hoặc AI.

    Vì sao quan trọng?

    Điểm cần hiểu trước khi ra quyết định

    Giải thích vai trò từng lớp theo cách dễ áp dụng cho doanh nghiệp.

    Làm rõ khi nào nên rút gọn hoặc mở rộng medallion pattern.

    Kết nối medallion với data quality, lineage, BI và AI/ML.

    01

    Bronze giữ dữ liệu gần nguồn để audit và tái xử lý

    Bronze layer thường lưu dữ liệu raw hoặc gần raw từ hệ thống nguồn. Đây là lớp quan trọng cho audit, replay và điều tra sự cố khi downstream dashboard hoặc model có số liệu bất thường.

    Không nên biến bronze thành lớp business-ready. Bronze cần metadata, ingestion time, source identifier và cơ chế giữ lịch sử đủ dùng.

    • Raw data, source metadata, ingestion timestamp và audit trail.
    • Giữ dữ liệu đủ để replay khi logic transformation thay đổi.
    • Quarantine dữ liệu lỗi thay vì âm thầm bỏ qua.

    02

    Silver làm sạch, chuẩn hóa và liên kết domain dữ liệu

    Silver layer là nơi deduplicate, validate, chuẩn hóa schema, join dữ liệu liên quan và xử lý late-arriving data. Đây là lớp mà data analyst hoặc data scientist có thể dùng để phân tích sâu hơn.

    Silver tốt giúp giảm việc mỗi phòng ban tự làm sạch dữ liệu theo cách riêng, từ đó giảm số liệu lệch giữa dashboard.

    • Schema enforcement, null handling, deduplication và type casting.
    • Chuẩn hóa customer, product, order, inventory hoặc finance domain.
    • Lineage rõ từ source sang silver table và downstream outputs.

    03

    Gold phục vụ KPI, semantic model, dashboard và AI feature

    Gold layer là nơi dữ liệu được mô hình hóa cho business: data mart, semantic model, KPI, aggregate table, dashboard hoặc feature table cho AI/ML.

    Gold cần có owner và định nghĩa metric rõ. Nếu không, lakehouse vẫn có thể tạo nhiều bảng đẹp nhưng business không biết bảng nào là nguồn chính thức.

    • KPI, data mart, semantic model và dashboard-ready tables.
    • Feature table, training dataset hoặc API dữ liệu cho AI use case.
    • Business sign-off cho metric và định nghĩa dữ liệu quan trọng.

    Đầu ra

    Nên có gì sau khi làm đúng?

    Bronze/Silver/Gold data zone design
    Data quality rules theo từng layer
    Lineage và ownership model
    Gold data mart, semantic model hoặc feature table blueprint

    FAQ

    Câu hỏi thường gặp

    Có bắt buộc dùng đủ Bronze, Silver, Gold không?

    Không bắt buộc. Với scope nhỏ có thể rút gọn, nhưng vẫn nên phân biệt raw, curated và business-ready data để dễ audit, tái xử lý và kiểm soát chất lượng.

    Gold layer có phải data warehouse không?

    Gold có thể đóng vai trò giống data mart hoặc semantic layer cho BI, nhưng vẫn nằm trong kiến trúc lakehouse và có thể dùng chung cho AI/ML hoặc downstream application.

    Medallion Architecture có dùng được ngoài Databricks không?

    Có. Đây là pattern tổ chức dữ liệu, có thể áp dụng với Microsoft Fabric, Snowflake, BigQuery, AWS/Azure/GCP native hoặc stack open-source nếu phù hợp.

    Cần biến dữ liệu phân tán thành nền tảng dùng được cho BI và AI?

    Uptech có thể audit hiện trạng dữ liệu, chọn use case MVP và thiết kế roadmap lakehouse phù hợp với ngân sách, bảo mật và năng lực đội nội bộ.

    Trao đổi với Uptech