Data Engineering

cover
Data Engineering

文章列表

从数据湖到数据仓库:概念对齐、分层落地与 Inmon/Kimball 建模取舍

本文梳理了数据仓库、数据集市与数据湖的核心概念与差异,并从工程视角总结了构建数仓的关键步骤。随后对比了 Inmon(自顶向下)与 Kimball(自底向上)两种数仓方法论,说明各自的适用场景与取舍。文章还给出了常见数仓分层(ODS/DWD/DWS/DM)的落地视图,并进一步解释事实表、维度表、缓慢变化维、退化维等关键建模概念,最后用星型、雪花、星座模型帮助读者建立更直观的建模框架。

more...
Pentaho 全家桶:从 ETL 到可视化,一个开源平台全搞定

Pentaho 是基于 Java 的开源 BI 套件,涵盖 ETL、报表、仪表盘、数据分析全链路。本文介绍其三大核心套件——PDI(数据集成/Kettle)、PRD(报表设计)、PBA(BI 平台)的功能与优势,对比社区版与商业版差异,并展示统一数据交换、数仓迁移、数据脱敏、智能运维等典型应用场景,帮助你快速了解这把「数据工程瑞士军刀」的全貌。

more...