Data Engineering2020-04-041664 字5 分钟数据仓库时光机:Pentaho缓慢增长维实战指南本文通过实战案例详解如何使用Pentaho处理数据仓库中的缓慢增长维(SCD)问题。从SCD概念入手,演示如何通过增加历史记录的方式追踪维度表变化,并提供完整的Pentaho配置步骤,帮助你轻松实现维度表的版本管理和历史数据追踪。 ETL PostgreSQL Pentahomore...
Data Engineering2020-04-042699 字7 分钟从数据湖到数据仓库:概念对齐、分层落地与 Inmon/Kimball 建模取舍本文梳理了数据仓库、数据集市与数据湖的核心概念与差异,并从工程视角总结了构建数仓的关键步骤。随后对比了 Inmon(自顶向下)与 Kimball(自底向上)两种数仓方法论,说明各自的适用场景与取舍。文章还给出了常见数仓分层(ODS/DWD/DWS/DM)的落地视图,并进一步解释事实表、维度表、缓慢变化维、退化维等关键建模概念,最后用星型、雪花、星座模型帮助读者建立更直观的建模框架。 Data Warehousemore...
Data Engineering2020-04-031397 字4 分钟Pentaho时间维度表最佳实践:全量、增量与混合抽取实战本文详解如何使用 Pentaho Data Integration (Kettle) 生成时间维度表,涵盖全量抽取、增量抽取和混合抽取三种模式,配合 PostgreSQL 实现标准缓慢变化维输出,并对比三种模式的适用场景与优劣,适合 ETL 初学者和数据工程师快速上手。 Data Warehouse ETL Pentahomore...
Data Engineering2020-04-013674 字10 分钟从零到能打:Pentaho CDE 仪表盘实战全攻略本文全面介绍 Pentaho CDE 开发实战:从 PBA 平台安装、CDE 三层架构(数据层、组件层、视图层)详解,到参数联动实现动态筛选,再到集成 ECharts 打造高颜值交互式 Dashboard。适合需要轻量级开源 BI 方案的开发者。 Pentaho Data Warehousemore...
Data Engineering2020-03-312417 字7 分钟从零开始玩转 Apache Superse从零开始玩转 Apache Superset:涵盖平台介绍、多系统安装部署、主流数据库与 Druid 数据源配置、交互式图表与仪表盘生成,以及 Chart API 和 Data API 的程序化调用,带你一站式体验轻量级 BI 平台的完整工作流。 Superset Data Warehousemore...
Data Engineering2020-03-311656 字5 分钟Pentaho 全家桶:从 ETL 到可视化,一个开源平台全搞定Pentaho 是基于 Java 的开源 BI 套件,涵盖 ETL、报表、仪表盘、数据分析全链路。本文介绍其三大核心套件——PDI(数据集成/Kettle)、PRD(报表设计)、PBA(BI 平台)的功能与优势,对比社区版与商业版差异,并展示统一数据交换、数仓迁移、数据脱敏、智能运维等典型应用场景,帮助你快速了解这把「数据工程瑞士军刀」的全貌。 Pentaho ETLmore...
Data Engineering2020-02-05Pentaho 安全管理一把梭:用 Rest API 搞定用户、角色与文件权限本文全面梳理了 Pentaho BA Server 的 Rest API 安全管理功能,涵盖用户增删改查与角色分配、角色的创建/删除/权限配置,以及文件与文件夹的 ACL 权限控制。所有示例基于 Basic Auth 认证,附带完整的 curl 请求指令与状态码说明。 Pentaho Data Warehousemore...