Data Warehouse

cover

文章列表

Apache Superset 0.35 二次开发指南:环境搭建、JWT 登录、ECharts 插件与权限扩展

本指南基于 Superset 0.35 源码二次开发实战,涵盖六大核心模块:环境配置 - Windows 下 Python 3.6 + Node 12 开发环境、依赖安装、软连接配置与前后端启动;JWT 认证 - 替换 Flask-Login 会话机制,通过重写 CustomAuthDBView 和 CustomSecurityManager 实现无状态 Token 登录;ECharts 集成 - 后端添加 EchartsBarViz 类处理数据,前端创建插件目录并注册到 MainPreset,配置 controlPanels 面板;页面扩展 - 新增路由与菜单、修改 webpack 入口构建独立 React 页面、移除默认导航栏;权限控制 - 使用 @has_access 装饰器,通过 ab_permission / ab_permission_view / ab_view_menu 三表管理角色与视图权限;生产优化 - 中文国际化设置、CSV 导出编码(utf-8-sig)、地图汉化(修改 china.geojson)、导出使用列别名(verbose_map)。

more...
Maxwell + Kafka + Bireme 同步实战

完整实战指南:从 MySQL binlog 配置到 Maxwell 实时采集 JSON、Kafka 消息队列传输、最终通过 Bireme 落地 Greenplum/HashData 的端到端数据同步方案。深度解析 bootstrap 全量初始化、分区倾斜优化、acks 可靠性配置、JavaScript 过滤器、多实例部署等核心技术点,附带 MissingTableMap、权限缺失、时区偏差等常见异常的排查思路与解决方案。

more...
数据血缘:从数据治理到影响分析的设计与落地

数据血缘(Data Lineage)是数据治理的核心能力:追溯数据来源、定位异常根因、评估影响范围。本文覆盖三级血缘(作业/表/字段)、采集方案、可视化(桑基图/关系图)、数据模型设计,并深入影响分析、版本管理、权限控制、质量信号集成等工程实践,助你构建可落地的血缘体系。

more...
从数据湖到数据仓库:概念对齐、分层落地与 Inmon/Kimball 建模取舍

本文梳理了数据仓库、数据集市与数据湖的核心概念与差异,并从工程视角总结了构建数仓的关键步骤。随后对比了 Inmon(自顶向下)与 Kimball(自底向上)两种数仓方法论,说明各自的适用场景与取舍。文章还给出了常见数仓分层(ODS/DWD/DWS/DM)的落地视图,并进一步解释事实表、维度表、缓慢变化维、退化维等关键建模概念,最后用星型、雪花、星座模型帮助读者建立更直观的建模框架。

more...