Data Engineering

cover
Data Engineering

文章列表

Apache Superset 0.35 二次开发指南:环境搭建、JWT 登录、ECharts 插件与权限扩展

本指南基于 Superset 0.35 源码二次开发实战,涵盖六大核心模块:环境配置 - Windows 下 Python 3.6 + Node 12 开发环境、依赖安装、软连接配置与前后端启动;JWT 认证 - 替换 Flask-Login 会话机制,通过重写 CustomAuthDBView 和 CustomSecurityManager 实现无状态 Token 登录;ECharts 集成 - 后端添加 EchartsBarViz 类处理数据,前端创建插件目录并注册到 MainPreset,配置 controlPanels 面板;页面扩展 - 新增路由与菜单、修改 webpack 入口构建独立 React 页面、移除默认导航栏;权限控制 - 使用 @has_access 装饰器,通过 ab_permission / ab_permission_view / ab_view_menu 三表管理角色与视图权限;生产优化 - 中文国际化设置、CSV 导出编码(utf-8-sig)、地图汉化(修改 china.geojson)、导出使用列别名(verbose_map)。

more...
Druid 入门:核心概念、架构与数据摄入/查询速览

本文以图书馆类比深入浅出地介绍 Druid 分布式分析型数据存储系统。首先阐述 Druid 的定位与技术特点(高吞吐摄入、低延迟查询、列存储、按时间切分),然后详解五类核心节点架构(Broker 接查询、Indexer 导入、Historical 存储段、Coordinator 调度、外部依赖 ZooKeeper/MetaStore/Deep Storage),并介绍核心概念 DataSource、Event、Segment。数据摄入部分覆盖批处理(本地文件、HDFS、CSV)与实时摄入(Tranquility Server/Kafka、Kafka Indexing Service),对比 Realtime 节点与 Kafka Indexing Service 的优劣。查询部分介绍 REST API 的常用查询类型(Timeseries、TopN、GroupBy、Scan 等)以及 Druid SQL 的启用与使用要点。全文通过生动类比与实战配置帮助读者快速上手 Druid。

more...
Maxwell + Kafka + Bireme 同步实战

完整实战指南:从 MySQL binlog 配置到 Maxwell 实时采集 JSON、Kafka 消息队列传输、最终通过 Bireme 落地 Greenplum/HashData 的端到端数据同步方案。深度解析 bootstrap 全量初始化、分区倾斜优化、acks 可靠性配置、JavaScript 过滤器、多实例部署等核心技术点,附带 MissingTableMap、权限缺失、时区偏差等常见异常的排查思路与解决方案。

more...
数据血缘:从数据治理到影响分析的设计与落地

数据血缘(Data Lineage)是数据治理的核心能力:追溯数据来源、定位异常根因、评估影响范围。本文覆盖三级血缘(作业/表/字段)、采集方案、可视化(桑基图/关系图)、数据模型设计,并深入影响分析、版本管理、权限控制、质量信号集成等工程实践,助你构建可落地的血缘体系。

more...
从零到一:在Superset中打造炫酷的Echarts中国地图可视化组件

本文是一份完整的技术实战指南,详细讲解如何将Echarts的中国地图组件深度集成到Apache Superset数据可视化平台中。教程涵盖完整的开发链路:前端部分包括React组件封装、Echarts配置、插件注册和控件开发,后端部分包括Python数据处理、省份名称标准化和SQLite查询优化。文章提供了可直接使用的完整代码实现,包括地图渲染、tooltip交互、visualMap配置、特效散点等核心功能。此外还介绍了三种实用配置选项(visualMap、显示点、显示省份)及其应用场景,涵盖商业分析(销售分布、用户地域分析、物流监控)和公共服务(疫情监控、天气预警、人口统计)等多个领域。基于Windows 10、Python 3.6.8、Node.js 12.15.0和Superset 0.35环境验证,同样适用于Linux和macOS系统。通过本教程,你将掌握Superset自定义可视化组件的完整开发流程,学会将第三方图表库无缝集成到Superset,并为后续扩展更多Echarts图表类型(如省份下钻、移动端优化等)打下坚实基础。

more...
如何在 Superset 中集成自定义 Echarts 饼图

本文详细介绍了如何在Apache Superset中集成Echarts饼图组件的完整流程。从前端开发(创建插件结构、实现核心文件、注册组件、配置控制面板)到后端开发(修改viz.py、实现数据处理逻辑),涵盖了所有必要的代码实现和配置步骤。文章还展示了镂空和实心两种饼图效果,并探讨了业务分析、用户行为分析等实际应用场景。通过掌握这套方法,开发者可以轻松扩展Superset的可视化能力,打造符合特定业务需求的自定义图表。

more...