Big Data

cover

文章列表

Apache Superset 0.35 二次开发指南:环境搭建、JWT 登录、ECharts 插件与权限扩展

本指南基于 Superset 0.35 源码二次开发实战,涵盖六大核心模块:环境配置 - Windows 下 Python 3.6 + Node 12 开发环境、依赖安装、软连接配置与前后端启动;JWT 认证 - 替换 Flask-Login 会话机制,通过重写 CustomAuthDBView 和 CustomSecurityManager 实现无状态 Token 登录;ECharts 集成 - 后端添加 EchartsBarViz 类处理数据,前端创建插件目录并注册到 MainPreset,配置 controlPanels 面板;页面扩展 - 新增路由与菜单、修改 webpack 入口构建独立 React 页面、移除默认导航栏;权限控制 - 使用 @has_access 装饰器,通过 ab_permission / ab_permission_view / ab_view_menu 三表管理角色与视图权限;生产优化 - 中文国际化设置、CSV 导出编码(utf-8-sig)、地图汉化(修改 china.geojson)、导出使用列别名(verbose_map)。

more...
Druid 入门:核心概念、架构与数据摄入/查询速览

本文以图书馆类比深入浅出地介绍 Druid 分布式分析型数据存储系统。首先阐述 Druid 的定位与技术特点(高吞吐摄入、低延迟查询、列存储、按时间切分),然后详解五类核心节点架构(Broker 接查询、Indexer 导入、Historical 存储段、Coordinator 调度、外部依赖 ZooKeeper/MetaStore/Deep Storage),并介绍核心概念 DataSource、Event、Segment。数据摄入部分覆盖批处理(本地文件、HDFS、CSV)与实时摄入(Tranquility Server/Kafka、Kafka Indexing Service),对比 Realtime 节点与 Kafka Indexing Service 的优劣。查询部分介绍 REST API 的常用查询类型(Timeseries、TopN、GroupBy、Scan 等)以及 Druid SQL 的启用与使用要点。全文通过生动类比与实战配置帮助读者快速上手 Druid。

more...
Maxwell + Kafka + Bireme 同步实战

完整实战指南:从 MySQL binlog 配置到 Maxwell 实时采集 JSON、Kafka 消息队列传输、最终通过 Bireme 落地 Greenplum/HashData 的端到端数据同步方案。深度解析 bootstrap 全量初始化、分区倾斜优化、acks 可靠性配置、JavaScript 过滤器、多实例部署等核心技术点,附带 MissingTableMap、权限缺失、时区偏差等常见异常的排查思路与解决方案。

more...
Canal 从原理到实战:单机部署、Kafka、HA 与 canal-admin

本文介绍 Canal 的核心原理与部署使用流程:从 MySQL Binlog/主从复制机制出发,说明 Canal 的工作方式;给出 MySQL 环境与权限配置、单机 Canal 部署与 Canal Client 示例;进一步讲解对接 Kafka 的关键参数、消费示例与位点保存;最后补充 HA 架构与 canal-admin 的安装与注册要点,帮助快速搭建可用于生产的增量订阅链路。

more...