0xLuca5博客

= 共你相识三千天我无名无姓 =

cover

文章列表

Druid 入门:核心概念、架构与数据摄入/查询速览

本文以图书馆类比深入浅出地介绍 Druid 分布式分析型数据存储系统。首先阐述 Druid 的定位与技术特点(高吞吐摄入、低延迟查询、列存储、按时间切分),然后详解五类核心节点架构(Broker 接查询、Indexer 导入、Historical 存储段、Coordinator 调度、外部依赖 ZooKeeper/MetaStore/Deep Storage),并介绍核心概念 DataSource、Event、Segment。数据摄入部分覆盖批处理(本地文件、HDFS、CSV)与实时摄入(Tranquility Server/Kafka、Kafka Indexing Service),对比 Realtime 节点与 Kafka Indexing Service 的优劣。查询部分介绍 REST API 的常用查询类型(Timeseries、TopN、GroupBy、Scan 等)以及 Druid SQL 的启用与使用要点。全文通过生动类比与实战配置帮助读者快速上手 Druid。

more...
Maxwell + Kafka + Bireme 同步实战

完整实战指南:从 MySQL binlog 配置到 Maxwell 实时采集 JSON、Kafka 消息队列传输、最终通过 Bireme 落地 Greenplum/HashData 的端到端数据同步方案。深度解析 bootstrap 全量初始化、分区倾斜优化、acks 可靠性配置、JavaScript 过滤器、多实例部署等核心技术点,附带 MissingTableMap、权限缺失、时区偏差等常见异常的排查思路与解决方案。

more...
Scrapy 爬虫服务化实战:Scrapyd 部署、API 调度与 ScrapydWeb 集群监控

本文系统讲解如何将 Scrapy 爬虫从本地脚本升级为生产级服务:从单机到集群的 3 种部署方案选型,Scrapyd 后端服务的安装、配置与项目发布流程,完整的 HTTP API 调度速查表(schedule/listjobs/cancel),Nginx 反向代理 + 鉴权的安全加固方案,ScrapydWeb 多节点可视化管理台搭建,以及「远程调用」与「爬虫即服务」两个工程化落地场景,帮你把爬虫能力快速开放给数据平台、定时任务与运营后台。

more...
B 树 / B+ 树 / B* 树:从原理到 CRUD,再到数据库索引实战

从磁盘 I/O 优化视角深入解析 B 树家族:讲解多路查找树如何用更宽更矮的结构减少磁盘访问,剖析 B 树的平衡约束与分裂/合并机制,对比 B+ 树如何通过叶子链表优化范围查询,介绍 B* 树的节点重分配策略,最后落地到 PostgreSQL、MySQL InnoDB 等数据库索引的实战应用场景,帮你理解为什么数据库索引几乎都选择 B 树家族。

more...
数据血缘:从数据治理到影响分析的设计与落地

数据血缘(Data Lineage)是数据治理的核心能力:追溯数据来源、定位异常根因、评估影响范围。本文覆盖三级血缘(作业/表/字段)、采集方案、可视化(桑基图/关系图)、数据模型设计,并深入影响分析、版本管理、权限控制、质量信号集成等工程实践,助你构建可落地的血缘体系。

more...
...