Scrapy

cover

文章列表

PySpider 入门:从安装踩坑到爬取 Shopify 应用

本文介绍 PySpider 这个自带 WebUI 的爬虫框架,适合快速搭建中小规模抓取任务。详解安装踩坑点(Python 3.6 兼容性、werkzeug 版本降级、PhantomJS 配置)与启动卡死问题(result_worker 双窗口启动法);对比 PySpider 与 Scrapy 在可视化调试、工程化、扩展性上的差异;以爬取 Shopify 应用列表为完整示例,展示从 on_start 生成任务、index_page 解析页面、到 on_result 调用自定义 MySQL 模块落库的完整数据流;提供建表 SQL、pymysql 封装脚本与 WebUI 任务监控要点。

more...
Scrapy 爬虫服务化实战:Scrapyd 部署、API 调度与 ScrapydWeb 集群监控

本文系统讲解如何将 Scrapy 爬虫从本地脚本升级为生产级服务:从单机到集群的 3 种部署方案选型,Scrapyd 后端服务的安装、配置与项目发布流程,完整的 HTTP API 调度速查表(schedule/listjobs/cancel),Nginx 反向代理 + 鉴权的安全加固方案,ScrapydWeb 多节点可视化管理台搭建,以及「远程调用」与「爬虫即服务」两个工程化落地场景,帮你把爬虫能力快速开放给数据平台、定时任务与运营后台。

more...