scrapinghub开源了很多自己在做爬虫和数据服务积累的项目,很多都很有指导意义:
原文:open-source-at-scrapinghub
-
Scrapy Cloud 基于scrapy的云架构改进版本,无需事先管理服务器和规划容量
-
Scrapely 一个从HTML页面提取结构化数据的监督学习库。可以通过实例训练它和Scrapely自动提取所有类似的网页。为scrapinghub的Autoscraping服务提供支持
-
Slybot 结合Scrapy和Scrapely,成为一个独立的爬虫程序.加入可视化标记.
-
Pydepta 用于自动提取重复数据,实现基于"基于部分树对齐的web数据抽取"这篇论文
-
Webstruct 一个用于网页数据基于实体命名做机器学习的框架.
-
Loginform 处理自动登录的网页表单
-
Webpager 用于自动分析处理分页链接的工具
-
Splash 类似selenium或者webdriver的一个东东,用来渲染页面中包含js的网页.
Comments