起因
公司沙笔要求使用这种采集工具.
我去研究下,"八爪鱼采集工具"能够完成沙笔提出的需求.
写个笔记记录下使用过程.
简介可视化采集的目标是脱离编程实现数据采集.
市面上有好几款采集软件,对比下选中了八爪鱼octopus.
八爪鱼是可视化的网页数据采集工具.
八爪鱼有国内版和国际版.
可配置规则抓取指定网站数据,提供(收费)云采集平台.
优点/缺点优点:不需编写爬虫脚本,可提供低成本快速的采集互联网数据的解决方案.
缺点:
无法实现复杂判断逻辑和随机间隔.
无法实现ocr功能.
购买旗舰+版本才能使用API全部功能.
安装再搜索引擎搜索bazhuayu,进入下载页面下载软件
点击软件安装包,按照提示一步步完成.
注册使用octopus软件前,需要先注册一个octopus账号.
任务账号登录成功后,可以在两个地方开始创建任务
如图文字1.2可以快速创建任务
图文字1.1使用多种方式创建任务
开启浏览模式,可以点击页面上的按钮来到目标页面
关闭浏览模式,开始规则匹配模式
编写规则完规则,点击"采集"
数据展示区会展示最近10条的数据
导出点击任务的"全部"查看全部数据
查看完毕,点击"导出数据"
可以选择导出到多个地方,如excel文件和MySQL数据库
导出到数据库时,第一次需要设置好数据库的参数,保存设置,下一次就可以一键选择
二次开发octopus提供免费版和多种套餐,只有旗舰版的套餐以上才可以调用它的API
使用账号登录octopus的网页,进入"用户中心",可以看到"数据导出API"和"增值API"
分别点进去可以看到API开发文档
看文档说明,API应该是采用jwt的验证方式,按照它的说明,很容易写出对应的代码.
总结至此,可以使用"八爪鱼采集工具"来完成一些重复性的采集需求.
费用有点贵,旗舰版是元/月,旗舰+是元/月.
九月号欢迎打赏