Web开发

首页 » 常识 » 诊断 » 网页数据采集工具八爪鱼octopus
TUhjnbcbe - 2022/6/18 13:49:00

起因

公司沙笔要求使用这种采集工具.

我去研究下,"八爪鱼采集工具"能够完成沙笔提出的需求.

写个笔记记录下使用过程.

简介

可视化采集的目标是脱离编程实现数据采集.

市面上有好几款采集软件,对比下选中了八爪鱼octopus.

八爪鱼是可视化的网页数据采集工具.

八爪鱼有国内版和国际版.

可配置规则抓取指定网站数据,提供(收费)云采集平台.

优点/缺点

优点:不需编写爬虫脚本,可提供低成本快速的采集互联网数据的解决方案.

缺点:

无法实现复杂判断逻辑和随机间隔.

无法实现ocr功能.

购买旗舰+版本才能使用API全部功能.

安装

再搜索引擎搜索bazhuayu,进入下载页面下载软件

点击软件安装包,按照提示一步步完成.

注册

使用octopus软件前,需要先注册一个octopus账号.

任务

账号登录成功后,可以在两个地方开始创建任务

如图文字1.2可以快速创建任务

图文字1.1使用多种方式创建任务

开启浏览模式,可以点击页面上的按钮来到目标页面

关闭浏览模式,开始规则匹配模式

编写规则完规则,点击"采集"

数据展示区会展示最近10条的数据

导出

点击任务的"全部"查看全部数据

查看完毕,点击"导出数据"

可以选择导出到多个地方,如excel文件和MySQL数据库

导出到数据库时,第一次需要设置好数据库的参数,保存设置,下一次就可以一键选择

二次开发

octopus提供免费版和多种套餐,只有旗舰版的套餐以上才可以调用它的API

使用账号登录octopus的网页,进入"用户中心",可以看到"数据导出API"和"增值API"

分别点进去可以看到API开发文档

看文档说明,API应该是采用jwt的验证方式,按照它的说明,很容易写出对应的代码.

总结

至此,可以使用"八爪鱼采集工具"来完成一些重复性的采集需求.

费用有点贵,旗舰版是元/月,旗舰+是元/月.

九月号

欢迎打赏

1
查看完整版本: 网页数据采集工具八爪鱼octopus