一、开源项目简介
平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台。
二、功能概述
一款智能高效的在线爬虫,新一代爬虫平台,图形化方式定义爬虫流程,不写代码即可完成爬虫。
特性
- 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
- 支持JSON/XML/二进制格式
- 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
- 支持爬取JS动态渲染(或ajax)的页面
- 支持代理
- 支持自动保存至数据库/文件
- 常用字符串、日期、文件、加解密等函数
- 支持插件扩展(自定义执行器,自定义方法)
- 任务监控,任务日志
- 支持HTTP接口
- 支持Cookie自动管理
- 支持自定义函数
三、技术选型
准备环境
JDK >= 1.8 Mysql >= 5.7 Maven >= 3.0
无需编写代码
在线定制爬虫规则
插件丰富
Redis、Mongodb、OSS、OCR、IP代理池、Selenium等插件
高度灵活
扩展方便,规则定制灵活
插件
- Selenium插件
- Redis插件
- OSS插件
- Mongodb插件
- IP代理池插件
- OCR识别插件
- 电子邮箱插件
四、界面展示
爬虫列表
爬虫测试
Debug
日志
五、开源协议
使用MIT开源协议
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)