一款非常牛逼的Java爬虫框架(高度灵活可配置)

大家好,我是宝哥

介绍

平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台

特性

    支持Xpath/JsonPath/css选择器/正则提取/混搭提取 支持JSON/XML/二进制格式 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete 支持爬取JS动态渲染(或ajax)的页面 支持代理 支持自动保存至数据库/文件 常用字符串、日期、文件、加解密等函数 支持插件扩展(自定义执行器,自定义方法) 任务监控,任务日志 支持HTTP接口 支持Cookie自动管理 支持自定义函数

插件

    Selenium插件 Redis插件 OSS插件 Mongodb插件 IP代理池插件 OCR识别插件 电子邮箱插件

爬虫列表

爬虫测试

Debug

日志

免责声明

请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。

开源地址

https://gitee.com/ssssssss-team/spider-flow

官网:

https://www.spiderflow.org/

往期推荐:

大家好,我是宝哥! 介绍 平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台 特性 支持Xpath/JsonPath/css选择器/正则提取/混搭提取 支持JSON/XML/二进制格式 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete 支持爬取JS动态渲染(或ajax)的页面 支持代理 支持自动保存至数据库/文件 常用字符串、日期、文件、加解密等函数 支持插件扩展(自定义执行器,自定义方法) 任务监控,任务日志 支持HTTP接口 支持Cookie自动管理 支持自定义函数 插件 Selenium插件 Redis插件 OSS插件 Mongodb插件 IP代理池插件 OCR识别插件 电子邮箱插件 爬虫列表 爬虫测试 Debug 日志 免责声明 请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。 开源地址 https://gitee.com/ssssssss-team/spider-flow 官网: https://www.spiderflow.org/ 往期推荐:
经验分享 程序员 微信小程序 职场和发展