网络数据采集笔记-java爬虫

网络爬虫-Web Crawler,也称为网络蜘蛛-Web Spider 或Web信息采集器。按照指定规则自动抓取或下载资源的计算机程序或自动化脚本。

就是通过http/https等网络协议,广度或深度依次检索url链接,通过url链接获取html或json等内容,存储需要的内容。

我们常用的Google、百度、必应等搜索引擎都会通过爬虫技术采集互联网数据,提供强大的内容搜索能力。

大致结构是:

互联网数据---->数据采集---->数据存储---->数据预处理---->搜索引擎---->用户

网络采集作用

1. 大数据环境下舆情分析与检测

2. 大数据环境下用户分析

3. 科研需求

网络爬虫分类

1. 通用网络爬虫(全网络爬虫)

2. 聚焦网络爬虫(主题网络爬虫)

3. 增量网络爬虫

4. 深度网络爬虫

网络爬虫流程

网络爬虫学习建议

1. 掌握Java基础知识

2. 理解网络爬虫原理

3. 吃透基本爬虫代码

4. 学会搜索解决问题

经验分享 程序员 微信小程序 职场和发展