【Python】爬虫：微博找人页面爬虫（一）

【Python】爬虫：微博找人页面爬虫（一） 2023-01-08 901

【Python】爬虫：微博找人页面爬虫（一）

最近想通过爬去微博上大V信息来做爬虫练手，于是，在微博-找人页面，看到有许多分类，并且里面都是些大V，页面：上面有许多分类，所以想爬取从明星后的所有分类，共有50个大类，每个大类下有各自的小类，这次就按大类进行爬取。每种大类下面，都包含一定数量的列表页，有的分类下面是空的，不过也不影响。

爬取思路

将爬取的页面分为两类，列表页和文章页，列表页中包含每个文章页的链接，以及列表页的下一页链接。文章页就是每个博主的页面了。列表页：文章页：爬取思路：先爬取列表页，再爬取文章页这里需要维护两个队列（后面会讲到），一个高优先级队highlevel，列用于存储列表页url，一个低优先级队列lowlevel用于存储文章页，两个队列都是FIFO模式。 1，往highlevel中插入起始的列表页url。 2，从highlevel取出url，爬取到当前列表页的下一页url，并存入highlevel，爬取当前列表页中文章页的url，并存入lowlevel中。 3，重复步骤2，直到highlevel中无列表页的url。 4，在步骤3后，就可以从lowlevel中取文章页url，下载页面，解析后存入数据库中。

需要解决问题 1，模拟登陆，找人页面需要登录微博账号后才可以访问。 2，两个url队列如何维护？ 3，文章页面下载，解析，存储？

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/211208.html

上一篇： .gitignore 文件不生效问题 & 解决方法

下一篇： .gitignore与.git/info/exclude区别

【Python】爬虫：微博找人页面爬虫（一）

【Python】爬虫：微博找人页面爬虫（一）

爬取思路

【Python】爬虫：微博找人页面爬虫（一） 相关内容

聚合标签

【Python】爬虫：微博找人页面爬虫（一）相关内容