Python爬虫抓取知乎所有用户信息

Python爬虫抓取知乎所有用户信息 2022-08-20 277

这次获得的是用户详细信息查询的URL，这里看一看这个详细信息的URL，如图

上面介绍了网页的基础分析，下面说一下代码的思路，这次爬虫用到了递归，本次用的scrapy抓取以及mogodb数据库存储的。

在代码里面还有加入了一些自动翻页的功能，有兴趣可以看看。下面是我们item里面定义要抓取的数据：

import scrapyclass ZhihuUserItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() answer_count = scrapy.Field()

#回答数量 articles_count = scrapy.Field()

#写过的文章数 follower_count = scrapy.Field()

#粉丝数量 following_count = scrapy.Field()

#教育背景 description = scrapy.Field()

#个人描述 locations = scrapy.Field()

#所在地 url_token =scrapy.Field()

#知乎给予的每个人用户主页唯一的ID name=scrapy.Field()

#用户昵称 employments = scrapy.Field()

#工作信息 business=scrapy.Field()

#一些工作或者商业信息的合集 user_type =scrapy.Field()

#用户类型，可以是个人，也可以是团体等等 headline =scrapy.Field()

#个人主页的标签 voteup_count = scrapy.Field()

#获得的赞数 thanked_count=scrapy.Field()

#获得的感谢数 favorited_count = scrapy.Field()

#头像URl

代码一共不足80行，运行了一分钟就抓了知乎一千多个用户的信息，这里上张结果图

最近忙完别的事了，终于可以天天写爬虫了，不知道大家这篇有什么问题不，可以随便向我提

最后提一提，爬取一定要伪装好headers，里面有些东西服务器每次都会检查。

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate117/126790.html

下一篇： python实现手写数字识别