Python爬虫抓取知乎所有用户信息

这次获得的是用户详细信息查询的URL,这里看一看这个详细信息的URL,如图

上面介绍了网页的基础分析,下面说一下代码的思路,这次爬虫用到了递归,本次用的scrapy抓取以及mogodb数据库存储的。

在代码里面还有加入了一些自动翻页的功能,有兴趣可以看看。下面是我们item里面定义要抓取的数据:

import scrapyclass ZhihuUserItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() answer_count = scrapy.Field()

#回答数量 articles_count = scrapy.Field()

#写过的文章数 follower_count = scrapy.Field()

#粉丝数量 following_count = scrapy.Field()

#教育背景 description = scrapy.Field()

#个人描述 locations = scrapy.Field()

#所在地 url_token =scrapy.Field()

#知乎给予的每个人用户主页唯一的ID name=scrapy.Field()

#用户昵称 employments = scrapy.Field()

#工作信息 business=scrapy.Field()

#一些工作或者商业信息的合集 user_type =scrapy.Field()

#用户类型,可以是个人,也可以是团体等等 headline =scrapy.Field()

#个人主页的标签 voteup_count = scrapy.Field()

#获得的赞数 thanked_count=scrapy.Field()

#获得的感谢数 favorited_count = scrapy.Field()

#头像URl

代码一共不足80行,运行了一分钟就抓了知乎一千多个用户的信息,这里上张结果图

最近忙完别的事了,终于可以天天写爬虫了,不知道大家这篇有什么问题不,可以随便向我提

最后提一提,爬取一定要伪装好headers,里面有些东西服务器每次都会检查。

经验分享 程序员 微信小程序 职场和发展