requests爬虫遇到404怎么办_Python爬虫基础库和实践

爬虫有三大基础库Requests、BeautifulSoup和Lxml,这三大库对于初学者使用频率最高,现在大家一起来看看这基础三大库的使用。

  1. Requests库

Requests库的作用就是请求网站获取网页数据。

Code:res=requests.get(url)

返回:

  1. 返回200说明请求成功
  2. 返回404、400说明请求失败

Code:res=request.get(url,headers=headers)

添加请求头信息伪装为浏览器,可以更好的请求数据信息

Code:res.text

详细的网页信息文本

  1. BeautifulSoup库

BeautifulSoup库用来将Requests提取的网页进行解析,得到结构化的数据

Soup=BeautifulSoup(res.text,’html.parser’)

详细数据提取:

infos=soup.select(‘路径’)

路径提取方法:在固定数据位置右键-copy-copy selector

爬虫有三大基础库Requests、BeautifulSoup和Lxml,这三大库对于初学者使用频率最高,现在大家一起来看看这基础三大库的使用。 Requests库 Requests库的作用就是请求网站获取网页数据。 Code:res=requests.get(url) 返回: 返回200说明请求成功 返回404、400说明请求失败 Code:res=request.get(url,headers=headers) 添加请求头信息伪装为浏览器,可以更好的请求数据信息 Code:res.text 详细的网页信息文本 BeautifulSoup库 BeautifulSoup库用来将Requests提取的网页进行解析,得到结构化的数据 Soup=BeautifulSoup(res.text,’html.parser’) 详细数据提取: infos=soup.select(‘路径’) 路径提取方法:在固定数据位置右键-copy-copy selector
经验分享 程序员 微信小程序 职场和发展