伤腰的Python爬虫案例,零基础必备实战教程。
前言
今天带大家采集一个二次元图片网站, 里面漂亮的小姐姐层出不穷,图片的数据量也是比较大的, 来一睹为快吧! !
开发环境介绍:
python 3.6 pycharm requests parsel os
爬虫案例数据采集一般步骤:
- 找数据对应的链接地址
- 代码发送地址的请求
- 数据解析<解析我们要的数据>
- 数据保存(本地)
1. 首先第一步,找到对应的链接地址
因为是静态网页,所以数据很容易就找到了
# url编码: 中文在请求和响应的时候转码, http协议默认不支持中文, 由 % 字母 数字 request_address = fhttps:/链接带不了/page/{page} # 代表浏览器身份标识 headers = {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36}
2. 代码发送地址的请求
response = requests.get(url=request_address, headers=headers) html_data = response.text # 字符串 -- 正则 print(html_data)
请求一下,看看对不对
3. 数据解析<解析我们要的数据> html数据, xpath
selector = parsel.Selector(html_data) # 转换数据类型 lis = selector.xpath(//div[@id="post-list"]/ul/li) # 所有相册的标签 for li in lis: # 一个一个操作相册标签对象 pic_title = li.xpath(.//h2/a/text()).get() # 相册标题 pic_href = li.xpath(.//h2/a/@href).get() # 相册地址 print(pic_title, pic_href)
4. 保存数据
with open(fimg{pic_title}{pic_name}, mode=wb) as f: f.write(img_data) print(保存完成:, pic_name)
运行完整代码
是不是一项非常简单的爬虫,又能让咱们坚持写代码的案例呢?
完整代码在下方小卡片
下一篇:
劲爆!java架构师百度网盘