python项目之站长素材爬取

python项目之站长素材爬取 2023-07-08 646

一、学习资源

这位老师讲的很有激情，并知识点和逻辑清晰，强烈推荐

二、知识点介绍

1、xpath使用

安装详情请参考往期文章：

2、xpath基本语法

3、案例演示

# coding=utf-8
from lxml import etree

#xpath解析
#(1)解析本地文件    etree.parse
#(2)解析服务器文件  response.read().decode(utf-8)******    etree.HTML()

#xpath解析本地文件
tree = etree.parse(070_解析_xpath的基本使用.html)

#tree.xpath(xpath路径)

#查找ul下面的li
#li_list = tree.xpath(//ul/li/text())

#查找所有有id的属性的li标签
#text()获取标签中的内容
#li_list = tree.xpath(//ul/li[@id]/text())

#找到id为l1的li标签   注意引号的问题   单引号里面的字符串要加双引号
#li_list = tree.xpath(//ul/li[@id="l1"]/text())

#查找到id为l1的li标签的class的属性值
# li = tree.xpath(//ul/li[@id="l1"]/@class)

#查询id中包含l的li标签
#li_list = tree.xpath(//ul/li[contains(@id,"l")]/text())

#查询id的值以l开头的li标签
#li_list = tree.xpath(//ul/li[starts-with(@id,"c")]/text())

#查询id为l1和class为c1的
#li_list = tree.xpath(//ul/li[@id="l1" and @class="c1"]/text())

li_list = tree.xpath(//ul/li[@id="l1"]/text() | //ul/li[@id="l2"]/text())
#判断列表的长度
print(li_list)
print(len(li_list))

三、项目详细讲解

1、分析

①首先要获取url，但是因为要获取前十页的数据，url是一个变量，通过对网页的检查可以发现网页的url有规律。

2、步骤

（1）请求对象定制

解决了url的问题之后，请求对象的定制就变得简单了，就是把之前的内容进行了封装

（2）获取响应数据

相应的获取响应数据也是把之前的代码进行封装

（3）下载数据

下载图片需要用到urllib库，此时需要图片的地址和文件的名字

首先解析获取到的服务器文件，然后通过xpath去查找图片的地址和文件的名字

然后通过遍历的方式下载图片

文件内容：

四、源代码

# coding=utf-8
#(1)请求对象的定制
#（2）获取网页源码
#（3）下载


#需求    下载的是前十页的图片
#https://sc.chinaz.com/tupian/qinglvtupian.html
#https://sc.chinaz.com/tupian/qinglvtupian_page.html
import urllib.request
from lxml import etree


def create_request(page):#请求对象定制
    if (page == 1):
        url = https://sc.chinaz.com/tupian/qinglvtupian.html
    else :
        url = https://sc.chinaz.com/tupian/qinglvtupian_+str(page)+.html
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request

def get_content(request):#获取网页源码
    response = urllib.request.urlopen(request)
    content = response.read().decode(utf-8)
    return content

def down_load(content):#下载
    #下载图片
    #urllib.request.urlretrieve(图片地址,文件的名字)
    tree = etree.HTML(content)#解析服务器文件
    name_list = tree.xpath(//div[@id="container"]//a/img/@alt)
    #一般设计图片的网站都会进行懒加载   所以这里的图片地址为src2
    src_list = tree.xpath(//div[@id="container"]//a/img/@src2)
    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        url = https: + src
        urllib.request.urlretrieve(url=url,filename=./loveImg/ +name + .jpg)

if __name__ == __main__:
    start_page = int(input(请输入起始页码))
    end_page = int(input(请输入结束页码))
    for page in range(start_page,end_page+1):
        #(1)请求对象定制
        request = create_request(page)
        #获取网页源码
        content = get_content(request)
        #(3)下载
        down_load(content)

整体思路可以参考往期文章：

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/321229.html

上一篇： .gitignore 文件不生效问题 & 解决方法

下一篇： .java编译成.class 与 .class反编译成.java