Python3 网络爬虫＜教程全集＞

Python3 网络爬虫＜教程全集＞ 2022-10-21 374

1.1 最简单的爬虫

@ 我的老师：Jack Cui

PS：我是通过看 Jack Cui 老师的文章学习的爬虫，也为我之后的爬虫打开了大门。

在学习爬虫之前，我们必须知道我们平常所说的网址，实际上叫做 URL。

即：统一资源定位符（Uniform Resource Locator）

它的格式通常都是：

协议：//主机名[:端口]/资源路径/参数

但是我们知道的是，一般我们看到的网址，好像都不是这么全。好像是隐藏了什么似的。对！没错，就是隐藏了点儿东西。（可以用谷歌浏览器的 NetWork 进行抓包，把所有的数据通通抓到。）

举个例子：http://www.baidu.com

实际上它隐藏了一个很明显的东西，就是端口！http 协议默认的端口是 80，而 https 协议默认的端口是 443。

http://www.baidu.com:80 https://www.baidu.com:443

那么讲到这里，我们要回归主题了。我们说了 URL ，但是 URL 和网络爬虫有啥关系呢？

答：关系非常非常的大！我们的网络爬虫是为了爬网络上的数据的！得到我们可以利用的数据！而网络上的数据最直接的途径就是网页。也就是一个一个反馈给我们的资源文件。如果我们要得到这些反馈，就必须在浏览器里输入这个 URL。

这就类似于你得到了地址(URL)，然后我们根据这个地址去找资源文件，找到后，我们才能够读取数据！甚至进行相关的网页操作。

我们都知道，每次访问一个网页，得到了反馈后，数据就在眼前。但是总觉得缺点儿什么。

学过前端知识的人应该知道，网页所呈现给我们的效果，是浏览器渲染出来！

其实本质上它们也都是代码。。。

即使是没有学过前端的人其实也能发现这个秘密。那就是我们右键网页，然后点击查看源代码。我们就会看到一个以代码的形式。突然，在我们面前出现了。

所以我才说，数据就在眼前，可是总觉得缺点儿什么。这主要的原因就是渲染的太好了。让你无法直接的通过某种方式获取。才会觉得要得到了，却又很难。。。

那么这样的显示代码的样子还有点儿丑，而且不结构化。我们怎么解决呢？

答：右键点击检查

就会出现这样的好看的工具栏，这个工具栏里包括了很多工具。其中第一个工具就是用来查看代码的。而且是结构化的查询。还能直接对网页进行相关的更改。只要你懂前端代码。。

在 cmd 中，使用如下指令安装 requests ：

pip install requests

既然我们已经知道了，它的所有数据其实都在源代码里。那么我们就应该想办法获取到这个源代码。

即安装 requests 库，利用 get 方式进行网页的访问，访问后，它会自动的把源代码装在 text 这个属性里。

import requests

req = requests.get("http://www.baidu.com")

req.encoding = utf-8

print(req.text)

utf-8 是万国码编码，可以对几乎大多数国家的语言进行编码。

如果你不用这个编码，你可能会发现你读的源代码很多地方都是乱码的。这样我们就把我们需要的源代码爬取下来了。

这个过程其实就是最简单那的爬虫。因为源代码爬取下来后，我们只要对其进行 re 正则的定位，和字符串相关的处理。得到准确的数据。就是爬虫了。。。

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate103/175834.html

上一篇： Java架构师技术进阶路线图

下一篇：爬虫第一步，网络信息采集