宅男福利，python爬取漫画

宅男福利，python爬取漫画 2022-06-27 744

前言

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

抓取漫画的由来也是看了知乎上有人说用爬取漫画，然后自己也玩玩

首页中每个漫画的url是类似这样存储的：

<pre style="margin-top: 0px; margin-bottom: 0px; white-space: pre-wrap; overflow-wrap: break-word; font-family: &quot;Courier New&quot; !important; font-size: 12px !important;"><tr>
     <td height="30" align="center" bgcolor="#FFFFFF">
       <a href="http://comic.sfacg.com/HTML/KOL/" target="_blank">K.O.I 偶像之王</a>
     </td>
</tr></pre>

然后用lxml通过cssselect(tr>td>a)将能用到的解析出来，然后解析出来会有很多其他的页面的url和信息，然后我是通过url中包含"/mh/“或者是”/HTML/"进行过滤的

比较蠢的办法了

然后通过对象，将过滤出来的漫画的url和漫画的名字保存在一个这样的类中，然后通过列表进行存储

class Cartoon():
    url = None
    name = None

然后用随便一个漫画作为例子：

漫画一共很多章，并且所有章的信息都在如下标签中包含

<pre style="margin-top: 0px; margin-bottom: 0px; white-space: pre-wrap; overflow-wrap: break-word; font-family: &quot;Courier New&quot; !important; font-size: 12px !important;"><ul class="serialise_list Blue_link2">....</ul></pre>

然后通过BS将每一章的信息进行存储，然后可以看到其完整的url是：http://comic.sfacg.com/HTML/YZHLK/096/

然后每一章会有很多的page，并且每一章的内容是ajax进行加载的，然后从检查－>网络中可以看到有一个这样的请求

然后请求的response里面包含本章的所有图片，然后只需将在每一章的页面中将.js接口找到，然后将本章的图片信息存储，然后就可以得到本章的图片信息，然后存储到本地

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/55777.html

上一篇： .gitignore 文件不生效问题 & 解决方法

下一篇： .gitignore与.git/info/exclude区别

宅男福利，python爬取漫画

宅男福利，python爬取漫画 相关内容

聚合标签

宅男福利，python爬取漫画相关内容