python爬取微博热门消息(四)—— 完整代码
微博的热搜榜对于研究大众的流量有非常大的价值。
今天的教程就来说说如何爬取微博的热搜榜。
另外,关于本项目的效果展示,以及教程,点击一下链接即可。
一、文件结构
项目名称:Trending
Trending
- information
- configs.py
- main.py
- MicroBlog.py
二、执行过程
1、爬取所有内容
将参数flag设置为 True,运行即可
2、爬取特定内容
我们以‘ 6:迪丽热巴双马尾 ’为例
(1) 先将参数flag设置为 True,直到 information --> 2021-01-11_1746 --> topic.txt 文件生成即可停止运行;
(2) 再修改以下参数:
-- flag: False -- index: 6 -- str_time: 2021-01-11_1746
注:有时候我们爬取下来的内容乱码,我们只需多次爬取乱码的热搜话题即可。
三、代码
1、configs.py
import argparse def parse_args(): parser = argparse.ArgumentParser(description=trending topic of microblog) # 热搜网址 parser.add_argument(--url, default=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6) # 全部内容 or 特定内容 """ flag: True or False,是否爬取微博所有的内容 index: 爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息 str_time: 当前时间, such as 2021-01-11_1551 """ parser.add_argument(--flag, default=False) parser.add_argument(--index, default=6) parser.add_argument(--str_time, default=2021-01-11_1746) return parser.parse_args()
2、main.py
import configs from MicroBlog import MicroBlog def main(args): # 使用实例,输入热搜网址,所有信息都会存储在文件information中 url = args.url flag = args.flag index = args.index str_time = args.str_time # 调用MicroBlog类,创建微博实例MB MB = MicroBlog(url, flag, index, str_time) # 爬取微博热搜 MB.start() if __name__ == __main__: args = configs.parse_args() main(args)
3、MicroBlog.py
上一篇:
IDEA上Java项目控制台中文乱码