python selenium.webdriver 爬取政策文件

python selenium.webdriver 爬取政策文件 2023-07-18 322

获取文章链接

获取中央人民政府网站链接，进入，分为国务院文件和部门文件（发改委、工信部、交通运输部、市场监督局、商务部等）搜索关键词——汽车，即可得到按照相关度或者时间排列的政策文件。

批量爬取政策文件

批量获取文件链接并存入列表

应用selenium爬取文件信息

利用xpath定位链接、索引号、标题、发文机关、发文字号、主题分类、成文日期、发布日期、文件内容等信息。

右侧通过光标定位各部分信息，右键点击 copy 并选择 copy xpath即可复制xpath路径。

完整代码

数据处理

每次爬取单一文件信息并整理为dataframe，之后按行合并。

import pandas as pd

df = pd.DataFrame()
with open(link1.txt,r,encoding=utf-8) as f:
    links = f.readlines()

for id,url in enumerate(links):
    url = url.strip(
)
    print(url)
    result = get_info(id,url)

    df1 = pd.DataFrame.from_dict(result,index).T
    df = pd.concat([df,df1],axis=0)

df

导出为excel

df.to_excel(汽车行业政策文本研究.xlsx,index=False)

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/368386.html

上一篇： .gitignore 文件不生效问题 & 解决方法

下一篇：【selenium】selenium.add_argument 常用参数

python selenium.webdriver 爬取政策文件

获取文章链接

批量爬取政策文件

应用selenium爬取文件信息

数据处理

导出为excel

python selenium.webdriver 爬取政策文件 相关内容

聚合标签

python selenium.webdriver 爬取政策文件相关内容