python selenium.webdriver 爬取政策文件
获取文章链接
获取中央人民政府网站链接,进入,分为国务院文件和部门文件(发改委、工信部、交通运输部、市场监督局、商务部等) 搜索关键词——汽车,即可得到按照 相关度 或者 时间 排列的政策文件。
批量爬取政策文件
批量获取文件链接并存入列表
应用selenium爬取文件信息
利用xpath定位链接、索引号、标题、发文机关、发文字号、主题分类、成文日期、发布日期、文件内容等信息。
右侧通过光标定位各部分信息,右键点击 copy 并选择 copy xpath即可复制xpath路径。
- 
 完整代码
 
数据处理
每次爬取单一文件信息并整理为dataframe,之后按行合并。
import pandas as pd
df = pd.DataFrame()
with open(link1.txt,r,encoding=utf-8) as f:
    links = f.readlines()
for id,url in enumerate(links):
    url = url.strip(
)
    print(url)
    result = get_info(id,url)
    df1 = pd.DataFrame.from_dict(result,index).T
    df = pd.concat([df,df1],axis=0)
df  
导出为excel
df.to_excel(汽车行业政策文本研究.xlsx,index=False)
