python提取网页指定内容
最近在参考w3school的文档学习python,就根据文档的请求模块进行扩展一下。 1、访问提供的网站,并提取script中的url地址。 这是w3school的请求模块案例:https://www.w3school.com.cn/python/python_module_requests.asp 现在要做的是把script中的url地址给提取出来 2、首先得需要两个模块,然后放列表进行遍历
from bs4 import BeautifulSoup import requests #获取地址跟时间 def entryDataList(): quest = requests.get(https://w3school.com.cn/python/demopage.htm) html = quest.text my_page = BeautifulSoup(html,"html.parser") entryData_list=[] #放到列表里面进行遍历 for script in my_page.find_all(script): #取出网页中所有的script块 entryData_list.append(script) return entryData_list if __name__ == __main__: print(entryDataList())
3、提取指定内容
from bs4 import BeautifulSoup import requests #获取地址跟时间 def entryDataList(): quest = requests.get(https://w3school.com.cn/python/demopage.htm) html = quest.text my_page = BeautifulSoup(html,"html.parser") entryData_list=[] #放到列表里面进行遍历 for script in my_page.find_all(script): #取出网页中所有的script块 entryData_list.append(script) return entryData_list def w3c(): entryData_list = entryDataList() x = entryData_list[0].get(src) #[0]就是获取列表中的第一个,因为可以根据上图看出有两个script块,然后在get想要的src return x if __name__ == __main__: print(w3c())