快捷搜索: 王者荣耀 脱发

python提取网页指定内容

最近在参考w3school的文档学习python,就根据文档的请求模块进行扩展一下。 1、访问提供的网站,并提取script中的url地址。 这是w3school的请求模块案例:https://www.w3school.com.cn/python/python_module_requests.asp 现在要做的是把script中的url地址给提取出来 2、首先得需要两个模块,然后放列表进行遍历

from bs4 import BeautifulSoup
import requests

#获取地址跟时间
def entryDataList():
    quest = requests.get(https://w3school.com.cn/python/demopage.htm)
    html = quest.text
    my_page = BeautifulSoup(html,"html.parser")
    entryData_list=[]   #放到列表里面进行遍历
    for script  in my_page.find_all(script): #取出网页中所有的script块
        entryData_list.append(script)
    return entryData_list

if __name__ == __main__:
    print(entryDataList())

3、提取指定内容

from bs4 import BeautifulSoup
import requests

#获取地址跟时间
def entryDataList():
    quest = requests.get(https://w3school.com.cn/python/demopage.htm)
    html = quest.text
    my_page = BeautifulSoup(html,"html.parser")
    entryData_list=[]   #放到列表里面进行遍历
    for script  in my_page.find_all(script): #取出网页中所有的script块
        entryData_list.append(script)
    return entryData_list

def w3c():
    entryData_list = entryDataList()
    x = entryData_list[0].get(src)  #[0]就是获取列表中的第一个,因为可以根据上图看出有两个script块,然后在get想要的src
    return x

if __name__ == __main__:
    print(w3c())
经验分享 程序员 微信小程序 职场和发展