Java使用jsoup爬取网页数据

Java使用jsoup爬取网页数据 2022-05-14 470

前置说明

虽然可以爬取数据，但是不能获取网页的视频（tika包可以）、音乐、Ajax数据，只能获取页面渲染出的元素和数据。必须联网。

1、引入maven包

<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.14.3</version>
</dependency>

2、链接网页及抓取代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;

public class JsoupTest {
          
   

    public static void main(String[] args) throws IOException {
          
   
        String url="https://blog..net/wohaipagui?type=blog";
        Document document= Jsoup.parse(new URL(url),30000);
        Elements divElements= document.getElementsByClass("mainContent");
        Element divElement=divElements.get(0);
        Elements articles=divElement.getElementsByTag("article");

        for (Element article:articles) {
          
   
           String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text();
            System.out.println(text);
        }
    }
}

3、执行的结果

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/29566.html

上一篇： IDEA上Java项目控制台中文乱码

下一篇： .gitignore 文件不生效问题 & 解决方法

Java使用jsoup爬取网页数据

前置说明

1、引入maven包

2、链接网页及抓取代码

3、执行的结果

Java使用jsoup爬取网页数据 相关内容

聚合标签

Java使用jsoup爬取网页数据相关内容