快捷搜索: 王者荣耀 脱发

Java使用jsoup爬取网页数据

前置说明

虽然可以爬取数据,但是不能获取网页的视频(tika包可以)、音乐、Ajax数据,只能获取页面渲染出的元素和数据。必须联网。

1、引入maven包

<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.14.3</version>
</dependency>

2、链接网页及抓取代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;

public class JsoupTest {
          
   

    public static void main(String[] args) throws IOException {
          
   
        String url="https://blog..net/wohaipagui?type=blog";
        Document document= Jsoup.parse(new URL(url),30000);
        Elements divElements= document.getElementsByClass("mainContent");
        Element divElement=divElements.get(0);
        Elements articles=divElement.getElementsByTag("article");

        for (Element article:articles) {
          
   
           String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text();
            System.out.println(text);
        }
    }
}

3、执行的结果

经验分享 程序员 微信小程序 职场和发展