Java使用jsoup爬取网页数据
前置说明
虽然可以爬取数据,但是不能获取网页的视频(tika包可以)、音乐、Ajax数据,只能获取页面渲染出的元素和数据。必须联网。
1、引入maven包
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.14.3</version> </dependency>
2、链接网页及抓取代码
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; public class JsoupTest { public static void main(String[] args) throws IOException { String url="https://blog..net/wohaipagui?type=blog"; Document document= Jsoup.parse(new URL(url),30000); Elements divElements= document.getElementsByClass("mainContent"); Element divElement=divElements.get(0); Elements articles=divElement.getElementsByTag("article"); for (Element article:articles) { String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text(); System.out.println(text); } } }
3、执行的结果
上一篇:
IDEA上Java项目控制台中文乱码