Java解析HTML|极客教程

Java解析HTML

在开发过程中，我们经常需要从网页中抓取数据并进行处理。而HTML作为网页的标记语言，是我们最常见的数据源之一。在Java中，我们可以通过一些库来解析HTML，从而提取出我们需要的信息。

本文将介绍如何使用Java中比较常用的jsoup库来解析HTML，提取出其中的信息。

1. 什么是jsoup？

jsoup是一个用于解析、处理HTML文档的Java库。它提供了简单灵活的API，使得我们能够轻松地从HTML文档中提取出我们需要的信息。使用jsoup，我们可以像操作DOM树一样去操作HTML文档。

2. jsoup的安装与导入

首先，我们需要在我们的项目中引入jsoup库。我们可以通过Maven来管理依赖，只需在pom.xml文件中添加以下依赖：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
</dependency>

或者，我们也可以从jsoup官网中下载jar包，并将其添加到项目的类路径中。

3. 使用jsoup解析HTML

下面我们将通过一个简单的示例来演示如何使用jsoup来解析HTML。

假设我们有一个HTML文档example.html，其内容如下：

<!DOCTYPE html>
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <h1>Hello, world!</h1>
        <p>This is an example paragraph.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
    </body>
</html>

我们的目标是从中提取出h1标签和ul标签中的内容。

下面是使用jsoup的示例代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParser {
    public static void main(String[] args) {
        try {
            // 从文件中加载HTML文档
            Document doc = Jsoup.parse(new File("example.html"), "UTF-8");

            // 提取h1标签
            Element h1 = doc.select("h1").first();
            System.out.println(h1.text());

            // 提取ul标签下的所有li标签
            Elements items = doc.select("ul li");
            for (Element item : items) {
                System.out.println(item.text());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

上述代码首先加载了example.html文件，然后通过select方法选择了h1和ul li标签，并提取了它们的内容。

当我们运行以上代码时，输出将会是：