Java DOM 教程展示了如何使用 Java DOM API 读写 XML 文档。
DOM
文档对象模型(DOM)是标准树结构,其中每个节点都包含来自 XML 结构的组件之一。 元素节点和文本节点是两种最常见的节点类型。 使用 DOM 函数,我们可以创建节点,删除节点,更改其内容以及遍历节点层次结构。
Java DOM
DOM 是用于 XML 处理(JAXP)的 Java API 的一部分。 Java DOM 解析器遍历 XML 文件并创建相应的 DOM 对象。 这些 DOM 对象以树结构链接在一起。 解析器将整个 XML 结构读入内存。
SAX 是 DOM 的替代 JAXP API。 SAX 解析器基于事件; 它们速度更快,所需的内存更少。 另一方面,DOM 更易于使用,并且有些任务(例如,排序元素,重新排列元素或查找元素)使用 DOM 更快。 DOM 解析器是 JDK 附带的,因此无需下载依赖项。
DocumentBuilderFactory
使应用可以获得一个解析器,该解析器从 XML 文档生成 DOM 对象树。 DocumentBuilder
定义用于从 XML 文档获取 DOM 文档实例或创建新 DOM 文档的 API。 DocumentTraversal
包含创建迭代器以遍历节点及其子节点的方法。 NodeFilter
用于过滤掉节点。 NodeIterator
用于遍历一组节点。 TreeWalker
用于使用由其whatToShow
标志和文档过滤器定义的文档视图浏览文档树或子树。
节点类型
以下是一些重要的节点类型的列表:
类型 | 描述 |
---|---|
Attr |
表示 Element 对象中的属性 |
CDATASection |
转义包含可能被视为标记的字符的文本块 |
Comment |
代表评论的内容 |
Document |
代表整个 HTML 或 XML 文档 |
DocumentFragment |
一个轻量级或最小的 Document 对象,用于表示 XML 文档中大于单个节点的部分 |
Element |
元素节点是 DOM 树的基本分支; 除文本外,大多数项目都是元素 |
Node |
整个 DOM 及其每个元素的主要数据类型 |
NodeList |
有序的节点集合 |
Text |
表示元素或属性的文本内容(在 XML 中称为字符数据) |
XML 示例文件
我们使用以下 XML 文件:
users.xml
这是users.xml
文件。
continents.xml
这是continents.xml
文件。
这些示例使用exec-maven-plugin
从 Maven 执行 Java 主类。
Java DOM 读取示例
在下面的示例中,我们使用 DOM 解析器读取 XML 文件。
JavaXmlDomReadEx.java
该示例分析users.xml
文件。 它利用代码中的标签名称。 例如:elem.getElementsByTagName("lastname")
。
从DocumentBuilderFactory
获得DocumentBuilder
。 DocumentBuilder
包含用于从 XML 文档中获取 DOM 文档实例的 API。
parse()
方法将 XML 文件解析为Document
。
规范化文档有助于生成正确的结果。
我们得到了文档的根元素。
我们使用getElementsByTagName()
在文档中获得了用户元素的NodeList
。
我们使用 for 循环遍历列表。
我们通过getAttribute()
获得 element 属性。
我们获得用户元素的三个子元素的文本内容。
我们将当前用户的文本打印到控制台。
这是输出。
Java DOM 使用NodeIterator
读取元素
DocumentTraversal
包含创建NodeIterators
和TreeWalkers
以首先深度遍历节点及其子节点(预订购文档顺序)的方法。 此顺序等效于开始标记在文档的文本表示中出现的顺序。
JavaXmlDomReadElements.java
该示例打印continents.xml
文件的所有节点元素。
从文档中,我们得到一个DocumentTraversal
对象。
我们创建一个NodeIterator
。 设置NodeFilter.SHOW_ELEMENT
时,仅显示节点元素。
在 for 循环中,我们遍历节点并打印其名称。
continents.xml
包含这 18 个元素。
Java DOM 使用NodeIterator
读取文本
在下面的示例中,我们使用NodeIterator
读取文本数据。
JavaXmlDomReadText.java
该示例从continents.xml
文件读取字符数据。
节点过滤器设置为NodeFilter.SHOW_TEXT
。
我们修剪空白并打印文本(如果不为空)。
This is the output.
Java DOM 自定义NodeFilter
以下示例使用自定义 DOM 过滤器。 自定义 DOM 过滤器必须实现NodeFilter
接口。
JavaXmlCustomFilter.java
该示例仅显示 XML 文件中的斯洛伐克和波兰节点。
我们创建MyFilter
并将其设置为createNodeIterator()
方法。
文本内容包含空格和换行符; 因此,我们使用正则表达式删除了不必要的空格。
在acceptNode()
方法中,我们通过返回NodeFilter.FILTER_ACCEPT
和NodeFilter.FILTER_REJECT
来控制要使用的节点。
This is the output.
Java DOM 使用TreeWalker
读取 XML
TreeWalker
比NodeIterator
具有更多的遍历方法。
JavaXmlDomTreeWalkerEx.java
该示例使用TreeWalker
读取continents.xml
文件的元素和文本。
使用DocumentTraversal
中的createTreeWalker()
创建了TreeWalker
。 我们将处理元素和文本节点。 请注意,空文本(例如缩进)也被视为文本。
该处理委托给traverseLevel()
方法,该方法被递归调用。
我们使用缩进来打印元素的名称。
我们打印文本数据。 由于我们仅对资本和人口数据感兴趣,因此我们跳过所有空字符串。
在此 for 循环中,我们递归地深入到树的分支中。
完成分支处理后,我们将与setCurrentNode()
进入同一级别,以便我们可以继续进行另一个树分支。
This is the output.
Java DOM 编写示例
在下面的示例中,我们创建一个 XML 文件。
JavaXmlDomWrite.java
该示例在src/main/resources
目录中创建一个新的users.xml
文件。
从文档构建器工厂创建一个新的文档构建器。
在文档构建器中,我们使用newDocument()
创建一个新文档。
我们创建一个根元素,并使用appendChild()
将其添加到文档中。
我们将三个子元素附加到根元素。
Java DOM 使用Transformer
生成 XML 文件。 之所以称为转换器,是因为它也可以使用 XSLT 语言转换文档。 在我们的情况下,我们仅写入 XML 文件。
我们设置文档的编码和缩进。
DOMSource
保存 DOM 树。
我们将要写入控制台和文件。 StreamResult
是转换结果的持有者。
我们将 XML 源代码写入流结果。
使用createElement()
在createUser()
方法中创建一个新的用户元素。 元素的属性由setAttribute()
设置。
使用appendChild()
将元素添加到其父级,并使用createTextNode()
创建文本节点。