HTML 如何在C#中将HTML转换为文本

在本文中，我们将介绍如何在C#中将HTML转换为纯文本。HTML是一种用于构建网页的标记语言，它包含了丰富的文本格式和布局元素。但有时候我们需要将HTML转换为纯文本，以便在其他场景中使用。

要将HTML转换为文本，我们可以使用C#中的多种方式。下面将介绍两种常用的方法。

阅读更多：HTML 教程

方法一：使用正则表达式

使用正则表达式是一种简单直接的方法，它可以将HTML标签去除并保留纯文本内容。下面是示例代码：

using System;
using System.Text.RegularExpressions;

public class Program
{
    public static void Main()
    {
        string html = "<h1>Hello, World!</h1><p>This is an example.</p>";
        string text = Regex.Replace(html, "<.*?>", "");
        Console.WriteLine(text);
    }
}

在上面的代码中，我们首先定义了一个包含HTML标签的字符串html。然后使用Regex.Replace方法将其中的HTML标签去除，并将结果赋值给text字符串。最后使用Console.WriteLine将纯文本内容输出。

运行上述代码，将得到以下输出：

Hello, World!
This is an example.

这样就成功将HTML转换为纯文本了。

需要注意的是，使用正则表达式只能简单地去除HTML标签，并不能处理一些特殊的HTML嵌套情况，比如包含了JavaScript代码的标签等。如果遇到这种情况，我们可以尝试使用第二种方法。

方法二：使用HTML解析器

使用HTML解析器是更加灵活和强大的方法，它可以解析HTML文档的结构，并提供更多的选择和处理方式。在C#中，我们可以使用第三方库来完成这个任务，比如HtmlAgilityPack。

首先，我们需要在C#项目中添加对HtmlAgilityPack库的引用。然后可以使用下面的示例代码将HTML转换为纯文本：

using System;
using HtmlAgilityPack;

public class Program
{
    public static void Main()
    {
        string html = "<h1>Hello, World!</h1><p>This is an example.</p>";
        HtmlDocument htmlDoc = new HtmlDocument();
        htmlDoc.LoadHtml(html);
        string text = htmlDoc.DocumentNode.InnerText;
        Console.WriteLine(text);
    }
}

在上面的代码中，我们首先定义了一个包含HTML标签的字符串html。然后创建了一个HtmlDocument对象，用于解析HTML文档。接着使用LoadHtml方法加载HTML内容，并使用DocumentNode.InnerText属性获取纯文本内容。最后使用Console.WriteLine将纯文本内容输出。

运行上述代码，将得到以下输出：