Java正则匹配中文字符|极客教程

Java正则匹配中文字符

在Java中，使用正则表达式可以很方便地匹配字符，包括中文字符。在处理中文文本的时候，经常会有需要匹配中文字符的情况，比如提取中文关键词、过滤非中文字符等。本文将详细介绍在Java中如何使用正则表达式来匹配中文字符。

Java中的正则表达式

Java中的正则表达式使用了java.util.regex包提供的类。其中最常用的两个类是Pattern和Matcher。

Pattern：表示编译后的正则表达式模式。可以通过Pattern.compile(String regex)方法来创建一个Pattern对象。
Matcher：用于对输入字符串进行匹配操作。可以通过Pattern.matcher(CharSequence input)方法得到一个Matcher对象。

下面我们来看一个简单的示例，演示如何使用Pattern和Matcher类来实现正则匹配。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class RegexTest {
    public static void main(String[] args) {
        String input = "abc123def456";
        Pattern pattern = Pattern.compile("\\d+");
        Matcher matcher = pattern.matcher(input);

        while (matcher.find()) {
            System.out.println("Found: " + matcher.group());
        }
    }
}

上面的代码中，我们使用Pattern.compile(“\d+”)来创建一个匹配数字的正则表达式模式，然后使用Matcher对象来对输入字符串进行匹配操作。最终输出为：

Found: 123
Found: 456

匹配中文字符

在正则表达式中，中文字符的Unicode范围为\u4e00-\u9fa5。因此，要匹配中文字符，我们可以使用\u4e00-\u9fa5作为正则表达式模式。

下面我们来看一个示例，演示如何使用正则表达式匹配中文字符。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class ChineseRegexTest {
    public static void main(String[] args) {
        String input = "中文abc123";
        Pattern pattern = Pattern.compile("[\u4e00-\u9fa5]+");
        Matcher matcher = pattern.matcher(input);

        while (matcher.find()) {
            System.out.println("Found: " + matcher.group());
        }
    }
}

在上面的代码中，我们使用[\u4e00-\u9fa5]+来表示匹配一个或多个中文字符。最终输出为：

Found: 中文

通过上面的示例，我们可以看到如何使用正则表达式匹配中文字符。当然，除了上面介绍的方式外，还可以使用其他方法来匹配中文字符，比如使用Unicode正则属性。

使用Unicode正则属性匹配中文字符

在Java中，可以使用Unicode正则属性\p{IsHan}来匹配中文字符。\p{IsHan}表示匹配任意中文字符。

下面我们来看一个示例，演示如何使用Unicode正则属性来匹配中文字符。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class UnicodeRegexTest {
    public static void main(String[] args) {
        String input = "中文abc123";
        Pattern pattern = Pattern.compile("\\p{IsHan}+");
        Matcher matcher = pattern.matcher(input);

        while (matcher.find()) {
            System.out.println("Found: " + matcher.group());
        }
    }
}