JS Unicode转字符|极客教程

JS Unicode转字符

Unicode是一种字符编码标准，用于表示文本中的字符。在JavaScript中，我们可以使用Unicode码（十六进制表示）来表示特定的字符。本文将详细介绍如何在JavaScript中将Unicode码转换为对应的字符。

1. Unicode码的概述

Unicode是一个国际标准，用于为世界上所有的字符分配一个唯一的数值，并有相应的字符表示形式。每一个字符都被分配了一个唯一的代码点，使用十六进制的数值进行表示。

Unicode的代码点范围从U+0000到U+10FFFF，其中U+0000到U+FFFF之间的代码点称为基本多文种平面（Basic Multilingual Plane，BMP），用于表示大多数常用字符。

Unicode码可以用两种形式进行表示：

十六进制形式：以U+开头，后面跟着4至6位十六进制数值，例如U+0041表示字符A。
十进制形式：以数字形式直接表示Unicode码的十进制数值，例如65表示字符A。

2. 使用Unicode码表示字符

在JavaScript中，我们可以使用Unicode码来表示特定的字符。可以直接使用\u后跟4位十六进制数值来表示一个字符。

例如，要表示字符A，可以使用\u0041:

const charA = '\u0041';
console.log(charA); // 输出 A

3. 使用字符串函数处理Unicode码

JavaScript提供了一些字符串函数，用于处理Unicode码。这些函数可以处理Unicode码的高位字符，以及将Unicode码转换为对应的字符。

3.1. String.fromCharCode()

String.fromCharCode()函数可以将一或多个Unicode码转换为对应的字符，并返回一个新的字符串。

const charA = String.fromCharCode(65);
console.log(charA); // 输出 A

const strHello = String.fromCharCode(72, 101, 108, 108, 111);
console.log(strHello); // 输出 Hello

3.2. String.prototype.charCodeAt()

charCodeAt()函数可以返回指定位置的字符的Unicode码。它接受一个参数，即字符的索引位置。

const strHello = 'Hello';
const charCodeH = strHello.charCodeAt(0);
console.log(charCodeH); // 输出 72

3.3. String.prototype.codePointAt()

codePointAt()函数在处理高位字符时比charCodeAt()更可靠，它可以返回指定位置的字符的Unicode码。同时，它还可以处理高位码点（超出BMP范围）的字符。

const strSmiley = '😄';
const codePoint = strSmiley.codePointAt(0);
console.log(codePoint); // 输出 128516

4. ES6新增的Unicode处理函数

在ES6中，新增了一些用于处理Unicode的函数，更方便地处理高位码点的字符。

4.1. String.prototype.normalize()

normalize()函数可以用于将字符串中的字符标准化为指定的Unicode形式。默认情况下，它将字符串标准化为NFC（Normalization Form Canonical Composition），可以消除一些特定字符的差异。

const strSchön = 'Schön';
const normalizedStr = strSchön.normalize();
console.log(normalizedStr); // 输出 Schön

4.2. String.prototype.includes()

includes()函数用于判断一个字符串是否包含特定的字符。在处理Unicode时，它可以正确地判断包含高位码点的字符。

const strHeart = '❤️';
const containsHeart = strHeart.includes('❤️');
console.log(containsHeart); // 输出 true

4.3. String.prototype.match()

match()函数用于在字符串中搜索匹配的字符或正则表达式。在处理Unicode时，它可以正确地匹配高位码点的字符。

const strLove = 'I ❤️ JavaScript';
const matchResult = strLove.match(/❤️/);
console.log(matchResult); // 输出 [ '❤️', index: 2, input: 'I ❤️ JavaScript', groups: undefined ]

5. 示例代码与运行结果

下面是一些示例代码的运行结果，展示了Unicode码转换为对应字符的过程：

const charA = '\u0041';
console.log(charA); // 输出 A

const charB = String.fromCharCode(66);
console.log(charB); // 输出 B

const strHello = String.fromCharCode(72, 101, 108, 108, 111);
console.log(strHello); // 输出 Hello

const strSmiley = '😄';
const codePoint = strSmiley.codePointAt(0);
console.log(codePoint); // 输出 128516

const strSchön = 'Schön';
const normalizedStr = strSchön.normalize();
console.log(normalizedStr); // 输出 Schön

const strHeart = '❤️';
const containsHeart = strHeart.includes('❤️');
console.log(containsHeart); // 输出 true

const strLove = 'I ❤️ JavaScript';
const matchResult = strLove.match(/❤️/);
console.log(matchResult); // 输出 [ '❤️', index: 2, input: 'I ❤️ JavaScript', groups: undefined ]

以上代码中的运行结果也展示了如何使用JavaScript处理Unicode码，并转换为对应的字符。