Python解码utf-8|极客教程

Python解码utf-8

在Python中，utf-8是一种最常用的字符编码方式，用来表示Unicode字符。在处理文本数据时，经常需要对utf-8进行解码操作。本文将详细介绍如何在Python中解码utf-8编码，包括使用内置函数和手动解码方法。

使用内置函数解码utf-8

Python内置了一个decode()函数，用来将字节数据解码为字符串。通过指定utf-8作为解码方式，可以将utf-8编码的字节数据解码成字符串。

下面是一个简单的示例代码，展示如何使用decode()函数解码utf-8编码的字节数据：

# utf-8编码的字节数据
utf8_bytes = b'\xe4\xbd\xa0\xe5\xa5\xbd'

# 解码成字符串
utf8_str = utf8_bytes.decode('utf-8')

print(utf8_str)

运行以上代码，输出为：

你好

手动解码utf-8

除了使用内置函数外，我们还可以手动解码utf-8编码的字节数据。手动解码需要了解utf-8编码规则，按照规则逐个字节解析，将字节转换成对应的Unicode字符。

以下是一个手动解码utf-8编码字节数据的示例代码：

# utf-8编码的字节数据
utf8_bytes = b'\xe4\xbd\xa0\xe5\xa5\xbd'

# 手动解码
utf8_str = ''
byte_cnt = 0

for byte in utf8_bytes:
    if byte_cnt == 0:
        if byte < 0x80:
            utf8_str += chr(byte)
        elif byte < 0xe0:
            byte_cnt = 1
            char = byte & 0x1f
        else:
            byte_cnt = 2
            char = byte & 0x0f
    else:
        char = (char << 6) | (byte & 0x3f)
        byte_cnt -= 1
        if byte_cnt == 0:
            utf8_str += chr(char)

print(utf8_str)

运行以上代码，输出也是你好。