Python 错误UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u0444’ in position 4: ordinal not in range(128)
当我们使用 ascii 编解码器对包含非 ascii 字符的字符串进行编码时,会出现 Python “UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u0444’ in position 4: ordinal not in range(128)”。 要解决错误,需要指定正确的编码,例如 UTF-8
。
下面是产生该错误的示例代码
my_str = 'one ф'
# ⛔️ UnicodeEncodeError: 'ascii' codec can't encode character '\u0444' in position 4: ordinal not in range(128)
my_bytes = my_str.encode('ascii')
该错误是由于字符串包含非 ascii 字符引起的。
要解决错误,需要使用正确的编码对字符串进行编码,例如 UTF-8
。
my_str = 'one ф'
my_bytes = my_str.encode('utf-8')
print(my_bytes) # ?️ b'one \xd1\x84'
utf-8 编码能够以 Unicode 编码超过一百万个有效字符代码点。
如果我们在打开文件时遇到错误,需要在调用 open()
函数时将 encoding
关键字参数设置为 utf-8,例如 open('example.txt', 'w', encoding='utf-8')
。
我们可以在官方文档的这个表格中查看所有标准编码。
编码是将字符串转换为字节对象的过程,解码是将字节对象转换为字符串的过程。
下面是完整过程的代码。
my_str = 'one ф'
# ?️ 将字符串编码为字节
my_bytes = my_str.encode('utf-8')
print(my_bytes) # ?️ b'one \xd1\x84'
# ?️ 将字节解码为字符串
my_str_again = my_bytes.decode('utf-8')
print(my_str_again) # ?️ "one ф"
解码字节对象时,我们必须使用与将字符串编码为字节对象相同的编码。
如果使用 utf-8
编码时错误仍然存在,请尝试将 errors
关键字参数设置为 ignore
以忽略无法编码的字符。
my_str = 'one ф'
# ?️ 将字符串编码为字节
my_bytes = my_str.encode('utf-8', errors='ignore')
print(my_bytes) # ?️ b'one \xd1\x84'
# ?️ 将字节解码为字符串
my_str_again = my_bytes.decode('utf-8', errors='ignore')
print(my_str_again) # ?️ "one ф"
请注意,忽略无法编码的字符可能会导致数据丢失。
我们也可以尝试使用 ascii 编码并将 errors
设置为 ignore
以忽略任何非 ascii 字符。
my_str = 'one ф'
# ?️ 将字符串编码为字节
my_bytes = my_str.encode('ascii', errors='ignore')
print(my_bytes) # ?️ b'one '
# ?️ 将字节解码为字符串
my_str_again = my_bytes.decode('ascii', errors='ignore')
print(my_str_again) # ?️ "one"
请注意,当我们将字符串编码为字节时,最后一个字符(非 ascii 字符)被丢弃了。
如果我们在打开文件时遇到错误,请打开将 encoding
设置为 utf-8 的文件。
my_str = 'one ф'
# ?️ 将 encoding 设置为 utf-8
with open('example.txt', 'w', encoding='utf-8') as f:
f.write(my_str)
我们还可以将 errors
关键字参数设置为 ignore
以在打开文件时忽略任何编码错误。
my_str = 'one ф'
with open('example.txt', 'w', encoding='utf-8', errors='ignore') as f:
f.write(my_str)