python 字符串的 encode 和 decode

时间：12-14来源：作者：点击数：

首先要搞清楚，字符串在 Python 内部的表示是 unicode 编码，因此，在做编码转换时，通常需要以 unicode 作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从 unicode 编码（encode）成另一种编码。

decode 的作用是将其他编码的字符串转换成 unicode 编码，如 str1.decode('gb2312')，表示将 gb2312 编码的字符串转换成 unicode 编码。
encode 的作用是将 unicode 编码转换成其他编码的字符串，如 str2.encode('gb2312')，表示将 unicode 编码的字符串转换成 gb2312 编码。

在某些 IDE 中，字符串的输出总是出现乱码，甚至错误，其实是由于 IDE 的结果输出控制台自身不能显示字符串的编码，而不是程序本身的问题。

如在 UliPad 中运行如下代码：

s=u"中文"
print s

会提示：UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的（英文系统的默认编码是ascii），而上面代码中的字符串是Unicode编码的，所以输出时产生了错误。

将最后一句改为：print s.encode('gb2312')

则能正确输出“中文”两个字。

若最后一句改为：print s.encode('utf8')

则输出：\xe4\xb8\xad\xe6\x96\x87，这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。

另外，代码中字符串的默认编码与代码文件本身的编码一致，如：

s='中文'

如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件，在这篇文章中可以看到如何获得系统的默认编码。

如果字符串是这样定义：

s=u'中文'

则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。

如果一个字符串已经是unicode了，再进行解码则将出错，因此通常要对其编码方式是否为unicode进行判断：

isinstance(s, unicode)  #用来判断是否为unicode

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

来顶一下

返回首页

上一篇:python 文本文件读写的 3 种方法下一篇:Python 继承、多态、定制类

考了这些证书的可享个	怎样用 PS 把电子文档
记录在本地电脑部署自	围棋入门教程十天即