Python 字符处理1

时间：12-14来源：作者：点击数：

import codecs
# 输出字符个数，中文，英文，数字都只是算一个
print len(u"我是谁第1部abc")
print len("我是谁".decode("utf-8"))
#以utf-8格式读取文件内容，要求文件使用对应的utf-8格式保存
content = codecs.open('c:\\test.txt', 'r', 'utf-8').read()
print content

import chardet
from chardet.universaldetector import UniversalDetector
def detectFile(file_name):
    detector = UniversalDetector()
    file_obj = open(file_name)
    for line in file_obj.readlines():
        # 分块进行测试，直到达到阈值
        detector.feed(line)
        if detector.done: break
    # 关闭检测对象
    detector.close()
    file_obj.close()
    # 输出检测结果
    if not detector.result.has_key("encoding"):
        detector.result["encoding"] = config.DEFAULT_ENCODING
    if str.lower(str(detector.result["encoding"])) == "gb2312":
        detector.result["encoding"] = "gbk"
    return detector.result


def get_encoding_type_of_file(full_path):
    with open(full_path, 'r') as file_handler:
        file_content = file_handler.read()
        encoding_type = chardet.detect(file_content).get("encoding")
        return encoding_type

def translateFile(full_path)
             with codecs.open(full_path, 'r') as filehandler:
                if isutf8encode:
                    self.FileBuffer = codecs.EncodedFile(filehandler, 'utf-8').read()
                    filehandler.seek(0)
                    self.FileLinesBuffer = codecs.EncodedFile(filehandler, 'utf-8').readlines()
                else:
                    self.FileBuffer = codecs.EncodedFile(filehandler, 'gbk', 'utf-8').read()
                    filehandler.seek(0)
                    self.FileLinesBuffer = codecs.EncodedFile(filehandler, 'gbk', 'utf-8').readlines()

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

来顶一下

返回首页

上一篇:Python 学习笔记下一篇:使用 python 将包含二进制内容的字符串转换成二进制 bit 写入文件

考了这些证书的可享个	怎样用 PS 把电子文档
记录在本地电脑部署自	围棋入门教程十天即