Python全系列 教程
3567个小节阅读:5929k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
在操作文本文件时,经常会操作中文,这时候就经常会碰到乱码问题。为了让大家有能力解决中文乱码问题,这里简单介绍一下各种编码之间的关系。
常用编码之间的关系如下:
ASCII
全称为American Standard Code for Information Interchange
,美国信息交换标准代码,这是世界上最早最通用的单字节编码系统,主要用来显示现代英语及其他西欧语言。
ASCII
码用7位表示,只能表示128个字符。只定义了27=128个字符,用7bit即可完全编码,而一字节8bit的容量是256,所以一字节ASCII
的编码最高位总是0。0~31表示控制字符如回车、退格、删除等;32~126表示打印字符即可以通过键盘输入并且能显示出来的字符; 其中48~57为0到9十个阿拉伯数字,65~90为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等,具体可以参考
ASCII
标准表(大家自行百度,不在此赘述)。
ISO8859-1
ISO-8859-1
又称Latin-1
,是一个8位单字节字符集,它把ASCII
的最高位也利用起来,并兼容了ASCII
,新增的空间是128,但它并没有完全用完。
在ASCII
编码之上又增加了西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号,它是向下兼容ASCII
编码
GB2312,GBK,GB18030
GB2312
GB2312
全称为信息交换用汉字编码字符集,是中国于1980年发布,主要用于计算机系统中的汉字处理。GB2312
主要收录了6763个汉字、682个符号。
GB2312
覆盖了汉字的大部分使用率,但不能处理像古汉语等特殊的罕用字,所以后来出现了像GBK
、GB18030
这种编码。
GB2312
完全兼容ISO8859-1
GBK
全称为Chinese Internal Code Specification
,即汉字内码扩展规范,于1995年制定。它主要是扩展了GB2312
,在它的基础上又加了更多的汉字,它一共收录了21003个汉字
GB18030
现在最新的内码字集于2000年发布,并于2001年强制执行,包含了中国大部分少数民族的语言字符,收录汉字数超过70000余个。
它主要采用单字节、双字节、四字节对字符编码,它是向下兼容GB2312
和GBK
的,虽然是我国的强制使用标准,但在实际生产中很少用到,用得最多的反而是GBK
和GB2312
Unicode
编码设计成了固定两个字节,所有的字符都用16位(2^16=65536)表示,包括之前只占8位的英文字符等,所以会造成空间的浪费,UNICODE
在很长的一段时间内都没有得到推广应用。
Unicode
完全重新设计,不兼容iso8859-1
,也不兼容任何其他编码。
对于英文字母,unicode
也需要两个字节来表示。所以unicode
不便于传输和存储。因此而产生了UTF编码
,UTF-8
全称是(8-bit Unicode Transformation Format
)。
UTF
编码兼容iso8859-1
编码,同时也可以用来表示所有语言的字符,不过,UTF
编码是不定长编码,每一个字符的长度从1-4个字节不等。其中,英文字母都是用一个字节表示,而汉字使用三个字节。
❤️老鸟建议
一般项目都会使用
UTF-8
。
windows
操作系统默认的编码是GBK
,Linux
操作系统默认的编码是UTF-8
。当我们用open()
时,调用的是操作系统打开的文件,默认的编码是GBK
【示例】中文字符文件,乱码出现测试
xxxxxxxxxx
#测试写入中文
f = open(r"b.txt","w")
f.write("尚学堂\n百战程序员\n")
f.close()
运行结果(Linux
环境中不存在这个问题):
我们在文件编辑区单击右键,选择FileEncoding
,选择GBK
即可:
再选择Reload
,文件即显示正常。
【示例】通过指定文件编码解决中文乱码问题
xxxxxxxxxx
#测试写入中文
f = open(r"b.txt","w",encoding="utf-8")
f.write("尚学堂\n百战程序员\n")
f.close()
运行结果:
write(a)
:把字符串a
写入到文件中
writelines(b)
:把字符串列表写入文件中,不添加换行符
【操作】添加字符串列表数据到文件中
xxxxxxxxxx
f = open(r"d:\bb.txt","w",encoding="utf-8")
s = ["高淇\n","高老三\n","高老四\n"]
f.writelines(s)
f.close()
执行结果:
实时效果反馈
1. 如下关于给文件写入中文的代码,空白处填写的代码是:
xxxxxxxxxx
#测试写入中文
f = open(r"b.txt","w",encoding="_____")
f.write("尚学堂\n百战程序员\n")
f.close()
A iso8859-1
B ascii
C utf-8
D unicode
答案
1=>C