欢迎光临
我们一直在努力

GBK编码

作为一个开发人员,免不了要与各种各样的编码打交道。而网页编码英文译为web page encoding,是在网页中指定其特定的字符编码格局的库,它是消息处置的一项基本技术。本文咱们讲下GBK编码是什么?UTF-8编码是什么?以及两者的区别。
GBK编码是什么

一、什么是网页编码

咱们在网页上看到的一切文字其实都是由2进制0和1组成,”编码方式“深刻的讲就是将这些2进制数字转换成咱们看的懂的文字。国际普通用的是“GBK”和“GB2312”,而“utf-8”是大局部国度通用的编码方式。

二、GBK编码是什么

GB就是国标的意思,GB2312和GBK重要用于汉字的编码。也就是假设你的网页重要面对经常使用汉语的中国人的话,经常使用GB2312和GBK十分好,文字贮存体积较小。假设你的网页是面向环球的话,再用GB2312和GBK作为编码,有些电脑上的阅读器没有这种编码,你的网页汉字内容就会变成不可识别的乱码。编码代码理论用在网页的meta标签内,例如:meta charset=”utf-8″,示意这个页面经常使用的是utf-8编码。这个消息是给阅读器看的,阅读器会优先思考经常使用从网页头部提取进去的编码消息对网页启动解码。当然,咱们也可以强迫阅读器经常使用某种编码解释网页,这样咱们就看到了传说中的乱码。不过,如今树立网站优先选择国际通用的UTF-8编码,毕竟其它编码格局的建站CMS曾经很少有人降级与经常使用了,UTF-8编码是干流。

三、UTF-8编码是什么

UTF-8是Unicode TransformationFormat-8bit,在互联网上经常使用最广的一种Unicode的成功方式。它是用于处置国际上字符的一种多字节编码,它对英文经常使用8位(即一个字节),中文经常使用24为(三个字节)来编码。UTF-8蕴含全环球一切国度须要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国允许UTF8字符集的阅读器上显示。假设是UTF8编码,在本国人的英文阅读器上也能显示中文,他们无需下载中白话语允许包。UTF-8版本只管具备良好的国际兼容性,但中文须要比GBK/BIG5版本多占用50%的数据库存储空间,对国际兼容性有不凡要求的用户倡导经常使用。便捷地说:关于中文较多的网站,合实用GBK编码节俭数据库空间。关于英文较多的网站,合实用UTF-8节俭数据库空间。
UTF-8编码是什么

四、Unicode是什么

Unicode是Universal Multiple-Octet Coded Character Set”,简称 UCS。因为以前很多国度都有自己的编码规范,结果相互之间谁也疑问谁的编码,谁也不允许他人的编码。这时,一个叫 ISO (国际标谁化组织)的国际组织选择着手处置这个疑问。他们驳回的方法很便捷:废了一切的地域性编码打算,从新发明一个包括了地球上一切文明、一切字母和符号的编码,也就是Unicode。这种编码十分大,大到可以容纳环球上马何一个文字和标记。所以只需电脑上有Unicode这种编码系统,无论是环球哪种文字,只须要保留文件的时刻,保留成Unicode编码就可以被其余电脑反常解释。

四、GBK与UTF8有什么区别

1、UTF-8是一种国际化的编码方式,蕴含全环球一切国度须要用到的字符(简体中文字、繁体中文字、英文、日文、韩文等言语),也兼容 ASCII 码。2、GBK蕴含所有中文字符,是在国度规范GB2312基础上扩容后兼容GB2312的规范,专门用来处置中文编码,是双字节的,无论中英文都是双字节。3、UTF-8编码是用以处置国际上字符的一种多字节编码,它对英文经常使用8位(即一个字节),中文经常使用24位(三个字节)来编码。关于英文字符较多的网站用UTF-8更节俭空间。另外,假设是本国人访问你GBK编码的网页,须要下载中白话语包允许。而访问UTF-8编码的中文网页则不产生这疑问,可以间接访问显示中文字体。


什么是GBK编码?

GBK 是又一个汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称 Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化技术委员会 1995 年 12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司 1995 年 12 月 15 日联合以技监标函 [1995] 229 号文件的形式,将它确定为技术规范指导性文件,发布和实施。

这一版的 GBK 规范为 1.0 版。

GB 即“国标”,K 是“扩展”的汉语拼音第一个字母。

GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准,是前者向后者过渡过程中的一个承上启下的标准。

ISO 10646 是国际标准化组织 ISO 公布的一个编码标准,即 Universal Multilpe-Octet Coded Character Set(简称 UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与 Unicode 组织的 Unicode 编码完全兼容。

ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。

我国 1993 年以 GB 13000.1 国家标准的形式予以认可(即 GB 13000.1 等同于 ISO 10646.1)。

ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。

其中的汉字部分称为“CJK 统一汉字”(C 指中国,J 指日本,K 指朝鲜)。

而其中的中国部分,包括了源自中国大陆的 GB 2312、GB 12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的 CNS 11643 标准中第 1、2 字面(基本等同于 BIG-5 编码)、第 14 字面的汉字和符号。

一、字汇 GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充。

具体包括: 1. GB 2312 中的全部汉字、非汉字符号。

2. GB 13000.1 中的其他 CJK 汉字。

以上合计 20902 个 GB 化汉字。

3. 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。

4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。

5. 13 个汉字结构符。

6. BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。

7. GB 12345 增补的 6 个拼音符号。

8. 汉字“○”。

9. GB 12345 增补的 19 个竖排标点符号(GB 12345 较 GB 2312 增补竖排标点符号 29 个,其中 10 个未被 GB 13000.1 收入,故 GBK 亦不收)。

10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。

11. GB 13000.1 收入的 31 个 IBM OS/2 专用符号。

二、码位分配及顺序 GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。

总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

全部编码分为三大部分: 1. 汉字区。

包括: a. GB 2312 汉字区。

即 GBK/2: B0A1-F7FE。

收录 GB 2312 汉字 6763 个,按原顺序排列。

b. GB 13000.1 扩充汉字区。

包括: (1) GBK/3: 8140-A0FE。

收录 GB 13000.1 中的 CJK 汉字 6080 个。

(2) GBK/4: AA40-FEA0。

收录 CJK 汉字和增补的汉字 8160 个。

CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。

2. 图形符号区。

包括: a. GB 2312 非汉字符号区。

即 GBK/1: A1A1-A9FE。

其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。

计符号 717 个。

b. GB 13000.1 扩充非汉字区。

即 GBK/5: A840-A9A0。

BIG-5 非汉字符号、结构符和“○”排列在此区。

计符号 166 个。

3. 用户自定义区:分为(1)(2)(3)三个小区。

(1) AAA1-AFFE,码位 564 个。

(2) F8A1-FEFE,码位 658 个。

(3) A140-A7A0,码位 672 个。

第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。

三、字形 GBK 对字形作了如下的规定: 1. 原则上与 GB 13000.1 G列(即源自中国大陆法定标准的汉字)下的字形/笔形保持一致。

2. 在 CJK 汉字认同规则的总框架内,对所有的 GBK 编码汉字实施“无重码正形”(“GB 化”);即在不造成重码的前提下,尽量采用中国新字形。

3. 对于超出 CJK 汉字认同规则的、或认同规则尚未明确规定的汉字,在 GBK 码位上暂安放旧字形。

这样,在许多情况下 GBK 收入了同一汉字的新旧两种字形。

4. 非汉字符号的字形,凡 GB 2312 已经包括的,与 GB 2312 保持一致;超出 GB 2312 的部分,与 GB 13000.1 保持一致。

5. 带声调的拼音字母取半角形式。

gbk编码是什么?

GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE(高字节从81到FE,低字节从40到FE),剔除xx7F码位,共23940个码位。

GBK编码共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版。

扩展资料:

全部编码分为三大部分:

1、汉字区。

包括:

a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。

b. GB 13000.1 扩充汉字区。包括:

(1)、 GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。

(2) 、GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。

(3) 、汉字“〇”安排在图形符号区GBK/5:A996。

2、图形符号区。

包括:

a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。

b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“〇”排列在此区。计符号 166 个。

3、 用户自定义区:

分为(1)(2)(3)三个小区。

(1)、 AAA1-AFFE,码位 564 个。

(2) 、F8A1-FEFE,码位 658 个。

(3) 、A140-A7A0,码位 672 个。

第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。

歌词文件编码gbk和utf哪个好

GBK好GBK是中国大陆通用编码,UTF—8是世界通用编码,一般是使用GBK的程序。

字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。

GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)。

GBK,UTF8是什么?

GBK,UTF8都是一种字符集,就是一种编码方式~\x0d\x0a\x0d\x0a字符集(Characterset)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,\x0d\x0a\x0d\x0a常见字符集名称:ASCII字符集、GB2312字符集、UTF8字符集、GB18030字符集、Unicode字符集等。

\x0d\x0a\x0d\x0a计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

汉字在GBK编码是多少字节?

汉字在GBK\GB2312编码是2个字节。

字节:字节(Byte)是计算机信息技术用于计量存储容量和传输容量的一种计量单位,1个字节等于8位二进制。在ASCII码中,一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。

对于符号来说,英文标点占一个字节,中文标点占两个字节。举例:英文句号“.”占1个字节的大小,中文句号“。”占2个字节的大小。

字符:是指计算机中使用的字母、数字、字和符号,包括:1、2、3、A、B、C、~!•#¥%……—*()——+等等,相当于这些东西的统称。所以,1个汉字字符会占用两个英文字符的位置,存储需要2个字节;1个英文字符存储只占一个英文字符的位置,存储需要1个字节;2个数字为一个字节。

“字节”与“字符”的对应关系:

关于GBK编码GBK编码总共有多少个字符,有

1个字符=1个字节1个汉子=2个字节(gbk编码下)1个汉子=3个字节(utf-8编码下)注:1个字节=8位 即 1B = 8bit


歆兴故事汇

长按二维码关注

看完要关注,从此人生不迷路!


赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《GBK编码》
文章链接:https://www.775n.com/post-1885.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

登录

找回密码

注册