
从未停步为您分享以下优质知识
汉字在计算机中的二进制编码主要涉及以下概念:
汉字在计算机内部以二进制形式存储,这是由计算机的物理特性决定的。二进制(0和1)是计算机唯一能识别的数字系统,便于硬件实现。
字符编码标准
为了解决单字节ASCII码无法表示汉字的问题,中国及部分国际场景采用了扩展编码标准:
- 国标码(GB码):
1981年发布的汉字交换码,采用双字节表示,如“啊”字编码为B0A1。
- 扩展编码:包括GBK(扩展国标码)、Big5(繁体中文)、HZ码(互联网常用)等,分别扩展了汉字表示范围。
- 国际标准:如ISO-2022CJK(中日韩统一编码)和Unicode,采用双字节或更多位数表示汉字,支持全球多语言。
- 内码:
计算机内部实际存储的编码,如GB2312、GBK等,用于系统内部处理。
- 外码:用户输入时使用的编码,如拼音码、五笔码等,需转换为内码后才能被计算机识别。
计算机需在不同编码之间转换,例如:
- 拆分:将双字节内码拆分为单字节的ASCII码和汉字识别码(如GB2312中前6位为ASCII码,后6位为汉字码)。
- 组合:将拆分后的代码重新组合为双字节内码存储。
总结:
汉字的 物理存储编码和 扩展字符编码标准(如GB2312、GBK、Unicode等)均采用二进制形式,而内码是计算机内部通用的二进制表示,外码需转换为内码后使用。