字符编码

2022-03-29 约 5286 字预计阅读 11 分钟次阅读

字符编码基本概念

字符

字符（Character）：在计算机和电信技术中，一个字符是一个单位的字形、类字形单位或符号的基本信息。说的简单点字符是各种文字和符号的总称。一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号、一个图形符号或者控制符号等。

字符集

字符集（Character Set）：是指多个字符的集合。不同的字符集包含的字符个数不一样、包含的字符不一样、对字符的编码方式也不一样。例如GB2312是中国国家标准的简体中文字符集，GB2312收录简化汉字（6763个）及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母，共 7445 个图形字符。而ASCII字符集只包含了128字符，这个字符集收录的主要字符是英文字母、阿拉伯字母和一些简单的控制字符。

另外，还有其他常用的字符集有 GBK字符集、GB18030字符集、Big5字符集、Unicode字符集等。

字符编码

字符编码（Character Encoding）：字符编码是指一种映射规则，根据这个映射规则可以将某个字符映射成其他形式的数据以便在计算机中存储和传输。例如ASCII字符编码规定使用单字节中低位的7个比特去编码所有的字符，在这个编码规则下字母A的编号是65（ASCII码），用单字节表示就是0x41，因此写入存储设备的时候就是二进制的 01000001。每种字符集都有自己的字符编码规则，常用的字符集编码规则还有 UTF-8编码、GBK编码、Big5编码等。

码点

码点（Code Point）：有些地方翻译为码值或内码。是指在某个字符集中，根据某种编码规则将字符编码后得到的值。比如在ASCII字符集中，字母A经过ASCII编码得到的值是65，那么65就是字符A在ASCII字符集中的码点。

总结：通俗解释字符集就是把字符放到一起的一个集合。而这个集合的每一个字符都对应一个数字，叫做码点。那么，这样就建立起来数字和字符之间的索引关系。那么，某个字符在计算机中怎么表示，具体占用几个字节等等，这些就需要编码规则来解决了。这个就是字符编码，他来解决根据某个规则来将字符映射到相应的码点上面。

字符编码

ASCII 码

ASCII 编码于 1967 年第一次发布，最后一次更新是在 1986 年，迄今为止共收录了 128 个字符，包含了基本的拉丁字母（英文字母）、阿拉伯数字（也就是 1234567890）、标点符号（,.!等）、特殊符号（@#$%^&等）以及一些具有控制功能的字符（往往不会显示出来）。

ASCII 编码是美国人给自己设计的，他们并没有考虑欧洲那些扩展的拉丁字母，也没有考虑韩语和日语，我大中华几万个汉字更是不可能被重视。计算机也是美国人发明的，起初使用的就是 ASCII 码，只能显示英文字符。各个国家为了让本国公民也能正常使用计算机，开始效仿 ASCII 开发自己的字符编码，例如 ISO/IEC 8859（欧洲字符集）、shift_Jis（日语字符集）、GBK（中文字符集）等。

二进制	十进制	十六进制	字符/缩写	解释
00000000	0	00	NUL (NULL)	空字符
00000001	1	01	SOH (Start Of Headling)	标题开始
00000010	2	02	STX (Start Of Text)	正文开始
00000011	3	03	ETX (End Of Text)	正文结束
00000100	4	04	EOT (End Of Transmission)	传输结束
00000101	5	05	ENQ (Enquiry)	请求
00000110	6	06	ACK (Acknowledge)	回应/响应/收到通知
00000111	7	07	BEL (Bell)	响铃
00001000	8	08	BS (Backspace)	退格
00001001	9	09	HT (Horizontal Tab)	水平制表符
00001010	10	0A	LF/NL(Line Feed/New Line)	换行键
00001011	11	0B	VT (Vertical Tab)	垂直制表符
00001100	12	0C	FF/NP (Form Feed/New Page)	换页键
00001101	13	0D	CR (Carriage Return)	回车键
00001110	14	0E	SO (Shift Out)	不用切换
00001111	15	0F	SI (Shift In)	启用切换
00010000	16	10	DLE (Data Link Escape)	数据链路转义
00010001	17	11	DC1/XON (Device Control 1/Transmission On)	设备控制1/传输开始
00010010	18	12	DC2 (Device Control 2)	设备控制2
00010011	19	13	DC3/XOFF (Device Control 3/Transmission Off)	设备控制3/传输中断
00010100	20	14	DC4 (Device Control 4)	设备控制4
00010101	21	15	NAK (Negative Acknowledge)	无响应/非正常响应/拒绝接收
00010110	22	16	SYN (Synchronous Idle)	同步空闲
00010111	23	17	ETB (End of Transmission Block)	传输块结束/块传输终止
00011000	24	18	CAN (Cancel)	取消
00011001	25	19	EM (End of Medium)	已到介质末端/介质存储已满/介质中断
00011010	26	1A	SUB (Substitute)	替补/替换
00011011	27	1B	ESC (Escape)	逃离/取消
00011100	28	1C	FS (File Separator)	文件分割符
00011101	29	1D	GS (Group Separator)	组分隔符/分组符
00011110	30	1E	RS (Record Separator)	记录分离符
00011111	31	1F	US (Unit Separator)	单元分隔符
00100000	32	20	(Space)	空格
00100001	33	21	!
00100010	34	22	"
00100011	35	23	#
00100100	36	24	$
00100101	37	25	%
00100110	38	26	&
00100111	39	27	'
00101000	40	28	(
00101001	41	29	)
00101010	42	2A	*
00101011	43	2B	+
00101100	44	2C	,
00101101	45	2D	-
00101110	46	2E	.
00101111	47	2F	/
00110000	48	30	0
00110001	49	31	1
00110010	50	32	2
00110011	51	33	3
00110100	52	34	4
00110101	53	35	5
00110110	54	36	6
00110111	55	37	7
00111000	56	38	8
00111001	57	39	9
00111010	58	3A	:
00111011	59	3B	;
00111100	60	3C	<
00111101	61	3D	=
00111110	62	3E	>
00111111	63	3F	?
01000000	64	40	@
01000001	65	41	A
01000010	66	42	B
01000011	67	43	C
01000100	68	44	D
01000101	69	45	E
01000110	70	46	F
01000111	71	47	G
01001000	72	48	H
01001001	73	49	I
01001010	74	4A	J
01001011	75	4B	K
01001100	76	4C	L
01001101	77	4D	M
01001110	78	4E	N
01001111	79	4F	O
01010000	80	50	P
01010001	81	51	Q
01010010	82	52	R
01010011	83	53	S
01010100	84	54	T
01010101	85	55	U
01010110	86	56	V
01010111	87	57	W
01011000	88	58	X
01011001	89	59	Y
01011010	90	5A	Z
01011011	91	5B	[
01011100	92	5C	\
01011101	93	5D	]
01011110	94	5E	^
01011111	95	5F	_
01100000	96	60	`
01100001	97	61	a
01100010	98	62	b
01100011	99	63	c
01100100	100	64	d
01100101	101	65	e
01100110	102	66	f
01100111	103	67	g
01101000	104	68	h
01101001	105	69	i
01101010	106	6A	j
01101011	107	6B	k
01101100	108	6C	l
01101101	109	6D	m
01101110	110	6E	n
01101111	111	6F	o
01110000	112	70	p
01110001	113	71	q
01110010	114	72	r
01110011	115	73	s
01110100	116	74	t
01110101	117	75	u
01110110	118	76	v
01110111	119	77	w
01111000	120	78	x
01111001	121	79	y
01111010	122	7A	z
01111011	123	7B	{
01111100	124	7C	\|
01111101	125	7D	}
01111110	126	7E	~
01111111	127	7F	DEL (Delete)	删除

GB2312(别名:EUC-CN)

《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布，1981年5月1日开始实施的一套国家标准，标准号是GB 2312—1980。

GB2312的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来GBK及GB 18030汉字字符集的出现。

GB2312(1980年)共收录 7445 个字符 –> GBK1.0(1995年)共收录 21886 个字符 –> GB18030(2000年)取代GBK1.0共收录 27484 个汉字包含了少数民族语言。

从 ASCII -> GB2312 -> GBK -> GB18030，这些编码都是向下兼容的。区分中文编码的方法是最高字节的最高位不为 0。这些都属于双字节字符集。

GB2312 编码规则

GB2312 规定每个英文字符占1字节(只有这一个特例，为了兼容 ASCII)，中文字符采用两个字节表示
GB2312 整体分为 94 个区，每个区 94 位，01-09 特殊符号区；16-55一级汉字，按拼音排序；56-87二级汉字，部首/笔划排序；10-15与88-94未定义
GB2312 是区位编码，编码范围是 0XA1A1-0XFEFE，其中汉字编码范围是 0XB0A1-0XF7FE。
GB2312 01-09 符号和数字区，16-87是汉字区
GB2312 编码计算：[区号+0xA0][位号+0xA0]

GB2312 编码识别

保存为demo-gb2312.c

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80


//
// Created by dingjing on 3/28/22.
//
#include <stdio.h>
#include <string.h>
#include <stdint.h>
#include <stdbool.h>

/**
 * 总共 94 个区 94 个位
 */
bool is_gb2312 (const char* code)
{
    int len = strlen (code);
    if (len != 2 && len != 1) {
        return false;
    }

    uint8_t codeH = code[0];
    uint8_t codeL = code[1];

    uint8_t area = codeH - 0xA0;
    uint8_t pos  = codeL - 0xA0;

    if ((len == 1) && (0 == (codeL & 0x80))) {
        printf ("ascii code: '%-3c' hex code: 0x%-2X\n", *code, *code);
        return true;
    }

    if (area >= 1 && area <= 94 && pos >= 1 && pos <= 94) {
        printf ("gb2312 code: '%-3s' -- area: %-2u, pos: %-2u hex code: 0x%-2X 0x%-2X\n", code, area, pos, codeH, codeL);
        return true;
    }
}


int main (int argc, char* argv[])
{
    /**
     * https://uic.io/en/charset/show_raw/gb2312
     * http://tools.jb51.net/table/gb2312
     * 1. '残'   十六进制: B2D0
     * 2. '怖'   十六进制: B2C0
     * 3. '惭'   十六进制: B2D1
     *
     * 4. ascii 里显示的特殊符号 32(space) - 47(/)
     * 5. ascii 里数字 30(0) - 39(9)
     * 6. ascii 里显示的特殊符号 58(:) - 64(@)
     * 7. ascii 里显示的大写字母 65(A) - 90(Z)
     * 8. ascii 里显示的标号字符 91([) - 96(`)
     * 9. ascii 里显示的大写字母 97(a) - 122(z)
     * 10. ascii 其它可显示字符 123({) - 126(~)
     *
     * uint16_t 就足够了
     */
    const char* arr[] = {
            "、", "∩", "〓",                              /* 第一区 */
            "残", "怖", "惭", "庄", "丽", "君", "齄",
            " ", "/",
            "0", "9",
            ":", "@",
            "A", "Z",
            "[", "`",
            "a", "z",
            "{", "~"
    };

    printf ("array: %lu/%lu\n\n", sizeof arr[0], sizeof arr);

    int len = sizeof arr / sizeof arr[0];
    for (int i = 0; i < len; ++i) {
        const char* code = arr[i];

        if (!is_gb2312 (code)) {
            printf ("index: %d -- code '%-3s' is not gb2312\n", i, code);
        }
    }

    return 0;
}

编译命令:

1

gcc -O0 -finput-charset=utf8 -fexec-charset=gb2312 demo-gb2312.run demo-gb2312.c

GB2312识别思路(后续补充)

Unicode 编码

Unicode 的使命就是为了统一世界上所有语言的编码，它包含了世界上所有字符的编码，规定了每个字符对应的码点值。

这里需要注意：Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。
问题1: 如何才能区别unicode和ascii
问题2: 我们已经知道，英文字母只用一个字节表示就够了，如果 unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是 0，这对于存储来说是极大的浪费，文本文件的大小会因此大出 2-3 倍，这是无法接受的。

另附unicode中汉字编码

字符集	字数	unicode 编码
基本汉字	20902字	4E00(一) - 9FA5(龥)
基本汉字扩充	90字	9FA6(龦) - 9FFF(<无法显示>) 这些看着不像汉字，先不管
扩展A	6592字	3400 - 4DBF，看着不像汉字
扩展B	42720字	20000-2A6DF
扩展C	4153字	2A700-2B738
扩展D	222字	2B740-2B81D
扩展E	5762字	2B820-2CEA1
扩展F	7473字	2CEB0-2EBE0
扩展G	4939字	30000-3134A
康熙部首	214字	2F00-2FD5
部首扩展	115字	2E80-2EF3
兼容汉字	477字	F900-FAD9
兼容扩展	542字	2F800-2FA1D
PUA(GBK)部件	81字	E815-E86F
部件扩展	452字	E400-E5E8
PUA增补	207字	E600-E6CF
汉字笔画	36字	31C0-31E3
汉字结构	12字	2FF0-2FFB
汉语注音	43字	3105-312F
注音扩展	22字	31A0-31BA
〇	1字	3007

utf8 编码(unicode编码的一种实现)

UTF-8 是一种变长字节编码方式，是 Unicode 的一种实现方式，使用 1-4 个字节表示一个符号，对于某一个字符的 UTF-8 编码，如果只有一个字节则其最高二进制位为 0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为 1 的个数决定了其编码的位数，其余各字节均以 10 开头。UTF-8 最多可用到 6 个字节。

注意：这里是utf8编码的核心，它规定了utf8最多可以使用多少字节编码
思考：为什么utf8最多只能使用6字节参与编码？
实际上 utf-8 编码没用到 6 字节那么多，只用到了 4 字节
另外补充：另外补充 utf16，介于 utf8 与 utf32 之间，部分编码定长、部分编码不定长(只有两种) utf32 是定长的，用 4 字节表示一个字符
utf8中文汉字占3字节(这种结论不是一直不变的)

以下展示 utf8 分别为 1、2、3、4、5、6字节时候，理论上其它位的编码范围。

1
2
3
4
5
6


1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

与上述等价

1
2
3
4
5
6
7
8
9


1字节, utf8-1 0x00-0x7F
2字节, utf8-2 0xC2-0XDF   0X80-0XBF
3字节, utf8-3 0xE0        0xA0-0XBF   0x80-0xBF
             0xE1-0XEC   0x80-0XBF   0x80-0xBF
             0xED        0x80-0x9F   0x80-0xBF
             0xEE-0xEF   0x80-0xBF   0x80-0xBF
4字节, utf8-4 0xF0        0x90-0xBF   0x80-0xBF   0x80-0xBF
             0xF1-0xF3   0x80-0xBF   0x80-0xBF   0x80-0xBF
             0xF4        0x80-0x8F   0x80-0xBF   0x80-0xBF

utf8 编码识别

保存为demo-utf8.c

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148


//
// Created by dingjing on 3/28/22.
//

#include <stdio.h>
#include <stdint.h>
#include <string.h>
#include <stdbool.h>

bool is_utf8_1 (const char* code)
{
    int len = strlen(code);
    if (len < 1) {
        return false;
    }
    const uint8_t code1 = code[0];

    if (!(0x80 & code1)) {
        return true;
    }

    return false;
}

bool is_utf8_2 (const char* code)
{
    int len = strlen(code);
    if (len < 2) {
        return false;
    }
    const uint8_t code1 = code[0];
    const uint8_t code2 = code[1];

//    printf ("debug2: 0x%-4X\n", code);

    if (!is_utf8_1 (code) && (0xC0 == (0xE0 & code1)) && (0x80 == (0xE0 & code2))) {
//        printf ("debug: is utf8-2\n");
        if (code1 >= 0xC0 && code1 <= 0xDF && code2 >= 0x80 && code2 <= 0xBF) {
            return true;
        }
    }

    return false;
}

bool is_utf8_3 (const char* code)
{
    /**
     * 0xE0        0xA0-0XBF   0x80-0xBF
     * 0xE1-0XEC   0x80-0XBF   0x80-0xBF
     * 0xED        0x80-0x9F   0x80-0xBF
     * 0xEE-0xEF   0x80-0xBF   0x80-0xBF
     */
    int len = strlen(code);
    if (len < 3) {
        return false;
    }

    const uint8_t code1 = code[0];
    const uint8_t code2 = code[1];
    const uint8_t code3 = code[2];

    if ((0xE0 == code1) && ((code2 >= 0xA0) && (code2 <= 0XBF)) && ((code3 >= 0x80) && (code3 <= 0xBF))) {
        return true;
    } else if (((code1 >= 0xE1) && (code1 <= 0xEC)) && ((code2 >= 0x80) && (code2 <= 0xBF)) && ((code3 >= 0x80) && (code3 <= 0xBF))) {
        return true;
    } else if ((0xED == code1) && ((code2 >= 0x80) && (code2 <= 0x9F)) && ((code3 >= 0x80) && (code3 <= 0xBF))) {
        return true;
    } else if (((code1 >= 0xEE) && (code1 <= 0xEF)) && ((code2 >= 0x80) && (code2 <= 0xBF)) && ((code3 >= 0x80) && (code3 <= 0xBF))) {
        return true;
    }

    return false;
}

bool is_utf8_4 (const char* code)
{
    /**
     * 0xF0        0x90-0xBF   0x80-0xBF   0x80-0xBF
     * 0xF1-0xF3   0x80-0xBF   0x80-0xBF   0x80-0xBF
     * 0xF4        0x80-0x8F   0x80-0xBF   0x80-0xBF
     */
    int len = strlen(code);
    if (len < 4) {
        return false;
    }

    const uint8_t code1 = code[0];
    const uint8_t code2 = code[1];
    const uint8_t code3 = code[2];
    const uint8_t code4 = code[3];

//    printf ("debug4: 0x%-4X %-4X\n", code1H, code1L);

    if (!is_utf8_1 (code) && !is_utf8_2 (code) && !is_utf8_3 (code)) {
        if ((0xF0 == code1)
            && ((code2 >= 0x90) && (code2 <= 0xBF))
            && ((code3 >= 0x80) && (code3 <= 0xBF))
            && ((code4 >= 0x80) && (code4 <= 0xBF))) {
            return true;
        } else if (((code1 >= 0xF1) && (code1 <= 0xF3))
                   && ((code2 >= 0x80) && (code2 <= 0xBF))
                   && ((code3 >= 0x80) && (code3 <= 0xBF))
                   && ((code4 >= 0x80) && (code4 <= 0xBF))) {
            return true;
        } else if ((0xF4 == code1)
                   && ((code2 >= 0x80) && (code2 <= 0x8F))
                   && ((code3 >= 0x80) && (code3 <= 0xBF))
                   && ((code4 >= 0x80) && (code4 <= 0xBF))) {
            return true;
        }
    }

    return false;
}

int main (int argc, char* argv[])
{
    // utf-8 1 - 4 字节
    const char* arr[] = {
            " ", "/", "0", "9", ":", "@", "A", "Z", "[", "`", "a", "z", "{", "~",       /* 以下都是 ASCII */
            "§", "©", "®", "Ą", "Ď", "Đ", "Ő",                                          /* 2 字节 utf8 编码 */
            "ᥕ", "一", "龥", "庄", "丽", "君",                                            /* 3 字节 */
            "契", "い", "龜"
    };

    printf ("array: %lu/%lu\n\n", sizeof arr[0], sizeof arr);

    char buf[128] = {0};
    int len = sizeof arr / sizeof arr[0];
    for (int i = 0; i < len; ++i) {
        const char* code = arr[i];

        if (is_utf8_1 (code)) {
            printf ("index: %-2d --> utf8-1 code: '%c'  --  hex code: 0x%-02X <==> dec: %d\n", i, code[0], code[0] & 0xFF, code[0] & 0xFF);
            continue;
        } else if (is_utf8_2 (code)) {
            printf ("index: %-2d --> utf8-2 code: '%s'  --  hex code: 0x%-02X 0x%-02X\n", i, code, code[0] & 0xFF, code[1] & 0xFF);
            continue;
        } else if (is_utf8_3 (code)) {
            printf ("index: %-2d --> utf8-3 code: '%s'  --  hex code: 0x%-02X 0x%-02X 0x%-02X\n", i, code, code[0] & 0xFF, code[1] & 0xFF, code[2] & 0xFF);
        } else if (is_utf8_4 (code)) {
            printf ("index: %-2d --> utf8-4 code: '%s'  --  hex code: 0x%-02X 0x%-02X 0x%-02X 0x%-02X\n", i, code, code[0] & 0xFF, code[1] & 0xFF, code[2] & 0xFF, code[3] & 0xFF);
        }
    }

    return 0;
}

编译方法

1

gcc -O0 -finput-charset=utf8 -fexec-charset=utf8 demo-utf8.run demo-utf8.c

utf8识别思路(后续补充)

utf16 编码(unicode编码的一种实现)

没用到，后续补充。
部分编码定长、部分编码不定长(只有两种)

utf32 编码(unicode编码的一种实现)

utf32 是定长的，用 4 字节表示一个字符

目录

字符编码

字符编码基本概念

字符

字符集

字符编码

码点

字符编码

ASCII 码

GB2312(别名:EUC-CN)

GB2312 编码规则

GB2312 编码识别

GB2312识别思路(后续补充)

Unicode 编码

另附unicode中汉字编码

utf8 编码(unicode编码的一种实现)

utf8 编码识别

utf8识别思路(后续补充)

utf16 编码(unicode编码的一种实现)

utf32 编码(unicode编码的一种实现)