从其它平台迁移而来


在软件开发过程中,尤其是涉及到数据库的项目,通常都会遇到字符编码的问题。

其中,中文字符集编码常用的有GB2312GBK,以及万国码UTF8,另外还有GB18030

ASCII码每个字符占一个字节;GB2312GBK的子集,两个字符集都是每个字符占两个字节;GB18030GBK的取代版本,每个字符占一个、两个或四个字节;UFT8是万国码,每个字符占一个、两个或三个字节。

下图是GBK字符编码表。

图是265*256的矩阵,表示两个字节可以表示的所有字符。水平方向表示高字节,从左至右为0000~FF00;垂直方向表示低字节,从上到下为0000~00FF

左侧0区0000~007FASCII码区。

右下色块区:8140~FEFE(需剔除a区817F~FE7F),GBK编码区。

具体说明

GBK编码分三部分。

一、汉字区

  1. 2区:B0A1~F7FEGBK/2GB2312汉字区,GB2312汉字6763个。

  2. GB13000.1扩充汉字区

    1. 3区:8140~A0FEGBK/3GB13000.1中的CJK汉字6080个。

    2. 4区:AA40~FEA0GBK/4CJK汉字和增补的汉字8160个。

二、图形符号区

  1. 1区:A1A1~A9FEGBK/1GB2312非汉字符号区。除GB2312的符号外,还有10个小写罗马数字和GB12345增补的符号。计符号717个。

  2. 5区:A840~A9A0GBK/5GB13000.1扩充非汉字区。包含BIG-5非汉字符号、结构符和汉字。计符号166个。

三、用户自定义区

  1. A区:AAA1~AFFE,码位564个。

  2. B区:F8A1~FEFE,码位658个。

  3. C区:A140~A7A0,码位672个。