资源教程

各国字符编码标准

作者:dudumao 日期:2008-08-24

字体大小: 小中大

各国字符编码标准

　　我做网页时，打开测试页面显示乱码，这些乱码在编辑环境下就是汉字，这可能是和Word文档字符乱码一个道理，字符编码用错了。打开网页文件，看到一串字符charset=ISO-8859-15，这个类似平时见到的GB-2312国标码。

　　于是就把这个字符串中的ISO-8859-15输入到google里搜索，立刻搜到微软CSDN社区Visual C# 开发中心技术资源库里的一篇文章。然后按照文章中解释的编码，在网页文件中输入Gb18030,乱码没有了。再把Gb18030输入到Google搜索框里搜一下，搜到了baidu的Gb18030百科，里面详细解释了它和Gb2312的联系。Gb18030-2000是继GB2312-1980和GB13000-1993之后最重要的汉字编码标准，于2000年3月17日发布，是未来我国计算机系统的基础性标准之一。

　　微软给出的解释是，发现代码中有奇怪的字符，很可能是由于缺少用于字符编码的代码页或用于字符编码的代码页不匹配引起的。Java Language Conversion Assistant 以下列方式匹配编码：在当前系统 ANSI 代码页中编码的文件在转换后保持此编码。任何其他编码都被转换为 UTF-8 编码。以Unicode 字节顺序标记开头的 Unicode 文件自动识别为 Unicode。如果文件不是以字节顺序标记开头，且未指定编码开关，则假定该文件在当前系统 ANSI （ANSI——美国国家标准局）代码页中。

　　更改当前使用的系统 ANSI 代码页：转到“控制面板”，然后双击“区域选项”或“区域和语言选项”。单击“高级”，然后选择所需的代码页。如果源文件使用的是非 ANSI 字符编码，或者您使用的是不是以字节顺序标记开头的 Unicode 源文件，则必须使用编码开关。

　　在编码开关中指定的字符编码：

字符	开关
拉丁字母 2（中欧字符）	ISO-8859-2
拉丁字母 3	ISO-8859-3
拉丁字母 4（波罗的海沿岸各国字符）	ISO-8859-4
拉丁/西里尔字母	ISO-8859-5
拉丁/阿拉伯字母	ISO-8859-6
拉丁/希腊字母	ISO-8859-7
拉丁/希伯来字母	ISO-8859-8
拉丁字母 9	ISO-8859-15
日语	EUC-JP
朝鲜语	EUC-KR
简体中文	EUC-CN
中国国家标准字符	GB18030
无字节顺序标记的 UTF-8	UTF-8