关于Windows、Linux系统的编码格式

it2023-08-30  70


Windows:

在Windows平台下,进入DOS窗口,输入:chcp 可以得到操作系统的代码页信息,你可以从控制面板的语言选项中查看代码页对应的详细的字符集信息。

例如:

我的活动代码页为:936,它对于的编码格式为GBK。

代码页是字符集编码的别名,也有人称"内码表"。早期,代码页是IBM称呼电脑BIOS本身支持的字符集编码的名称。当时通用的操作系统都是命令行界面系统,这些操作系统直接使用BIOS供应的VGA功能来显示字符,操作系统的编码支持也就依靠BIOS的编码。现在这BIOS代码页被称为OEM代码页。图形操作系统解决了此问题,图形操作系统使用自己字符呈现引擎可以支持很多不同的字符集编码。

早期IBM和微软内部使用特别数字来标记这些编码,其实大多的这些编码已经有自己的名称了。虽然图形操作系统可以支持很多编码,很多微软程序还使用这些数字来点名某编码。

下表列出了所有支持的代码页及其国家(地区)或者语言:

代码页 国家(地区)或语言

437 美国

708 阿拉伯文(ASMO 708)

720 阿拉伯文(DOS)

850 多语言(拉丁文 I)

852 中欧(DOS) - 斯拉夫语(拉丁文 II)

855 西里尔文(俄语)

857 土耳其语

860 葡萄牙语

861 冰岛语

862 希伯来文(DOS)

863 加拿大 - 法语

865 日耳曼语

866 俄语 - 西里尔文(DOS)

869 现代希腊语

874 泰文(Windows)

932 日文(Shift-JIS)

936 中国 - 简体中文(GB2312)

949 韩文

950 繁体中文(Big5)

1200 Unicode

1201 Unicode (Big-Endian)

1250 中欧(Windows)

1251 西里尔文(Windows)

1252 西欧(Windows)

1253 希腊文(Windows)

1254 土耳其文(Windows)

1255 希伯来文(Windows)

1256 阿拉伯文(Windows)

1257 波罗的海文(Windows)

1258 越南文(Windows)

20866 西里尔文(KOI8-R)

21866 西里尔文(KOI8-U)

28592 中欧(ISO)

28593 拉丁文 3 (ISO)

28594 波罗的海文(ISO)

28595 西里尔文(ISO)

28596 阿拉伯文(ISO)

28597 希腊文(ISO)

28598 希伯来文(ISO-Visual)

38598 希伯来文(ISO-Logical)

50000 用户定义的

50001 自动选择

50220 日文(JIS)

50221 日文(JIS-允许一个字节的片假名)

50222 日文(JIS-允许一个字节的片假名 - SO/SI)

50225 韩文(ISO)

50932 日文(自动选择)

50949 韩文(自动选择)

51932 日文(EUC)

51949 韩文(EUC)

52936 简体中文(HZ)

65000 Unicode (UTF-7)

65001 Unicode (UTF-8)


Linux:

locale, local encoding

Linux下使用locale命令设置语言环境 locale命令设置语言环境

在Linux中通过locale来设置程序运行的不同语言环境,locale由 ANSI C提供支持。locale的命名规则为_.,如zh_CN.GBK,zh代表中文, CN代表大陆地区,GBK表示字符集。在locale环境中,有一组变量,代表国际化环境中的不同设置:

CODE:

LC_COLLATE,定义该环境的排序和比较规则

LC_CTYPE,用于字符分类和字符串处理,控制所有字符的处理方式,包括字符编码,字符是单字节还是多字节,如何打印等。是最重要的一个环境变量。 LC_MONETARY,货币格式

LC_NUMERIC,非货币的数字显示格式

LC_TIME,时间和日期格式

LC_MESSAGES,提示信息的语言。

另外还有一个LANGUAGE参数,它与LC_MESSAGES相似,但如果该参数一旦设置,则LC_MESSAGES参数就会失效。 LANGUAGE参数可同时设置多种语言信息,如LANGUAGE=“zh_CN.GB18030:zh_CN.GB2312:zh_CN”。

LANG,LC_*的默认值,是最低级别的设置,如果LC_*没有设置,则使用该值。类似于 LC_ALL

LC_ALL,它是一个宏,如果该值设置了,则该值会覆盖所有LC_*的设置值。注意,LANG的值不受该宏影响

举个例子,使用zh_CN.GBK中文locale:

CODE:

einstein:~# export LC_ALL=zh_CN.GBK

einstein:~# locale

LANG=zh_CN.GB2312

LC_CTYPE=“zh_CN.GBK”

LC_NUMERIC=“zh_CN.GBK”

LC_TIME=“zh_CN.GBK”

LC_COLLATE=“zh_CN.GBK”

LC_MONETARY=“zh_CN.GBK”

LC_MESSAGES=“zh_CN.GBK”

LC_PAPER=“zh_CN.GBK”

LC_NAME=“zh_CN.GBK”

LC_ADDRESS=“zh_CN.GBK”

LC_TELEPHONE=“zh_CN.GBK”

LC_MEASUREMENT=“zh_CN.GBK”

LC_IDENTIFICATION=“zh_CN.GBK”

LC_ALL=zh_CN.GBK

因为我们刚开始按安装的时候选择的是简体中文模式,所以默认的Locale也就是简体中文,当然我们还能增加新的locale和更改locale设 置:

dpkp-reconfigure locales,也可手动修改/etc/locale.gen文件,添加新的locale,然后执行locale-gen,即可生成新的locale,再 通过设置上面说的LC_*变量就可设置系统的locale了。下是我的locale.gen文件:

CODE:

zh_CN GB2312

en_GB ISO-8859-1

en_GB.ISO-8859-15 ISO-8859-15

en_GB.UTF-8 UTF-8

en_US ISO-8859-1

en_US.ISO-8859-15 ISO-8859-15

en_US.UTF-8 UTF-8

zh_CN.GB18030 GB18030

zh_CN.GBK GBK

zh_CN.UTF-8 UTF-8

zh_HK BIG5-HKSCS

zh_HK.UTF-8 UTF-8

zh_TW BIG5

zh_TW.EUC-TW EUC-TW

zh_TW.UTF-8 UTF-8

最新回复(0)