阅读文章

unicode(国际通用字符集)-大白菜官网

unicode(国际通用字符集)

[日期:2008-04-23] 来源:  作者: [字体: ]

unicode(国际通用字符集)

历史上有两个独立的创立单一字符集的尝试:一个是国际标准化组织的iso 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 unicode 项目。 1991年前后两个项目的参与者都认识到, 世界不需要两个不同的单一字符集。它们合并双方的工作成果并为创立一个单一编码表而协同工作。两个项目仍都存在并独立地公布各自的标准, 但 unicode 协会和 iso/iec jtc1/sc2 都同意保持 unicode 和 iso 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展。

 unicode与其他汉字符集的关系:

gb2312gb13000.1gb18030均为国家标准,而gbk是国家规范。gb2312编码汉字6763字,是在windows 95出现以前,国内信息处理普遍采用的编码标准。gbk是在保持gb2312原貌的基础上,将其字汇扩充至iso 10646中的cjk 20902汉字,同时也就包容了台湾的工业标准big5中的全部汉字,没有体系结构的变化。而gb18030则不然,它是在gbk的基础上做进一步扩充,不但把cjk-扩展a的6582汉字扩充进去,而且还改变了gbk的体系结构。尽管gb2312、big5、gbk在某种程度上依然尚存,但iso 10646(gb13000/unicode)已日渐成为主流编码。

 cjk-扩展b的汉字编码与unicode的surrogate机制

国际标准化组织在 iso10646-2000 的基本平面(bmp 或者 unicode 3.0, 下简称 unicode)编入了27,564 汉字(u 4e00~u 9fff以及u 3400~u 4dff),既是2000年3月在gb18030颁布时所建议支持的字汇。其中u 3400~u 4dff部分的6582个汉字又称为cjk-扩展a。  同时国际标准化组织还在iso10646-2000 的第二平面扩展了42,711汉字(又称为cjk-扩展b)。该42,711 汉字的编码表已基本确定,尽管不排除未来微小变动的可能性。也就是说,到目前为止unicode已编码的汉字达七万多字。

cjk-扩展b 的42,711汉字编排在iso10646-2000的第二平面,所以编码需要4个字节。为存取处理这些4字节字符,在unicode 中引入了surrogate 机制(在iso10646-2000中命名为utf-16)。根据这样一种机制, 在unicode中用两个16位编码就可以对iso10646-2000 第二平面中的汉字进行存取。microsoft 从windows2000 (在windows 98, windows me 及 windows nt4 中没有)开始对这样一种机制提供支持。只要有相应的输入法和字库并且在应用程序中给予相应的支持,就应该能够输入显示上述提到的汉字。但是,要想得到对surrogate全面的支持,用户需先下载并安装surrogate package ( surrogate支持包 )。

 支持cjk-扩展b汉字显示的字体:

1、简体中文版microsoft office xp及更高版本附带了宋体-超大字符集中文字体 ,支持上面提到的全部27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆、香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。换言之,它支持cjk-扩展a中的全部汉字和cjk-扩展b中的部分汉字。

2、繁体中文版microsoft office xp及更高版本则提供了支持超大字符集的细明体(mingliu ext-b pmingliu ext-b),可以从已装有office的电脑中单独找到该字体文件,复制到本机windows系统下的fonts文件夹中即可。需要注意的是,此字体全面支持cjk-扩展b中的42711字,但不支持cjk-扩展a中的6582字。  




阅读: 次
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整大白菜官网的版权,在语网的发布不影响其再大白菜官网的版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及大白菜官网的版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 】
上一篇:什么是gb、big5、gbk、gb18030字集?

下一篇:gbk 汉字内码扩展规范编码表
相关文章       汉字 
本文评论
  22624   (湘里伢子会员 ,2023-04-10 )
  好家伙   (刘子涵 ,2021-09-26 )
  既然是国家强制性标准,为什么要收费才能阅读,为什么不能广而告知? 作者: julia 2007-2-4 13:09:58 等级: ★   既然是国家强制性标准,为什么不能广而告之提供免费下载,反而需要购买?直到今天我才知道gb18030-2005已经取代了gb18030-2000,但具体的内容有多少人知道呢?不知道又何谈遵守呢?期间听说还出过国家强制性标准gb18030-2001,但有操作系统和字处理软件真正支持这个标准吗?gb18030-2005的适用范围是什么?是需要所有的应用软件比如游戏、杀毒、集群软件都支持gb18030-2005吗?      盼有关部门给予答复。 http://www.spc.net.cn/review/review.asp?strid=28735   (湘里伢子会员 ,2008-04-23 )
  反对gb 18030作为国家标准 作者: 张轴材 代 郑珑等人 2006-10-10 15:04:06 等级: ★★★★★   诸位:      尽管下述意见众所周知,但我还是再说一遍,不准确之处望指正。      在gb18030-2005这个标准中,汉字的编码不符合iso/iec 10646:2003汉字编码字符集这一国际标准,在今天我国已加入wto,大家都离不开国际互联网的时代,这标准出台的本身就是一个错误的技术路线,起着误导和阻碍我国中文信息技术发展的作用,幸亏大家都没有执行,因为连制订这一标准的部门自己都无法执行。而且这一标准也不符合“中国标准创新贡献奖”中“奖励范围”的规定,因此我坚决反对该标准获取“中国标准创新贡献奖”!奖励范围规定:(一)截止2006年9月1日,经相应主管部门批准发布、备案并已实施一年以上(含一年)的国家标准项目、行业标准项目、地方标准项目、企业标准项目。(二)被国际标准化组织(包括iso、iec、itu及其他认可的国际组织)采纳且已经批准发布为国际标准的项目。”      因为:(一)在gb18030-2005的标准手册上印着“2005-11-08”发布、“2006-05-01实施”。 且该手册是2006年8月第一次印刷,根本不够“实施一年以上”的要求;(二...   (湘里伢子会员 ,2008-04-23 )
  gb18030是技术的倒退 作者: 张轴材 2006-10-10   关于对首届"中国标准创新贡献奖"     奖励项目gb18030-2005的严重质疑      1. 该标准的体系结构存在严重问题;早有报告。      2. 该标准与gb 13000(等同于我国长期参与、跟踪、主导的国际标准iso/iec 10646=unicode)等国际主流标准完全不兼容,却是人为的强制性标准,已经造成混乱,将严重阻碍信息技术发展。      3. 信息技术界、中文信息学会、国家语委多次提出反对意见,标准制定单位置若罔闻,搞小圈子,压制不同意见,造成严重恶果。      4. 标准制定单位采取欺上瞒下等不正当手段,封锁长期在该领域工作的国家工作组成员,用虚伪政治口号误导领导,不敢面对严肃的技术问题,致使标准中错误百出。      5. gb 18030-2005的文本才出版5个月、 “创新贡献奖”选在国庆长假前夕公布,10天中7天假,不可能有充裕的时间征得公众意见。而与国际标准等同的gb 13000-2005则被主办单位扣押,致使公众无从比较优劣。      6. gb 18030所选汉字,乃是gb 13000十余年来国内外专家长期工作认同、甄别的结果,gb 18030小组信手拈来,胡乱编码而已,何来创...   (湘里伢子会员 ,2008-04-23 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章  
 
网站地图