连衣裙的的英文的翻译的英语怎么说-左家庄


2023年4月6日发(作者:亲爱的英语怎么说)

1

山东师范大学硕士研究生《XML技术》课程2008年10月25日

216=65536个字符

冷玉龙1994年《中华字海》86000字

Unicode字符有多少?

山东师范大学硕士研究生《XML技术》课程2008年10月25日

•《说文解字》(公元100年)收9353字;

•《声类》(227-239年)收11520字;

•《玉篇》(543年)收22726字;

•《唐韵》(751年)收26194字;

•《类篇》(1066年)收31319字;

•《字汇》(1615年)收33179字;

•《康熙字典》(1716年)收47043字;

•《中华大字典》(1915年)收48000字;

•《中文大字典》(1968年)收49905字;

•《汉语大字典》(1986年)收56000字。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

汉字的总数在不断增大

字书名编者字数年代

《苍颉篇》李斯3300秦代

《训篇》杨雄5340汉代,1-5年

《续训篇》班固6180汉代,60-70年

《说文解字》许慎10516(重文1163字)汉代,100年

《广雅》张揖16150汉代

《声类》李登11520魏代,230年

《字林》吕忱12824晋代,4有关于月亮的诗句 00年

《字统》杨承庆13734北魏,500年

《玉篇》顾野王16917南梁,534年

《切韵》陆法言12158隋代,601年

《韵海镜源》颜真卿26911唐朝,753年

《龙龛手鉴》释行均26430辽代,997年

《广韵》陈彭年26194宋朝,1008年

《字汇》梅膺祚33179明朝,1615年

《正字通》张自烈33440明朝,1675年

《康熙字典》陈廷敬47043清朝,1716年

《大汉和辞典》诸桥辙次499641959年

《中文大辞典》张其昀498881971年

《汉语大字典》徐中舒546781990年

《中华字海》冷玉龙860001994年

山东师范大学硕士研究生《XML技术》课程2008年10月25日

大型综合性辞典《辞海》从今年

开始将展开2009版修订工作。2006年10

月17日,记者从《辞海》的出版社——

上海辞书出版社了解到,新版辞海将增

加近万条新词,“巴金”这一词条将被收

录其中。

2009版《辞海》已展开修订

根据以往惯例,《辞海》10年修订一次,

上一版为1999年版。17日,记者从上海辞

书出版社了解到,2009版《辞海》编辑工作

已经开始,目前正在征求各学科专家的意见,初步整理词目单。

据了解,2009版《辞海》词目单将在原有词目的基础上增加10%

至20%,大约增加上万条词目。

上海辞书出版社相关人士透露,2009版《辞海》由102岁高龄

的学者夏征农先生担任主编。夏老曾任1979年版、1989年版和

1999年版《辞海》主编。2009版《辞海》将汇集几百名各学科的

专家学者为其把脉。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

Unicode的扩展

国际标准化组织在ISO10646-2000的基本平面

(BMP或者Unicode3.0)中编入了2000年3月在GB18030

颁布时所建议支持的字汇的27,564汉字。

其中在U+4E00~U+9FFF(共20992个码位)中有

(U+4E00~U+9FA5连续区间)的20902个CJK汉字。

其中U+3400~U+4DFF部分(共6656个码位)中的

(U+3400~U+4DB5连续区间)的6582个汉字又称为扩

展A。

国际标准化组织还在ISO10646-2000的第二平面

扩展了42,711汉字,又称为扩展B。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

Unicode4.02003年4月推出

2

山东师范大学硕士研究生《XML技术》课程2008年10月25日山东师范大学硕士研究生《XML技术》课程2008年10月25日

山东师范大学硕士研究生《XML技术》课程2008年10月25日山东师范大学硕士研究生《XML技术》课程2008年10月25日

#BEGINValidUniHanRangesforthisrelease(5.0):

#U+3400..U+4DB5:CJKUnifiedIdeographsExtensionA

#U+4E00..U+9FA5:CJKUnifiedIdeographs

#U+9FA6..U+9FBB:CJKUnifiedIdeographs(4.1)

#U+F900..U+FA2D:CJKCompatibilityIdeographs(a)

#U+FA30..U+FA6A:CJKCompatibilityIdeographs(b)

#U+FA70..U+FAD9:CJKCompatibilityIdeographs(4.1)

#U+20000..U+2A6D6:CJKUnifiedIdeographsExtensionB

#U+2F800..U+2FA1D:CJKCompatibilitySupplement

#ENDValidUniHanRangesforthisrelease(5.0)

山东师范大学硕士研究生《XML技术》课程2008年10月25日

CJK扩展A国际标准化组织(ISO)在ISO/IEC

10646-1:2000的基本平面(简称Unicode)

编入了GB18030建议的汉字,其中超出

GBK部分的6582个汉字,又称为扩展A。

0x4DB5-0x3400+1=0x19B6=6582

山东师范大学硕士研究生《XML技术》课程2008年10月25日

CJK扩展A国际标准化组织(ISO)在ISO/IEC

10646-1:2000的基本平面(简称Unicode)

编入了GB18030建议的汉字,其中超出

GBK部分的6582个汉字,又称为扩展A。

0x4DB5-0x3400+1=0x19B6=6582

3

山东师范大学硕士研究生《XML技术》课程2008年10月25日

GB18030中的彝文

0xA4C6-0xA000+1=0x4C7=1223

山东师范大学硕士研究生《XML技术》课程2008年10月25日

GB18030中的藏文与蒙古文

山东师范大学硕士研究生《XML技术》课程2008年10月25日

Unicode的Surroga久久为功 te机制

ISO在ISO/IEC10646-1:2000第二平面上又扩展了

42711汉字,也称为扩展B。由于这42,711汉字编排在

ISO10646-2000的第二平面,所以编码需要4个字节。

为了能够存取处理这些4字节字符,在Unicode中

引入了Surrogate机制(短歌行优秀教案一等奖 在ISO10646-2000中命名为

UTF-16)。根据这样一种机制,在Unicode中用两个16

位编码就可以对扩展B中的汉字进行存取。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

代理项对(Surrogatepair)

代理项对是由两代码单元序列组成的单个抽象字

符的编码字符表示形式,代理项对中的第一个单元是

高代理项,第二个单元是低代理项。高代理项是范围

U+D800到U+DBFF中的Unicode代码点,低代理项

是范围U+DC00到U+DFFF中的Unicode代码点。

需要记住的关键一点是代理项对表示32位单个字

符,不能假定一个16位Unicode编码值恰好映射为

一个字符。通过使用代理项对,16位Unicode编码系

统可以表示另外一百万个代码数据点,而Unicode标

准将为它们分配字符。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

代理项对(Surrogatepair)(续)

在Unicode代码区高端,预留了两个区域:

U+D800—U+DBFF这1024个字符用于高端代理

U+DC00—U+DFFF这1024个字符用于低端代理

一个高端值与一个低端值构成一个代理对。

可表示210210=220

=1,048,576即一百万个字符

CJKExtensionB可以通过代理对来访问。

因此,有了再支持多达一百万个字符的余地。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

Unicode与Windows2000

Unicode是一种16位国际字符编码,

Unicode允许在同一个数据流中存储不同的语

言。这一种编码可以表示64,000多个字符。引

入代理项后,它可以表示更多的字符。在

Windows中使用Unicode可以更容易地创建世

界通用的代码,因为这种情况下不再需要引用

代码页或组字符数据点来表示一个字符。

使用Unicode编码表示所有国际字符使

Windows2000能够支持超过64种脚本和数百

种语言。

4

山东师范大学硕士研究生《XML技术》课程2008年10月25日

代理字符的Unicode值

一蒿里行原文及翻译拼音 个高端值(high)与一个低端值(low)构成一

个代理项对。此代理对所表示字符的Unicode值N

如何计算?

N=(high-0xD800)*0x400+(low-0xDC00)+0x10000

high范围:U+D800—U+DBFF这1024个字符用于高端代理

low范围:U+DC00—U+DFFF这1024个字符用于低端代理

注:0x10000=164=216=2828=65536,

0x400=4162=210=1024

可见:N介于216与220+216-1之间

即N介于0x10000与0x10FFFF宋词三百首全集古诗文网 之间。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

高端代理与低端代理的计算

若代理字符的Unicode值为N,

N(0x10000~0x10FFFF),则其代理对为:

高端代理high=

(N-0x10000)/0x400+0xD800

注:0x10000=65536,0x400=1024

低端代理low=

(N-0x10000)%0x400+0xDC00

山东师范大学硕士研究生《XML技术》课程2008年10月25日

字符的Unicode值N(0x10000~0x10FFFF)

其代理对为:

高端代理:(N-0x10000)/0x400+0xD800

低端代理:(N-0x10000)%0x400+0xDC00

例:汉字“”读ying代表“着急”的意思。

“”为扩展B汉字,其Unicode值为0x201BB

其高端代理为:

0xD840=(0x201BB-0x10000)/0x400+0xD800

其低端代理为:

0xDDBB=(0x201BB-0x10000)%0x400+0xDC00

又例:汉字“”的Unicode值为0x2002F

其高端代理为:

0xD840=(0x2002F-0x10000)/0x400+0xD800

其低端代理为:

0xDC2F=(0x2002F-0x10000)%0x400+0xDC00

山东师范大学硕士研究生《XML技术》课程2008年10月25日

处理代理项对

每一个代理对都是由两个16位的值组成,

即由高位和低位组合而成,所以有简单的方法

处理代理对序列。

.NETFramework为Unicode字符串提供统

一的支持,不管它们是否包含代理。

Windows窗体Web窗体都能够正确地输出代理。

安装了2003&2005之后,

代理对汉字并不能显示,需要字符集支持。

GB18030支持包不能满足要求,需要更大字符集。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

DBCS字符的解析

山东师范大学硕士研究生《XML技术》课程2008年10月25日

微软发布的中文简体版OfficeXP(又称Office2002)

及相应的多语言包中专门开发了包括全部6万余个汉字

的超大字符集中文字体(宋体-方正超大字符集),以

及用于输入这些汉字的增强型区位码,该超大字符集

包括了GB18030标准支持的全部27564个汉字,以及在

第二平面(扩展B,42711个汉字)中选出的36,862个在中

国大陆,香港特别行政区(以及部分台湾地区)使用的汉

字。因此包括西文等常用字符在内,宋体-方正超大字

符集共包括了65531个字符。

但由于一般Windows应用程序并不支持Surrogate

机制,因此扩展B内的汉字除了在Office2002、2003系

列应用程序中可以使用外,在其他多数应用程序中并

不支持。

宋体—方正超大字符集

5

微软的解决方案是使用:

增强区位输入法

宋体—方正超大字符集中字符的输入

微软的解决方案是使用:

增强区位输入法

宋体—方正超大字符集中字符的输入

微软的超大字符集中文字体(宋体-方正超大字符集)与增强型区位码是一起提

供的,可利用OfficeXP或2003安装程序安装在Windows2000、XP、Server

2003之下。但即使是WindowsServer2003,只要未装“宋体-方正超大字符

集”,则也将没有“增强型区位码”即“EnhancedUnicodeIME”供选用。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

尽管宋体-方正超大字符集中包括了6万4千多汉字,但是由于

其中相登鹳雀楼全诗意思 当多的汉字读音很难确定,使得按拼音输入的方法难以

实现。为此,微软公司专门扩展了原区位/内码/Unicode输入

法,开发了增强型区位码。

对于GBK中的汉字(即在Unicode中U+4E00~U+9FFF),用

户可以继续按原来的方式输入(通过输入区位码,GBK内码或

Unicode码)。

对于扩展A的汉字只能通过输入Unicode码,

对于扩展B的汉字只能通过输入Surrogate码。

总之,通过增强型区位码用户不仅可以输入GBK的汉字,

而且可以顺利输入扩展A及扩展B的汉字。关键在于如何得到这

些汉字的Unicode及Surrogate的码位。

宋体—方正超大字符集中字符的输入

山东师范大学硕士研究生《XML技术》课程2008年10月25日

可以直接在Word2002或Word2003中输入

Unicode码,然后按Alt+X转换成汉字。

对于扩展B的汉字,请将前面两个“0”去掉。

比如说,(若某字的Unicode是00020000),则

输入020000,然后按Alt+X即可。

要想知道每个字符的Unicode,也可以将光标

定位在汉字后面,然后按ALT+X,相应的

Unicode码则会显示出来。

Word2002及2003中情形

山东师范大学硕士研究生《XML技术》课程2008年10月25日

如何得到欲输入汉字的Unicode及Surrogate

的码?方法是利用增强区位码提供的宋体-方正

超大字符集支持的扩展A及扩展B汉字的码表。

如何得到Unicode及Surrogate码?

注:不建议用户直接到浩如烟海的码表中直接去找有关汉字

山东师范大学硕士研究生《XML技术》课程2008年10月25日

下面的第1个字:㐀U+34000078.01010015.030(扩展A

的汉字,在《康熙字典》78页,第1个字。输入该汉字,只须在

Unicode输入模式下输入3400)。

下面的第2个字:㑢U+34620106.04110156.141(扩展A

的汉字,不在《康熙字典》中。但是按偏旁部首及比画数,该

汉字应排在《康熙字典》106页,第4个字。输入该汉字,只须

在Unicode输入模式下输入3462)。

注:1958年1月第一版的《康熙字典》。

如何得到Unicode及Surrogate码?

注:不建议用户直接到浩如烟海的码表中直接去找有关汉字

6

山东师范大学硕士研究生《XML技术》课程2008年10月25日

下面的第3个字:D840DDBB000201BB0096.070

1011古风歌曲100首 7.130(扩展B的汉字,在《康熙字典》96页,第7

个字。这里D840DDBB是它的Surrogate编码,

000201BB是它的Unicode码。输入该汉字,只须在

Unicode输入模式下输入Surrogate码D840DDBB)

下面的第4个字是扩展B的汉字,不在宋体-方正超

大字符集中,也可用其Surrogate编码输入,但如何得

知该字的Surrogate编码?

如何得到Unicode及Surrogate码

注:不建议用户直接到浩如烟海的码表中直接去找有关汉字

宋体-方正超大字符集中未包括扩展B中的全部汉字。

36,862/42711≈86%

所以,尚需更大字符集。

例如:扩展B中的(D840DC2A)与

(D840DC2B)对应的汉字(“其”字缺下面的撇)

等5849个汉字就没收录到宋体-方正超大字符

集及其码表中。

宋体—方正超大字符集的不足

上面的字是扩展B的汉字,不在宋体-方正超大字符集中,

也可用其Surrogate编码输入,但如何得知该字的Surrogate编

码?可通过该字在宋体-方正超大字符集中的相邻字获取该字的

Surrogate码?因此需要一个比上述码表更大的一个码表。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

UNICODE字符集7万字的几种显示方案:

“宋体GB18030”+“新细明体ExtB”

“宋体-方正超大字符集”+“其它5849汉字

用新细明体EXTB”

“宋体-方正超大字符集”+“其它5849汉字

用中易宋体EXTB”

UNICODE中7万汉字显示

山东师范大学硕士研究生《XML技术》课程2008年10月25日

要系统支持输入七万多汉字,请下载以下输入法。

海峰五笔输入法9.0版(可录入70244个汉字)(下载)

/software/

菩提五笔Unicode单字版(可录入70244个汉字)(下载)

/tools/

新概念五笔输入法(可录入70244个汉字)(下载)

/

五笔输入七万汉字

山东师范大学硕士研究生《XML技术》课程2008年10月25日

五笔输入七万汉字

山东师范大学硕士研究生《XML技术》课程2008年10月25日

微软官方于2005年4月27日提供了一个

“新細明體更新套件1.0”,这个套件中就包

括了新概念五笔企业版Unicode字符集7万

字所需字体“新细明体-EXTB”。使用新概

念五笔企业版UNICODE字符集7万字版本

时需要安装一个新细明体-ExtB字体,该字

体支持UNICODE4.1字符集中ExtB全部四

字节汉字。

新细明体更新套件1.0

7

山东师范大学硕士研究生《XML技术》课程2008年10月25日

中一寸相思一寸灰李商隐 日韩汉字超大字符集

中日韩汉字超大字符集(SuperCJK)通用字

体支持包V2.0

☆通用于Windows98/NT/2000/ME/XP/2003系

统的Unicode字体支持包。

☆完美结合大陆的\"宋体-18030\"与台湾

\"MingLiU-ExtB\"两种标准字体。

☆支持GBK、GB-18030、CJK-B各大字符集内

全部简、繁体汉字的显示。

(海峰别墅)

山东师范大学硕士研究生《XML技术》课程2008年10月25日

安装中日韩汉字超大字符集

山东师范大学硕士研究生《XML技术》课程2008年10月25日

安装中日韩汉字超大字符集

山东师范大学硕士研究生《XML技术》课程2008年10月25日

代理项对的使用

Strings1=\"uD840udc0b\";

String

s2=\"uD840udc2auD8表达友情的句子 40udc2buD840udc2cuD840udc2duD840udc2euD840udc2f\";

=s1;

=s2;

山东师范大学硕士研究生《XML技术》课程2008年10月25日

代理项对的使用

上面第一行的字读ying,表示“着急”的意思。在康熙词典中。

上面第二行的第1字读tian,第2字读qi。在康熙词典中。人间无地著相思

strings=\"\"+(char)0xd840+(char)0xdc2a;

s=s+\"ud840uddbb\";

=s;

Question&Answer

更多推荐

surrogate是什么意思rogate在线翻译读音