竹笋的英文译语怎么说-东史郎日记
2023年4月5日发(作者:西瓜的拼音)
1/12
基于短语的阿拉伯语到中文的机器翻译系
统
基于短语的阿拉伯语到中文的机器翻译系统
自然语言处理在国内已经得到了充分的发展,尤其是在
中文处理方面已经达到了相对较高的水平;同时在机器翻译
方面,也取得了长足的进步,但主要研究还是在中文与英文
的互翻译上,对于一些相对较小的语种来说,国内的研究还
比较少,如在阿拉伯语与中文的翻译方面,还处于起步阶段。
本文采用国际上流行的基于短语的统计机器翻译思想,,借鉴
了国际上阿拉伯语到到英语[1]、英语到中文文[2,3]的机器翻译处处
理方法,利用国内外现有有的开源工具,建立了一个个简易的阿
拉伯语到中文的的翻译系统。
1系统统描述
基于短语的统计计机器翻译模型
基于于短语的统计机器翻译[44~6]以短语作为翻译的的基
本单位。对于一个阿拉拉伯语句子,翻译系统将其其划分为多个
连续的词语串串[7];然后将每一个阿阿拉伯语短语翻译为汉语短短
语;最后将产生的汉语短短语进行顺序调整,并输出出译文,如
图1所示。
1.基准的统计机器翻译译系统
在统计机器翻翻译中,假李贺南园十三首其五 定一个源语言句句子f
2/12
J1=f1…fj…fJ,要被翻译成目目标语言句子为cI1==c1…
M1{∑Sss=1logpmm1(es|fs)}
这个判定准则是凸的,并并存在全局最优。
笔笔者引入以下六个特征,并并将其整合到log-linear模
型中:短语翻翻译概率为p(c~|a~~);逆向短语翻译概率为为
p(a~|c~);词汇汇化的短语翻译概率为leex(c~|a~);逆向向词汇化的
短语翻译概率为为lex(a~|c~);中文语言模型为lm(ccI1);中
文句子长长度为I。
翻译系系统的整个流程图如图2所所示。
整个系统由以以下模块构成:训练语料库库预处理模块、
中文分词工工具、阿拉伯语词形分析工工具、词语对齐模块、短语
语抽取模块、语言模型训练练模块、语言模型应用工具具、输入
预处理模块、解码码模块、输出后处理模块。。
每个模块都是一个个可独立执行的文件,可以以运行在
Linux平台上上。模块之间以文件作为接接口,这些文件包括训
练语语料库、规范的训练语料库库、分词的训练语料库、词词语对
齐的语料库、短语翻翻译概率表、语言模型、输输入文本、输出
文本。
预处理和规范化工具
一个训练语料的流程图图如图3所示。
3/12
训练语语料的预处理
训练语语料都是中文和阿拉伯文句句子对齐的语料,在进
行GGIZA++训练前,需要要对这些语料进行加工处理理。对语料
进行预处理的主主要工作就是进行中文分词词和阿拉伯语的词
形分析。。实现原理如下:
aa)中文分词
系统中中使用StanfordNLP自本文由论文联盟盟
收集整理理然语言处理小组开发的中中文分词开源工具[13]对文
档进行处理,分词后后的文件保持原文件名,同同时产生原文件
的备份文件件。举例如图4所示。
b)阿拉伯语的词形分分析
系统中使用了DDiab开发的进行阿拉伯伯语词形分析,
但是在处理理前,首先要利用软件Enncode-Arabicc将阿拉伯语
的句子转换为为Buckwalter编编码的格式;然后再将经过过编码转
换的句子输入到AAMIRA,依次进行词法法分析、词性标注和短
语划划分。举例如图5所示。
2.词语对齐
本模模块的主要目标就是实现训训练语料库中的句子自
动词词语对齐。
其基本思思想是利用GIZA++进进行汉语到阿拉伯语、阿拉
4/12
拉伯语到汉语两个方向的训训练,再对两个方向的对齐齐结果按
照Och等人[114]提出的Heurisstic的思路进行优化。。GIZA++
实现了IBBM统计翻译模型,但得到到的对齐结果忽略了多对多多
及多对一的情况。为了解解决GIZA++词语对齐齐的问题,通常
利用双向对对齐的结果进行优化。优化化的方法采用了以两个方向
向对齐结果的交集为中心点点,检查其上下左右及对角角相邻的
八个点,若在并集集中,则作为扩展的对齐点点加入对齐序列中。
具体实实现伪代码如下:
NNEighboring==,,,,,);
AAlign_Interssect=interseect(c2f,f2c);
Align_UUnion=union(c2f,f2c);
Heuristic();
Heurisstic():
forchinesewordc=0…cnn
forarabbicwordf=00…fn
if(calignedwithf)
foreachneighhboringpoinnt((c-new,f-new))
if((c-newnotalignedanndf-newnotaligned)
and(c-neew,f-new)innAlign_Unioon)
addaalignmentpooint(c-new,f-new);
2.短语抽取
5/12
目标:从从词对齐的语料库中自动学学习阿拉伯语短语到
汉语短短语的翻译。
实现原原理:很多基于短语的统计计机器翻译系统的短语
抽取取方法都很相似,根据这些些方法,本模块实现了从词词对齐
中自动抽取双语短语语的算法。基本思想就是首首先根据词对齐
生成最大似似然词汇化辞典;然后进行行短语抽取;最后对每一个
个短语对计算四个翻译概率率。
生成最大似然词汇汇化翻译表
对于已经经进行了词对齐的语料,直直接估计最大似然词
汇化翻翻译表,用于短语对的词汇汇化概率计算。如果直接用用
GIZA++产生的翻译译表计算,由于有的词条在在GIZA++词典中
没有有出现,导致会有一些短语语对的词汇化概率为0,而而且
GIZA++词典中没没有w(a|NULL)和和w(c|NULL)这两两个概率值。
直接估计的方方法就是直接抽取对齐的词词对,如果某个词没有
与之之对齐的翻译词,就认为它它与NULL对齐;然后计计算同现
次数,按照式分别别计算出w(c|f)和ww(f|c),从而直接生生成词汇
化的翻译表。
w(c|f)=couunt(c,f)/coountc(c,f)
w(f|c)=coount(c,f)/ccountf(c,f)
短语抽取
从词词语对齐的语料库中抽取双双语短语,要求短语对必须
6/12
须与词对齐相容。定义如下下:
(c,f)∈∈BPci∈c:(cci,fi)∈W→fi∈fANDfj∈f:(ci,fj)
∈WW→ci∈c
其中:WW表示词语对齐的矩阵。抽抽取方法就是提取对齐
矩阵阵中所有以对齐点为顶点的的矩形,条件是与矩形所在在行范
围内的词源对齐的目目标词都在这个矩形的列范范围内,反之亦
然,如图66所示。
经常参参加体育运动
>$trk
dA}mA
fY
Aln$ATAAt
Al王安石简介资料 ryADypp
图词语对齐矩阵
计算概率
短语抽取完完后,再计算四个翻译概率
率:p(a~|c~),lex(a~|c~)、pp(c~|a~)、lexx(c~|a~)。计算方方法就
是对所有生成的短语语对分别计算阿拉伯语短语语、中文短语以
及两者的同同现次数;然后求商得到pp(a~|c~)和p(c~|a~),最
后利用用节中生成的词典按照
lex(cJ1|aI1,w)=Jj=111/{i|(j,i)∈∈w}∑(j,i)
7/12
∈wwP(cj|ai)(8)
计算得到lex(cc~|a~)和lex(aa~|c~)。
核心模模块的设计
实现原理理:解码部分主要参考了KKoehn的Pharaooh
系统说明文档。其解码码的过程可以分为以下几步步:
a)获取候选短短语。根据输入的已分词的的阿拉伯语句
子,按照顺序序切分的阿拉伯语短语片段段从双语词表中获取对
应的的中文短语及其概率信息。。
b)计算未来概率率。在已获取的中文候选短短语的基础
上,动态规划计计算任意连续位置间的概率率情况。
c)产生扩扩展假设。中文句子按照从从左至右的顺序产
生,用候候选短语进行扩展,计算出出相应的代价,进行beaam
search。
d)根据beamseearch中每一步假设的的代价,选择最低
的假设,,回溯产生中文译文。
图7是核心模块的系统流流程。
选择候选选短语
一般地,一个个双语短语表是非常庞大的的,对于一个输
入句子,只只需选择与这个句子相关的的短语就可以了,这样可以
以节省内存空间。为了便于于解码,候选短语中需记录录以下信
息:阿拉伯语短语语的起始、结束位置;阿拉拉伯语短语对应的
8/12
中文短语语翻译;翻译概率。然后可可以穷举一个阿拉伯语句子子
的所有可能短语,对每一一个阿拉伯语短语查找双语语短语表,
将双语短语表中中汉语部分与之完全匹配的的短语选择出来,参
考以下下算法:
forsstart=0to()
{
foorend=startto()
{
if((start-end)>MAX__PHRASE_LEN)
br赠别诗有哪些 eak;
stringphrase=ArabicWWord[start,eend];
Searchtranslationoptionss
forphrasefromBilingualPhrasetable
}
}
3.计算算未来概率
在搜索过过程中,程序以Hypothesis来存储汉语短短语翻
译及概率等信息,并并将已翻译相同个数的阿拉拉伯语词语的
Hypothhesis存储到同一个栈栈中。为了减少搜索空间,,采用宽
度优先的柱式搜索索,这样需要对同一个《卧春》原诗 栈中中的Hypothesiss
进行剪枝。尽管同一个栈栈中存放的Hypotheesis覆盖的阿拉伯
9/12
语词词的个数相同,但是其覆盖盖的位置可能不同;在剪枝枝时,
为了进行比较,不仅仅要考虑已翻译词的概率,,还要考虑未来
概率。
未来概率是指如果要完成成整个句子的翻译,剩余部部分
达到的最大概率,它与与当前还未翻译的词语相关关,根据短语
翻译概率、短短语长度及语言模型进行估估算。在候选短语中,
每一一个阿拉伯语短语f~eendstart均对应一一个或多个中文短
语翻译。。利用式求得f~enddstart的最大翻译概概率:
TP(f~endstart)=mmax∑ilog(ppi(a~,f~))
其中:pi(c~,f~~)指短语的四个翻译概率率、中文短语长度以
及中文文短语语言模型概率。利用用以下的动态规划算法,可可以
很容易地求得任意连续续串的未来概率。
foreachAraabicPhraseinTranslationOption
TP
FutureeCost(start,end)=TP;foorlen=1to()
fori=0to()-leen
forj=itoi+len
doublep=FuutureCost(i,j)+FutureCoost(j+1,i+leen);
if(p>>FutureCost(i,i+len))
FutureCost(i,i+len)=pp;
Search
10/12
搜索是解码器的核心,候候选短语的选择和未来概率率的
计算都是为搜索做准备备的。系统中采用了beaamsearch搜索策
策略,每一次只保留最好的的N个决策,实际上它是一一种宽度
优先搜索算法。对对于一个阿拉伯语句子a11a2…an,解码器每次
次都根据候选短语选择句子子中为翻译的一个短语ai…aj进行
翻译,根据式式计算相应概率,产生中文文短语翻译,并将这些
信息息存储到Hypothessis中,根据已经翻译的的单词个数m将
新产生的HHypothesis存储储到相应的栈stack(m)中。当一个
句子翻译译完毕时,关于这个句子的的完整翻译信息可以从最后后
一个栈stack(n)中向前回溯得到。以下是是参考算法:
initializeHyppothesisStacck[0,…,nf]
createinitialHypotheesishp_initandpushto
HypothesisStack[0];
fori=0tonf-溪山行旅图 1
foreachhyppothesisinHypothesisSStack[i]
foreachneww_hpthatcaanbederiveedformhp
covered_nummber=numberofforEignwordscoverd
sofar;
pushnew_hhpto
HypothhesisStack[ccovered_numbber];
prunneHypothesisStack[coveered_number];
11/12
3.译文的产生
搜索完毕,可以通过过回溯产生最终的译文。一一般地,
系统中只产生一个个最好的译文,即从最后一一个栈中找到概率
最大的HHypothesis,根根据其指向父亲节点的指针针向前回溯。
有时,例如训训练log-linear模型的参数或者用N-bbest做
rerankk等,可能会需要解码器器输出多个译文,可以利用用A*
算法来产生N-beest。下面将着重介绍生生成1-best算法:
findthheHypothesiswiththehighestproobabilityinn
HypothesissStack[nf];
english_translation==hyp_;
father_hyp=hypp_;
whilefather_hyp!=hyp_init
english_translation==father_+engglish_translation;
faather_hyp=faather_;
ouutputenglissh_translation;
翻译结果
选取了永中OfficceXX阿拉伯语版的用户户手册和中文郑人买履的意思是什么
版的用户手册册作为训练的双语语料库好听不易撞的网名 。。因为所取的语料大部
分限限制在计算机办公领域,所所以经过测试发现在办公相相关的
中文句子的翻译过程程中,效果较好;但是在其其他领域的翻译
12/12
效果还有待待提升。在测试的过程中发发现,翻译过程中对于人名
名和地名的翻请君入瓮文言文翻译 译不是很好。。虽然翻译的结果能让人们们理解源
语言的含义,但是是要想达到人工翻译的水准准,还有巨大的提
升空间。。所以对于未来的工作,系系统还需要从以下三个方面面
继续进行改进:a)继续续丰富和扩充双语语料的语语句,扩大
语料库的涵盖范范围;b)进一步提高人名名和地名翻译准确度;c)
为了提高语句的翻译质量量,希望能够融合基于语义义的方法,
建立基于实例的的log-linear生生成模型[15,16]。。
结束语
本系统统是基于短语的统计思想,,搭建的一个简单的阿
拉伯伯语到中文的统计翻译系统统,里面还有很多问题需要要进一
步探讨。阿拉伯语和和中文的机器翻译在我国的的研究相对较
少,希望通过过本文能够更多地关注这个个方向的研究和发展。
更多推荐
arabic是什么意思bic在线翻译读音例句
发布评论