竹笋的英文译语怎么说-东史郎日记


2023年4月5日发(作者:西瓜的拼音)

1/12

基于短语的阿拉伯语到中文的机器翻译系

基于短语的阿拉伯语到中文的机器翻译系统

自然语言处理在国内已经得到了充分的发展,尤其是在

中文处理方面已经达到了相对较高的水平;同时在机器翻译

方面,也取得了长足的进步,但主要研究还是在中文与英文

的互翻译上,对于一些相对较小的语种来说,国内的研究还

比较少,如在阿拉伯语与中文的翻译方面,还处于起步阶段。

本文采用国际上流行的基于短语的统计机器翻译思想,,借鉴

了国际上阿拉伯语到到英语[1]、英语到中文文[2,3]的机器翻译处处

理方法,利用国内外现有有的开源工具,建立了一个个简易的阿

拉伯语到中文的的翻译系统。

1系统统描述

基于短语的统计计机器翻译模型

基于于短语的统计机器翻译[44~6]以短语作为翻译的的基

本单位。对于一个阿拉拉伯语句子,翻译系统将其其划分为多个

连续的词语串串[7];然后将每一个阿阿拉伯语短语翻译为汉语短短

语;最后将产生的汉语短短语进行顺序调整,并输出出译文,如

图1所示。

1.基准的统计机器翻译译系统

在统计机器翻翻译中,假李贺南园十三首其五 定一个源语言句句子f

2/12

J1=f1…fj…fJ,要被翻译成目目标语言句子为cI1==c1…

M1{∑Sss=1logpmm1(es|fs)}

这个判定准则是凸的,并并存在全局最优。

笔笔者引入以下六个特征,并并将其整合到log-linear模

型中:短语翻翻译概率为p(c~|a~~);逆向短语翻译概率为为

p(a~|c~);词汇汇化的短语翻译概率为leex(c~|a~);逆向向词汇化的

短语翻译概率为为lex(a~|c~);中文语言模型为lm(ccI1);中

文句子长长度为I。

翻译系系统的整个流程图如图2所所示。

整个系统由以以下模块构成:训练语料库库预处理模块、

中文分词工工具、阿拉伯语词形分析工工具、词语对齐模块、短语

语抽取模块、语言模型训练练模块、语言模型应用工具具、输入

预处理模块、解码码模块、输出后处理模块。。

每个模块都是一个个可独立执行的文件,可以以运行在

Linux平台上上。模块之间以文件作为接接口,这些文件包括训

练语语料库、规范的训练语料库库、分词的训练语料库、词词语对

齐的语料库、短语翻翻译概率表、语言模型、输输入文本、输出

文本。

预处理和规范化工具

一个训练语料的流程图图如图3所示。

3/12

训练语语料的预处理

训练语语料都是中文和阿拉伯文句句子对齐的语料,在进

行GGIZA++训练前,需要要对这些语料进行加工处理理。对语料

进行预处理的主主要工作就是进行中文分词词和阿拉伯语的词

形分析。。实现原理如下:

aa)中文分词

系统中中使用StanfordNLP自本文由论文联盟盟

收集整理理然语言处理小组开发的中中文分词开源工具[13]对文

档进行处理,分词后后的文件保持原文件名,同同时产生原文件

的备份文件件。举例如图4所示。

b)阿拉伯语的词形分分析

系统中使用了DDiab开发的进行阿拉伯伯语词形分析,

但是在处理理前,首先要利用软件Enncode-Arabicc将阿拉伯语

的句子转换为为Buckwalter编编码的格式;然后再将经过过编码转

换的句子输入到AAMIRA,依次进行词法法分析、词性标注和短

语划划分。举例如图5所示。

2.词语对齐

本模模块的主要目标就是实现训训练语料库中的句子自

动词词语对齐。

其基本思思想是利用GIZA++进进行汉语到阿拉伯语、阿拉

4/12

拉伯语到汉语两个方向的训训练,再对两个方向的对齐齐结果按

照Och等人[114]提出的Heurisstic的思路进行优化。。GIZA++

实现了IBBM统计翻译模型,但得到到的对齐结果忽略了多对多多

及多对一的情况。为了解解决GIZA++词语对齐齐的问题,通常

利用双向对对齐的结果进行优化。优化化的方法采用了以两个方向

向对齐结果的交集为中心点点,检查其上下左右及对角角相邻的

八个点,若在并集集中,则作为扩展的对齐点点加入对齐序列中。

具体实实现伪代码如下:

NNEighboring==,,,,,);

AAlign_Interssect=interseect(c2f,f2c);

Align_UUnion=union(c2f,f2c);

Heuristic();

Heurisstic():

forchinesewordc=0…cnn

forarabbicwordf=00…fn

if(calignedwithf)

foreachneighhboringpoinnt((c-new,f-new))

if((c-newnotalignedanndf-newnotaligned)

and(c-neew,f-new)innAlign_Unioon)

addaalignmentpooint(c-new,f-new);

2.短语抽取

5/12

目标:从从词对齐的语料库中自动学学习阿拉伯语短语到

汉语短短语的翻译。

实现原原理:很多基于短语的统计计机器翻译系统的短语

抽取取方法都很相似,根据这些些方法,本模块实现了从词词对齐

中自动抽取双语短语语的算法。基本思想就是首首先根据词对齐

生成最大似似然词汇化辞典;然后进行行短语抽取;最后对每一个

个短语对计算四个翻译概率率。

生成最大似然词汇汇化翻译表

对于已经经进行了词对齐的语料,直直接估计最大似然词

汇化翻翻译表,用于短语对的词汇汇化概率计算。如果直接用用

GIZA++产生的翻译译表计算,由于有的词条在在GIZA++词典中

没有有出现,导致会有一些短语语对的词汇化概率为0,而而且

GIZA++词典中没没有w(a|NULL)和和w(c|NULL)这两两个概率值。

直接估计的方方法就是直接抽取对齐的词词对,如果某个词没有

与之之对齐的翻译词,就认为它它与NULL对齐;然后计计算同现

次数,按照式分别别计算出w(c|f)和ww(f|c),从而直接生生成词汇

化的翻译表。

w(c|f)=couunt(c,f)/coountc(c,f)

w(f|c)=coount(c,f)/ccountf(c,f)

短语抽取

从词词语对齐的语料库中抽取双双语短语,要求短语对必须

6/12

须与词对齐相容。定义如下下:

(c,f)∈∈BPci∈c:(cci,fi)∈W→fi∈fANDfj∈f:(ci,fj)

∈WW→ci∈c

其中:WW表示词语对齐的矩阵。抽抽取方法就是提取对齐

矩阵阵中所有以对齐点为顶点的的矩形,条件是与矩形所在在行范

围内的词源对齐的目目标词都在这个矩形的列范范围内,反之亦

然,如图66所示。

经常参参加体育运动

>$trk

dA}mA

fY

Aln$ATAAt

Al王安石简介资料 ryADypp

图词语对齐矩阵

计算概率

短语抽取完完后,再计算四个翻译概率

率:p(a~|c~),lex(a~|c~)、pp(c~|a~)、lexx(c~|a~)。计算方方法就

是对所有生成的短语语对分别计算阿拉伯语短语语、中文短语以

及两者的同同现次数;然后求商得到pp(a~|c~)和p(c~|a~),最

后利用用节中生成的词典按照

lex(cJ1|aI1,w)=Jj=111/{i|(j,i)∈∈w}∑(j,i)

7/12

∈wwP(cj|ai)(8)

计算得到lex(cc~|a~)和lex(aa~|c~)。

核心模模块的设计

实现原理理:解码部分主要参考了KKoehn的Pharaooh

系统说明文档。其解码码的过程可以分为以下几步步:

a)获取候选短短语。根据输入的已分词的的阿拉伯语句

子,按照顺序序切分的阿拉伯语短语片段段从双语词表中获取对

应的的中文短语及其概率信息。。

b)计算未来概率率。在已获取的中文候选短短语的基础

上,动态规划计计算任意连续位置间的概率率情况。

c)产生扩扩展假设。中文句子按照从从左至右的顺序产

生,用候候选短语进行扩展,计算出出相应的代价,进行beaam

search。

d)根据beamseearch中每一步假设的的代价,选择最低

的假设,,回溯产生中文译文。

图7是核心模块的系统流流程。

选择候选选短语

一般地,一个个双语短语表是非常庞大的的,对于一个输

入句子,只只需选择与这个句子相关的的短语就可以了,这样可以

以节省内存空间。为了便于于解码,候选短语中需记录录以下信

息:阿拉伯语短语语的起始、结束位置;阿拉拉伯语短语对应的

8/12

中文短语语翻译;翻译概率。然后可可以穷举一个阿拉伯语句子子

的所有可能短语,对每一一个阿拉伯语短语查找双语语短语表,

将双语短语表中中汉语部分与之完全匹配的的短语选择出来,参

考以下下算法:

forsstart=0to()

{

foorend=startto()

{

if((start-end)>MAX__PHRASE_LEN)

br赠别诗有哪些 eak;

stringphrase=ArabicWWord[start,eend];

Searchtranslationoptionss

forphrasefromBilingualPhrasetable

}

}

3.计算算未来概率

在搜索过过程中,程序以Hypothesis来存储汉语短短语翻

译及概率等信息,并并将已翻译相同个数的阿拉拉伯语词语的

Hypothhesis存储到同一个栈栈中。为了减少搜索空间,,采用宽

度优先的柱式搜索索,这样需要对同一个《卧春》原诗 栈中中的Hypothesiss

进行剪枝。尽管同一个栈栈中存放的Hypotheesis覆盖的阿拉伯

9/12

语词词的个数相同,但是其覆盖盖的位置可能不同;在剪枝枝时,

为了进行比较,不仅仅要考虑已翻译词的概率,,还要考虑未来

概率。

未来概率是指如果要完成成整个句子的翻译,剩余部部分

达到的最大概率,它与与当前还未翻译的词语相关关,根据短语

翻译概率、短短语长度及语言模型进行估估算。在候选短语中,

每一一个阿拉伯语短语f~eendstart均对应一一个或多个中文短

语翻译。。利用式求得f~enddstart的最大翻译概概率:

TP(f~endstart)=mmax∑ilog(ppi(a~,f~))

其中:pi(c~,f~~)指短语的四个翻译概率率、中文短语长度以

及中文文短语语言模型概率。利用用以下的动态规划算法,可可以

很容易地求得任意连续续串的未来概率。

foreachAraabicPhraseinTranslationOption

TP

FutureeCost(start,end)=TP;foorlen=1to()

fori=0to()-leen

forj=itoi+len

doublep=FuutureCost(i,j)+FutureCoost(j+1,i+leen);

if(p>>FutureCost(i,i+len))

FutureCost(i,i+len)=pp;

Search

10/12

搜索是解码器的核心,候候选短语的选择和未来概率率的

计算都是为搜索做准备备的。系统中采用了beaamsearch搜索策

策略,每一次只保留最好的的N个决策,实际上它是一一种宽度

优先搜索算法。对对于一个阿拉伯语句子a11a2…an,解码器每次

次都根据候选短语选择句子子中为翻译的一个短语ai…aj进行

翻译,根据式式计算相应概率,产生中文文短语翻译,并将这些

信息息存储到Hypothessis中,根据已经翻译的的单词个数m将

新产生的HHypothesis存储储到相应的栈stack(m)中。当一个

句子翻译译完毕时,关于这个句子的的完整翻译信息可以从最后后

一个栈stack(n)中向前回溯得到。以下是是参考算法:

initializeHyppothesisStacck[0,…,nf]

createinitialHypotheesishp_initandpushto

HypothesisStack[0];

fori=0tonf-溪山行旅图 1

foreachhyppothesisinHypothesisSStack[i]

foreachneww_hpthatcaanbederiveedformhp

covered_nummber=numberofforEignwordscoverd

sofar;

pushnew_hhpto

HypothhesisStack[ccovered_numbber];

prunneHypothesisStack[coveered_number];

11/12

3.译文的产生

搜索完毕,可以通过过回溯产生最终的译文。一一般地,

系统中只产生一个个最好的译文,即从最后一一个栈中找到概率

最大的HHypothesis,根根据其指向父亲节点的指针针向前回溯。

有时,例如训训练log-linear模型的参数或者用N-bbest做

rerankk等,可能会需要解码器器输出多个译文,可以利用用A*

算法来产生N-beest。下面将着重介绍生生成1-best算法:

findthheHypothesiswiththehighestproobabilityinn

HypothesissStack[nf];

english_translation==hyp_;

father_hyp=hypp_;

whilefather_hyp!=hyp_init

english_translation==father_+engglish_translation;

faather_hyp=faather_;

ouutputenglissh_translation;

翻译结果

选取了永中OfficceXX阿拉伯语版的用户户手册和中文郑人买履的意思是什么

版的用户手册册作为训练的双语语料库好听不易撞的网名 。。因为所取的语料大部

分限限制在计算机办公领域,所所以经过测试发现在办公相相关的

中文句子的翻译过程程中,效果较好;但是在其其他领域的翻译

12/12

效果还有待待提升。在测试的过程中发发现,翻译过程中对于人名

名和地名的翻请君入瓮文言文翻译 译不是很好。。虽然翻译的结果能让人们们理解源

语言的含义,但是是要想达到人工翻译的水准准,还有巨大的提

升空间。。所以对于未来的工作,系系统还需要从以下三个方面面

继续进行改进:a)继续续丰富和扩充双语语料的语语句,扩大

语料库的涵盖范范围;b)进一步提高人名名和地名翻译准确度;c)

为了提高语句的翻译质量量,希望能够融合基于语义义的方法,

建立基于实例的的log-linear生生成模型[15,16]。。

结束语

本系统统是基于短语的统计思想,,搭建的一个简单的阿

拉伯伯语到中文的统计翻译系统统,里面还有很多问题需要要进一

步探讨。阿拉伯语和和中文的机器翻译在我国的的研究相对较

少,希望通过过本文能够更多地关注这个个方向的研究和发展。

更多推荐

arabic是什么意思bic在线翻译读音例句