前谷的英文译语怎么说-头发一天就油了怎么办


2023年4月6日发(作者:四级词汇表)

BLEU具体介绍

BLEU:BilingualEvaluationTranslation

人类评价翻译质量需要考虑以下三方面的情况:adequacy,fidelity

(忠实度),fluency(流利度)。

BLEU准则的目的:快速,与语言无关,与人类的评价相关度高。

机器翻译评价系统需要以下两种成分:

ical“translationcloseness”metric

sofgoodqualityhumanreferencetranslations

比较两者n-gram匹配程度,而且与位置无关。

例子1:

我们的标准的最重要的基石是大家都熟仓央嘉措经典诗句 悉的precision,对于一元

来说,计算准确率公式为:机器翻译中的词出现在参考译文中的词的

个数/机器翻译中的总词数。

但是不幸的是,如下面例子2所示,机器翻译系统会过多的产生

一些“合理的”词,使准确率提高,但是这不是我们想要的结果。

例子2:

于是我们提出了修正的precision,公式如下所示:

)_Re_,min(CountfMaxCountCountclip

其中公式中Count为某N元词在被测译文中出现的次数,

Max_Ref_Count为该N元词在一个参考译文中最大的出现次数。

如例子2所示,修正的一元的准确率为2/7。

修正的N元词的准确率的计算公式与一元的相似。

对于例子1来说:Candidate1的修正的2元的准确率为10/17(修

正不修正都为这个结果),Candidate2的修正的2元的准确率为1/13。

但是对于例子2来说,修正的2元的准确率为0。一元匹配满足

adequacy,多元匹配满足fluency。

修正的n-gram的准确率随着n的增加呈现指数级别的衰减,因

此我们需要的权重为有思乡之情的诗句 对数权重。

机器翻译的结果不能太长也不能太短,评价标准应该以这个来约

束。在一定程度上,n-形容秋天的成语 gram的准确率已经满足了这个要求(n-gram

准确率惩罚那些虚假的词,而且还惩罚那些在机器翻译结果中出现的

次数比参考答案中出现的次数多的词)。但是修正的n-gram的准确率

对于翻译系统翻译的句子长度没有过多的限制,如下面例子3所示。

例子3:

因为例子3中Candidate相比于正确的长度来说太短了,修正的

一元的准确率为爱新觉罗弘暾 2/2,修正的二元的准确率为1/1。

传统的来说,提出recall来约束这个与句子长度相关的问题。但

是BLEU需要考虑多个参考翻译译文,每一个参考翻译对于相同的需

要翻译的词翻译为不相同的词。而且,一个好的Candidate只需要这

些参考中的一个,而不是全部。的确,recall所有的参考译文会产生

一个坏的翻译,如下面例子4所示。

例子4:

Candidate1从参考中可以recall的词比Candidate2多,但是明

显的来说翻译1比2坏的多。猪八戒照镜子歇后语 因此,传统的recall计算并不是一个好

的方法。于是提出了Sentencebrevitypenalty的概念。

Candidate翻译比参考翻译长时已经通过修正的n-gram进行惩罚

了,现在只需要惩罚Candidate翻译小于等于参考翻译的情况。当参

考译文从乡镇到中央的仕途小说平步青云 和翻译译文的长度相同时,惩罚值为1。比如:当参考译文的

长度为12,15,17时,翻译译文的长度为12时,此时惩罚值为1。如

果有两个参考译文的长度和翻译译文的长度同样接近,但一个较长另

一个稍短,则取较短的译文的长度。如:翻译译文长度为10,参考

译文的长度为8、9、11、15,则参考译文长度认定为9。

惩罚值计算公式:

)(

)(1

)/1(rcif

rcif

BP

ecr

然后BLEU的计算公式如下:

)logexp(

1

p

w

n

N

n

n

BPBLEU



如果取对数的话,BLEU的计算公式如下所示:

p

w

n

N

n塞下曲全部6首卢纶

nc

r

BLEUlog)0,1min(log

1



基线当中,4N,权重

N

wn

1

忠实度,流利度

忠实度:输出译文是否传达与原文相同的意思?部分语义信息丢

失了、增加了还是被曲解了?

流利度:输出译文是否为流利的英文?包括语法正确性和惯用语

选择两个方面。

准确率,召回率,f测度

P:

lengthoutput

correct

precision

不考虑词序。仅仅关注单词匹配而不顾单词顺序,是有缺陷的。

因此,我们可以计算系统应该生成的正确单词的个数,而不是系统输

出译文中正确的单词数。

R:

lengthreference

correct

recall

这两个指标都容易被蓄意利用。可以让系统只输出确定的译文单

词,译文可能非常短,但有很高的准确率(而召回率很低)。相应的,

也可以让机器翻译系统输出所有可能的单词,那么这些译文词与参考

译文中所有单词匹配的概率就很高。译文可能会很长,但能获得一个

很高的召回率(而准确率很低)。

在机器翻译中,一般同等的对待准确率和召回率。我们既不想输

出错误的单词,也不想遗漏任何信息。通常是把准确率和召回率组合

在一起,称为f测度(f-measure),把它定义为准确率和召回率两个

指标的调和平均:

F:

2/)(recallprecision

recallprecision

measuref



在机器翻译评测中,这个公式可御母承欢第一章警母 以被写为:

2/)(lengthreferencelengthoutput

correct

measuref





位置无关的错误率(position-independenterrorrate),这是一个错

误率指标,因此计算的是错误匹配的程度,而不是正确匹配的程度。

为了克服过长译文带来的问题,好听的诗句古风仙气 该指标也考虑那些需要作为错误删除

的多余单词:

lengthreference

lengthreferencelengthoutputcorrect

PER





),0max(

1

词错误率(worderrorrate,WER)是较早使用在统计机器翻译

中的自动评测指标之一,借鉴于语音识别,并将词序考虑在内。它使

用了Levenshtein距离(Leve七夕节送老婆什么礼物合适 nshteindistance),即两个字符串序列匹

配时需要进行编辑操作(插入、删除和替换)的最少次数。

lengthreference

deletionsinsertionsonssubstituti

WER



更多推荐

clip是什么意思p在线翻译读音例句