前谷的英文译语怎么说-头发一天就油了怎么办
2023年4月6日发(作者:四级词汇表)
BLEU具体介绍
BLEU:BilingualEvaluationTranslation
人类评价翻译质量需要考虑以下三方面的情况:adequacy,fidelity
(忠实度),fluency(流利度)。
BLEU准则的目的:快速,与语言无关,与人类的评价相关度高。
机器翻译评价系统需要以下两种成分:
ical“translationcloseness”metric
sofgoodqualityhumanreferencetranslations
比较两者n-gram匹配程度,而且与位置无关。
例子1:
我们的标准的最重要的基石是大家都熟仓央嘉措经典诗句 悉的precision,对于一元
来说,计算准确率公式为:机器翻译中的词出现在参考译文中的词的
个数/机器翻译中的总词数。
但是不幸的是,如下面例子2所示,机器翻译系统会过多的产生
一些“合理的”词,使准确率提高,但是这不是我们想要的结果。
例子2:
于是我们提出了修正的precision,公式如下所示:
)_Re_,min(CountfMaxCountCountclip
其中公式中Count为某N元词在被测译文中出现的次数,
Max_Ref_Count为该N元词在一个参考译文中最大的出现次数。
如例子2所示,修正的一元的准确率为2/7。
修正的N元词的准确率的计算公式与一元的相似。
对于例子1来说:Candidate1的修正的2元的准确率为10/17(修
正不修正都为这个结果),Candidate2的修正的2元的准确率为1/13。
但是对于例子2来说,修正的2元的准确率为0。一元匹配满足
adequacy,多元匹配满足fluency。
修正的n-gram的准确率随着n的增加呈现指数级别的衰减,因
此我们需要的权重为有思乡之情的诗句 对数权重。
机器翻译的结果不能太长也不能太短,评价标准应该以这个来约
束。在一定程度上,n-形容秋天的成语 gram的准确率已经满足了这个要求(n-gram
准确率惩罚那些虚假的词,而且还惩罚那些在机器翻译结果中出现的
次数比参考答案中出现的次数多的词)。但是修正的n-gram的准确率
对于翻译系统翻译的句子长度没有过多的限制,如下面例子3所示。
例子3:
因为例子3中Candidate相比于正确的长度来说太短了,修正的
一元的准确率为爱新觉罗弘暾 2/2,修正的二元的准确率为1/1。
传统的来说,提出recall来约束这个与句子长度相关的问题。但
是BLEU需要考虑多个参考翻译译文,每一个参考翻译对于相同的需
要翻译的词翻译为不相同的词。而且,一个好的Candidate只需要这
些参考中的一个,而不是全部。的确,recall所有的参考译文会产生
一个坏的翻译,如下面例子4所示。
例子4:
Candidate1从参考中可以recall的词比Candidate2多,但是明
显的来说翻译1比2坏的多。猪八戒照镜子歇后语 因此,传统的recall计算并不是一个好
的方法。于是提出了Sentencebrevitypenalty的概念。
Candidate翻译比参考翻译长时已经通过修正的n-gram进行惩罚
了,现在只需要惩罚Candidate翻译小于等于参考翻译的情况。当参
考译文从乡镇到中央的仕途小说平步青云 和翻译译文的长度相同时,惩罚值为1。比如:当参考译文的
长度为12,15,17时,翻译译文的长度为12时,此时惩罚值为1。如
果有两个参考译文的长度和翻译译文的长度同样接近,但一个较长另
一个稍短,则取较短的译文的长度。如:翻译译文长度为10,参考
译文的长度为8、9、11、15,则参考译文长度认定为9。
惩罚值计算公式:
)(
)(1
)/1(rcif
rcif
BP
ecr
然后BLEU的计算公式如下:
)logexp(
1
p
w
n
N
n
n
BPBLEU
如果取对数的话,BLEU的计算公式如下所示:
p
w
n
N
n塞下曲全部6首卢纶
nc
r
BLEUlog)0,1min(log
1
基线当中,4N,权重
N
wn
1
忠实度,流利度
忠实度:输出译文是否传达与原文相同的意思?部分语义信息丢
失了、增加了还是被曲解了?
流利度:输出译文是否为流利的英文?包括语法正确性和惯用语
选择两个方面。
准确率,召回率,f测度
P:
lengthoutput
correct
precision
不考虑词序。仅仅关注单词匹配而不顾单词顺序,是有缺陷的。
因此,我们可以计算系统应该生成的正确单词的个数,而不是系统输
出译文中正确的单词数。
R:
lengthreference
correct
recall
这两个指标都容易被蓄意利用。可以让系统只输出确定的译文单
词,译文可能非常短,但有很高的准确率(而召回率很低)。相应的,
也可以让机器翻译系统输出所有可能的单词,那么这些译文词与参考
译文中所有单词匹配的概率就很高。译文可能会很长,但能获得一个
很高的召回率(而准确率很低)。
在机器翻译中,一般同等的对待准确率和召回率。我们既不想输
出错误的单词,也不想遗漏任何信息。通常是把准确率和召回率组合
在一起,称为f测度(f-measure),把它定义为准确率和召回率两个
指标的调和平均:
F:
2/)(recallprecision
recallprecision
measuref
在机器翻译评测中,这个公式可御母承欢第一章警母 以被写为:
2/)(lengthreferencelengthoutput
correct
measuref
位置无关的错误率(position-independenterrorrate),这是一个错
误率指标,因此计算的是错误匹配的程度,而不是正确匹配的程度。
为了克服过长译文带来的问题,好听的诗句古风仙气 该指标也考虑那些需要作为错误删除
的多余单词:
lengthreference
lengthreferencelengthoutputcorrect
PER
),0max(
1
词错误率(worderrorrate,WER)是较早使用在统计机器翻译
中的自动评测指标之一,借鉴于语音识别,并将词序考虑在内。它使
用了Levenshtein距离(Leve七夕节送老婆什么礼物合适 nshteindistance),即两个字符串序列匹
配时需要进行编辑操作(插入、删除和替换)的最少次数。
lengthreference
deletionsinsertionsonssubstituti
WER
更多推荐
clip是什么意思p在线翻译读音例句
发布评论