莫须有是什么意思在线翻译读音海词日-bridesmaids
2023年4月6日发(作者:什么是动名词)
山东外语教学
Shandong Foreign Language Teaching Journal 2013年第3期(总第154期)
面向《道德经》英译的基于短语的机器翻译探析
姚振军 , 郑旭红 , 徐鹏涛。, 王继升。
(1.河南大学外国语言文学博士后流动站,河南开封475001/东北财经 学国际商务外语学院,辽宁大连116025;
2.大连外国语学院计算机教研部,辽宁大连116002;3.东北财经大学管理科学与工程学院,辽宁大连116025)
[摘要] 本文以《道德经》现有英译本为训练集,进行基于短语的面向古汉语到英语的统计机器翻译研究。
实验分别以字为基本分词单位和以短语为基本分词单位对同一源文本进行处理,并对比两次实验所得机器
翻译的译文评测的BLEU值,研究发现:在《道德经》英译中,基于短语的统计机器翻译的具有一定优势。
[关键词] 机器翻译;中文分词;道德经;古汉语;英译
[中图分类号]TP391.2 [文献标识码] A [文献编号] 1002-2643(2013)03-0109-04
An Exploration of Phrase-based SMT for English Translation of Tao Te Ching
YAO Zhen-jun ,ZHENG Xu—hong ,XU Peng.tao。,WANG Ji—sheng。
(1.Mobile Station for Post—doctoral Research of Foreign Language&Literature of Henan University,Kaifen 475001,China/
SIBC of Dongbei University of Finance,Dalian 1 16025,China;2.Computer Department of DUFL,Dalian 1 16002,China;
3.SMSE of Dongbe七年级下册语文人教版电子课本 i University of Finance,Dalian 1 16025,China)
Abstract:With the existing English versions of Tao Te Ching as training sets,this research aims at exploring
phrase—based SMT.By comparing the BLEU results of two experiments of word—for—word segmentation and phrase—
based segmentation in the same source text,we find phrase-based SMT works better in English translation of Tao Te
Ching.
Key words:machine translat古诗登鹳雀楼的诗意 ion;Chinese word segmentation;Tao Te Ching;old Chinese,English translation
1.0引言
翻译已经成为现代社会中的一项重要的语言服
务活动(徐彬、郭红梅,2012:103),而机器翻译是当
代科学技术的十大难题之一(冯志伟,2004)。现代
的机器翻译研究已有半个多世纪的历史,其间产生
过令人振奋的成果,也有过令人沮丧的时候,但无论
多么艰深,人类对于机器翻译的探索和渴求始终也
没有停止过。(王海峰,2011:72)
在国际上,机器翻译已经取得巨大的成就,设在
美国俄亥俄州代顿的美国联邦翻译部和欧洲联盟委
员会设在卢森堡的翻译中心每天都在用自动的机器
翻译进行着大规模的翻译;成千上Zf的商业机器翻
译系统在日本投人使用;每天世界各地的网民在使
收稿日期:2013-Ol一19
作者简介:姚振军(1972一),男,黑龙江肇东人,博士后在站,副教授。研究方向:翻译学与计算机应用技术。
郑旭红(1965一),女,四川眉山人,副教授。研究方向:计算机应用技术。
徐鹏涛(1986一),男,山东烟台人,研究生。研究方向:计算机应用技术与电子商务。
王继升(1988一),男,辽宁朝阳人,研究生。研究方向:计算机应用技术与电子商务。
109
第3期 面向《道德经》英译的基春城无处不飞花寒食东风御柳斜 于短语的机器翻译初探
用着知己知彼百战百胜 浏览器上提供“翻译此页面”的功能。(Wilks,
2008)机器翻译应用领域从天气预报翻译到专利文
献的机器翻译,涉及语种从俄、英到“谷歌翻译”提
供的多种语言之间的即时机器翻译,使用人数超过
1000万的语言约有100种,而谷歌翻译已经实现了
对其中58种语言的支持。(许磊,2011)
中文信息处理作为自然语言处理中的一个分
支,近几年来备受关注。(刘群,2011)机器翻译研
究是中文自然语言处理研究中的热点和焦点之一,
研究角度和方法不断丰富。国内机器翻译研究从汉
语与主要外语相互机译扩展到汉语与国内民族语言
的多/双语语料库的建设和机译。目前己经开发并
投入使用的翻译系统和软件通常侧重于中英、中日、
中俄等不同语种之间的互译。
专门针对古代汉语与现代汉语中秋节祝福语简短6字 之间机器互译的
研究还比较少,国内学者在分析现有机器翻译研究
方法的基础上,提出了一种基于实例的古今汉语机
器翻译系统并进行了设计与实现(王爽等,2009),
目前国内外专门的面向古代汉语与外语互译的机器
翻泽的研究仍处于探索阶段。
本研究以王弼本的《道德经》为训练集,探索面
向古汉语英译的机器翻译的研究。古汉语仍以现代
人书面和口头引用方式出现在自然语言处理的实践
中,成为影响汉英机器翻译译文质量的一个侧面;同
时,在对外文化交流和中国传统文化外传过程中,大
量的古汉语典籍和相关研究文献需要外译,开展面
向古汉语的机器外译研究可在一定程度上解决专门
翻译人才不足的问题。
2.O基于短语的《道德经》统计机器翻译
2.1运行环境及相关开源工具
运行环境为Centos 6.3版的Linux平台,在
Linux平台下利用开源工具Niutrans构建《道德经》
统计机器翻译系统,该系统需要gcc、g++和GNU
Make软件的支持。采用Stanfor结爱古诗孟郊 d汉语分词工披荆斩棘 具得
到汉语分词,使用GIZA++进行词语x ̄ ̄JiI练,采
用Niutrans工具包进行短语语法规则抽取、语言模
型训练、重排序模型和生成模型的训练及解码。
2.2系统的整体框架
该系统包括数据预处理、词对齐、短语规则抽
取、短语规则打分、语言模型训练器、权重调优和短
l】0
语解码器几个模块(银花等,2011:92),所有这些模
块分为训练和解码两个阶段。系统的整体框架如图
1所示:
图1 《道德经》英译机器翻译系统的整体框架
在训练阶段,系统可以从训练数据中学习得到
模型和模型参数,每个模块功能如下:
数据预处理模块:该模块主要是完成对训练数
据的加工处理,包括分词、词性标注等。
词对齐模块:该模块可以为双语平行数据中的
每一句对得到词对齐之后的结果,使得源语言词汇
和目标语言词汇对应起来。
短语规则抽取模块:该模块用于从包含词对齐
信息的双语平行语料中抽取出短语翻译规则。
短语规则打分模块:该模块用于对所抽取得到
的规则进行概率估计和打分。
语言模型训练器模块:该模块用于从目标语言
的单语语料中学习从而得到语言模型。
权重调优模块:该模块用于在数据集上对翻译
模型特征权重向量进行调优。
解码阶段所包含的模块功能如下:
解码器模块:该模块主要功能是找出所有存在
于搜索空间中的最佳目标语言译文,即完成测试数
据的翻译,得到目标语言译文。
2.3系统翻译过程流程
利用系统翻译得到目标语的过程主要包括:数
据准备、训练翻译模型、训练N元语言模型、配置文
件、权重调优、解码翻译和评价几个阶段。具体流程
如图2所示:
第3期 面向《道德经》英译的基于短语的机器翻译初探
3.0实验环节
图2《道德经》英译机器翻译系统过程流程
在翻泽过程中,主要工作是为系统提供训练和测试
所需数据,包括目标语(英语)句子集、源语(汉语)句子
集以及双语对齐的文件,此外还有测试数据和参考译文,
然后调用系统的工具包进行训练翻译模型、权重调优、解
码和评价等过程。
3.1训练和测试数据
源语句子集:在对平行语料进行对齐之前,首先需
要进行中文分词,系统中使用Stanford NLP自然语言处
理小组开发的中文分词开源工具对文档进行处理,分词
后的文件保持原文件名,同时产生原文件的备份文件。
目标语句子集:对于平行语料中的目标语句子集进
行英文分词。
词对齐文件:为了获得该文件,主要是利用GIZA++
进行汉语到英语、英语到汉语两个方向的训练,再对
两个方向的对齐结果进行优化,GIZA++实现了
IBM统计翻译模型。
测试数据:在该系统中,所使用的测试数据为
《道德经》古汉语的分词结果。
参考译文:在该系统中,所使用的参考文件为林
语堂的《道德经》英文译本。
3.2训练《道德经》的翻译模型和N元语言模型
训练翻译模型:将分词后的双语语料进行短语抽取
和调序,得到短语翻泽模型以及ME和MSD调序模型。
N元语言模型:本次实验采用了3元文法语言建模。
3.3权重调优
利用开发集和之前得到的配置文件进行权重调优,
并将结果重新记录入配置文件。至此,基于短语的《道德
经》机器翻译系统构建完毕。
3.4评坝
解码:利用配置文件对测试数据进行解码操作,即
完成对《道德经》测试数据的翻译。
评价:得到双语评测的指标BLEU值,比较翻泽结果
的准确性。
4.1实驺激据
翻译模型的训练实验分两次进行。鉴于先秦时期
的古汉语基本上是以单字词为基本词汇单位,实验1是
将测试语料按字切分来进行《道德经》的翻译。实验2
是将测试语料按分词切分(基于短语)进行《道德经》的
翻译。训练数据采用《道德经》的道经部分的古文和林
语堂翻译的《道德经》英文构建的英汉平行语料。考虑
到《道德经》有道经和德经之分,本次实验主要采用道经
的双语平行语料。考虑到古文的特点,翻译系统的输入
输出文本文件采用u1F一8标准编码方式。为了评测
《道德经》统计机器翻译系统,采用IBM公司提出的
BLEU评测方法对系统进行评价。评价结果的BLEU值
越高,翻诨 辫。
4.2实验结果
1)实验1,以分字结果为测试语料进行的《道
德经》的翻译(见图3):
图3将测试语料分字进行《道德经》
翻译测得BLEU值
第3期 面向《道德经》英译的基于短语的机器翻译初探
谱
分
4
结果为测试语料进行的
5.nU结语 《道德经》的翻译(见图): J. 钿 口
图4将测试语料短语分词进行《道德经》
翻译测得BLEU值
4.3实验结果分析
从BLEU值来看,以短语分词结果为测试语料
的《道德经》的翻译结果明显比以分字结果为测试
语料的《道德经》的翻译结果要好。由此可见,在相
同规模的平行语料的前提下,分词结果对基于短语
的机器翻译系统有一定的影响。而在构建机器翻译
模型中,双语语料的构建、权重调优的开发集数据和
作为参考标准的参考译文也都与切词密切相关,因
此,更准确的古文切词将会大幅提高《道德经》机器
翻译结果的准确率。
本文是面向汉语(古籍)英译的落月成孤倚 机器翻译研究
的初步探索,对于古汉语的词汇和语法的分析还有
待于进一步深入研究,在语料训练和机器翻译技术
等方面尚有较大的提升空间。
参考文献
l1 j Wilks,Y.Machine Translation:Its Scope and
LimitslM J.Berlin:Springer,2008.
[2]冯志伟.机器翻译研究[M].中国对外出版公
司,2004.
[3]刘群.基于句法的统计机器翻译模型与方法
[J].中文信息学报,2011,(6):63~71.
[4]王海峰.互联网机器翻译[J].中文信息学报,
2011,(12):72—80.
[5]王爽,熊德兰,王晓霞.基于实例的古文机器翻
译设计与实现[J].许昌学院学报,2009,
(5):88—91.
[6]徐彬,郭红梅.计算机辅助翻译环境下的质量
控制[J].山东外语教学,2012,(5):103—
108.
[7]许磊.谷歌翻译凭啥跨越语言障碍[N]. ‘算
机世界,201 1-03-28:016.
[8]银花,王斯日古楞,艳红.基于短语的蒙汉统计
机器翻译系统的设计与实现[J].内蒙古师范
大学学报(自然科学汉文版),2011,(1):91
——94.
第五届全国外语教师教育与发展学术研讨会
征稿通知
《国家中长期教育改革和发展规划纲要》和《全面提高高等教育质量的若干意见》(高教三十条)
对我国教师专业发展提出了新的要求。为了适应新的形势,教师需要不断更新人才培养观念、创新人
才培养模式、改革教育质量评价和人才评价制度。这不仅赋予我国教师专业发展更为深刻的内涵,也
对教师专业发展提出了更高要求。在此背景下,由中国高等教育学会外语教学研究分会主办、广东外语
外贸大学英语教育学院承办的‘第五届全国外语教师教育与发展学术研讨△,’定于2013年12月6—8日
在广东省摧组词 广州市召开。会议主题为:新形势下外语教师的专业发展:理论与实践的互化。分议题主要包
括:1)外语教师知识结构与建构过程研究;2)外语教师专业学习共同体研究;3)外语教师专业认同研
究;4)外语教师专业发展模式与机制研究;5)外语教师文化与发展环境研究;6)职前外语教师教育研
究。
有意参会者请于2013年8月6日之前将论文摘要(中文400—500字,英文300—400词)提交至
会议邮箱:symposium2013 1268@126.com。组委会将组织专家对摘要进行评审并于2013年9月16日
前发出正式会议邀请函。本届研讨会将出版论文集,并鼓励发言者在报到时提交论文全文。会议提
倡递交基于实证研究的论文。中文论文参照G'l-语教学与研究》格式要求,英文论文参照APA格式要
求。
会议详细内容请登录:http://www.cla1.org.cn/td
中国高等教育学会外语教学研究分会
广东外语外贸大学英语教育学院
ll2
更多推荐
面向的英文译语怎么说
发布评论