夏至的谚语顺口溜-执手相看泪眼下一句
2023年4月26日发(作者:一年级必背古诗80首)
ELECTRONICS WORLD 霉与明察
人工智能翻译l;『 发展现状与前景分析
桂林电子科技大学外国语学院 罗华珍潘正芹 易永忠
【摘要】近年来,人工智能(Artiifcial Intelligence,以下简称AI)技术迅猛发展,越来越深刻地影响各行各业。其中,语言服务业涉及的机
器翻译,有“AI中的AI”之称,一直被视作人类的最后一块智慧高地, “AI王冠上的宝石”。这块璀璨的宝石引来了众多高校与研究机构竟
相研究。更引来了包括谷歌、阿里在内的企业巨头踊跃投入。此外,不少传统的语言服务企业也意欲向此转型。那么,人工智能翻译技术的
现状究竟如何?AI会给语言服务业带来哪些深刻影响?人工翻译与机器翻译的未来,又该何去何从?本文结合人工智能翻译的发展现状及其
当前应用的成果,对以上问题进行分析探讨,以期对AI翻译领域的研究方向,提供理论参考依据。
I关键词】人工智能;机器翻译;人工翻译;深度学习;循环神经网络;积卷神经网络;翻译众包;机器学习技术
更具整体性,而不是简单的翻译单词。
一
、
机器翻译的优点
目前对鼢 应用的最为炉火纯青的应该就是谷歌翻皇甫谧 译了,去年
谷歌提出了用神经网络系统进行机器翻译,据称汉译英的错误率最
高下降85%,在当时还小小的引起了一番轰动。
随着科技和经济的快速发展,全球各国的互联互通已经成为不
可阻挡的发展趋势。为了实现不同国家之间低成本的有效交流,机 如果说传统神经网络在翻译时,永远是用一片空白的大脑面对
器翻译应运而生。其优点主要体现为: 每一个句子,那么RNN在翻译时则拥有持久的思想,而谷歌翻译所
1.成本低:
应用的LSTM更加强了这一点。LSTM是RNN的一类变种,被译为
长短期记忆网络,是一种时间递归神经网络。RNN的缺陷在于,
“于谦的父亲.关于咏雪的诗句 王老爷子”这种间隔很短的序列预测以前很容易, 工参与的时候很少,基本上由计算机自动完成翻译,大大降低了预算。
相比于人工翻译,机器翻译的成本要低很多。因为机器翻译需要人
2.易把控:
但要预测“今天出门晚了,所以上班口”这类句子,需要联系到间
机器翻译的流程简单快捷,在翻译时间的把控上也能进行较为 隔较远的上下文,这时RNN可能就表现的没那么优秀了。
精准地估算。
3.速度快
计算器程序的运行速度非常快,机器翻译正好利用了这一优点。
而LSTM,就可以学习并理解这种长期依赖关系。LSTM通过一系
列计算将句子中的各个元素的特征构建成非线性的组合,同时还设立
“更新”记忆,让长期依赖因素不断的存在于距离较近的神经元中。
CNN:GPU的宠儿
CNN一一卷积神经网络应用于机器翻译之上。 相信常跟外语打交道的读者都感觉到,机器翻译越来越强大
了“遗忘机制”,将权重较低的元素遗忘掉。这就意味着LSTM可以
=.机器翻译的发展现状
就在RNN机器翻译还在不断更新时,又有人提出了将
了。从最开始的只能翻译单词,翻译句子简直一窍不通的,到之后
从上文我们可以得出结论,RNN(LSTM)机器翻译按照序列
翻译出来句子可以符合基本的语法,再慢慢变得越来越有基本的逻
辑性了,再到现在部分软件可以联系上下文,翻译结果的可读性与
正确性都大为改观。 算。这样一来RNN就没法最大化利用GPU的计算能力。
近年来,加入了“深度学习技术”等人工智能的机器翻译, 而cNN则可以同时处理多个语言片段,并且具有信息分层处理
进行工作,也就是和人一样,按照顺序一个个的进行翻译。但要记
住的一点是,目前比较主流的GPU最大的有点是可以进行并行计
能力。将文本序列化、单词向量化,经过分层处理后再输出结果。 已经不再简单地将一个个单词翻译成另一种语言,而是可以像人一
在分层过程中,还会不断回顾源文本夕阳无限好只是近黄昏相反的诗句 来确定下一个输出序列。 样,不断向前回顾以理解结构复杂的句子,并且结合上下文,理解
提出这种技术的是Facebook和最近的机器翻译新秀DeepL。街组词
每一个It/He/She具体指代谁。
实现这种功能,分别依赖于两种神经网络架构,一个是Recur. 2017年上半年,Facebook宣布推出了基于CNN开发的语言翻译模
rent Neural Ne orks( N)一一循环神经网络,另一个则是Convo. 型,据说比基于RNN开发的语言翻译模型速度快9倍,而且准确率
1ufional Neural Ne 0rl【s(CNN)一一卷积神经网络。关于RNN和CNN 更高。在测试上,Facebook翻译系统在英语.德语、英语.法语的测
哪个更适用于机器翻译的争论也很多,我们先来看看这两种神经网
络都是如何为机器翻译“开光加持”的。 并且,不管是CNN还是RNN都不是机器翻译的终点,比如谷
RNN:机器翻译的创派宗师 歌近期提到的不再基于RNN的注意力机制,以及多层神经网络、深
试上都比RNN更接近人工翻译。
首先我们要明白,所谓机器翻译,就是一个解码后再编码的过
程。如果要把英语翻译成中文,就要先把英语原文解码成“神经代 耗、情感理解等等多种维度上都有不同的表现。
码”,再编码生成中文。
循环神经网络的关键,就在于循环二字上。系统会“记住”上 部分。更多的是语料库的大小、繁重的语料标注工作等等,同时这也
一
度神经网络等等,都是解决机器翻译的方法。在速度、计算资源消
如果从最终的实用性来说,神经网络模型能影响到的仅仅只是一
注定了蒙古语、藏语这种语料较少语言仍然无法受益于机器翻译。
次输出的内容,以此来决定下一次输出。有了上一次和下一次的
概念,神经网络就不会把输入和输出的信息看做独立的,而是相互
关联的时间序列。这样就可以通过以往的序列关联猜测到下一个序
列会出现的词。
三.机器翻译的现有弊端
在翻译时,RNN把源语言当做输入序列,把翻译语言当做输出 人工智能翻译技术的飞速发展,使得近几年来机器翻译取代人
序列,由于每一次输出都会参考上一次输出的结果,所以机器翻译
工翻译的呼声,似乎越来越高。不少人工智能的狂热信徒,动不动
基金项目:广西教育厅“英汉机器翻译与语言学接口研究:问题与出路”,编号:KY2015YBll5。
电子世再 21
ELECTRONICS WORLD探索与观察
就威胁要人工翻译人员下岗,甚至灭绝。
人脑的认知与联想。
然而,人类语言的复杂性众所周知,人尚且有误解的时候,冰
冷的机器真的足以胜任自然语言的翻译吗?
至少目前看来,显然不能。
人工翻译的优势在于人是有思维的,具有灵活性,翻译过程中对
句子结构,语法应用,以及上下文的逻辑思想等等都可以自由的分析思
考,翻译出的东西不至于语法混乱,逻辑不清;而且像有些文学性较强
首先,在人类语言当中,很多用词和表达方式是多义的、模糊
的、跟特定应用环境相关的。即使是同一个句子,在不同语境下的
意思也不相同。例如碰到这样的情况,机器也会“迷茫”。
请解释下文中每个“意孟尝君将入秦翻译 思”的意思1218首诗歌全集播放小敏 : 读思维习惯,使译文更加的地道精确。翻译出的译文也具有很强的可读
阿呆给领导送红包时,两人的对话颇有意思。领导: “你这 性。故此在这一层面的应用中,机器翻译仍然存在着难以克服的缺陷。
是什么意思?”
阿呆:“没什么意思,意思意思。”领导:“你这就不够意
思了。”
的文章、稿件,人工翻译就可以有血有肉的表达出其中的韵味,其中的
各种思想精髓,不至于生涩难懂。还有人工翻译可以根据译语使用肯的
语言习惯,思维方式,风俗习惯等,把译文翻译的更符合语使用者的阅
四 Al翻译咏雪的翻译 的发展前景
阿呆:“小意思,小意思。”领导:“你这人真有意思。” 语言服务业从刚开始坚信“人工翻译无法替代”,到接受人机结
阿呆:“其实也没有别的意思。”
我们再通过一些科技文献翻译实例的对比,看看AI翻译与人工 当人工翻译遇上AI,是机遇,还是挑战?人工翻译会不会“有
翻译的差距:
原句: 在“被取代”之前,这个争议将一直继续下去。
One of the valves in the engine must have gone wrong
谷歌翻译:发动机中的阀门之一必须出错。 智慧”为前提。如果这一设想当真在有朝一目变为现实,那么届时
人工翻译:发动机的一个气门肯定出了问题。
分析:在汽车制造业,VALVE作为汽车零件,不是通常意义上
的“阀门”,而是发动机的“气门”。AI翻译无法辨识特定应用语境
中,词汇多种含义的正确对应,导致了错误的翻译结果。而词语组合 的技术让机器去模拟人的智能活动,模拟人对语义的理解,但相对
gone wrong和应该译作“出错”还是“出了问题”,机器翻译由于不
具备人脑的宏观直觉,故而也没能输出更符合语言习惯的译文。 器真的能够实现准确的实时翻译,它们的角色更应该是辅助相关产
与人工翻译相比,在处理复杂的、专业性或技术性强的语段时, 业的工作人员更轻松、便捷地开展工作,而不是取代人工翻译的工
AI的翻译结果,不仅仅是可读性,流畅性存在差距,纵然是作为基 作岗位。
本要求的正确性,也仍有不可容忍的缺陷。更不必说,在不少翻译实 此外,针对上文分析到的问题,在人工智能的神经网络翻译技
例中,得出正确译文的关键点,不仅仅是对原文之字面意义“正确认
识”,更要求对作者的言外之意加以领会。我们再看看以下的例句: 为神经网络翻译企业接下来的重点战场。
原句:
The 20th century will not be remembered as the era when space
was conquered,or the power of hte atom,harnessed,but that in which
were made the first machines having intelligence.
谷歌翻译:
二十世纪不会被记住为空间被征服的时代,或原子的力量,被 原理当中,对错误样本纠错往往是最好的学习途径,但翻译上的纠
利用,而在第一台有智慧的机器。 错行为显然是企业难以完成的。调动用户主动纠错翻译结果,并以
人工翻译:
如果在20世纪,人类不制造出具备智能的首批机器,这一时代,也 都有纠错功能,但用户的参与热情和参与方式是个问题。
不会作为“征服宇宙的世纪”或“原子能利用的世纪”而被人铭记。 3.尝试优质训练资料下的弱监督学习:目前的NMT体系,归根
可见,就科技英语而论,理解原文的过程,在多数情况下,是 结底是个有监督学习过程,很多所谓“莫名其妙”的翻译结果都
一
个语义辩认,语法分析和逻辑分析三方面交互作用的过程,而不 来自翻译机制无法优化。尝试一些深度学习架构让翻译系统自我优
单单是一个逻辑分析的过程,请看下面的例句。 化,也许是个解决方案。
原句:
Shortly before the uninhabited space station reached orbit in May
1973,aerodynamicpressuretipped offameteoroid andheat shield.
谷歌翻译:
1973年5月无人空间站到达轨道之前不久,空气动力学压力剥 型会事半功倍。
离了流星体和隔热罩。
人工翻译:
在l973年5月无人太空站到达轨道前不久,它的一个防流星体
和防热的护罩被空气动力的压力剥离。 智能+人工=翻译的未来
分析:首先,从逻辑上看,说:“空气动力压力扯破了一个流
星体”,是不合事理的,荒谬可笑的。其次,从语言上看,不定冠
词a是说明shield的,而不是说明meteoroid的。通过逻辑分析和语言
分析可以清楚地看出,名词meteomid ̄t1名词heat原来都是名词shield 在这种模式中,人诫子书的翻译和原文 工智能首先完成最基本的翻译。在拿到来
的定语。A meteoroid and heat shield的意思是:一个防流星体和防
热的护罩。而想要对文字信息实现这种层次的理解判断,必须具备
22 电子世界
合并纷纷试水拥抱变化,中间经历了抵触、恐慌、接纳的各种转变
朝一日”被机器翻译完全取代?这个问题一直备受争议~一并且,
但可以肯定的是,这一天的到来,必定以“机器完全拥有人类
不止是语言服务行业,而是整个社会的各行各业,人工劳力都将被
人工智能所取代。
就目前发展趋势分析,笔者认为,虽然现在可以通过一些实用
于彻底的人工智能和语义理解,还有相当长的道路。如果有一天机
术领域,有一些解决方案可以作为比较高效的补充,也许这些会成
1.引进NMT以外的人工智能技术:巧合的是,近两年关于机器
翻译的技术突破往往来自其他人工智能领域。比如注意力模型,是
来I ̄Deepmind在机器视觉领域的技术构想。主动引入其他领域的算
法和模型,或许在翻译领域有神奇的效果。
2.建立机器学习使用的用户数据库,激发互动:在机器学习的
之建立数据库,或许是非常便捷的办法。现在的机器翻译平台当然
4.垂直领域语料数据库&数据抽调系统:解决具体的专业领
域,甚至文言文的中英互译。
(当然也包括英文的诗歌和文学文本),其实也没什么特别的
办法,拥有强大的垂直领域数据库是硬实力,当然好的数据抽调模
五.结论
为了弥补人工智能的不足,许多翻译技术公司已经在尝试新模
式,即人工智能+翻译众包(Transla云想衣裳花想容表达了 tion Outsourcing)的结合。这
或许代表了翻译的未来发展趋势。
自机器的初步翻译结果后,普通译者首先对机器翻译的差错进行更
正。随后,高级译者将对翻译后文本的文学性和专业性做进一步修
ELECTRONlCS WORLD攘豢.与 察
订。这样的流水作业将带来更高的效率,同时确保质量。 发挥不可磨灭的作用。
机器学习技术也会参与这一过程。通过机器学习,计算机将基
于人工修订后的结果学到准确的单词表达,以及人类的语言习惯,
从而优化未来的翻译能力。另一方面,计算机也会对人工翻译的
“硬性”部分进行追踪,帮助译者避免低级错误。在这一过程中,
人工智能和人工翻译将形成良性循环。
人工智能对人工翻译的帮助还不仅于此。例如,在众包译者工
参考文献
[1]Arnold,D.Balkan,L.Meijer,S.Humphreys,R.L.Sadler,Machine
Translation:An Introductory Guide[M].University ofEssex,2015.
Linguistics[M].Cambridge:Cambridge Universiy Prests,2013.
USA:BLACKWELL PUBLISHING,2014.
[2]Biber,Douglas,Susan Conrad and Randi Reppen.Corpus
作的同时,人工智能将会了解不同译者具备的专业性。通过对这类
数据的收集和分析,人工智能可以向不同译者分配他们擅长的翻译
内容。例如,关于计算设备说明书的翻译将精准分配至电脑专家,
而财务报告的翻译将可以由会计专业的译者来担任。
【3】Carnie,Andrew.Syntax:A Generative Introduction[M].
[4]Chomsky,N.Aspects of the Theory of Syntax[M】.Cambridge,
Mass:MIT Press,2016.
这种模式正在引起全球投资人的关注。例如,硅谷创业孵化器Y
Combinator ̄E2014年冬季班时孵化了这样一家公司Unbabel。与传统人工
翻译相比,人工智能的引入提高了效率,而不同于单纯的机器翻译,人 【61冯志伟.机器翻译研究[M】.北京:中国对外翻译出版公司,2004.
工翻译使翻译的表达更准确、更流畅,更适合用于正式场合。
在国内,市场最主要的翻译需求是中英文之间的互译,无论是新
闻媒体、学术论文,还是英美影剧。人工智能和人工翻译的结合可以优
[5]Grishman,R.Computational Linguistics:An Introduction[M].
Cambridge:Cambridge Universiy tPress,1986.
【7】胡壮麟.语言学教程[M】.北京:北京大学出版社,2007.
社.2005.
【8】易绵竹,南振兴.计算机语言学【M】.上海:上海外语教育出版
化当前翻译的效率,带来更自由的跨国交流,创造更大的市场机会。 【9】张政,苗天顺.计算语言学与机器翻译导论【M】.北京:外语教学
更重要的是,对于尚未被纳入互联网的少数族裔语言,这种模式
将带来明显帮助。可以想象,通过统一的人工智能数据库,谷歌、雅
与研究出版社,2010.
虎、Facebook等网站将自动翻译成非洲、南亚或印第安语言,而当地 作者简介:
志愿者可以在此基础上高效的完成优化。这将消除互联网向贫穷国家
普及过程中的语言障碍,成为真正连接全世界的“信息高速公路”。
语教学法。
罗华珍,桂林电子科技大学外国语学院副教授,
研究方向:英
文章的最后,笔者再做一个小小的展望:未来,在机器翻译领 潘正芹,桂林电子科技大学外国语学院副教授,
域,一定会出现很多,以某种特定语言为优势的翻译机构。这个领 译和第二语言习得。
域也将吸引更多在语言方面有天才的创业者的加入,另外,由于文
研究方向:翻
译,英语教学法。 字是文化的重要载体,所以机器翻译对各个国家文化的传承,也将
易永忠,桂林电子科技大学外国语学院教授,研究方向:翻
(上接第2O页)
理多种传感器。电子地图包含一个事件检视器,能够快速自动对触发
事件的设备定位和回播事件,同时也提供快速信道预览功能。
4)针对于变化场景的稳定实时人群聚集度分析
今后,如何拓展监控视频深度分析技术,能够实现密集人群的意向
性可能状态属性的预测,在应用领域更具挑战性的大群体、弱环境
和预测的时效性更高是需要重点研究的方向。
参考文献
社.2006—1—8.
情况下的动态推演,需要从宏观层面适配大人群演化算法,使模拟
通过检测人群密度、群体运动特征检测人群的聚集、游行、
集会等活动,提出面向密集人群感知的视频深度分析技术,解决复
杂、动态场景下对样本稀疏的特定目标人群自动进行高精准定位以
及态势预测的难题 J。
51应急预案体系建立 英文翻译中文拍照扫一扫
[1】国务院发布的《国家突发公共事件总体应急预案》[N】.新华
在区域人群密度估计功能的基础上,及时感知人群中所发生
的变化,对视频中异常行为事件进行实时提取和筛选,并及时发出 院学报,2012,28(7):15-17.
预警,自动启动应急预案,动态地为突发事件提供科学的、及时的
【2]王晓泓.上海世博会警卫勤务信息系统建设与应用U1武警学
【3】Qing Yan,Yi Xu and Xiaokang Yang,Separation of Weak
Letters,21(10):11731176,2014.
应急预案处置。提出的应急预案体系是基于案例的推理架构来实现
的,达到从过去的经验中发现解决当前事件线索方法的目的。
Relfeciton from a Single Supeirmposed Image[J].IEEE SignalProcessing
【4]C.Zhang,X.G.Wang,X.K.Yang,Cross—scene Crowd Counting
4结束语
基于上述技术和设备的研究与创新,成功研制公共群体突发事
件综合智能视频分析监测和预警的各类应用系统,应用范围涵盖公
共安全管理、国内反恐工作、群体突发事件应急指挥等多个领域
via Deep Convolutional Neural Networks[C].IEEE Con ̄on Computer
Vision and Pattern Recogniio,t833—841。2015.
【5]Cong Zhang,Kai Kang,Hongsheng Li,Xiaogang Wang,RongXie
and Xiaokang Yang,Data—driven Crowd Understanding:a Baseline for a
Largescale Crowd Dataset:川.IEEE Trans.on Mulitmedia,1—15,2016.
电- ̄tl-IB 23
问君西游何时还下一句-论诗三十首其二
更多推荐
人工翻译
发布评论