首页 > 机器翻译研究现状与展望

机器翻译研究现状与展望

发布时间：2023-02-02 23:21:47 来源：文档文库

小中大

字号：

手机查看

机器翻译研究现状与展望1戴新宇，尹存燕，陈家骏，郑国梁（南京大学计算机软件新技术国家重点实验室，南京210093）（南京大学计算机科学与技术系，南京210093）摘要：本文回顾机器翻译研究的历史，介绍典型的机器翻译方法，包括：基于规则、基于统计以及基于实例的机器翻译方法；针对机器翻译的研究现状，详细介绍和分析了基于混合策略的机器翻译方法，对统计以及机器学习方法在机器翻译中的应用进行了描述；论文还介绍了当前机器翻译评测技术；最后对机器翻译进行总结和展望。关键字：机器翻译，基于规则，基于统计，基于实例，混合策略，机器学习MachineTranslation:Past,Present,future&TechnologyNanjingUniversity,Nanjing210093DaiXinyu,YinCunyan,ChenJiajunandZhengGuoliang(StateKeyLaboratoryforNovelSoftwareTechnology,DepartmentofComputerScienceAbstract：Thispaperfirstlypresentsthehistoryofmachinetranslation,andintroducessomeclassicalparadigmsofmachinetranslation:RBMT,SBMTandEBMT.Secondly,weintroducetherecentresearchonmachinetranslation,anddescribethehybridstrategiesonmachinetranslationindetail,anddiscusstheapplicationsofmachinelearningformachinetranslation.Wealsoanalyzethecurrenttechniquesaboutevaluationonmachinetranslation.Finally,wedrawaconclusionandprospectontheresearchofmachinetranslation.Keywords：MachineTranslation,RBMT,SBMT,EBMT,HSBMT,MachineLearning.本论文工作得到863课题资助（编号：2001AA114102,2002AA117010-04）戴新宇博士生，主要研究自然语言处理；尹存燕助教，主要研究自然语言处理；陈家骏教授，博士生导师，主要研究自然语言处理、软件工程；郑国梁教授，博士生导师，主要研究软件工程。1
一、引言近年来，自然语言处理的研究已经成为热点，而机器翻译作为自然语言研究领域的一个重要分支，同时也是人工智能领域的一个课题，同样为大家所关注。纵观机器翻译的研究历史，从上个世纪40年代英国工程师Booth和美国工程师Weaver提出利用计算机进行翻译的想法，到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究，再到60年代ALPAC置疑报告的提出，机器翻译走向沉寂。最近的二十年，随着语言学理论的发展、计算机技术的进步以及统计学和机器学习方法在自然语言处理领域中的广泛应用，人们对机器翻译本身的应用背景、目标等也有了更加准确的认识，机器翻译在此背景下取得了长足的发展，基于统计、基于实例等新的机器翻译方法也都是在这一时期出现，一些机器翻译系统也从实验室走向了市场。在中国，机器翻译的研究从50年代开始，多家大学和研究机构先后开发出俄汉、英汉、汉英、日汉、汉日等机器翻译系统，同时在汉语的自然语言理解方面做了大量的研究。在看到机器翻译研究取得进展的同时，我们也知道，由于对语言规律本身认识仍然不足，以及计算机对语言理解的局限性，再加上不同语言之间存在着语法结构、构造方式、语言习惯、社会背景等等的不同，机器翻译的效果与大家所期待的仍有非常大的差距。本文第二部分介绍几种经典的机器翻译方法；第三部分给出近期机器翻译的研究现状，介绍基于混合策略的机器翻译方法，对统计机器学习在机器翻译中的应用进行总结；第四部分讨论当前机器翻译的评测系统；最后，对机器翻译研究进行总结和展望。二、典型的机器翻译方法和技术机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科（它的发展是建立在语言学、数学、计算机科学的发展基础之上）现代理论语言学的发展、计算机科学的进步以及概率统计学的引入，对机器翻译的理论和方法都产生了深刻的影响。Weaver机器翻译思想的提出，开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法，给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成，描述粒度过粗，因此存在约束能力弱、生成能力过强问题，人们逐渐意识到仅依靠单一的短语结构信息，不能充分判别短语类型和确认短语边界，于是，复杂特征集和词汇主义被引入自然语言语法系统，广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应的产生。在这个发展过程中，基于规则方法一直是机器翻译研究的主流。在基于规则的方法中，语言规则的产生需要大量的人力，而且大量的语言规则之间往往存在着不可避免的冲突。另外，规则方法在保证规则的完备性和适应性方面也存在着不足。而此时，统计学方法在自然语言处理的语音识别领域取得了比较好的效果，于是，基于统计的机器翻译[1]应运而生。随着双语语料的大量增加、计算机性能的提高，基于实例的机器翻译方法被提出[2]，并由此泛化产生了基于模板的机器翻译方法。下面我们分别介绍几种典型的机器翻译方法。2.1基于规则的机器翻译方法(Rule-BasedMachineTranslation从Chomsky提出转换生成文法之后，基于规则的方法一直是机器翻译研究的主流，Chomsky认为一种语言无限的句子可以由有限的规则推导出来。早期的机器翻译系统，从体系结构上可以分为直译式、转换式和中间语言式，它们的不同之处在于对源语言分析的深度，它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中，转换式的基于规则方法对源语言分析得比较深，它涉及到词汇结构分析、语法分析、语义分析，并完成词汇、语法、语义三层结构从源语言到目标语言的转换，而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系，它比中间语言方法更容易获得高质量的翻译结果。因此，转换式的方法更多地被应用在早期的机器翻译系统中，整个翻译过程被分为：源语言分析部分，转换部分和目标语生成部分。而早期的系统，如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY－1汉英系统，都是基于转换的机器翻译系统。基于规则的机器翻译的优点在于：规则可以很准确的描述出一种语言的语法构成，并且可以很直观的表示出来。机器可以按照一组规则来理解它面对的自然语言，这组规则包含了不同语言层次的规则，包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用
于生成目标语的生成规则。由此可见，基于规则的机器翻译的核心问题是构造完备的或适应性较强的规则系统。但是，规则库的建立需要花费大量的人力和物力，即使如此，规则的完备性仍然不能得到保证，规则库很难覆盖所有的语言现象。随着规则数量的增加，规则之间的冲突很难避免；很难用系统化的规则分类体系、恰当的规则粒度去刻画语言特征。而且早期的规则系统采用的都是确定性规则，即：非此即彼的规则，系统的适应性很差。基于上述问题，如何自动地获取语言规则、如何更好的表示规则以及如何更好地增强系统的适应能力成为研究人员关注的焦点。随着大量语料库的产生，统计方法为我们提供了很好的从已有的语言资源中自动得到我们所需要的语言信息的工具。复杂特征集和合一运算的提出也使得我们能以更细的粒度、更加准确的知识表示形式来描述规则，而词汇化的信息也更多的来自于标注语料库。针对确定性规则降低了系统的鲁棒性的弱点，概率上下文无关文法从全局最优的角度考虑，产生最优的翻译结果，为机器翻译系统的实用化奠定了基础。随着这些方法的引入，传统的基于规则的机器翻译方法研究逐步发展成为对以规则为基础、语料库方法为辅助的高性能机器翻译方法的研究。[4][3]2.2基于统计的机器翻译方法(Statistical-BasedMachinetranslation除了在某些特定的受限领域，基于规则的机器翻译，取得了比较好的效果（如Isabelle1987所做的天气预报翻译）之外，在大部分的实验中，基于规则的机器翻译远远没有达到人们的要求。而随着语料库语言学的发展和统计学、信息论在自然语言处理领域的应用，人们尝试着用统计的方法进行机器翻译的研究。对于机器翻译来说，基于统计的方法可以从两个层面上来理解，一种是指某些概率统计的方法在具体的机器翻译过程中的应用，比如用概率统计的方法解决词性标注的问题、词义消歧的问题等，这些问题我们将在本文的3.2部分讨论。另一种较狭义的理解是指纯粹的基于统计的机器翻译，翻译所需的所有知识都来源于语料库本身。这一节我们主要介绍这种纯统计的机器翻译方法。IBM的Brown在1990年首先将最初应用于语音识别领域的统计模型用于法英机器翻译。基本思想是：用信道模型把机器翻译看作一种解码的过程。解码过程用图一来表示。[1]LanguageModelt

《机器翻译研究现状与展望.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式

相

关

案

例

机器翻译研究现状与展望

相关推荐

推荐内容