本文是一篇计算机软件论文,文中分析了自注意力机制忽略语序结构,无法捕捉句子中单词的位置信息的问题,句子单词的位置是非常重要的特征信息,它对于指代消歧,语义分析有什么很重要的指导作用。而对于这个问题,文中在第三章提出了一种基于对数位置表示和自注意力的机器翻译新模型。该模型通过在自注意力层加入对数位置表示,进一步增强了模型捕捉单词位置信息的能力,这种性能的加强不仅体现在距离上,还体现在方向性上。而对数表示方法模糊了“长距离”的概念,且使得相对位置表示从“窗口”中挣脱出来。实验结果表明,文中提出的模型在英译德和英译法的机器翻译任务中具有优于传统循环神经网络机器翻译模型和传统自注意力机器翻译模型的性能。
第一章 绪论
1.1引言
近几年,由于数据爆炸式增长以及计算能力的提升,用户如何从海量数据中快速提取有用的信息就有了更高的技术要求。有关数据统计,截止到 2018 年 6 月,我国网名数量已达到了惊人了 8.02 亿,占全国总人口的 57.3%,其中移动互联网用户占比达到了 98.3%。互联网行业的春笋式爆发使得人们的衣食住行越来越依赖互联网。微信,支付宝,拼多多,共享单车等互联网产品及其衍生产品在我们的生活中占据着极其重要的地位。伴随着互联网产品的广泛使用,人们对于产品的要求也不仅仅局限在功能的实现上,对于用户体验的需求也越来越高。随着国际化蓬勃的发展以及人类命运共同体的构建,各国之间相互支持,在平等互利的基础上展开了一系列务实的合作。人们的生活视野受到了极大的扩展,从乡镇走向国际都市,从国内延伸到世界。随着人们在学术领域,工作领域的国际化,阅读外国文档不可避免,以往人们只能通过查阅字典或者请专业人士翻译,这样所花费的时间成本和财力成本是非常高的。而一个好的机器翻译(machinetranslation,简称 MT)系统则可以帮助人们更快更好地理解文档的内容,免去逐字逐句翻译的枯燥工作,节省下大量的时间做更有意义的工作。
......................
1.2研究现状
1.2.1 国际发展现状
机器翻译是自然语言处理领域中极具难度的一项重要任务,它与计算机技术,人工智能,数理逻辑的发展紧密相随。从早期的词典匹配[1]词典结合语言学专家知识的规则翻译[2][3][4][5][6],再到基于语料库的统计机器翻译[7-9],随着计算机计算能力的显著提升和多语言信息的爆炸式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译任务。机器翻译在学术界的研究由来已久,研究人员为其做出了大量工作[10-20]。机器翻译主要被应用在以下三个领域当中。
1) 词典翻译软件是最基本的网络查词翻译,查询对象一般为单个字词,简单的词组或者固定的结构。
2) 计算机辅助翻译软件(Computer Aided Translation,简称 CAT),其原理是利用计算机的记忆功能将译者之前翻译的资料进行整理,以便为之后出现的类似翻译提供便利条件。比较知名的 CAT 软件有谷歌的 Translator Toolkit,微软的 Loc Studio 等。
3) 机器翻译(Machine Translation,简称 MT)软件,它的核心技术为使用计算机按照一定的规则把一种语言翻译成另一种语言。这种过程一般指多语言间的句子或段落的翻译。比较常见的机器翻译软件有谷歌翻译,百度翻译,网易有道翻译和金山词霸等。机器翻译模型可分为理性主义方法和经验主义方法。其中,理性主义方法指基于规则的机器翻译,这是早期比较传统的方法。而经验主义方法则包含基于统计的机器翻译,基于实例的机器翻译和基于深度学习的机器翻译。
..................
第二章 相关背景知识介绍
2.1理性主义方法
2.1.1 基于规则的机器翻译
基于规则的机器翻译(rule-basedmachinetranslation,简称 RBMT)方法的核心思想在于:可以通过有限的规则推导出一种语言的无限句子。RBMT 方法以人类编撰的规则作为核心技术导致其具有很高的直观性,它能直接表达出语言学知识和翻译知识。规则的粒度可大可小,粒度小的规则有精准的描述能力,便于深层次理解和复杂结构问题的处理;而粒度大的规则概括总结能力则比较强。
RBMT 方法具有强烈的主观因素,规则制定的过程中难免会代入专家的主观性,导致与客观现实有一定差距;规则覆盖不全面,小粒度规则缺乏全面的概括能力;规则库之间的冲突问题往往得不到解决;消耗极大人力,财力研制的规则库一般只适用于目标系统,不具备可移植性。
如图 2.2 所示,根据对形态分析,句法分析,语义分析的不同应用。RBMT 系统根据翻译过程可分为直接翻译,结构转换翻译和中间语翻译。
.............................
2.2经验主义方法
经验主义方法主要是基于语料库来作为翻译的基础,该方法又可分为基于统计的翻译方法和基于实例的翻译方法。基于语料库的机器翻译方法以语料库作为翻译知识来源,无需专家编撰规则,相较于基于规则的机器翻译方法,其系统研制成本更低,开发速度更快;且大规模语料库覆盖性全面,翻译知识也较为客观。但基于语料库的机器翻译方法高度依赖语料库、缺乏概括性知识、面临数据稀疏问题。
2.2.1 基于统计的机器翻译
基于统计的机器翻译(statistic-basedmachinetranslation,简称 SBMT)方法的基本思想是运用机器学习技术对大规模平行语料进行统计分析从而进行翻译。
1988 年,在卡内基梅隆大学举行的第二届技术管理与创新(Technology Management andInnovation,简称 TMI)会议上,IBM 的研究人员提出了一种基于统计思想的机器翻译方法,该方法由于在实验中取得良好的效果而受到广泛关注,这标志着 SBMT 时代的来临。起初,受制于计算机的运算能力,SBMT 的研究人员并不多,导致其发展缓慢,甚至一度受到质疑。随着计算机技术的发展以及越来越多的研究人员投入到 SBMT 的研究当中,SBMT 在机器翻译领域取得了突破性的成功,因此,SBMT 逐步成为机器翻译的主流方法。如图 2.7 所示,SBMT 模型可分为基于串的模型和基于句法树的模型,且可以层层递进,一步步往下细分。
.............................
第三章 一种基于对数位置表示和自注意力的机器翻译新模型............................... 15
3.1引言............................ 15
3.2相关技术............................ 16
第四章 门控循环单元网络结合自注意力机制的语言应用模型....................... 30
4.1引言...................... 30
4.2相关技术......................... 31
第五章 粒度细化结合卷积自注意力的机器翻译新模型........................... 41
5.1引言......................... 41
5.2相关技术........................................... 42
第五章 粒度细化结合卷积自注意力的机器翻译新模型
5.1引言
目前,最先进的神经机器翻译(neuralmachinetranslation,简称 NMT)模型使用的是 MHA机制,传统的 MHA 机制以单词为个体对句子进行处理,然而,这种模型未能有效利用短语信息。最近,一项研究表明,SA 机制通常专注于独立的单词,却忽略连续的短语形式,而在机器翻译任务中,短语被认为是必不可少的形式。有关机器翻译研究现状的工作表明,将基本单元从单词扩展到短语可以对译文质量产生实质性的提高,这表明可以通过对短语进行显式地建模来提高 NMT 系统的性能。因为基于 SA 机制的模型大多是以递归形式编码,往往高层学习到的是语义信息,底层学习到的是表面纹理或者文字本身的信息,所以,合理利用短语信息能够更全面地获取句子中有意义的信息。
基于深度多头自注意网络的 Transformer 成为近年来最先进的神经机器翻译模型,自注意力(self-attention,简称 SA)机制由于其并行计算能力和对依赖关系建模的灵活性引起了广泛的研究热潮。SA 机制中的多头注意力(multi head attention,简称 MHA)机制能够从不同的子空间中关注到相应的信息。MHA 机制的主要优点在于可以显式地捕捉到当前元素和所有元素之间的依赖性,然后通过将输入序列映射到不同的子空间中,分别采用 SA 机制,MHA 机制能够进一步增强模型的性能。Hao等人提出了多粒度自注意力(multi-granularityself-attention,简称 MG-SA)模型,MG-SA 通过 n-gram 或句法分析对文本中的短语进行建模,并与递归神经网络相结合(recurrent neural networks,简称 RNN),此外,由于 SA 机制缺乏捕捉单词的结构能力,他们还利用短语之间的交互作用来加强结构建模,实验结果表明,多粒度表示可以加强模型获取语义信息和结构信息的能力。Yang 等人提出了卷积自注意力(convolutionalself-attention,简称 CSA)模型,CSA 模型增强了相邻元素间的依赖性,而且能够让不同子空间中的特征相互交互。
..............................
第六章 总结与展望
机器翻译拓宽了人们获取知识与工作交流的渠道,引起了业界与学术界的广泛关注,