基于深度神经网络的知识库问答探讨

日期：2021年08月21日编辑：ad201107111759308692 作者：毕业论文点击次数：671

论文价格：150元/篇论文编号：lw202108101642015528 论文字数：25652 所属栏目：计算机软件论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

本文是一篇计算机软件论文，本研究首先对知识库问答的研究背景与意义进行了介绍，然后介绍了与其相关的技术，主要涉及词的分布式表达和深度神经网络两部分，针对知识库问答中实体检测阶段普遍存在的同名实体问题以及关系检测阶段信息丢失问题，本文设计了基于深度神经网络的知识库问答方法。

1 绪论

1.1 研究背景及意义

随着互联网科技的发展与普及，信息数据开始大量增长，如何在众多信息中寻找出有效的信息便显得极为重要，基于此出现了可以筛选出关键信息的搜索引擎[1]，如谷歌、百度和酷狗等。搜索引擎首先将互联网上大量的信息进行爬取并建立索引，当用户搜索时，根据关键词或者组合关键词进行查找，依据相关性将检索结果返回给用户，在一定程度上节约了用户筛选信息的成本。然而随着用户的需求精细化，传统的搜索引擎显示出了弊端，首先，搜索结果一般以网页的形式展示，用户需要花费时间进一步筛选。其次，检索过程中依据关键词的字面意思而非语义信息搜索[2]，容易出现信息丢失导致检索结果存在偏差。

问答系统(Question Answering System，QA)[3]的出现较好的解决了上述问题，相比于传统的搜索引擎，问答系统有 2 个明显的优势，第一，用户在使用问答系统时，不仅可以使用关键词提问，还可以使用自然语言问题提问。第二，问题系统返回答案时，不是以网页的形式展示，而是直接精准的显示问题的答案。现阶段谷歌搜索引擎可以根据用户提出的基础问题直接返回答案，与此同时，Freebase[4]、Yago[5]、DBPedia[6]、谷歌知识图谱[7]等大型知识库（Knowledge Base，KB）的出现掀起了知识库问答（Knowledge Base Question Answering，KBQA）[8,9]研究的热潮。

知识库问答是指当用户提出自然语言问题时，对问题进行语义理解、语义匹配等操作，通过查找知识库中存储的三元组得到答案的过程。知识库中的知识一般用三元组表示，一个三元组用来描述一条事实，即<实体(subject),关系(relation),实体 2(object)>,其中实体作为节点,关系作为边。由于多义性的自然语言和结构化的知识库三元组存在语义鸿沟问题，知识库问答目前仍存在挑战，怎么让机器理解文字背后的语义信息,如何将自然语言转换为结构化的语句，便是其中一大难题。目前比较流行的知识库问答方法主要分为三类：使用语义信息学习知识的语义解析、使用统计学的信息抽取、使用模式识别视角解决问题的向量建模方法。

..........................

1.2 国内外研究现状

1950 年，被誉为“计算机之父”的艾伦.麦席森.图灵提出了闻名世界的图灵测试[13]，它主要用来判断计算机是否可以和人类一样拥有智商，而图灵测试中模拟人类进行语言交互便是问答系统的思想起源[14,15]。在 20 世纪 60 年代，由于当时的语料库较小，人工智能的发展还不够成熟，早期的问答系统主要用在专家系统和特定领域的人工智能系统[16-18]，之后出现了面向开放域的问答系统[19,20]。随着互联网的快速发展，出现了许多结构化的知识库，基于此出现了新类别的问答系统，即知识库问答。对于一个自然语言问题，将问题进行理解和解析等操作得到逻辑形式，并通过查询语句在知识库中进行查找来得到正确答案，如何将自然语言问题转换为计算机能够理解的查询语句便是该研究的难题。

目前主流的知识库问答有三大方法[21]，分别是基于语义解析、信息抽取和向量建模的方法。语义解析通过定义一些规则和模板，将非结构化的问题文本转嵌入为结构化的逻辑形式，利用逻辑形式在知识库中进行查询并得到答案。信息抽取的思想是抽取出自然语言问题中的实体和谓词，通过在知识库中查询相对应的实体和谓词来得到答案。与需要人工定义规则、模板的方法不同，向量建模的原理是将自然语言问题和三元组嵌入到同一个低维向量空间中，使用问题的答案对各向量进行训练，计算向量空间中自然语言问题和知识库事实的相关程度，通过相似性排序得到答案。随着深度学习的快速发展，将深度学习与传统知识库问答方法结合的思想在实践中取得了出众的实验效果，以下将分别对这三种方法的研究现状进行详细的分析。

......................

2 相关技术介绍

2.1 知识库问答

知识库存储着结构化的知识事实，物理世界中的概念以及之间的联系在知识库中用符号形式来描述，一般用三元组的结构存储，即<实体 1(subject),关系(relation),实体2(object)>，其中实体 1 和实体 2 是三元组中的顶点，关系代表了实体 1 和实体 2 之间的联系，一般以边的形式存在，一个三元组代表了一个客观事实，通过大量的三元组，客观世界的知识便被联系和存储起来。

常见的知识库一般有 Freebase、YAGO 和 DBpedia 等，本文研究基于 Freebase，它是 Facebook 在 2005 年公开的一个结构化知识库，主要包含 FB2M 和 FB5M 两个子集，分别包含 215 万、490 万个实体，图 2.1 展示了部分 Freebase 知识库。

图 2.1 Freebase 知识库数据示例

..............................

2.2 词的表示

在处理自然语言问题时，首先要将自然语言问题文本转换为向量，即将问题文本中的词语用数学中的向量表示，如图 2.3 所示，在深度学习领域，目前文本的表示方法主要有三种：one-hot 表示、整数编码和词嵌入，不同的实验任务应选择合适的方法，接下来本文将详细介绍 one-hot 编码和词嵌入。

图 2.3 NLP 领域常见文本表示方法

one-hot 编码又称作一位有效编码，是最常见的文本表示方法，该方法首先需要构建词汇表 V，若词汇表中词语数量为 N，则词向量的维度也为 N，即使用 N 位状态寄存器对 N 个状态进行编码。将单词在词表中的位置与嵌入向量空间的位置进行比较，若位置相同，将值设置为 1，位置不同将数值设为 0，每个状态都有独立的寄存器，且在同一个时刻，只有一位有效。

.........................

3 基于 BI-LSTM-CRF 的实体链接 .......................... 18

3.1 命名实体识别 ....................................... 18

3.1.1 整体模型 .......................................... 18

3.1.2 词嵌入层 ................................. 19

4 基于多粒度注意力机制的关系检测 .................................. 28

4.1 基于多粒度注意力机制的关系排序 ...................................... 28

4.1.1 整体模型 .................................... 28

4.1.2 问题编码层 ................................. 28

5 总结与展望 ................................... 37

4 基于多粒度注意力机制的关系检测

4.1 基于多粒度注意力机制的关系排序

4.1.1 整体模型

关系检测的目的是为了从众多候选关系中找到最能描述问题和答案的关系，与该关系相连的答案便是最终答案，主要依据问题模式和候选关系的相似性来排序，一般被定义为序列匹配问题。为了丰富候选关系的语义信息，获取问题模式和候选关系之间深层次的特征匹配信息，本研究分别从单词级和语义级表征候选关系，然后分别从单词级和语义级构建问题模式和候选关系之间的匹配，并使用注意力机制来捕获深层匹配特征信息，多粒度注意力机制的关系检测模型如图 4.1 所示。

图 4.1 多粒度注意力机制关系检测模型

..........................

5 总结与展望

本研究首先对知识库问答的研究背景与意义进行了介绍，然后介绍了与其相关的技术，主要涉及词的分布式表达和深度神经网络两部分，针对知识库问答中实体检测阶段普遍存在的同名实体问题以及关系检测阶段信息丢失问题，本文设计了基于深度神经网络的知识库问答方法，具体来说，本文的知识库问答方法主要可以分为实体检测和关系检测两部分，实体检测又分为命名实体识别和实体消歧组成，并对每一部分的实验方法、实验结果和实验分析进行了详细的阐述，实验的数据集为单关系问答数据集SimpleQuestions。

整体来说，本文的工作总结如下：

（1）针对同名实体一词多义的问题，采用了 BI-LSTM-CRF 模型来对自然语言问题进行序列标注得到实体，同时，发掘出自然语言问题中关系词和知识库中候选实体之间的潜在联系，利用知识库中候选关系信息对识别出来的实体进行消岐，从而减小了命名实体识别结果的噪声数据，提高了命名实体识别的准确率。BI-LSTM-CRF 模型在SimpleQuestions的子集FB2M和FB5M上的实体识别准确率分别达到了79.8%和78.7%，为后续的关系检测步骤提供了良好的基础。

（2）针对自然语言问题文本表述存在多样性，设计了一种基于词性的自然语言问题中关系词的提取方法，通过计算问题关系词与候选关系之间的字符串相似性和语义相似性，实现将问题关系词和候选关系进行映射，以此来缓解实体链