软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于知识库问答的未登录词探讨

日期:2021年08月25日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:655
论文价格:150元/篇 论文编号:lw202108141607194023 论文字数:31025 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:软件工程硕士论文

本文是一篇软件工程硕士论文,本文提出了一种将改进的动态规划与流形排序算法相结合的未登录词处理方法,处理了系统中绝大部分未登录词,有效防止信息过度丢失对问答系统的影响;之后,本文还将提出的方法应用到 Bi-LSTM 网络模型,并在 KBQA 数据集 SimpleQuestion 和WebQuestion 上取得了优秀的效果,最后通过对比使用未登录词处理算法前后的准确率,证实了该模型的有效性。


1 绪论


1.1 选题背景与研究意义

现如今人工智能发展的如火如荼,各行各业都将其作为自己降低运营成本的战略方向,相关研究数据表明,人工智能中能够有效的提高企业生产效率,降低企业的生产成本[1]。最常见的被各大互联网巨头广泛使用的基于智能问答的网络机器人,能够更快速准确的对用户提出的需求做出及时的反馈。而在人工智能出现之前,对类似问题只能通过巨大的人力资源投入来解决。

事实证明,智能问答技术可以代替并节省企业中大量的客服成本,例如阿里巴巴集团旗下的天猫商城在 2016 年双十一整日销售额为 1207 亿元,当天购物最高峰时人工客服完全陷入瘫痪,但在 2019 年的双十一,整日销售额增长为 2684 亿元,却没有出现同样情况[2],原因是阿里巴巴在 2016 年开始使用 AI 客服,所以一套成熟的智能问答系统能够替代企业大量客服岗位,这些解放出来的生产力可以帮企业或整个社会在其它方面做出更大的贡献。全球权威 IT 研究及咨询机构 Gartner 的《智能客服机器人行业最佳实践》报告中指出,由于各单位对降低用人成本、增加客户好评率的迫切需求,2020 年使用智能问答系统的企业数量相比 2019 年提升了三倍。

除了解放大量客服的生产力以为各领域的公司节省成本,智能问答同时能够更好满足用户在搜索方面的需求。与如谷歌、百度等传统查询方式相比,智能问答查询所需信息的方式更加被现代消费者所接受与喜爱[3]。如在问答系统中我们能够直接搜索“美国总统是谁”,系统会直接给出“约瑟夫.拜登”;但在上述传统查询方式中,我们只能得到很多关键字组成的网页链接,然后在这些链接中寻找并筛选符合我们要求的链接,而不是直接返回答案。因此我们可以看出相比于传统的搜索引擎,新一代的智能问答系统可以更好的满足消费者,为其提供更好的搜索服务。问答技术近年来获得了很多研究者以及公司的关注,并且随着人工智能技术的繁荣发展,也为问答系统的发展带来了新的机会与更多潜在的可能。根据上述问答系统的优势以及传统查询方式的弊端,国内研究者、新兴产业机构和科技公司都开始了对问答技术的研发与使用。

.............................


1.2 论文主要研究内容

现如今的智能问答大部分都是基于改进关系检测和实体识别两个任务而较少研究者会对问答系统中的未登录词(Out Of Vocabulary, OOV)进行研究及处理[5-7],但随着深度学习等技术慢慢成熟,关系检测、抽取与实体识别等子任务的准确率可提升的空间已经越来越小,反而是未登录词对问答系统的影响越来越突出[8]。在自然语言处理(Natural Language Processing,NLP)领域中,因单词数量庞大、成本过高等因素,难以将世界上所有单词都纳入词表,这些未被纳入词表的单词即未登录词,一般问答系统中会使用特定标志代替并使用随机向量对其进行表示,因此未登录词的实际语义信息难以被问答系统读取。

本论文将聚焦问答系统中未登录词的处理,对其进行详细的调查、统计、研究与实验,最大程度的减小未登录词对整个问答系统的影响;开发了一种对知识库问答中未登录词的处理方法,这种处理方法不仅可以有效减少问答系统中未登录词的数量,还可以为其找到最合适的代替表达,以达到提升整个问答系统的准确率的最终效果。同时,我们实现了一个基于双向神经网络模型 Bi-LSTM 的智能问答系统来验证所提出的未登录词处理方法的有效性。

具体实现步骤为:首先利用爬虫算法获取互联网上的海量语料构建代价词典,之后使用动态规划算法对问句中的未登录词进行分词,得到一个子词串,然后通过流形排序的方法对子词串中的所有单词进行重要度排序,取重要度最高的单词表示对之前的未登录词进行表达。此外,我们还通过两个 Glove 词向量库对比了未登录词处理前后的向量相似度,最后通过双向神经网络模型 Bi-LSTM 来验证这种未登录词处理方法对整个问答模型准确率的提升效果。

..............................


2. 相关理论及关键技术


2.1 智能问答

本节对知识库问答的发展和分类进行详细的阐述,首先介绍知识库问答,然后对传统的基于语义解析以及基于深度学习的问答进行了描述。

2.1.1 知识库问答

知识库问答(Knowledge Base Question Answering,KB-QA)是一种结合知识库与深度学习技术的智能问答系统[16,18],它可以以准确直接的答案回答用户的提问,最开始使用规则或语义解析的方法居多,在深度学习快速发展的今天,研究者发现基于深度学习技术的问答系统效果要远远优于传统基于规则的方法[4,6,9,16],所以本论文最终使用基于深度学习的问答模型来对提出的未登录词处理方法进行验证。

知识库问答中的知识库由众多知识组合而成,例如:“拜登出生在宾夕法尼亚州”、“成龙是中国人。”、“傅聪的父亲是傅雷。”分别为不同的知识,众多类似知识聚集起来则组成了一个完整的知识库。知识库从 Wikipedia 或 WordNet 等网站中获取大量的实体和关系,但因为其太过零散并且形式多样而不能被计算机直接处理,所以研究者将知识使用三元组(triple)的形式来表达与储存[19]。三元组中包含的是(实体 entity,关系 relation,实体 entity),例如“拜登出生在宾夕法尼亚州”这条知识可以用三元组表示为(Joseph Robinette Biden, Place Of Birth, Commonwealth of Pennsylvania)。这种表达方式将实体视为一个节点,将关系视为一条边,两个实体与一个关系组成一个三元组。可以把这种由海量三元组组成的知识库看做是一种结构化的 Wikipedia,例如 Google 公司的 Freebase知识库[20]以及 max planck institute 提出构建的 YAGO,前者一共包含一千多万个实体,十九亿个三元组,后者包含一千多万个实体以及一点二亿个三元组。

在三元组中,将一些如人名、地名的实体称为主题实体,例如上文提到的“拜登”。而关系分为两种类型,第一种类型为属性 property,第二种类型为关系 relation,两者主要的不同点是含有属性的 triple(三元组)中的两个实体,一般为主题实体加字符串的组合形式,例如 Type/Gender,对应的 triple 为(Joseph Robinette Biden, Type, Person),而含有后者的 triple 所对应的两个实体,通常都是主题实体,即人名或者地名。如图 2.1是一个三元组示例,其中可以看到有四条边,这四条边对应四个关系,关系两端对应的为实体,如 City_of 对应的实体为“US”和“Commonwealth of Pennsylvania”,所以得到该三元组(Commonwealth of Pennsylvania, City_of, UK)。

图 2.1  三元组示例

图 2.1  三元组示例

..........................


2.2 未登录词

未登录词是指没有包含在词向量库中的单词,未登录词过多会导致系统读取到的信息永远是缺失的,所以对未登录词的研究、处理是有必要的。本节将从词的表示开始讨论,然后介绍未登录词的表示以及目前常见的处理方法。

2.2.1 词的表示

对单词的表示主要有两种方法:离散式表示[31]以及分布式表示[32,33],本节对这两种表达方式进行详细介绍。

由于计算机不能直接读懂“coffee”或“咖啡”等自然语言单词,需要将单词转换成计算机可以读取的二进制表达,所以在自然语言处理领域就出现了离散式表达。离散式表达也称 One Hot 表达,是早期最常用的词语表示方法。与之后会介绍到的分布式表示相比,离散式表达就像是把所有单词都扔进一个袋子中,每个单词之间互不关联,所以这种表达也被称做词袋模型(Bag-of-words model)。

离散式表示中,单词被一个长度为词典长度的等长向量表示,该向量里只有一个代表该词位置的标量为 1,其余标量均为 0。例如“初中”表示为[0,0,0,0,1,0…,0],“大学”表示为[0,1,0,0,0,0…,0]一例中,“初中”、“大学”的离散表示向量中分别只有一个位置为 1,分别为第五位和第二位。通过这个例子可以看出离散式表示是一种高维、稀疏的表示方法,纬度高是因为在这种表达方式中词典有多大,向量的维度就有多高,若跟本论文中用到的词向量库的数量一样为 40000,那么每个单词的向量长度均会达到 40000,并且其中每个向量都有 39999 个位置为 0,只有一个位置为 1,这也导致其第二个缺点即稀疏问题,这种语句输入到模型中会难以训练。

.....................


3. 基于动态规划的未登录词分词....................35

3.1. 引言...................35

3.2  相关技术...................35

4  基于流形排序的最优词选择.................40

4.1引言 .................40

4.2相关技术..