软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于知识库问答的未登录词探讨

日期:2021年08月25日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:655
论文价格:150元/篇 论文编号:lw202108141607194023 论文字数:31025 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:软件工程硕士论文
.................40

5  智能问答系统的设计与实现......................55

5.1实验概述.....................55

5.1.1  实验环境简介.....................55

5.1.2  实验数据集简介....................55


5  智能问答系统的设计与实现


5.1实验概述

5.1.1  实验环境简介

本文实验设计模型的具体实验环境配置,如表 5.1 所示:

表 5.1  实验环境配置

表 5.1  实验环境配置

常见的深度学习框架有 Pytorch、TensorFlow、Thean 及 Keras 等,其中 Keras 有着上手难度低,API 丰富简单的优点,但也因为这些特点导致其可调性没有其它框架优秀;TensorFlow 相比于其它框架,对模型的可调性要好很多,很多其它深度学习框架不支持调整的参数它都可以胜任,但其各版本之间的 API 调用差别过大,目前的三个大版本:0.X、1.X、2.X,每个版本都会放弃很多之前版本中的函数调用,所以最终本文选择了兼有良好可调整性,也没有繁杂 API 的 Pytorch 来开发本论文提出的实验,实验使用 4块 Nvidia GTX2080Ti GPU 结合 CUDA 对训模型训练进行加速。

..........................


6  结论与展望


6.1本文总结

自 21 世纪以来,科学技术不停快速发展,当前与人工智能相关领域的技术正在不断突破。在人工智能技术的发展过程中,智能问答是衡量其成熟与否的重要指标,它与人们的生活息息相关,例如手机上的智能问答语音 Siri,客户服务机器人以及社区问答。由于问题的多样性等原因,智能问答系统中的未登录词问题越来越突出,快速而准确地识别系统中的未登录词并对其进行处理是目前智能问答需要研究的课题。

本文的主要工作内容与创新点如下:

(1)对词向量技术、未登录词等领域做了比较充分的调查、统计和研究,并对得到的结果进行分析与讨论,对后续工作的顺利开展以及其他研究者的工作打下了坚实的理论基础;

(2)提出一种基于改进的动态规划算法对未登录词进行分词,对其改进点在于使用与问答数据集同分布的维基百科语料构建代价词典,使其对问答数据集中未登录词的分词效果更好,该语料来自对维基百科的海量数据爬取以及清洗。实验证明这种基于动态规划的分词算法减少了问答系统中 88%-91%的未登录词;

(3)提出一种基于流形排序的未登录词子词择优算法,该算法可以在多个未登录词子词中找到重要度、优先度最高的单词,最后使用该单词来代替之前未登录词的表达。通过多种相似度计算实验,证明选取的替代表达相比原表达具有更高的相似度,缓解了系统中的语义信息流失问题;

(4)结合双向 LSTM 网络与本论文提出的未登录词处理方法进行建模,通过对比加入未登录词处理模型前后的问答准确率,证明了本论文提出的未登录词处理方法使问答系统有明显的提升,特别是在多关系数据集上,提升表现的更加明显,最后由于系统中未登录词的大量减少,在两个数据集上训练时长都得到了不同程度的降低,使模型可以更快的训练。

参考文献(略)