第 3 章 可提高上下文质量的高质量上下文本体................................... 13
3.1 上层本体模型 ......................................... 13
3.2 加入优化上下文质量层的中层本体模型 ............................... 15
第 4 章 利用模糊上下文本体与机器学习方法进行文献摘要的研究 .. 31
4.1 文献领域词语的模糊性和模糊本体 ....................... 31
4.2 文本摘要介绍 ..................................... 33
第 5 章 利用补全的上下文提高文档检索效率 ......................... 45
5.1 基本的信息检索方法 ..................................... 45
5.1.1 布尔检索 ...................................... 45
5.1.2 倒排索引 ........................ 46
第 5 章 利用补全的上下文提高文档检索效率
5.1 基本的信息检索方法
当我们需要在一些文档集合中找到自己想要的内容的时候,比如在一些科技文档中找出有关5G和人工智能,但不包含无人机的文档。最简单的方法就是遍历文档集合中所有的文档,看它是否包含了5G和人工智能但不包含无人机,然后将其记录下来。这样简单的线性扫描方法虽然简单但是却明显存在了很多缺陷:在大规模的数据集中该方法并不适用,尤其是现在大数据的时代,当一篇文章的平均查询时间为t时,每查询一篇文档就会增加t时间。面对海量的文档数量,最后的总查询时间将会缓慢的无法接受。
5.1.1 布尔检索
此时需要采用非线性的方式来解决这个问题。布尔检索法是一种典型的非线性检索方法[68]。该方法的思想就是建立一个索引表来提高检索的效率。简单来说该方法就是首先统计文档集合中使用了多少词汇制作出一个词语表,然后将词语表和文档名组成一个二维的矩阵,当某一个文档中包含词语表中的某个单词时,矩阵中该词语和文档所对应的位置的值就为1,否则就为0。这样就建立了一个由布尔值(0/1)构成的“词项-文档”矩阵。在这个矩阵中从行来看,每行的词语对应的文档位置标1或0表示该词语在该文档是否出现。从列来看,每篇文档对应的词语标1或0表示这篇文档中包含了哪些词汇。如表5.1所示,为布尔检索表。
当我们在这里进行刚才的查询时,“包含5G和人工智能但是不包含无人机”这样的查询句子就可以写成一个逻辑的表达式:“5G AND 人工智能 AND NOT无人机”。我们将5G、人工智和无人机的行向量按照上面的逻辑表达式进行运算:
5G = 10110 人工智能 = 11010 无人机 = 11001
对无人机向量取反:¬ 无人机 = 00110,然后对5G、人工智能和¬ 无人机三个向量进行AND运算:10110 AND 11010 AND 00110 = 00010 该结果表明文档4满足查询的条件。
表 5.1 布尔检索表
...................................
第 6 章 总结与展望
在各种传感器、存储器、运算器被广泛使用的今天,通过网络和其他的不同渠道,我们能够获取的上下文数据的类型和数量也是海量的。如何在这些可接入的渠道中得到符合自己的要求、可以正确使用的上下文数据是困难的。在上下文的建模和使用方面存在很多问题,比如:传感器精度问题、网络传输延迟问题、上下文来源可信度问题,上下文的模糊问题和上下文的完整性问题等。本文将这些问题总结归纳为了三个方面,即:上下文质量低的问题、模糊上下文问题、上下文完全缺失问题。针对这三个问题本文完成了以下的工作:
首先针对上下文质量低的问题,本文建立了可提高上下文质量的高质量上下文本体。该本体首先将上下文按照其来源进行了分类,然后对这些不同来源的上下文进行质量评估,通过评估不同来源的上下文的精确程度、新鲜度、传感器距离程度、可信度、可用性、信用度和专业度等,从而选择高质量的上下文代替低质量的上下文来修正上下文质量。本文将其利用在了光伏发电预测领域,建立了光伏发电领域上下文本体。并且将其与循环神经网络结合建立了一个高精度光伏发电预测系统。经过仿真实验证明该方法可以有效提高上下文质量。在使用高质量上下文后光伏发电预测的精度也有了很大提升。
然后针对模糊上下文问题,由于用户自然语言或者文字描述的天然模糊特性,导致文章的逻辑性和确定性是不高的。这种来自用户的上下文数据是具有很大模糊性的。本文通过建立了一个模糊上下文本体来对文献中的模糊上下文进行建模。本文通过计算作者兴趣隶属度、领域隶属度和主题隶属度来对文档进行建模,通过词语的三个隶属度求得重要摘要词汇,然后再根据摘要词汇选择重要的句子集合组成最后的摘要。经过文献摘要实验证明该方法可以提高摘要的精度。
最后针对完全缺失的上下文本文也给出了解决的方案。完全缺失的上下文会给上下文的利用带来困难,本文的解决方法是通过利用其他上下文对缺失上下文进行推理和预测。本文利用模糊神经网络推理系统对文献检索中完全缺失的引用频率进行推理预测,经过推理预测后对这些完全缺失的上下文进行了补全。最后将其应用在文献检索的排序中。经过文献检索实验,该方法可有效的提高文献检索的效率。
参考文献(略)