4.1 多层次特征精炼 ............................... 32
4.1.1 特征抽取 ..................................... 33
4.1.2 特征集成 ...................................... 33
第五章 基于 IR-Net 的远程监督关系提取 ................................. 43
5.1 交互响应网络(IR-Net) ........................... 44
5.1.1 特征响应 ................................ 45
5.1.2 特征交互 ..................... 46
第五章 基于 IR-Net 的远程监督关系提取
5.1 交互响应网络(IR-Net)
本节具体介绍基于 IR-Net 的远程监督关系提取方法。如图 5-1 所示,IR-Net 首先利用特征响应模块分别对输入句子的单词级别,句子级别进行响应获得不同方面的特征信息。其次通过交互模块对多方面特征信息进行聚合交互获得多样性全局信息。随后通过交互相应门对获取的多样性全局信息进行响应,获得显著全局信息。最后通过分段最大值池化和多层次特征精炼操作对显著全局信息进行特征筛选和精炼,得到最终的精炼特征用于关系预测。
在本章中通过研究有关单词,句子及其相互作用的各个方面,提出一个新的面向远程监督关系提取的 IR-Net,其目的是通过明确获得各个方面的相互依赖性来提高表示质量和抑制无用噪声。为此,本章设计了一种使网络实现特征重新校准的交互响应机制,该机制能够有选择地强调信息特征并过滤不太有用的特征来学习显著全局信息。
第六章 主要结论与展望
6.1 主要结论
随着大数据时代的到来,人们需要处理的数据量急速增长,如何快速有效地从浩瀚的网络中提取到关键信息,成为业界迫切需要解决的难题。关系提取由于其能够从大规模非结构化文本中提取结构化信息,而被广大研究者所关注。本篇论文的研究重点主要包括面向关系提取的神经网络构建,以及远程监督数据集噪声的滤除。具体地,本文针对面向关系提取的大多数神经网络难以获取足够的语义特征来提取关系,提出基于全局和局部特征感知网络的关系提取方法。针对面向远程监督关系提取的大多数降噪方法存在感受视野不足的问题,提出基于多层次特征精炼的远程监督关系提取方法。针对面向远程监督关系提取的大多数神经网络缺乏对句子全局信息的有效感知,提出基于 IR-Net的远程监督关系提取方法。本文通过对以上方法进行实验分析,取得了以下结论:
(1)在全监督关系提取任务中,大多数神经网络仅考虑单分支信息流,难以获取足够的语义特征来进行关系提取。针对此问题,本文提出一种基于全局和局部特征感知的关系提取方法,该方法首先利用 SAM 和 BiLSTM 获取单词的相关性时序特征。其次,构建 MFA-CNN,分别获取全局和局部相关性时序特征,避免全局和局部感知的相互影响。进一步地,对这两种特征进行拼接和筛选,以全面表示句子的重要语义特征。最后,结合Softmax 分类器实现关系提取。实验结果表明,所提方法优于主流的基于卷积神经网络和循环神经网络的关系提取方法,在标准的 SemEval-2010 Task 8 和 KBP37 数据集上 F1值分别达到 86.1%和 64.9%。
(2)在远程监督关系提取任务中,大多数降噪方法采用改善关系标签和选择注意力机制来抑制包内噪声句子,仅从包内噪声句子这一层面来对噪声进行抑制,存在感受视野不足的问题。针对此问题,本文提出一种基于多层次特征精炼的远程监督关系提取方法。具体地,针对包内存在的噪声句子,该方法首先利用特征抽取模块对包内的特征进行初步抽取。其次,构建特征集成模块,通过对初步抽取的包内特征进行集成学习,以获得初步滤除噪声的集成包特征。进一步地,构建特征压缩模块,在各包之间通过对无用特征的滤除进一步压缩凝练集成包特征,以获得精炼特征。最后,结合 Softmax 分类器实现关系提取。实验结果表明,所提方法优于基于选择注意力和标签优化的方法,在标准的 NYT 数据集上平均 P@N 达到了 85.7%。
参考文献(略)