在上一章中,通过 Word2vec 的方法构建词向量,这种方法简单地将词语映射到词向量空间上,但是这种方法是一种静态的词嵌入方法。词语的表示固定,难以根据上下文的语境获得不同的语义,因此会影响后续的句子建模。而 BERT 预训练模型则通过在大量的语料库中训练,获得了词的通用表示,随后再通过两个预训练任务,扩充了词向量的内容使之获得上下文的信息,解决了一词多义的问题。同时 BERT 预训练语言模型采用 Transformer 作为模型的编码器和解码器,Transformer 模型可以并行计算,大大提高了模型的效率。接下来将介绍 BERT 预训练语言模型。
..................................
5 总结和展望
5.1 总结
人物关系抽取是关系抽取任务中非常重要的一项任务。本文首先介绍了国内关系抽取的研究现状,详细介绍了关系抽取任务的意义与价值,并介绍了已有的关系抽取方法,分析了它们优势及不足。随后介绍了本文中所使用的相关技术,对这些技术进行了简单介绍。最后介绍了本文所提出的关系抽取模型。本文的主要工作如下:
(1)分析了当前多个深度学习模型,由于循环神经网络(RNN)具有信息传递的能力,但是无法利用序列数据中长距离的信息,于是本文使用长短期记忆网络(LSTM)来解决这一问题。但是在文本处理中,后向的信息也是十分重要的,于是在 LSTM 的基础上使用双向 LSTM(BiLSTM)模型来解决特征抽取的问题。
(2)由于 LSTM 中特征矩阵维度有限,在处理长文本时,可能会存在信息溢出的问题。于是本文在 LSTM 模型的基础上进入注意力机制,对句子中每个时刻的信息赋予权重,基于权重保留重要的信息,抛弃无关的信息。使特征抽取的效果更加准确、稳定。
(3)对词嵌入的过程进行修改,相比于传统的词嵌入加入了位置嵌入这一过程,获得了句子中每个词与实体之间的位置特征,避免了传统词向量缺乏位置信息的缺点,丰富了特征信息,将特征向量输入到 BiLSTM 模型中。其次由于中文文本语义丰富,表达灵活,存在着一词多义的现象,传统的词向量无法很好的解决这一问题。因此本文引入 BERT 模型,通过双向 Transformer 编码器,以及两个预训练任务,使词向量获得了上下文的信息,相比于传统的词向量,新的词向量具有表示语句特征的能力。最后经过对比实验表明,新的模型具有更高的准确性,提升了关系分类的效果。
参考文献(略)