本文是一篇计算机软件论文,本文设计了图文数据的事件脉络生成模型,首先,提出了基于图文数据的事件检测模型,有效利用了数据中的图文特征,缩短文本与图片之间的语义鸿沟,提升了事件检测的性能。然后提出了多特征融合的事件关系检测和脉络生成框架,更好的识别出事件之间的逻辑关系,根据识别出的关系将事件连接成脉络。
第1章绪论
1.1研究的背景和意义
在当今信息爆炸的时代背景下,商业事件的传播速度和范围均攀升至前所未有的巅峰。社交媒体、新闻网站、电商平台等数字媒体的蓬勃发展,催生了海量的数据被迅速生成、广泛传播和频繁消费。这种现象无疑极大地丰富了公众获取事件信息的渠道,使他们能够更加便捷地查询所需信息。然而,与此同时,信息过载的问题也愈发凸显,给公众筛选和辨识信息带来了不小的困扰。
对于关心这些商业事件的用户而言,他们迫切希望能够迅速、准确地掌握事件的全貌和演进过程,以便更好地理解和应对市场变化。对于企业而言,洞悉事件的全貌更是至关重要。通过对这些事件信息进行实时监控、精心加工和深入分析,企业能够形成有助于战略决策的知识体系,这些战略性知识将成为企业持续发展的坚实支撑,为企业提供有力的情报保障。
因此,为客户归纳总结有效信息,同时呈现其发展的事件脉络生成研究在这样的情景下应时而生。事件脉络指的是事件的发展过程,包括事件的起因、进展以及结局等方面。构建事件脉络是对新闻报道中事件发展过程的深入梳理和整合,有助于用户快速把握事件的前因后果,从而全面理解新闻事件的全貌。
如图1.1为知乎上“小米造车始末”的事件脉络,企业和用户可以了解到事件的来龙去脉,这些信息通常需要手工整理,耗费大量人力和时间。需要利用先进的信息技术自动构建事件脉络。
1.2国内外研究现状
1.2.1图文数据特征抽取和融合
多模态数据是指由两种或多种互不兼容的数据类型组合而成的数据。这里的不兼容性指的是不同模态数据的特征无法直接在同一个语义空间中进行计算。多模态数据最常见的两种模态是图像和文本。图文特征融合的目的是利用图像和文本之间的互补性,生成全面、准确描述数据的表示。
图文数据特征的挖掘依赖于单模态特征的抽取,在提取文本特征的过程中,经常采用的技术包括词袋模型、词频与逆向文档频率(TF-IDF)、N-grams和词嵌入等。这些技术的核心目标都是将文本数据转换为机器学习算法可以处理的数值形式。CHEN等人[3]提出了动态多化池卷积神经网络模型,可以自动抽取词语级别和句子级别特征;Kaliyar等人[4]在其研究提出了一个名为FNDNet的深度卷积神经网络模型。该模型整合了预先训练好的GloVe单词嵌入技术与一个包含多个隐藏层的CNN。在每一层的处理过程中,该模型都能提取出用于分类的关键特征。随着自然语言处理技术的发展,文本预训练模型为文本特征提取提供了有力的支撑。Li等人[5]将数据输入到BERT模型中,以获得其向量表示,以便进行后续的任务处理。目前的预训练模型有,Transformer[6]模型、BERT[7]模型家族、ERNIE[8]模型、ELMo[9]模型、XLNet[10]模型和GPT[11]模型等。
视觉特征抽取能够学习到图像的高层次特征信息,通过对图像数据集进行训练,提取图像的视觉特征作为特征向量表示。VGG-16/VGG-19模型能够提取图像中更细粒度的特征[12]。ResNet-50/ResNet-101模型由多个ResNet块组成,每个块包含多个卷积层和全连接映射,并采用残差连接,从而有效学习图像特征[13]。Sim CLR模型结合了多尺度卷积网络和学习的对比损失,用于提取图像中的潜在特征[14]。Mobile Net[15]采用深度可分离卷积,在保持高准确率的同时大幅减小了模型大小和计算量。Faster R-CNN[16]模型一部分卷积神经网络用于提取图像特征,另一部分网络用于生成目标提取区域,用于检测和定位特定目标,如人脸、车辆等。BEiT-3[17]模型由双向编码器和来自图像转换器的表示共同组成,利用基于遮盖的图像块恢复原始视觉标记技术,并通过使用ImageNet标签进行微调,进一步提高特征提取效率。
第2章相关理论和技术
2.1事件相关概念、术语
Event:事件,指在某个特定的时间和地点发生的具体事情或情况。它可以是一个单一的事件,也可以是一系列相关的事件。事件集合用E表示,如公式2.1所示:E=ei,1≤i≤n(2.1)
Event Trigger:事件触发词,事件触发词是指在一个特定的场景中,能够引起或激发某个事件发生或被执行的词语或短语。
Event Argument:事件论元,事件论元也被用来对句子进行语义角色标注。这些角色包括施事者、受事者、时间、地点等。通过识别和标注事件论元,我们可以更准确地理解句子的含义和结构。
Event type:事件类型,指根据事件的性质、发生的背景、特点以及目的等方面进行分类和归纳的一种方式。
Argument Role:元素角色,是事件中不同事件元素扮演的不同角色。在自然语言处理和语义分析中,元素角色通常用于描述动作或事件的参与者。Storyline:事件脉络是指随着时间推移,事件之间相互关联形成的整体。
Event Relation:事件关系,两个事件间的关系体现了它们之间的逻辑联系。
事件表示框架:它是一种技术,用于将事件转化为固定语义结构信息,用来描述事件的多个方面,如动作、时间、地点和参与者等。根据叙事文学的六大要素推导出的事件表示框架,为描述事件中各项任务提供了有效的方式。
2.2图文特征提取及融合相关技术
2.2.1文本特征提取
目前计算机在理解文本信息方面尚无法达到人类的水平。人类在理解语言信息时能够利用自身的知识和经验,对信息进行推断和综合考虑,而计算机则缺乏这样的背景知识和生活经验。这就导致了计算机无法像人类一样深入理解和推断文本信息。为了使计算机能够处理文本信息,我们需要将文本信息转化成计算机所能识别和处理的形式。
(1)词嵌入和词向量
词嵌入和词向量用于将文本中的单词映射到一个高维向量空间中。词嵌入(Word Embedding)是指将单词嵌入到一个低维稠密的向量空间中的过程。每个单词被表示为一个实数向量,这个向量能够捕捉到单词在语义上的相似性。词嵌入的目的是通过将单词映射到向量空间中,使得具有相似语义的单词在向量空间中的距离较近,这样可以更好地表示单词之间的语义关系。
词向量(Word Vector)是指在词嵌入过程中得到的单词对应的向量。通常情况下,词向量是一个实数向量,其中每个维度对应一个语义或者语法特征。例如,可以使用Word2Vec、GloVe等算法来生成词向量。
词嵌入和词向量的目的是将自然语言中的单词转换为计算机可以理解和处理的向量形式。通过词嵌入和词向量,我们可以进行更多的文本分析任务,例如文本分类、命名实体识别、情感分析等。此外,词嵌入和词向量还可以用于自然语言处理任务中的特征表示和模型训练。下面介绍几种常用的词嵌入方法。
One-hot Embedding(独热编码嵌入)是一种在自然语言处理领域常用的向量表示方法,用于将离散的词语或标签表示为稀疏的二进制向量。它是一种简单而有效的表示方式,适用于各种机器学习任务,如文本分类、命名实体识别和机器翻译等。
第3章 融合注意力机制的图文事件检测 ................... 26
3.1 问题描述 .......................... 26
3.2 图文融合的事件检测 ............................... 27
第4章 多特征融合的事件关系检测和事件脉络生成 ........................ 37
4.1 问题描述 ............................... 37
4.2 多特征融合的事件关系检测 ........................ 38
第5章 结论及展望 .............................. 46
5.1 结论 .............................. 46
5.2 展望 ................................ 47
第4章多特征融合的事件关系检测和事件脉络生成
4.1问题描述
经过第三章的图文数据的事件检测方法,检测到了句子中包含的事件信息,并成功的识别出了事件类型。然而仅仅知道事件类型并不能提供详细的事件信息,还需要将句子中的事件元素抽取出来。事件脉络的生成还需要进行事件关系的抽取,事件关系分析是事件抽取任务的后续任务,主要目标是通过对事件句子和事件抽取结果的分析提取,来推断事件之间的关联关系。
现有的事件关联性分析的方法,一般是根据事件或实体的相似度进行关联性检测,忽略了事件间的逻辑关系。相似度仅仅衡量了事件或实体之间的相似程度,而没有深入分析它们之间的因果、条件或递进等逻辑关系。正是这些逻辑关系对于理解事件之间的联系和影响至关重要。
第5章结论及展望
5.1结论
在处理充满歧义和模糊性的自然语言文本时,常常能够从中获取许多有价值的信息。如何提取这些有价值的信息,一直是自然语言处理领域的研究热点和难题。通过以事件为基本单元来处理这些自然语言,可以有效地解决这一难题。
事件是动态的语义单元,可以帮助人们更好地认识和理解现实世界。与静态实体相比,事件的语义更加丰富。在自然语言处理中,识别事件之间的内在联系(如伴随关系、因果关系、跟随关系等)至关重要。发现具有歧义并包含价值信息的数据中事件之间的内在逻辑联系,并建立事件脉络,对于未来的事件应用具有重要的研究意义。
随着科技的日新月异,新闻的传播方式发生了翻天覆地的变化。现在的新闻不再局限于纯文本的形式,而是越来越多地