本文是一篇计算机论文范文,本文重点阐述了 oBTM 主题模型在弹幕聚类和主题演化方面的研究内容。通过对研究现状的调研和对弹幕数据特点的分析,提出了弹幕文本长度短、网络新词多导致特征稀疏的研究问题,以及传统 oBTM 主题模型不能充分考虑情感极性信息、衰减因子设定单一的研究问题。
第 1 章 绪论
1.1 研究背景及意义
中国互联网络信息中心(CNNIC)发布的第 47 次《中国互联网络发展状况统计报告》指出,短视频用户规模 8.7 亿,使用率 88.3%[1]。原创短视频的流行带动了弹幕的发展,弹幕发送量随着短视频用户规模的增长也在与日俱增。弹幕示例如图 1-1 所示,用户可以一边观看视频,一边发送弹幕,这种即时性使得用户在发送弹幕时,没有多余的时间进行深度思考和文字加工,因此,弹幕能够更真实地表达出用户想法和情感,具有较高的研究价值。
图 1-1 弹幕示例
目前,弹幕文本分析研究尚不成熟,需要借鉴微博、论坛等社交媒体评论的分析方法。社交媒体评论一般是短文本,通常在 140 字以内,而且文本标签较少,其文本的特征空间高维稀疏。利用分类方法处理此类短文本时,需要耗费大量的人工和时间进行文本标注。利用传统的聚类算法处理此类短文本时,一般会导致时间开销大和聚类失真的问题,所以分类算法和传统的聚类算法已经不再适用于短文本分析。主题模型则成为短文本分析领域的主要算法,利用“主题”概念搭桥,将原本的文档-词语分布拆分成文档-主题分布和主题-词语分布,利用超参数对概率分布进行优化调整,摆脱对文本标签的依赖,同时,降低文本特征空间的维度。
...........................
1.2 国内外研究现状
2008 年,弹幕由日本视频分享网站 Acfun 引入中国[4],和社交媒体评论一样,弹幕也是记录大众言论的重要文本,能够体现大众对社会事件的看法和情感倾向。虽然弹幕评论方式引进已有 10 余年,但是关于弹幕聚类、弹幕主题演化等方面的研究还很有限[4],弹幕的文本分析研究工作亟待发展。本节从弹幕的研究现状和短文本流主题演化的研究现状两部分展开阐述。
1.2.1 弹幕研究现状
国内外弹幕文本分析研究的起步较晚,研究文献相对较少,目前,研究内容基本包括弹幕情感分析、分类和聚类。
弹幕情感分析一般分为有监督方法和无监督方法[5]。有监督方法多是用以解决带标签文本的情感分类问题,叶健等[6]提出了基于卷积神经网络的弹幕情感极性分类模型,该模型通过扩充情感词典保留了弹幕情感信息,但是泛化能力较差。曾诚[7]融合了 ALBERT(ALITE BERT)与卷积递归神经网络(Convolutional RecurrentNeural Network, CRNN)对弹幕情感极性进行分析,通过加强语义关联,提高了特征提取的准确度;Chen Z 等[8]在双向长短期记忆网络(Bi-directional LSTM, Bi-LSTM)中引入注意力机制对标记位置信息的弹幕进行情感特征提取;刘李姣[9]提出了基于多头注意力的卷积神经网络模型(Multi-head Attention based ConvolutionNeural Network Model, MH-ACNN),成功获取了弹幕的语义相关性信息;Wang S等[10]提出了一种改进 Bi-LSTM 的情感分析模型,该方法利用时间和用户标签的信息保留了弹幕上下文的相关性。
.........................
第 2 章 oBTM 短文本流主题演化相关技术
2.1 oBTM 主题模型
在线词对主题模型 oBTM 是 BTM 的在线形式,是一种基于离散时间的在线主题模型。BTM 是一种双词共现主题模型,双词共现方法可以增加短文本特征,例如,“开创 5G 时代!”经过分词后得到集合{开创,5G,时代},其双词共现集合则为{(开创,5G),(5G,时代),(开创,时代)}。
oBTM 建模时,首先,将短文本流分配到 t 个时间片中;然后,在时间片中依次进行 BTM 建模,其中,第一个时间片的超参数是初始化值,建模过程中,超参数会不断更新,t-1 时间片建模得到的超参数,即为 t 时间片内超参数的初始值。oBTM 主题模型如图 2-1 所示。
图 2-1 oBTM 主题模型
........................
2.2 短文本特征扩展
社交媒体平台产生的文本有文本长度短、网络新词多、错别字多、语法不规则的特点。在分词处理时,网络新词、错别字会被拆分成无意义的词语或者单字,导致文本特征缺失;此外,在特征表示时,语法不规则导致上下文语义信息的缺失,这两个方面的问题加剧了文本特征的稀疏性。因此,特征扩展方法在短文本分析领域被广泛使用。其中,基于内部信息或外部知识的特征扩展方法最为常见[47],这两种方法的一般框架如图 2-2 所示。
图 2-2 短文本特征扩展方法
图 2-2 展示的是目前常用的两种短文本特征扩展框架,语料库由数据集预处理得到。其中,内部信息指的是通过统计学方法挖掘获得的文本数据集本身的特征,这类统计学方法有上下文向量空间模型、耦合项关系方法和语义信息结合统计学信息方法[48];外部知识指的是提取文本数据集外部相关文本获得的特征,外部知识获取来源一般有词网(WordNet)、维基百科(Wikipedia)、百度百科(Baidupedia)、知网(HowNet)或者搜索引擎。
.........................
第 3 章 基于特征扩展和词对过滤 oBTM 的弹幕短文本流聚类算法 ......................13
3.1 问题定义 .................................. 13
3.1.1 网络新词 .................................... 13
3.1.2 基于权重优化的网络新词得分 ............................ 14
第 4 章 基于情感极性和影响函数的 oBTM 弹幕短文本流主题演化算法 ..............23
4.1 问题定义 ............ 23
4.1.1 融合 TF-IDF 和一元分布的负采样.......................... 23
4.1.2 影响函数 ........................................ 24
第 5 章 实验仿真......................31
5.1 FEF-oBTM 实验结果及分析...................... 31
5.1.1 实验数据采集及预处理 ......................... 31
5.1.2 实验环境搭建 ........................... 33
第 5 章 实验仿真
5.1 FEF-oBTM 实验结果及分析
为了验证 FEF-oBTM 算法在提高弹幕文本聚类精度方面的优势,本文分别在清华 NLP 经典中文新闻 THUCNews 数据集和弹幕数据集上进行仿真实验,同时设计了四组对比算法,包括 oBTM、word2vec+BTM、OurE.Drift*和 FEF-oBTM 算法。
为了说明基于网络新词的特征扩展方法在弹幕聚类中的作用,选择word2vec+BTM 和 OurE.Drift*与 FEF-oBTM 进行对比,这三种算法均为“短文本处理+主题模型”的模式,word2vec+BTM 先利用 word2vec 进行特征提取再 BTM建模,OurE.Drift*先利用外部知识将短文本扩充成长文本再 oBTM 建模,FEF-oBTM 先进行特征扩展再 oBTM 建模。其中,word2vec+BTM 算法在文献[57]中提出,该算法使用 word2vec 训练词语向量,然后使用 BTM 从词语向量中提取特征。OurE.Drift*算法参考文献[36],该算法首先利用外部知识库获取与短文本相关的内容,这些内容为长文本,然后利用LDA提取这些长文本的特征并扩充到短文本中,最后通过 oBTM 对扩充后的文本进行主题抽取。
........................
结论
本文重点阐述了 oBTM 主题模型在弹幕聚类和主题演化方面的研究内容。通过对研究现状的调研和对弹幕数据特点的分析,提出了弹幕文本长度短、网络新词多导致特征稀疏的研究问题,以及传统 oBTM 主题模型不能充分考虑情感极性信息、衰减因子设定单一的研究问题。针对上述问题展开深入研究,研究内容和成果如下。
(1) 提出了基于特征扩展和词对过滤 oBTM 的弹幕短文本流聚类算法 FEF-oBTM。首先,提出对点间互信息和邻接信息熵算法进行权重优化,提高弹幕网络新词识别的准确度;然后,设计基于网络新词的特征扩展方法,在百度百科中获取网络新词的外部知识,利用 word2vec 分别在外部知识和弹幕词集中提取网络新词的关联词,扩展了弹幕的文本特征;最后,提出基于词对过滤的 oBTM 主题模型,利用 Single-pass 对词对进行聚类分析,通过删除聚类结果中只包含单个词语的类簇,来过滤噪声词对。实验结果表明,FEF-oBTM 算法在 Purity 和 NMI 指标上优于 oBTM、word2vec+BTM 和 OurE.Drift*。该算法利用特征扩展和噪声词对过滤方法优化了弹幕聚类效果。
(2) 提出了情感极性和影响函数的 oBTM 弹幕主题演化方法 EI-oBTM。一方面,通过基于改进负采样的 word2vec 算法,利用融合 TF-IDF 和一元分布的负采样提高了采样未知情感极性词语的概率,提高了情感极性标注的准确性,同时