计算机软件论文栏目提供最新计算机软件论文格式、计算机软件硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于LDA和冗余控制的多特征中文自动文摘的思考和实现

日期:2021年08月04日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:598
论文价格:150元/篇 论文编号:lw202107241412297490 论文字数:38999 所属栏目:计算机软件论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇计算机软件论文,本文的主要工作是提出了基于 LDA 和冗余控制的多特征中文自动摘要,在文章的最开始介绍了研究的背景和意义、国内外的自动摘要研究现状、自动摘要的分类及其相关技术,然后就基于相关理论提出了基于 LDA主题模型的多特征自动摘要方法和摘要冗余控制模型,并且对本文提出的自动摘要方法进行了有效的测评,在最后设计实现了自动摘要系统。


第1章 绪论


1.1 研究背景和意义

由于互联网技术的迅猛发展和计算机应用技术的普及化,与我们生活息息相关的各个领域都出现了信息量猛增的情况,愈来愈多的信息都是以电子文本的形式在互联网上传输、存储。在信息化时代的背景下,互联网上的电子文本存在着大量的冗余信息,如何快速并准确的从海量信息中获取文章主旨,已成为自然语言处理和语言学领域研究的一个重要课题。

文摘是对文章内容进行浓缩、提炼,然后用简洁并准确的文字表达文本的主题。所以,通过文摘我们可以快速了解文本的主要信息,从而减少我们从大量信息中挖掘有用信息的时间。然而,如今互联网的猛速发展使得我们处于一个文本信息量急速增长的时代,随时随地都会产生海量的文本数据。传统方式的手工提取文本摘要不仅花费的时间长,工作量大,而且对于专业性强的文本,编写手工摘要还需具备一定的专业知识,从经济和效率这两个角度都无法满足快速准确提取文本主旨的要求,因此利用计算机和自然语言处理技术的自动文摘研究就应运而生。

自动文摘可以解决传统手工编写摘要的速度跟不上电子文本信息产生速度的这一问题。自动文摘能利用计算机对一篇或者多篇文档生成包含文档主旨且高度准确的连贯性短文,因此人们可以快速了解文本的主旨内容,极大地提高了人们学习及工作的效率。

20 世纪 50 年代至今,自动文摘技术已取得较丰富的成果,然而中文文档摘要仍处于文本的浅层语义分析中,存在着文摘冗余、文摘内容质量不佳等问题。针对以上问题,本文在进行中文自动文摘技术的研究和实现时,一方面利用 LDA挖掘文档的主题分布且结合传统文本特征值得出高质量的文摘,另一方面通过冗余控制模型计算待抽取句子之间的相似度,从而去掉冗余信息。

......................


1.2 国内外研究现状

摘要的生成方法分为基于抽取式的摘要(extract)、基于理解式的摘要(abstract)两种[1]。基于抽取式的自动摘要系统主要是从文档的句子中抽取出与主题相关的句子作为摘要句。基于理解式的自动文摘系统是通过分析句法、语法等方法得出文章主旨,重新组织词句生成摘要。目前,还没有直接用于理解式摘要的方法,所以大多采用基于抽取式的摘要方法。

1.2.1 国外研究现状

从 20 世纪 50 年代末, 国外就逐渐开始了对自动文摘技术的学习研究,IBM 公司的 Luhn 首次提出了自动文摘[2]。他所设计的系统基于词频统计选出重要句子,按句子重要性抽取句子生成文摘。

1989 年美国 GE 研究中心的 L.F.Rau 等人[3]将基于统计的方法与自然语言处理技术结合起来,实现了自动文摘系统 SCISOR,通过分析文档的内容、语法结构,从而抽取文档重要内容生成文摘。

2005 年 Haghighi 等人实现了基于 SumBasic 算法的自动文摘系统[4],该系统将词汇相对频率作为词汇重要度,将所有词汇的重要度之和作为句子极大似然概率,最后按概率大小抽取句子生成文摘。Blei 首次提出了 LDA 模型[5],此模型将文档的语义特征用词项分布表示且词项分布反映了主题。后来,Blei 提出了采用分层语义树建立主题间关系的层次LDA 主题模型。

2009 年 Asli 等人[6]将层次 LDA 应用于英文多文档摘要中,所生成摘要的效果有着明显的提升。

2012 年 Je Nichols 等人[7]改进了词频-逆文档频率方法,基本思想是对句子按照语义相似度进行聚类,通过聚类方法使句子成为簇。最后按比例抽取各簇中的句子生成文摘。

...................


第2章 相关理论与技术综述


2.1 自动文摘理论与技术

2.1.1 自动文摘概述

文摘这一定义可以有很多不同的阐述,若依据国际标准 ISO214-1979(E)规定,对文摘做出的解释是“一份文献内容的缩短的精确表达而无须补充解释或评论”。若依据中国国家标准 GB3793-83 规定,对文摘做出的解释是“对文献内容作实质性描述的文献条目”[27]。总而言之,文摘就是可以简明、扼要、准确描述原文献重要内容的短文。

文摘可以从不同的角度进行分类:根据主题与文本数量的关系,文摘可以分为单文档文摘和多文档文摘。单文档文摘是对一篇独立文档生成文摘,多文档文摘则对同一主题下的多篇文档生成文摘。根据用户的需要,文摘可以分为通用文摘和主题文摘,通用文摘是面向所有用户生成不带侧重点的全面的文摘,主题文摘是针对某一类特定用户而生成的有侧重方向的文摘。根据原文献和生成摘要的关系,文摘分为基于抽取式和基于理解式的文摘,基于抽取式的文摘内容来自于原文献,基于理解式的文摘内容是重新组织文本生成的文摘。

自动文摘是语言学与自然语言处理两个领域都十分关注的一个重要课题,是一种计算机能自动生成文摘的应用技术。自动文摘技术就是利用计算机从一个或多个文档中生成一段文摘,且文摘扼要确切、高度概括全文。自动文摘技术主要可以划分为三个部分:将文本转化成计算机可以处理的语言方式;通过各种计算技术提取文本重要内容;生成文摘。

....................


2.2 LDA 主题模型

主题模型、向量空间模型、概率统计模型是自然语言处理中常用的文本表示模型,这几种模型被广泛应用在观点挖掘、信息检索、自动文摘、主题相关性、文本分类、文本聚类等领域。其中,主题模型可以从非连续的数据集中自动抽取文本中具有隐含语义的主题,抽取的主题就是数据集中经常共同出现的信息[50]。主题模型不仅有利于学者在自然语言处理和机器学习方面的深入研究学习,还是对数据挖掘与分析强有力的工具。因为主题模型可以在互联网应用文本中挖掘出潜在的主题信息,所以 20 世纪以来,众多互联网公司都已开始了这方面的研究与运用。

2.2.1 LDA 主题模型介绍

Blei 等人于 2002 年提出了基于贝叶斯学习的话题模型,即潜在狄利克雷分配(Latent Dirichlet allocation,LDA)[51],它可以发现语料库中潜在的主题信息,因此也称为 LDA 主题模型。

图 2.5 LDA 的文本生成过程

图 2.5 LDA 的文本生成过程

...................


第 3 章 基于 LDA 和冗余控制的多特征中文自动文摘方法 .......23

3.1 相关工作 ...........................23

3.2 主题特征构建 ...........................23

第 4 章 自动文摘评测.........................44

4.1 评测方法的研究现状 .....................44

4.2 评价方法概述 ......................45

第 5 章 中文自动摘要系统的设计与实现 .....................54

5.1 系统设计 ..................................54

5.1.1 系统实现平台 .........................55

5.2 系统模块 ................................56

第 5 章 中文自动摘要系统的设计与实现


5.1 系统设计

本文的自动摘要系统大致分成了两个模块,主要是文本预处理模块、摘要抽取模块以及摘要生成模块。文本预处理模块是对中文文本进行分词、分句、去除停用词等处理,摘要生成模块主要是基于 LDA 和冗余控制的多特征摘要方法实现的生成式摘要模块。系统模块框架如图 5.1。

图 5.1 系统模块设计示意图

图 5.1 系统模块设计示意图

5.1.1 系统实现平台

中文自动摘要的整个系统是从前端和后端两个方面进行设计,前端我们选择运用 HTML 实现相关网页的功能选择模块和页面设计,从而实现系统页面的展示和数据传输等功能。后端是运用 PyCharm 进行搭建的。

(1) 前端设计原理

本文的自动摘要系统的前端页面是通过 HTML 语言进行编写的,HTML 是一种用来定义网页的文本,使用 HTML 就可以编写网页。它并不是一种程序,也不是一种图文混排的排版软件,而是一种具有标识性的超文本标记语言。在HTML 语言的编写过程之中,我们可以采用链接的方式将网络上的不同信息表示在同一个页面当中,所以就将 HTML 称之为一种超文本语言。HTML 是纯文本类型的文件,可以使用任何一种文本编辑器进行编写,通过浏览器解释执行。

HTML 拥有一系列的标签,通过这些标签将网络上不同的文档格式统一,并且使分散的网络资源可以连接成一个逻辑整体。HTML 文本是由各种命令组成的描述性文本,HTML 命令可以说明不同格式的文件,譬如声音、链接、表格、图形、动画等。

.......................


第 6 章 总结与展望


6.1 本文的工作总结

随着当今网络上信息量的猛增,从大量重复信息中快速了解信息的主题这一需求是迫切的。对于主题模型的应用,国内的相关学者已经在自动摘要技术方面做出了很多研究。本文的主要工作是提出了基于 LDA 和冗余控制的多特征中文自动摘要,在文章的最开始介绍了研究的背景和意义、国内外的自动摘要研究现状、自动摘要的分类及其相关技术,然后就基于相关理论提出了基于 LDA主题模型的多特征自动摘要方法和摘要冗余控制模型,并且对本文提出的自动摘要方法进行了有效的测评,在最后设计实现了自动摘要系统。本文的主要工作可分为以下三个部分