本文是一篇SCI论文发表,本文采用深度学习模型用于新闻文本分类,并从以下几个方面开展方法研究与应用。(1)在文本表示方面,为文本特征的输入和提取提供了便利的词向量映射。针对中文的新闻文本分类较少和相关语料库欠缺的问题,根据构造的数据索引,本文设计采用权重抽取和词频统计的方法,制作了适合中文长文本分类的词汇表,并采用 One-hot和 Word2Vec 工具将文本数据嵌入成词向量表示,词汇表语义映射到实数向量。实验结果表明,在相同的数据集上深度学习和机器学习分类算法均取得了 80%以上的精确率,说明嵌入的词向量能够很好地描述文本特征。
第 1 章 绪论
1.1 研究背景和意义
如今,互联网和大数据行业蓬勃发展,伴随而来的是层出不穷的文本信息。文本信息包括所有以自然语言文本形式出现的数据:所有的网页、社交媒体数据、新闻、科技文献、电子邮件、政府文档以及其他类型的企业数据。其中新闻文本数据在生活中起到重要作用,已成为人们获取社会信息资源的重要组成部分。20 世纪 90 年代末以来,经国家审核通过,创建了近 300 家全国新闻网站,手机移动端新闻 APP 种类繁多,由此产生并消费大量涵盖各类主题的新闻文本数据[1-3]。新闻是人们日常生活中了解社会动态、获取社会资源的重要渠道,发挥着无可替代的作用。自然语言处理 (Natural Language Processing, NLP) 作为人工智能发展的重要研究方向,为了从海量信息中高效地获取和管理有价值的新闻信息,NLP 中的信息检索和文本挖掘已经成为世界上一个热点研究领域,特别是对数据的文本分类领域[4,5]。面对信息量庞大、种类众多的新闻数据,通过计算机技术筛选和分类,将有效减少人力成本[6]。新闻分类有助于文本信息的管理、新闻秩序的实现和新闻数据的挖掘[7,8]。
文本数据具有容量占用少、存储和管理方便等特点[9]。起初,人工操作文本分类通常需阅读全文,通过理解文本表达的意思进行分类。随着机器学习的出现,自然语言处理中的文本分类慢慢由机器自动分类代替人工操作分类,很大程度上降低了人们对信息管理的成本。但是,在当今大数据时代,面对指数级增长的文本信息,人工操作分类的方式显然不合适,传统机器学习自动分类也显得力不从心,难以处理复杂的文本分类问题。伴随高性能计算科技的不断进步,深度学习的出现进一步突破了机器学习面临的瓶颈,能够满足百万级以上的大数据处理。深度学习作为人工智能热潮的核心,给自然语言处理注入了新的发展动力,并已经广泛的应用于图像处理、机器翻译和语音识别等领域。深度学习是拥有多个隐藏层结构的神经网络,多层网络的非线性映射不仅能克服以上复杂文本分类面临的问题,而且可以通过模型训练学习到更多更全面的文本特征表达。另外,训练深度神经网络还可以通过模型正则化和优化算法不断改进整个网络的性能[10]。因此,为了满足人们快速获取有价值信息的需求,如何通过深度学习方法处理海量新闻文本信息分类成为一项值得研究的课题。
1.2 国内外研究现状
国外对文本分类的研究始于上世纪 50 年代末,早期文本分类方法以手工定义为主,人为定义一系列规则进行分类,这种基于知识工程的方法不仅费时费力,而且从事分类的人员需要对某领域有足够的了解。1957 年,H.P.Luhn 首先进行文本自动分类的可行性研究,提出使用词频的分布信息来估计每个词的相对重要程度,以词频统计的方式排序,该思想为后来的文本分类领域奠定重要基础[16]。1960 年,Maron 在信息检索研究上提出了概率标引模型,其中不同类别的概率值通过标引词和贝叶斯方法计算[17]。1975 年,Salton 提出基于向量空间模型的计算方法用于文档信息索引最佳词汇表,该文本描述的模型在信息自动检索研究上得到很好应用[18]。20 世纪 80 年代,该领域主要以知识工程的方法进行文本分类研究,这个时期的主要特点是专家构建分类器。20 世纪 90 年代,由于互联网快速发展产生大量文本数据,基于机器学习的文本自动分类开始兴起,逐渐占据主导地位。在此期间,出现了多种经典的机器学习方法,通过大量实验表明,在不同领域基于机器学习方法的分类精度高于专家干预的手工分类精度。1992 年,Lewis在其博士论文中系统的介绍了实现文本分类的方法,并创建了专门用于实验测试的数据集[19]。1995 年,Vipink 等人提出了支持向量机 (Support Vector Machine, SVM) 方法,通过统计理论寻找最优的分类线或最优超平面[20]。此后,研究者 Joachims 利用线性核函数改进 SVM,并将其应用在文本分类上,在分类效果上取得了极大的提升,该算法对后续学者们的研究发挥着重要作用[21]。
国内对文本分类的研究较晚,这是因为中文文本分类和英文文本分类之间的差异性造成。汉语作为世界上使用最广泛的语言之一,俨然在全球语言体系中占有重要地位。但是,NLP 领域对中文的文本分类较少,尤其是对中文长文本的分类[22,23]。一方面,汉语的语句字词比西方语言的字母复杂得多,文本特征的提取很难用传统的方法实现。另一方面,针对研究中文长文本分类的专门语料库较少,这也是中文长文本分类领域发展缓慢的原因[24]。1981 年,北京大学的侯汉清等人率先从事文本分类的研究,为国内该领域的发展提供了重要参考作用[25]。后来,文本分类领域引起了国内学者的广泛关注。1995 年,清华大学的吴军等人研发了汉语语料自动分类系统,利用字频、词频和常用搭配作为语料相关系数[26]。在这之后,其他高校和科研机构分别进行了不同方面的研究,例如,1999 年,上海交通大学的王永成等人提出了一种用于中文分类的神经网络优化算法[27]。
第 2 章 新闻文本分类技术框架
2.1 数据预处理
2.1.1 构造数据索引
本文采用的数据集是 THUCnews,源于清华大学根据新浪新闻 RSS 订阅频道的历史数据筛选过滤生成,包含 836075 篇新闻文档 (2.04GB)。在新浪新闻原有分类体系的基础上,整合划分成科技、股票、体育、娱乐、时事、社会、教育、财经、家居、游戏、地产、时尚、彩票、星座等 14 个类别。14 个类别对应 14 个类别文件夹,每个类别文件夹里含有一定数量“.txt”文件,每个“.txt”文件里含有一条新闻文本数据。不同类别的新闻数据数量如图 2-2 所示。
2.2 文本表示
分词后的中文文本是非结构化的数据,无法用于计算机的输入和计算。文本表示的功能是将这些非结构化的数据转化为结构化的数据,从而用于计算文本信息和实现文本分类。文本表示的效果直接决定了文本分类任务的准确性,一个好的文本表示方法不仅要保证语义信息的完整,还要尽可能方便分类器训练的输入。在本文的新闻文本分类的技术框架中,文本表示阶段主要设计了权重抽取的词频统计、去除停用词和词向量三个步骤。
2.2.1 权重抽取的词频统计
权重抽取和词频统计是为了制作词汇表,进一步为了文本数据的标准化做准备。众所周知,中文语言拥有很多汉字,但确切的汉字个数却少有人知。据北京国安咨询设备公司统计,有 91251 个汉字收录于汉字数据库,但大约只有 2500 到 7000 字是常用汉字。因此,对所有中文新闻文本的字做统计计数,采用带有权重的词频统计,将最终出现频率排名前 7000 的字词作为词汇表语料库。
带有权重的词频统计策略,因为 14 个类别新闻数据量各不相同,所以为了公平的对待每个字词的文本表示,在统计词频的时候,采用权重策略保证每个类别新闻中的字词抽取概率相同。每条样本被抽取到的概率作为权重mW 。例如:“好”这个字,在所有科技类新闻中出现的频率为 F科技次,对应的权重为W科技=1/14/162929;在所有星座类新闻中出现的频率为 F股票次,对应的权重为W股票=1/14/154398;以此类推;在所有星座类新闻中出现的频率为 F星座次,对应的权重为W星座=1/14/3578。最终,“好”这个字词的出现频率是 f=F *W +F *W +...+F *W科技 科技 股票 股票星座 星座次,词汇表中的所有字词都是按照该带有权重的词频统计进行排序,输出排名前 100 的权重词频如图 2-5 所示。对于词频统计好的词汇表数据放在一个文件中,并且将其转化成二进制数据“.pickle”文件,以方便在实验中调用。
第 3 章 基于深度学习的新闻文本分类 .......................... 21
3.1 分层双向-门控循环单元分类算法 ............................. 21
3.1.1 门控循环单元 ................................ 21
3.1.2 双向-门控循环单元 ..................................... 23
第 4 章 实验结果与分析 ....................... 33
4.1 实验环境和参数 ...................................... 33
4.2 实验设计 ........................... 33
第 5 章 新闻分类个性化推荐系统的设计与实现 ....................... 43
5.1 新闻分类个性化推荐系统需求分析 ..