1绪论
1.1课题的研究背景和意义
在经济快速发展,计算机与通信技术不断更新进步的今天,互联网络广泛地应用于人们的生产和生活中,特别是www的出现,极大地提高了信息传播速度,互联网上的信息量急剧增长,据CNNIC即中国互联网络信息中心发布的第26次中国互联网络发展统计报告显示,截至2010年6月底,中国网民规模达到了4.2亿,突破了4亿大关,较2009年底增加了3600万人,互联网普及率攀升至31.8070,较2009年地提高了2.9个百分点;2010年网页数量达到600亿个,年增长率78.6070。网络信息的快速膨胀,使人们无法有效地查找信息并对信息资源加以利用,解决这一问题的一个重要方法就是将它们准确的分类。
而对网上的海量Web信息,传统的方法是通过人工方式来完成的,即工作人员在搜集整理时,通过自己的理解来分析网页,把它放到一个合适的类别中去。如YahooAlta Vista和NorthernLight等。这些搜索引擎为了方便用户查找有效信息,提高搜索速度,由专业人员对信息进行组织和整理,并对其加以分类。但是,这样做存在诸多的弊端,如耗费人力、物力、分类结果不一致性等。所以,仅靠人工的方式是不切实际的。网络信息的激增一方而要求文本能够快速且自动分类,另一方而又为基于机器学习的文本分类方法准备了充分的资源。因而,Web自动分类技术成为信息处理领域中的一个研究热点。
对于处理和组织大规模网络文本信息,网页自动文本分类技术提供了关键技术,它是信息资源有效组织的重要方法,其在主题搜索引擎、搜索引擎的目录导航服务、主动信息推送服务、个性化信息检索、数字图书馆、信息过滤等领域得到了广泛地应用。
1.2国内外研究现状
Web页而格式比较灵活多变,存在多种形式,其一般是由HTML语言组成,且文本信息是其主要形式,因而,文本自动分类是网页自动分类的基础。
1.2.1文本自动分类技术的研究现状
国外对文本自动分类技术的研究起步较早,开始于20世纪_50年代末。H.P.Luhn与1957年在自动分类领域进行了开创性的研究,提出了基于词频统计的方法并用于自动分类[2]。1960年,Maron发表了自动分类的第一篇论文[f=x,41。之后,又有如K.Sparch}s>> R.M.Needha及G.Salton}b0}}等著名情报学家都在这一领域进行了研究。现在,随着方法的不断改进,国外的文本自动分类研究己经从最初的实验性研究进入到实用阶段,并成功的应用于信息过滤、电子会议、邮件分类等方而。其中,路透社采用的卡内基集团研发的Construe系统,白宫采用的麻省理工学院开发的邮件分类系统等是较为成功的代表。
到目前,自动分类在国外大体经历了三个发展阶段:1958-1964是自动分类的第一阶段,主要是自动分类的可行性研究;1965-1974是其第二阶段,主要是自动分类的实验研究;1975一至今则是其第三阶段,主要是自动分类的实用化。
当前,国外主流的文本分类方法有:基于统计的Rocchio公式, K一近邻算法,朴素贝叶斯算法[[14,15,16],支持向量机[[ 17],最大墒模型等;基于连接的人工神经网络;基于规则的决策树,关联规则等。
与国外相比,国内对文本自动分类的研究起步较晚,开始于20世纪80年代初期,其主要是利用英文文本自动分类并结合中文文本和汉语语言特性采取相应策略,实现中文文本的自动分类。1981年,侯汉清教授对文本分类进行了探讨。香港大学的WaiLam等将KNN和线性分类器结合,结合主题词表分析分类,取得了较为明显的效果。复旦大学的黄首著等在对独立语种进行文本分类时,采用类别和词汇相结合的互信息量作为评分函数,也取得了较好的召回率。上海交大的王永成、刁倩等采用词权重和分类算法相结合的方法进行分类,并用向量空间模型方法测试分类正确率,同样取得较好的效果。此后,分词技术、统计学理论和语料库技术等逐步应用到文本分类中,国内中文文本分类技术得到飞速发展。
1.2.2网页自动分类的研究现状
随着互联网的兴起和发展,网页自动文类技术研究也开始于上世纪80年代末。由于文本自动分类技术的研究相对较早,且有比较成熟的分类方法,因此,不少研究者试图采用纯文本分类技术的方法实现网页分类。文献「’“]用指向网页所有链接周围的文本及上级标题文本信息表示网页,再利用Ripper算法对文本进行分类,得到的准确率相对实用局部文本的方法提高了20070;文献[Ua]等研究人员采用网页中的部分链接网页的文本和局部文本信息表示一个网页,不把全部链接文本引入其中,测得的实验结果的F1比原来值提高;文献[X20]对网页分类时把分类器组合到一起,其中一个分类器用网页中的纯文本、子标题和标题表示该网页,另一个分类器用指向该网页所有链接周围的文本表示网页;文献[[21]等人通过在Hoovers和WebKB数据集上的研究得出较为客观的解释:网页是否集中地存在某种规律以及能否利用这些规律,对分类算法的性能起到关键的影响作用;文献[X22]等人提出用朴素贝叶斯协调分类器综合网页纯文本和其它结构信息的方法进行网页分类,测试结果证明分类性能有一定地提高。
摘要 5-6
Abstract 6
1 绪论 9-12
1.1 课题的研究背景和意义 9
1.2 国内外研究现状 9-11
1.2.1 文本自动分类技术的研究现状 9-10
1.2.2 网页自动........... 10-11
1.3 本文的主要工作 11
1.4 论文的结构安排 11-12
2 文本分类理论基础与关键技术 12-21
2.1 文本分类概述 12-13
2.2 文本表示模型 13-14
2.2.1 文本特征 13
2.2.2 向量空间模型 13-14
2.3 文本特征选择 14-17
2.3.1 互信息(MI) 14-15
2.3.2 文档频率(DF) 15
2.3.3 信息增益(IG) 15
2.3.4 χ 2统计(CHI) 15-16
2.3.5 交叉熵(Expected Cross Entrophy) 16
2.3.6 文本证据权值........... 16
2.3.7 Fisher 判别式 16-17
2.4 文本分类方法 17-19
2.4.1 支持向量机........... 17
2.4.2 朴素贝叶斯(Na ve Bayes) 17-18
2.4.3 K 最近邻算法........... 18-19
2.5 分类性能评估标准 19-21
3 Web 文本的采集与信息抽取 21-38
3.1 Web 的基本结构和特点 21-24
3.1.1 Web 的组织结构 21-22
3.1.2 页面信息分析 22-23
3.1.3 Web 文本........... 23-24
3.1.4 网页的噪音 24
3.2 Web 信息的采集 24-27
&n