第1章绪论
课题背景及意义
Internet包含庞大的信息量的同时,人们也越来越多地运用搜索引擎查找所需的相关信息。除Email等方式获取信息的服务,各种搜索引擎便成为用户通过互联网来获取所需信息的主要途径之一。当今较为常用的包括:百度、搜狗、google,搜搜、雅虎、有道等搜索引擎,所有搜索引擎包含着互联网各种不同网站信息资源,有效的将用户查询所需信息的速度进行了提高。然如今的互联网当中包含着海量数据信息,运用常用搜索引擎搜索出的信息结果也是海量信息,反馈的搜索果数量同样很多,反馈结果中同时包括不少重复信息以及不相关信息。这就对用户希一望有效的搜索自己所需的信息带来了不便,如若希一望在海量信息中找到所需信息,使用搜索引擎搜索信息将会为用户节省时间。
近年来由于通用的搜索引擎的发展,个性化的搜索引擎已然被用户广泛的运用到平时的生活和工作当中。个性化搜索引擎与通用搜索引擎相比,个性化搜索引擎则为某行业、某类用户,提供具有针对性的信息搜索服务。个性化搜索引擎针对各行各业不同的性质进行分工的得出搜索结果。目前通用搜索引擎同样具有个性化搜索这一特性,例如:百度为用户提供的mp3 ,图片、视频等指定类别的搜索。年来有不少为用户提供个性化搜索的网站,专门并目‘已经形成了一定的规模,例如:车易搜等。因此,在当下这种由海量信息数据的互联网时代,个性化搜索引擎为搜索引擎这一研究领域提供了一个明确目‘新颖的发展方向。
手机这一通讯设备在当今社会经成为一种普及性很高的产品,像钱包、钥匙一样和我们的生活密不可分,种类繁多,于此同时便给消费者在选择购买适当的产品时增加了一定的难度。如若消费者能够通过手机产品信息个性化搜索引擎进行搜索,就能够高效的找到适合自己的手机,再进行购买。
1.2国内外研究现状
国外的个性化搜索引擎正处在蓬勃发展的时期,评价比较好的一些个性化搜索引擎,包括google} bing、社会搜索Aardvark, MSN、移动搜索ChaCha、等搜索网站。以Google为例:Google使用一种名为PageRank的算法,配合搜寻字串来排名网页,Google的核心技术之一是:超链分析技术这一的搜索引擎关键技术,Google目前能够完成翻译、字词或词组的定义、相关搜索、生活搜索、图片、学术、论坛、咨询搜索等。
目前我国的个性化搜索具有广泛的应用领域,例如:汽车搜索、文献资料搜索、房地产搜索、资源搜索等。与常用搜索引擎相比,个性化搜索引擎能够更好的为用户提供某种特定的需求。国内较为受用户欢迎的个性化搜索引擎有:百度MP3、车易搜、搜房网等。以百度为例:百度是我国最大的搜索引擎,同Google一样运用了超链分析技术,百度能完成的搜索包括:网页搜索、视频搜索MP3搜索、地图搜索、新闻搜索、图片搜索等搜索。我国的个性化搜索引擎虽然已在迅速的发展和完善,但与国外相比,依然存在一定的差距,专业性搜索,还不能够应用到社会的各个领域。
国内外主要用于爬取网页数据信息的爬虫程序有:Nutch:基于Java开发的、开源的搜索引擎;Heritrix:基于Java开发的、开源的网络爬虫,用户可以使用它来从互联网当中爬取想要的信息资源;Larbin:基于C++的Web爬虫工具,界面易于程序员操作,只能在Linux下运行;WebSprinx:能够自动浏览、处理Web页面的爬虫程序,由两部分组成分别是:爬虫工作平台以及Web爬虫类包(交互式)。从上面可以看出Heritrix具有开源、爬取信息全等优点,因此在这里我们选用Heritri这一爬虫工具。Lucene也是基于Java开发的,因此能够和Heritri很好的融合,使最后的查询结果最为理想。
1.3本论文主要工作
本论文针对互联网当中的手机信息搜索这一领域,采集手机信息网站的页面进行解析与设计,完成了在Windows?+Tomcat+JSP+MySQL的开发环境下实现基于Lucene+Heritri的手机信息个性化搜索引擎系统的设计功能,专门为用户提供对手机信息的搜索服务。并用ELFHash算法和PageRank算法分别对Heritri爬取当中的不足和Lucene排序进行了优化,让本系统能够更好的为手机信息用户提供快速、精准的查询结果。主要工作如下
(1)面向特定领域的网络爬虫程序设计个性化搜索引擎的页面采集不同于通用搜索引擎,本论文面向手机信息领域,依照垂直搜索引擎的特点,设计了个性化搜索引擎的网络爬虫程序。并用ELFHash算法改进了,Heritrix的多线程爬取,提高了Heritrix的爬取效率,为程序开发人员节省了时间。
第3章 Heritrix爬虫技术............. 18-26
3.1 爬虫技术.............18-19
3.2 HERITRIX爬虫基本............. 19-21
3.3 HERITRIX爬虫技术............. 21-25
3.3.1 ELFHash算法.............21-22
3.3.2 多线程爬取爬取............. 22-23
3.3.3 URL优化............. 23-25
3.4 实验分析 .............25
3.5 本章小结............. 25-26
第4章 Lucene搜索技术............. 26-42
4.1 LUCENE技术............. 26-27
4.2 LUCENE基本............. 27-29
4.3 LUCENE索引技术............. 29-31
4.3.1 Lucene文件格式的数据............. 29-30
4.3.2 Lucene索引.............30-31
4.4 LUCENE排序技术............. 31-41
4.4.1 Lucene倒排索引............. 32-33
4.4.2 Lucene排序............. 33-34
4.4.3 Lucene排序算法............. 34-41
4.5 本章小结............. 41-42
第5章 个性化搜索引擎............. 42-47
5.1 系统需求............. 42
5.2 系统总体设计............. 42-43
5.3 系统详细设计............. 43-46
5.3.1 网页爬取模块.............44-45
5.3.2 信息索引模块............. 45
5.3.3 信息检索模块............. 45-46
5.4 本章小结............. 46-47
总结
本论文研究了构建个性化搜索引擎系统所需的相关知识及理论依据,对个性化搜索引擎技术的原理及工作流程进行了分析,并通过设计和实现一个手机信息个性化搜索引擎系统对相关技术进行了详细的阐述。本论文的主要工作简介如下:
1、对Heritrix网络爬虫进行实验与分析,通过扩展Heritrix的相关组件定制手机信息的爬虫;通过加入ELFHash算法来对Heritrix默认用HostnameQueueAssignmentPolicy计算链接的Key值这种方法进行了改变,使Heritrix网络爬虫技术能够多线程爬取同意个URL网页,实现了手机信息爬取的多线程,使得网页的爬取效率得以提高。