计算机应用论文栏目提供最新计算机应用论文格式、计算机应用硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于JavaCC与Nutch的垂直搜索引擎的研究与设计

日期:2019年06月13日 编辑:ad200901081555315985 作者:论文网 点击次数:1326
论文价格:150元/篇 论文编号:lw201906131456129742 论文字数:15748 所属栏目:计算机应用论文
论文地区:中国 论文语种:中文 论文用途:本科毕业论文 BA Thesis
摘  要
随着网络科技的发展人们获取的信息越来越多,但是也掺杂着各种繁琐的、多余的信息出现。当我们利用一般的搜索引擎来查找我们需要的资料时,我们往往需要在很多的网页中筛选、查找,所以浪费了我们大量是时间和精力。因此主题搜索引擎应运而生,解决了这些问题。
除此之外,Nutch的使用非常的方便,能够按照客户的自己的需要进行程序的设定,而且任何人都可以查看搜索引擎的工作流程,具有公开性。在现实生活中的应用,也印证了Nutch具有稳定性,对于喜欢研究搜索引擎的人来说是十分有价值的。
本文主要详细阐述了以Nutch为基础的新闻主题搜索引擎的发明和实际应用,当今社会非常多的人在网络上浏览新闻,但是很多网站为了吸引更多的人观看,页面上的新闻有非常多都不是高质量的。再从另一个方面来看,随着人们生活水平的提高,人们对新闻的质量的要求也越来越高,因此发明一种全新的新闻主题搜索引擎是急需解决的问题。
本文主要讲解了查找引擎的演变过程、面对的挑战以及讲解了主题查找引擎的优点和当前形势,同时在理解Nutch运行的条件上,对主题程序的如何选取网页进行了仔细的研究,并且研究出了新闻主题搜索引擎的具体实施计划,然后阐述了Nutch、Tomcat等部分的如何进行装配,测验应用并且和其他新闻服务平台进行对比。最后对全文进行概括整理。
关键字:Nutch;搜索引擎;Crawler;抓取策略;新闻
Abstract
With the development of network technology, people are getting more and more information, but also with all kinds of complicated and redundant information. When we use the general search engine to find the information we need, we often need to screen and search in many pages, so we waste a lot of time and energy. Therefore, the theme search engine comes into being and solves these problems.
In addition, the use of the Nutch is very convenient, can according to customer's own need to be set, and anyone can see the search engine's working process, has the openness. The application of Nutch in real life also proves that Nutch has stability, which is very valuable for people who like to study search engines.
This article mainly elaborated on the basis of the Nutch news topic search engine and the actual application, the invention of today's society is very more people browse the news on the Internet, but many sites in order to attract more people to watch, there are so many news on the page is not high quality. Again in another ways, with the improvement of people's living standard, people also more and more high to the requirement of the quality of the news, so the invention of a new news topic search engine are urgently needs to solve the problem.
This paper explained the evolution process of search engine, in the face of challenge, and explained the advantages and the current situation of topic search engine, at the same time in understanding the Nutch run on the conditions of application of the subject matter of how to select the web was carefully studied, and worked out the news topic search engine of the concrete implementation plan, and then expounds the Nutch, Tomcat part such as how to carry out assembly, test application and were compared with other news service platform. Finally, the article is summarized.
Keywords: Nutch; Search Engines; Crawler; Fetching Strategy; News
目   录
摘  要 I
Abstract II
第1章 相关技术概述 1
1.1 搜索引擎的结构 1
1.1.1 搜索引擎系统概述 1
1.1.2 搜索引擎的构成 1
1.1.3 搜索引擎的主要指标及分析 2
1.2 面向大数据的搜索引擎技术概述 2
1.2.1 Map-Reduce计算模型 2
1.2.2 HDFS分布式文件系统 3
1.2.3 HBASE分布式数据库 3
1.2.4 Spark云计算框架 4
1.3 基于大数据分析的智能搜索引擎应用分析 4
1.3.1 智慧搜索需求分析 4
1.3.2 大数据分析与智慧搜索 5
1.4 网络机器人 6
1.4.1 什么是网络机器人 6
1.4.2 网络机器人的结构分析 6
1.5 开源搜索引擎Nutch 6
1.5.1 搜索引擎工具包Lucene 6
1.5.2 Nutch的介绍 8
1.6 JavaCC技术 9
第2章 垂直搜索引擎策略设计 11
2.1 基于链接结构特征 11
2.1.1 PageRank算法 11
2.1.2 HITS算法 12
2.1.3 本文实现的算法 13
2.2 基于内容评价 14
2.2.1 Fish Search算法 14
2.2.2 Shark Search算法 15
2.3 其他相关策略 16
2.3.1 基于巩固学习的聚焦搜索 16
2.3.2 基于语境图的聚焦搜索 17
第3章 垂直搜索引擎的设计与实现 18
3.1 需求分析阶段 18
3.1.1 需求分析 18
3.1.2 系统总体结构图 18
3.1.3 系统开发以及运行环境 20
3.2 功能模块设计 20
3.2.1 网络爬虫模块 20
3.2.2 索引功能模块 21
3.2.3 检索功能模块 22
3.2.4 Lucene评分算法的改进 23
3.3 改进结果测试 24
3.3.1 索引模块的测试 24
3.3.2 检索模块的测试 24
第4章 总结与展望 27
参考文献 28
致  谢 31
第1章 相关技术概述
1.1 搜索引擎的结构
1.1.1 搜索引擎系统概述
搜索引擎是依照用户的搜索需要,从众多数据中搜索出有用的信息再发送给使用者。为了能给使用者提供准确、快速的服务,搜索引擎需要以巨大的检索资料库为基础。普通的检索引擎的包括网络机器人程序,索引以及数据库等,如下图所示。

1.1.2 搜索引擎的构成

1.1.2.1 网络蜘蛛
网络蜘蛛也就是我们说的网络机器人(Spider),是一个专业的用于网页查找的程序。该程序查找网页、搜索出超链接并且进行使用,因此该程序基本可以实现进入全部的网页。
为了让网络蜘蛛访问的信息的范围进行规范,需要制定相关的方案以及设置某些关键的链接地址。
第4章 总结与展望
垂直搜索引擎是针对于某一种行业的专业的查询引擎,可以为用户提供更好的查询体验。垂直搜索引擎比一般的查找引擎准确度更高、时效性强,因此也能更好的为用户服务,非常符合用户的需要。
本文最开始首先是简要概括了搜索引擎的发展背景等,讨论了主题爬虫是如何进行工作的,具体方案是什么。针对筛选主要信息的办法进行分析。最后重点阐述了网页排列方法,比如HITS法以及PageRank等,并且针对PageRank进行主要的研究和改良。
接下来讲解了Lucene的主要构成,并以Lucene为基础发明出一个垂直搜索引擎,而且还研究出了两个板块,索引和检索。然后通过对PageRank算法进行修改,以此来调整Lucene搜索结果的排列顺序。
全文重点分析以下几点:
(1)主题爬虫如何进行工作的。
(2)页面主要信息抓取的方法的分析。主要通过html页面的组成的优势,将html分区域进行操作,针对不一样的区域的信息统