第一章绪论
1.1课题背景
历经几十年的长足发展,计算机网络技术已经非常成熟。如今,在计算机网络技术领域,无论是理论研究,还是工程实践,都取得了令人瞩目的成就。与此同日寸,搭载先进的计算机网络技术发展的互联网产业更是如火如茶。尤其是万维网发明以后,人们便依靠Web这个载体,将大规模海量数据发布到Internet上。这就造成了在网络这个虚拟的世界里,网页数量呈几何级曲线增长,如今拒不完全统计,全世界的网页数量已经达到万亿数量级。面对浩如烟海的Web站点,以及其中不可胜数的Web页面,现代人不得不对这信息爆炸的新时代产生了惊讶和恐慌。十是,如何获取信息,如何快速地获取信息,如何快速有效地获取有用信息成了of待解决的问题。这个时候,搜索引擎被人们发明出来。传统通用搜索引擎,如Google、百度等,以其强悍的技术,大规模的数据中心等,为人们的互联网生活带来了革命性的改变。,软件工程领域里“没有银弹”的情形再一次发生[2]。也就是说,没有万能的钥匙,如今,在移动互联网环境下,强大如Google的搜索引擎也显现出了不足。
随着移动手持设备智能化程度的普及,当今的计算环境已经发生了很大变化。现今时代下,人们手中的手机,已经越来越普及,越来越智能,在当今3G,Wi-Fi等无线通信技术的引领下,移动互联网的硬件设施已经具备。同时,广大手机用户已经表现出对无线上网的极大兴趣,很多没有使用过的传统PC机的手机用户,也慢慢开始通过手机终端了解互联网。可以预见,会有很大一批用户将跳过PC时代,直接使用手机进入互联网的世界里,那时,移动互联网将会成为互联网世界一个重要的组成部分。在移动互联网环境下,人们的需求发生了明显变化,在移动终端上,人们可能关心的话题包括新闻资讯、餐饮娱乐、社交等等,这些领域带有明显的领域特征,其中虽然面临着信息检索的巨大需求,但这种需求已经非传统搜索引擎所能解决。传统的搜索引擎在解决新需求的同时,广度有余,纵深明显不足。事实上,在移动互联网环境下,人们需要一类具备一定领域纵深度的、垂直式的无线搜索引擎,这正是本课题所给予的时代大背景和需求动力
倘若完成这类在移动互联网环境下的无线搜索引擎,并经过实际市场的考验,以及一定商业资金的推广,这类搜索引擎将会快速占领移动手持设备,成为手机网络中弥补市场缺口的定制化搜索引擎。这将给移动互联网的发展和普及注入强大力量,也会为广大移动互联网用户带来全新的体验。
搜索引擎技术是移动搜索业务实现中的关键。搜索引擎工作的过程通常可以分为网页搜集、数据预处理以及查询服务二个步骤。因为移动搜索的业务涉及到了许多接入的方式,搜索范围是wAP站点以及互联网的信息内容、增值服务内容以及本地信息的内容等,因此面向移动搜索业务的搜索引擎和互联网搜索引擎系统就具有一些不同的地方。对十手机搜索来说,具有如下的特点:
I.信息量不足
要针对手机开发移动的搜索引擎,那么信息量就是它遇到的首要难题。信息量和信息所覆盖的范围与传统互联网搜索相比,还有很大的差距,远未能满足用户的需求量。要达到百度、Google这样的PC搜索引擎的数据规模,还需要一段时间的积累和爬取。
2.屏幕限制
移动设备由十屏幕限制,不适肩{大信息浏览,用户也不像PC那样轻松的移动滚动条,因此一次搜索的结果越少越好,因此对搜索的准确性要求更高。这就需要更好的技术支持。
3.缺乏用户体验
当前有些手机搜索服务在操作性及方便性方面都不能令人满意。如IOS和Android,虽然已经达到很高的程度,但是对比PC来说,还是无法达到丰富多彩。培养用户的使用习惯也是当前手机搜索服务要解决的问题。
4.网络速度慢
目前,现在的用户大多以SMS, WAP, IVR等多种接入方式进行搜索,相较十有线网络,无线网络的数据传输速率比较慢,除了一些文字性的信息速度较快之外,要想浏览那些充满照片的漂亮画面,在手机上操作起来相当困难。
摘要 4-5
ABSTRACT 5-6
第一章 绪论 10-19
1.1 课题背景 10-11
1.2 移动垂直搜索引擎 11-17
1.2.1 传统垂直搜索引擎简介 11-12
1.2.2 移动搜索.............. 12-13
1.2.3 国内外.............. 13-16
1.2.4 发展前景 16-17
1.3 本文的主要工作 17-19
1.3.1 研究内容 17-18
1.3.2 本文的组织 18-19
第二章 相关技术简介 19-29
2.1 本章简介 19
2.2 核心技术简介 19-21
2.3 垂直搜索技术 21-24
2.4 主题相关度判定 24-26
2.4.1 布尔模型 24-25
2.4.2 向量.............. 25-26
2.5 信息抽取技术 26-28
2.6 本章小结 28-29
第三章 面向博客的垂直搜索引擎的需求分析 29-35
3.1 系统需求 29-30
3.2 爬虫模块 30-31
3.3 垂直信息提取模块 31
3.4 结果排序模块 31-32
3.5 预期垂直.............. 32-34
3.6 本章小结 34-35
第四章 面向博客的垂直搜索引擎的设计 35-56
4.1 总体模块设计 35-37
4.2 基础设施的设计 37-39
4.3 网页信息.............. 39-43
4.4 网页消重的设计 43-45
4.5 网页重排序的设计 45
4.6 检索技术的选取 45-49
4.7 性能优化设计 49-55
4.7.1 BigPipe .............. 49-51
4.7.2 资源优化设计 51-52
4.7.3 Cache Server 的选取 52-53
4.7.4 Cache Server.............. 53-55
4.8 本章小结 55-56
致谢 100-101
参考文献 101-103
工作总结
本文首先分析了传统PC搜索引擎的技术、移动搜索现状、国内外相关课题的研究情况,对要做的工作和文章目录结构进行了简单介绍。
接着介绍了搭建移动搜索引擎需要的核心技术,详细分析了本文所用技术、架构、思想对移动搜索引擎产生的影响,深入分析了移动搜索引擎与传统搜索引擎的不同点和特殊性,针对移动搜索引擎的特点,采用特定的技术进行局部的优化、加强。确保该搜索引擎具有高性能、高可用性。
移动设备的特殊性,决定了移动设备的前端显示要进行详细的分析与设计。由十无线网络与移动设备小屏幕的特殊性,手机前端较PC前端需要更快的性能和更精致的设计。因此,该部分提出了一系列优化前端的方法,同时提出了多线程与单线程BigPipe技术,该技术模仿Facebook的BigPipe技术,可以大大缩短前端界面加载时间,增强用户体验。