市场营销论文栏目提供最新市场营销论文格式、市场营销硕士论文范文。详情咨询QQ:1847080343(论文辅导)

鉴于网页去重处理垂直搜索引擎策划和完成

日期:2018年01月15日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1151
论文价格:150元/篇 论文编号:lw201211241325005164 论文字数:45600 所属栏目:市场营销论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

1绪论

1. 1课题研究背景

    随着互联网在全球的迅速发展和普及,愈来愈多的用户开始使用搜索引擎来搜索互联网上的资源,这对搜索引擎来说不仅是一种机遇,更是一种挑战。中国网页的规模在2011年12月底已经达到了866亿,面对如此大的网页规模,即使是全球最大的搜索引擎Google也只能索引整个网络空间40%的网页,这对于日益增长的用户需求是不能满足的。而且,像Google和百度这种传统的搜索引擎在专业领域内查准率较低,它虽然能返回给用户大量的查询结果,但这些结果很可能并不是用户想要的,而用户想要的由于检索的不全面却查不到。因此,综合搜索引擎己经不能满足专业化和行业化的需求,针对某个专业领域的垂直搜索引擎的建立己经势在必行。
    “中药材”相关的搜索引擎只收录了药品、药材、饮片等与中药材相关的网页,从源头上保证了检索结果的专业性,而且它索引的网页数量相对于综合搜索引擎来说相对较小,因此它的索引更加快速、更新更加及时。另外,中药企业在建立属于自己的垂直搜索引擎后,就可以对抓取的数据进行深入分析,为企业决策提供参考。
    然而,“中药材”相关的垂直搜索引擎虽然能够定向抓取与“中药材”相关的网页,但是在抓取的时候仍免不了抓取到许多重复或者近似重复的网页。如果重复或者近似重复的网页太多,必将增加用户从查询结果中获取真正有用信息的负担,浪费用户宝贵的时间,这无疑降低了用户的满意度。目前的做法是对这些重复或者近似重复的网页进行去重工作,这样就减少了网页的存储、提高了索引的效率。现有的网页去重策略一般都是在抓取完成后、索引之前进行网页去重,这对于综合搜索引擎来说是可以的,但垂直搜索引擎的抓取过程要比综合搜索引擎复杂,这使得垂直搜索引擎在抓取网页的时候有不同于综合搜索引擎的特殊性。垂直搜索引擎在抓取网页的时候不仅计算量复杂、而且更加容易抓取到重复或者近似重复的网页,因此本文没有如综合搜索引擎那样去考虑网页去重,而是提出了适合于垂直搜索引擎的网页去重策略。

1. 2国内外研究现状

    垂直搜索引擎自从一产生就得到互联网等业界人士的关注。近几年,它在旅游、图片、新闻、音乐、人才等领域的搜索都有了比较大的发展。

1.2.1垂直搜索引擎的用户情况
    垂直搜索引擎是综合搜索引擎的重要补充,有越来越多的用户认可这一点,这导致垂直搜索引擎的市场占有率不断扩大。从垂直搜索引擎的总体市场看,搜库的用户渗透率最高,达到16.9%,而狗狗在音乐和视频方面也达到了较高的用户渗透率,这两个行业下垂直搜索引擎的用户渗透力之所以遥遥领先,与这两个网络应用使用率高有较大关系。图1.1表示的是2011年垂直搜索引擎的用户渗透率
    综合搜索引擎、垂直搜索引擎和提供产品服务的网站站内搜索在争夺垂直产品的搜索用户上相互竞争,从产品、旅行预订、视频、音乐等方面的搜索用户看综合搜索引擎仍占据着较大优势,但垂直搜索引擎的用户数量在不断增长。在产品搜索方面,各有左右的用户使用专业搜索引擎和使用购物网站站内搜索;在旅行预订搜索方面,使用专业垂直搜索引擎和旅行预订网站站内搜索的比例分别是11%和9.2%;视频搜索则是视频网站站内搜索较强,使用专业垂直搜索引擎和视频网站站内搜索的比例分别是9.9%和23.2%;音乐搜索呈现不同的特点,较多用户喜欢通过综合搜索提供的音乐搜索功能,占21.7%,通过专业垂直搜索引擎和音乐网站站内搜索的比例分别是13.7%

2 网页去重概述................ 18-25
    2.1 网页去重................ 18-21
        2.1.1 网页重复的................ 18-19
        2.1.2 网页重复的................ 19-21
        2.1.3 网页去重的................ 21
    2.2 现有的网页去重................ 21-24
        2.2.1 基于Shingling的网页................ 22-23
        2.2.2 基于LSH的网页................ 23-24
    2.3 本章小结................ 24-25
3 垂直搜索引擎中的网页去重................ 25-38
    3.1 现有网页去重策略................ 25-26
        3.1.1 现有网页去重................ 25-26
        3.1.2 现有网页去重................ 26
    3.2 垂直搜索引擎中网页去重................ 26-31
        3.2.1 现有主题爬行................ 26-28
        3.2.2 主题爬虫抓取................ 28-30
        3.2.3 优先级队列的................ 30-31
    3.3 垂直搜索引擎中的网页去重................ 31-34
        3.3.1 基于关键词的................31-32
        3.3.2 加入网页去重后................32-33
        3.3.3 加入网页去重................ 33-34
    3.4 实验分析................ 34-37
        3.4.1 实验评估................ 34
        3.4.2 实验设置................ 34-35
        3.4.3 实验结果................ 35-37
    3.5 本章小结................ 37-38
4 “中药材”垂直搜索引擎................ 38-51
    4.1 系统开发概述................ 38-40
        4.1.1 “中药材”搜索引擎................ 38
        4.1.2 系统需求................ 38-39
        4.1.3 系统总体................ 39-40
        4.1.4 系统开发................ 40
    4.2 加入网页去重的................ 40-47
        4.2.1 传统爬虫................ 40-41
        4.2.2 爬虫Crawler4j................ 41-43
        4.2.3 “中药材”初始种子................ 43-44
        4.2.4 “中药材”主题词典................ 44-45
     &nbs