专业工程硕士论文范文十篇 - 工程硕士论文

本文是一篇工程硕士论文，工程硕士专业学位在招收对象、培养方式和知识结构与能力等方面，与工学硕士学位有不同的特点。工程硕士专业学位侧重于工程应用，主要是为工矿企业和工程建设部门，特别是国有大中型企业培养应用型、复合型高层次工程技术和工程管理人才。（以上内容来自百度百科）今天为大家推荐一篇工程硕士论文，供大家参考。

专业工程硕士论文范文篇一

1 绪论

1.1 研究背景与国内外现状
信息时代，各种技术发展日新月异，信息容量不断膨胀，极大地满足了人们对各种信息别需求。但是如何从海量的信息中快速简单地检索出自己所需要的信息与不断扩张的信息量是当今互联网发展要解决的主要矛盾。搜索引擎是解决这一矛盾的唯一有效方法，因而搜索引擎的技术也随着互联网的发展需要不断地更新换代。 1.1.1 研究背景 1991 年 8 月 6 日，万维网（World Wide Web）出现了。在短短的十几年间，人类至少在万维网上发布了 50 亿条网页，并且现在每天都有数以十万计的数量增长，丰富的互联网内容极大地满足了网民在日常生活中对信息的需求。但是，过于丰富的信息内容使网民很难从海量的信息中快速地检索中自己最需要的信息，于是搜索引擎应运而生，从早期的以目录式搜索引擎为代表的雅虎，到基于全文搜索引擎的谷歌都极大地促进了互联网的发展。搜索引擎作为进入互联网世界的大门，它的性能也直接影响这网络用户的上网质量[1]。百度、谷歌、雅虎为代表的搜索引擎在最近的几十年里取得了巨大的发展，他们几乎垄断了 90%的搜索引擎市场。由于这种大型商业互联网公司具有天然的垄断性和逐利性，用户利用它们取得的搜索结果可能很大程度上符合他们公司本身的经济利益，而不是用户的实际需求[2]。商业公司的封闭性，它们又不能为普通科研人员公开其搜索引擎工作原理，而对于一般的开发者而言，搜索引擎的底层开发过于复杂，再加上百度与谷歌对于他们已有算法的严格保密，使得搜索引擎的开发有很高的技术门槛，这样也严重阻碍搜索引擎技术的快速发展与革新。虽然网页的数量在迅速增长，但是搜索引擎的数量却在不断下降，这样发展的结果很可能进一步演变为有限的几个商业互联网公司垄断所有的互联网搜索业务，甚至可能发生为谋取商业利益而采用竞价排名等策略来损害普通用户的利益。这样的发展趋势显然不利于广大用户拥有更好网络体验，也不符合互联网搜索引擎市场的健康发展。另外，随着互联网的快速发展，微博、微信、Facebook 等自媒体也得到飞速发展，互联网上存在大量个人用户生成的信息。由于这些信息内容可复制性强、可信度差等缺点导致网络信息良莠不齐。并且随着信息发布的门槛越来越低，直接导致内容的来源和信息的真实性很难考证，最终使用户对于传统搜索引擎的搜索结果的可信度产生严重怀疑。
.........

1.2 研究的主要内容
本文研究的主要内容提高搜索引擎搜索结果的可信度，研究内容可分为可信搜索引擎的设计、实现与实验结果分析三部分。可信搜索引擎的设计又可分可信数据采集子系统的设计、可信检索子系统的设计两部分。为了提高采集子系统数据的可信度，本文主要对采集子系统的算法加以改进。Nutch 的采集子系统采用了 OPIC 算法，通过改进 OPIC 算法的缺点，来提高采集数据的可信度。OPIC 算法的主要缺点有搜索结果偏重历史网页、网页的评价不考虑用户体验、主题漂移问题、网页排序作弊等。本文的基本思想是在基于链接的 OPIC 算法的基础上，考虑影响网页排序的其他网页属性，形成网页评分因素的多元化。根据这一思想，在原有 OPIC 算法的基础上提出可信度更高的排序算法，从而得出更加合理的排序分值。用户的点击率属性是用户对网页评价的体现，在搜索引擎的算法中应该充分分析用户浏览行为对网页评分的影响，用户对网页的点击率就是网页受用户欢迎程度的最佳体现形式。本文在开源 OPIC 算法的基础上，提出了 TS 算法。该算法通过基于索引属性的改进，加入网页的创建时间、网页深度和用户平均点击率三个属性，有效改善了 OPIC算法偏重历史网页等缺点，使搜索结果更加合理可靠，完成可信数据采集子系统的设计。
.........

2 搜索引擎理论与相关技术

互联网信息量在过去的十五年间获得爆发式的增长，个人用户发布信息的门槛越来越低，大量无关的、虚假的、冗余的数据信息严重干扰了用户对相关有用信息的准确性的选择。这些因素导致信息过载的问题越来越突出，而搜索引擎是解决信息过载的唯一有效方式。本章系统介绍了搜索引擎的基本构成、搜索引擎的分类、主流的排序算法等内容，并对 Nutch 做了详细介绍。

2.1 搜索引擎基本构成
搜索引擎需要复杂的架构与算法，不同的搜索引擎在操作过程中存在许多差异，但是基本结构大致相同，通常有网络爬虫、分析器、索引器、搜索器、用户接口五部分组成，如图 2.1 所示。网络爬虫可以将海量网页数据传送到本地，它是搜索引擎很关键的组成部分。首先，从互联网上精心选择一部分网页作为种子 URL，将这些种子 URL 放入待抓取队列中，爬虫从待抓取队列中依次下载网页，对于下载到本地的网页进行解析，然后再将解析出来的网址 URL 放入爬虫的待抓取队列中循环采集，直到待抓取队列为空，完成一轮抓取过程。 PageRank 算法是基于链接来计算网页的 PR 值，利用 PageRank 的思想可以对待抓取 URL 列表进行优先级排序。将已经下载的网页集合和待抓取的 URL 队列中的 URL 一起形成网页集合。在此集合内部进行 PageRank 计算，然后，将待抓取URL 队列里的网页按照 PR 值降序排列，形成爬虫依次抓取的 URL 列表。由于爬虫在抓取过程中只能计算一部分网页的 PR 值，所以在数据采集阶段进行 PageRank 计算和网页真正的 PR 值存在较大误差，非完全 PageRank 策略存在较大争议。
..........

2.2 搜索引擎的分类
搜索引擎根据其工作原理的不同可分为三类：目录式搜索引擎、全文搜索引擎、元搜索引擎。目录式搜索引擎[32]以现在的观点来看它并不算是真正的搜索引擎，它只是按照主题不同将网站链接排列列表，用户一般可以直接采用点击与查询主题相关的网站链接就能得到相关信息。雅虎是这类搜索引擎的代表，通过人工整理把属于不同主题的网站分类罗列出来，用户可以通过分级目录查找不同主题的相关内容。这种搜索引擎的查询范围有限，查全率低，但是这种纯人工整理出来到的方式，虽然收录网站效率不高，但收录的网站质量一般都比较高，所以内容的有很高的可信度。这种搜索由于更新不及时、信息量少、查全率低，所以在逐渐被全文搜索引擎所取代，即使存在也是采用和全文搜索引擎相结合的形式出现。这种搜索引擎的优点是结构层次清晰，便于快速查找相关主题，网站内容质量也比较高，缺点是这种搜索引擎更新速度慢，搜索范围小，不容易查找到交叉类的内容。
........

3 可信数据采集子系统的分析与设计 ...... 21
3.1 数据采集子系统原理分析 ........... 21
3.2 可信数据采集子系统设计 .......... 25
3.3 本章小节 ....... 33
4 可信检索子系统分析与设计 ......... 35
4.1 检索子系统原理分析 .......... 35
4.1.1 检索子系统基本流程 ....... 35
4.1.2 检索子系统向量空间模型 ........ 36
4.2 Lucene 检索算法 .......... 38
4.2.1 Lucene 相关性因素 ........... 38
4.2.2 Lucene 排序计算 ....... 38
4.3 可信搜索引擎检索算法改进 ...... 39
4.3.1 可信搜索检索子系统设计方案 ....... 39
4.3.2 可信搜索检索子系统算法 ....... 40
4.3.3 可信检索子系统程序设计 ....... 41
4.4 本章小节 ...... 42
5 可信搜索引擎的实现 ...... 43
5.1 系统运行环境 ...... 43
5.2 可信搜索引擎模型部署 ...... 43
5.3 本章小节 ...... 50

5 可信搜索引擎的实现

5.1 Nutch 版本选择
Nutch 是一个开源的爬虫项目，该项目可高度扩展以及个性化定制，来自于Apache 下的 Lucene 项目，该 Nutch 在爬虫抓取环节比 Lucene 有了较大的进步，它既可以抓取本地数据，也可以抓取互联网数据，具体各个Nutch版本可以通过Apache的官网 Nutch 目录下载（http://Nutch.apache.org/）。 Nutch 的版本可以分为两大类，一类是以 1.x 版本，一类是 2.x 版本详细介绍如下： 1.x 该版本的 Nutch 是一个成熟搜索引擎，具有完善的插件，采用成熟的基于Hadoop 架构，底层存储使用的是 HDFS 文件系统来存储索引。Nutch1.2 之前，Nutch提供完整的部署文件，Nutch1.2 之后的版本就只提供源代码，需要用户自己编译Nutch，所以如果在个性化定制程度要求不高，快速部署的条件下 Nutch1.2 是最优选择。2.x Nutch2.x 与之前 Nutch 版本最大的不同，就是文件存储系统的变化，该版本Nutch 采用 Apache Gora 的 O