Abstract Along with the quick development of WWW and other form information services,people can more easy and more direct get the informa-tion of various forms than former,but the information resource of Internet information space is different structure,itwill spend plenty of time and ener-gy that people want to discover,collect and defend the information of self needs from Internet information space.Though the present Internet havemany http://www.51lunwen.org/ search engines,Yahoo,Sohu etc,they still have many defect,as meet user interest and interactive mode.People need a kind of tool urgentlywitheffective use the various information resources in Internet information space.
Keywords Intelligent information retrieval Personalized PHP Internet Intelligent software Agent
摘 要 Internet空间中的信息资源是异构的,人们要想从Internet中发现、收集和维护自己需要的信息则要花费大量的时间和精力。虽然目前Internet上有很多的搜索引擎,如Yahoo、搜狐等,但这些引擎还硕士论文帮写存在着不少缺陷,如在适应用户兴趣、交互方式等方面均存在着不足。人们迫切需要一种工具以有效地利用Internet信息空间中的各种信息资源。本文是针对当前Internet检索系统中存在的不足,开发设计了一个“基于Agent个性化智能信息检索系统”。该系统的研究内容属目前智能信息检索领域的重要课题。
关键词 智能信息检索 个性化 PHP Internet 智能体Agent
1 系统开发背景
1•1信息检索系统概述
近年来,智能信息检索作为人工智能(AI)的一个独立分支得到迅速发展。在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。
WWW和其它形式信息服务的迅速发展,使人们比以往能够更容易、更直接地获取各种形式的信息。但由于Internet信息空间中的信息资源是异构的,而且信息是动态变化的,人们要想从Internet信息空间中发现、收集和维护自己需要的信息需要花费大量的时间和精力。虽然目前Internet上有很多搜索引擎,如Yahoo,WebCrawler等用于帮助人们发现和收集Internet上的各种信息,但它们还存在着一些缺陷,如信息引导能力差,即不能帮助用户确定所需信息所在的领域,导致大量无关信息的涌现;使用简单的关键字匹配查询,信息检索的精确度不高;一般不具备学习功能,不能主动地从Internet信息空间发现和收集用户需要的信息。人们迫切需要一种工具以有限地利用Internet信息空间中的各种信息资源。
信息检索系统(搜索引擎)是指Internet上专门提供查询服务的一类系统,这些系统通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理再存储,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。
早期的搜索引擎是把Internet中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要得到的信息可按它们的分类分层进入,就能到达最后的目的地,找到自己想要的信息。这是最原始的方式,只适用于Internet上信息并不多的时候。随着Internet信息按几何级数地增长,出现了真正意义上的搜索引擎[3],这些搜索引擎知道网站上每一页的开始,随后搜索Internet上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。
1•2信息检索系统的现状
为了实现信息检索的智能化,人们将人工智能技术引入到信息检索中,已经研究出了各种智能信息检索方法,提出了许多智能型检索系统模型,主要分为两大类:一类是基于机器学习的大范围信息检索系统[1],另一类就是智能化的用户个性化信息检索系统[2]。
目前Internet上的搜索引擎明显地可分为两大类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎,当然这两类搜索引擎的功能是互相借鉴和渗透的[4]。
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为以下几类:1)目录式搜索引擎 它的代表是:Yahoo、LookSmart、OpenDirectory、Go Guide等。2)机器人搜索引擎 它的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内为:“天网”、悠游、OpenFind等。3)元搜索引擎 它的代表是:WebCrawler、InfoMarket等。
1•3现有信息检索系统存在的缺陷
1)个性化服务存在着不足 现有大部分信息检索系统采用关键词输入方式进行检索,很容易让用户感到迷茫,使得用户无法正确地表达自己的兴趣,尽管有些系统为此进行了改进,确实改善了检索效率,由于没有不同个性化之间的信息共享机制,因而不能很好地适应用户兴趣变化。
2)没有利用个性化检索和集中浏览的优点 现有信息检索系统不是注重发展大范围信息检索系统,就是注重解决特定需求信息检索问题,没有综合考虑这两种检索方式的优点。
3)用户与检索系统的交互方式比较单调 现有系统普遍采用相关反馈技术作为用户和系统进行交互的主要手段,针对不同需求的用户,提供不同的输入方式是目前现有系统所缺少的。
4)缺少分布式智能信息检索和适应信息源信息变化的能力 由于没有有效地适应信息源信息变化的机制,不能及时为用户提供新的信息,因而无法为用户快速定位感兴趣的主题。
目前,国内广泛开展了基于Agent技术的研究和应用系统开发,并取得了较大的成果。研究者由自己的理解和应用出发,对于Agent给出的定义也有所差异。P.Maes认为:“Agent是复杂动态环境中能自治地感知环境并能自治地通过动作作用于环境,从而实现其被赋予的任务或目标的计算机系统。”在这个定义中,“自治”的含义是指Agent的行为由其自身的经验决定的。
Agent根据控制机制,可以分为以下几种类型:基于规则的Agent、基于规划器的Agent、基于神经网络的Agent、基于机器学习的Agent。
近年来,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向Inter-net的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,而将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。由于Agent技术及其应用程序的许多良好特性,如主动性、智能性、协作性、移动性等,导致了Agent技术被提出用于解决Internet应用中的问题。从当前和将来发展的观点看,分布式软件智能体Agent方法是实现人机交互学习,代替人们从事繁杂信息收集、过滤、聚类以及信息融合的更好方法,尤其是应用在用户个性化商品信息采集方面。
我们提出了一个面向Internet的个性化商品信息采集系统,适用于电子商务中的分布在Internet上的商品信息采集。本系统能够学习用户的兴趣、爱好和特性,“主动”帮助用户完成信息服务任务,既方便了用户,又节约了用户的时间和精力,是“主动服务”的电子商务,具有灵活性和适应性。反映了当前及今后信息检索领域发展的趋势,是电子商务在全球范围取得成功的必要因素,具有很强的理论价值和应用价值。
2 系统介绍
本文中,介绍了一个基于Internet的商品信息采集Agent系统。该系统是一个面向Internet的具有智能化的商品信息采集系统。系统采用分布式智能体Agent技术,适用于Internet上文档的并行查询与检索,能满足用户货比三家的需求,采用相关反馈学习算法、用户与用户Agent以及用户Agent与信息Agent的交互机制等技术,使得用户能够获得同一商品的不同价格信息。
该系统具有以下的特点:实现浏览式检索与用户个性化检索的有机结合;快速自适应用户兴趣的变化和环境的变化;智能化检索用户感兴趣的Web文档;自动过滤不相关文档,提高检索精度和效率。
2•1系统功能说明
数据流程 用户向WEB Server发出查询请求,经过PHP嵌入式程序的运行,调用相关的函数功能后,通过WEB Server从Internet搜索引擎得到相关信息,经处理反馈给用户。
本系统的功能有以下四种:
2•1•1站内食品检索 它可分为以下两种:1)模糊搜索 用户可通过在食品信息搜索