第1章 引言 5
1.1 研究背景与意义 5
1.2 国内外发展现状 7
1.2.1 关联数据研究 7
1.2.2 知识本体研究 9
1.2.3 RDF数据的研究 10
1.2.4 语义数据存储与检索的研究 11
1.3 论文的研究内容 13
第2章 课程关联数据的RDF数据表示 15
2.1 RDF数据模型 15
2.2 课程关联数据的数据转换 17
2.2.1 数据转换研究基础 18
2.2.2 教学资源数据转换 19
2.2.3 转换资源中表格形式为RDF数据 21
2.3 课程关联数据的RDF表示 22
2.3.1 关联课程数据的定义 22
2.3.2 关联课程数据组织 22
2.3.3 课程RDF数据转换、加工与丰富 23
2.3.4 关联课程数据与其他数据集关联 24
2.4 课程关联数据的表示实验 25
2.4.1 仿真实验环境的搭建 26
2.4.2 建立元数据 27
2.4.3 建立RDF容器 29
2.4.4 解析RDF Schema声明 31
2.4.5 RDF的XML表示 32
第3章 基于本体的语义检索方法研究 37
3.1 本体的叙词语义描述及语义空间建立 37
3.1.1 叙词表 37
3.1.2 本体 38
3.1.3 基于本体的叙词语义描述方法 41
3.1.4 改进的Hoofield神经网络语义检索 42
3.2 本体语义相似度计算方法 46
3.3 基于本体的语义检索结果排序方法 46
3.4 本体语义的表示实验 47
第4章 语义数据的存储与索引 48
4.1 课程关联的数据总体结构 48
4.2 数据清洗与映射 48
4.3 语义数据的存储结构 48
4.4 查询优化策略 48
4.5 语义数据的存储效率实验 48
第5章 RDF推理机制的研究 49
5.1 RDF推理机制 49
5.2 基于RDF的语义检索框架 49
5.3 学习网站语义检索实验系统的设计与实现 49
5.4 课程关联数据的RFD推理实验 49
第6章 大规模关联数据的数据集成 50
6.1 知识管理中的数据集成 50
6.2 数据集成算法 50
6.3 推理合并方法 50
6.4 课程关联数据的实体集成实验 50
第7章 总结与展望 51
7.1 总结 51
7.2 展望 51
致谢 52
参考文献 53
个人简历、在读期间发表的学术论文与研究成果 61
第1章 引言
在Internet得到普及发展的当今,网络已经成为推动人类社会科技进步的主要支柱之一,促使社会进入信息化时代。Internet是一个非常巨大的信息库,是人们日常生活和工作中不可缺少的重要工具,其发展趋势迅猛,已经成为人类进行信息传播的主要渠道[1]。随着网络技术的不断发展,人们利用多种文件协议和格式作为信息的载体,从不同角度反映信息中所包含的内容,这就使得互联网成为一个巨大的数据容器,各种文本文档、XML文档、音频文件、视频文件等等多媒体数据包括在其中,对于如此庞大的信息数据,如何对其进行快速检索已经成为研究互联网的一个热点方向[2]。搜索引擎的出现在一定程度上帮助人们可以快速、准确地找到所需的数据,但同时,对于基于内容的信息检索方法也成为检索多媒体信息的主要研究方法。
在相关领域中,语义Web是目前研究互联网信息检索的主要热点之一,其中W3C组织在语义Web发展中起到非常重要的推动作用,对大量相关技术进行了标准化。语义web被称为是“第三代web” [3],是对WWW功能的进一步扩展,使得网络信息成为可以被理解的形式,这有助于使用智能分析工具对网路信息进行解读,并帮助人与计算机之间建立沟通的渠道,利用计算机可理解的信息表达方式可以大大改善网络环境下的智能水平,并不断推动计算机网络化的发展[4]。
关联开放数据(Linked Open Data,LOD)[5]是在基于语义网和本体技术的高质量信息表达方式,是关联语义数据的主要形式,其应用领域主要集中在基于语义的搜索和智能化推荐方面。关联数据的结构基础是在URL为核心数据的基础之上,利用RDF作为信息的描述结构,利用结构化数据表达网络非结构化文件信息,使得机器和用户都可以读懂这些网络数据,并建立协同工作的机制,是人们利用HTTP/URL机制的又一成功应用[6]。
由于关联数据是具有语义结构化的数据组织形式,因此可以方便地进行共享和重构,在进行资源发布的之后可以被充分分析和利用,应用在课程资源领域非常适合这类信息的组织和应用形式的要求[7]。同时,由于关联数据可以实现跨平台和跨系统之间传递信息,因此在分布式环境下进行语义查询时可以借助分布式语义扩展进行本体推理和跨结构分析等等。对关联数据建立语义索引结构,可以方便用户精确、快速地定位自己所需要的知识资源,并利用推理机制进行语义关联化查询等等。
在语义研究领域,基于结构化的语义分析技术是各种先进信息技术的基础,在此基础之上扩展到语义网和分布式语义分析也得以实现。国内外许多学者在研究万维网语义数据时,涉足多个领域和学科,包括生物学、信息学、哲学、地理、物理等等[8],可以从不同粒度、不同层次、不同角度对这些学科中的问题进行分析,并借助大数据进行规划化、异构化语义数据处理。
大量易购数据整合的方法往往使用诸如纠错、填补以及格式转换等数据清洗的方法,同时需要对大数据建立高效的访问机制,语义数据的分析工具要借助数据仓库的配合,这得益于多维数据技术,才使得大量语义数据的分析成为可能。目前,研究人员的研究方向主要集中在数据万维网数据集成和数据存储及索引方面[9-12]。
在网络资源语义分析方面,利用关联数据对课程数据进行数据分析和知识管理对充分利用网络知识环境进行科学求解带来非常重要的理论意义,其应用前景也非常广泛。
Tim Bemers Lee[13]提出语义web的主要思想就是利用本体与语义web中的信息含义层进行组合,并通过语义web的特殊结构表现出来,进而可以将网络信息更加智能化,对数据的访问更加自动化。大部分语义web的研究学者都是基于这一思想开展后续工作的,同时,将本体与语义web结合在一起的研究也应运而生,其中一个重要的学术分支就是利用本体进行语义检索,现在已经有越来越多的学者参与到这方面的研究上来。利用本体进行语义检索可以克服传统检索的不足,将以关键字为信息查询的方法变为以语义条件的语法进行信息匹配[14],这大大增加了语义相关性的检索的智能型,并有效提高检索的查全率和查准率。
由于语义信息查询可以提供领域专家的信息比对和信息语义解读,因此基于语义的信息查询可以向用户提供语义化查询功能之外,还可以提供语义查询引擎的功能,使得用户更可以从语法层面进行信息传,将查询内容的相关内容以语义资源的形式呈献给用户,客服了传统关键词查询的缺陷,在一定程度上实现了智能检索的功能,为信息检索的研究领域开辟了一个新思路[15],其应用范围也将会进一步扩展。
对于目前信息检索领域的研究,大致可以分为三类,即全文检索、数据检索和知识检索,其中知识检索就是利用语义检索来实现[16]。全文检索的方法比较简单,利用词语的机械匹配进行检索,其查全率比较高,是目前绝大多数数据库所使用的检索方式。数据检索在全文检索基础之上进行了扩展,利用特定格式和结构对特定字段进行检索,往往应用在文献数据库中,进行关键词检索和信息标示方面。这种方法的最大缺点就是需要利用人工的方式对所有资源进行标识,检索效果的优劣也受信息资源标识的质量所决定。在知识语义的基础之上,配合高效的检索策略,使得语义检索成为可能,并不断改善各项性能。
语义web中利用资源描述框架和本体[17]进行概念层面和逻辑层面的检索,因此具有一定的智能,广泛应用于语义检索。RDF在W3C[18]的帮助下已经形成了较为标准的模型体系。
1.2 国内外发展现状
1.2.1 关联数据研究Tim Bemers-Lee在其的著作《关联数据》[19]中首次提出关联数据的概念,主要原理是利用分布式数据集和具有自主内容格式的标准知识表达方式,配合统一的检索协议,将信息以动态关联的网络化知识表现出来,并在此基础之上形成知识组织和知识发现。其中需要大量信息检索和知识发现方法作为支撑工具,例如数据挖掘、人工智能等等。
维基百科是这样定义关联数据的:关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识,发布和部署实例数据和类数据[20],从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人机理解的语境信息。
关联数据是传统数据的一种表现形式,也可以说是一种向外发布的形式,其关键因素是以URL为基础的数据对象,而不仅仅是一个文档类型,这种数据对象使用RDF结构进行描述,RDF中充分标识了URL所需要的所有资源,只要需要访问这些资源的对象按照RDF的对外接口规范,就可以获取资源列表。
在关联数据的结构中,URI是关联数据的唯一标识,其决定了关联数据的可关联性,而RDF是对数据进行语义描述的结构。RDF文件中所关联的其他资源都是由URI所标识的,这种标识方法使得关联数据都比较“充实”,放弃了大量“空资源”[21]。同时,RDF文件均由URI所标识,没有URI标识的RDF将会别视为“游离状态”,再结合关联数据的“垃圾处理机制”可对这类RDF进行自动化处理。RDF表达的链接是基于语义的,不仅是一个可用的链接,这种链接是当前资源与链接资源之间关系的体现。
关联数据是一种简单的标准化访问机制,它没有复杂的数据接口和庞大的输出结构,而是轻量级的数据和其关联关系的集中体现,其数据源往往需要满足以下条件:首先是数据可以被搜索引擎所捕获,其次是可以使用一般的数据浏览器访问这些数据,最后可以使用链接的方式标识不同数据源之间的关系。
关联数