本文是一篇计算机软件 ,本文以跨媒体数据的内容相关性和语义关联性为主要研究重点,通过子空间学习方法,把不同媒体数据线性转换到统一空间中来进行下一步的工作。在对经典跨媒体算法的分析和研究后,分别提出了基于图正则化与模态依赖的跨媒体检索算法和基于特征关联学习的跨媒体检索算法。
第一章 绪论
1.1 研究背景及意义
信息技术的飞速发展使得互联网逐渐深入人们生活的方方面面,而互联网的普及不仅给人类社会带来了便利也带来了挑战。形式多样的信息化平台实时更新着海量的多媒体信息资源,这些来自不同方面的信息资源相互融合,呈现了信息环境的多元化趋势。它们以不同的形式向人们展示着多姿多彩的事物,即相同的事物可以由多种形式的媒体数据来描述。比如,用户想了解国宝大熊猫的相关信息时,在搜索引擎中输入关键字跳转到相关网页,网页会通过大熊猫的有关图像、文字描述和音频介绍等不同的媒体形式来展示它的详细信息。内容异构的数据之间通过相同的事物描述进行了交叉关联,这种关联方式主要模拟人类大脑的联想思维,即事物联想是由一种到多种的感知过程。为了研究不同媒体数据间的潜在关联,研究者提出了多媒体检索技术的研究课题。
基于文本的多媒体检索技术主要依靠多媒体数据的关键文本信息进行检索。这种单一的检索技术对于人工标注有一定的需求和依赖,其所需要的大量人力带来的人工成本也越来越高,且无法避免的主观差异性会导致多媒体数据蕴含的代表性信息描述难以被发掘。基于内容的多媒体检索技术突破了单一文本信息检索的局面,它对多媒体数据的内容进行分析处理和特征提取,进而根据其内容表示和语义信息来建立索引以此实现有效地信息检索。该检索技术的不同点在于节省了大量的人力资源,其内容处理过程由计算机自动进行,且在检索过程中检索方式由传统的关键字匹配转换为数据相关性匹配。但基于内容的多媒体检索只应用于多媒体数据的底层原始特征的相关分析中,无法解决异构数据底层特征之间的相关性匹配问题,因此其检索结果的准确性仍有待提高。为了克服异构数据的不可比性,实现相似语义的异构数据之间的查询,研究者提出了更快捷有效的跨媒体检索技术。
...........................
1.2 国内外研究现状
近年来,为发现复杂类型数据间的潜在相关关系,一部分研究者将机器学习方法[52]应用到跨媒体检索领域中。跨媒体检索目前主要面临的问题在于原始数据的异构性,它使得数据不能直接进行相互测量,而异构数据的复杂关系也造成了空间异构现象。针对存在于不同特征空间中的多媒体数据,跨媒体检索在底层特征的基础上利用高层语义的关联将它们联系起来,进而充分挖掘和分析数据特征的隐含相关关系。当前跨媒体检索方法主要有子空间学习方[53]、深度学习方法[51][59]和哈希方法[60][61]等。
1.2.1 子空间学习
子空间学习[3-5]是目前跨媒体检索中最常采用的方法之一,它将不同的媒体数据映射到一个共享的潜在空间中,在此空间中的相似数据彼此靠近并且异构数据的相似度可直接进行测量。该方法在为维度不同的异构数据寻找共同子空间时,可以学习获得相同维度的数据空间表示,不同数据之间的内容相关性也因此得以深入分析。
典型相关性分析(Canonical Correlation Analysis,CCA)[2]是最经典的方法之一,该方法最大化了异构数据的内容相关性。由于它缺少对语义信息的考虑,即没有进行有效地语义关联,所以它属于无监督方法。多视图 CCA[6]在 CCA 基础上将语义信息转换为第三语义视角,从而实现相似异构数据的语义类别聚合。Hwang 等人提出的核典型相关分析(Kernel Canonical Correlation Analysis, KCCA)[7],把核函数引入 CCA 中,改变了CCA 只适应于线性数据表示的现状,在高维特征空间即核函数空间中不同数据得以实现非线性关系的相关分析。这些基于 CCA 的方法虽然操作简单但是没有考虑相关的语义信息,而多标签 CCA[8]可以较好地学习多媒体数据的多个语义标签的重要信息,由此可知异构数据的多标签信息对跨媒体检索性能的提升具有一定的优势。
.............................
第二章 跨媒体检索的相关综述
2.1 跨媒体数据的特征预处理
由于计算机无法直接对多媒体数据进行处理,所以在进行跨媒体检索之前需要对不同数据进行特征预处理,将其转换成可相互计算的特征表示。实验数据集中的图像数据和文本数据的特征表示是通过对应的特征提取方法获得的。对于图像数据的特征提取,不同图像所包含的特征信息可利用卷积神经网络的多个卷积层进行捕获和运算,从而得到每个图像数据的 4096 维视觉特征的抽象表示。对于文本数据的特征提取,不同文本所包含的特征信息可利用词袋(Bag Of Words, BOW)模型进行学习,从而得到 100 维文本数据特征的抽象表示。在词袋模型中,虽然计算不同词的词频可以反映出不同词出现的概率,但不能很好地体现文本信息的语义关系。而隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)作为一种聚类算法模型,以多项式分布给出每篇文档的主题,从而进行文本信息的语义分类。
由于不同媒体的数据特征可能出现数量级不相同的情况,所以不同数据特征需要通过归一化来进行预处理操作。归一化处理将数据特征约束在一定范围内,数据特征处于同一数量级的状态,使得之后的实验结果不会出现极大的偏差。常用的归一化特征处理方法有线性函数归一化(Min-Max Scaling)和零均值归一化(Z-Score Normalization)。对原始数据的处理主要是利用线性函数归一化的方法等比例缩放数据,将其转换到[0,1]范围内。
...........................
2.2经典的跨媒体检索算法介绍
2.2.1基于异构高阶保持的相关性建模跨模态检索(HCCA)
基于异构高阶保持的相关性建模跨模态检索(Modeling intra-pair and inter-pair correlation via heterogeneous high-order preserving for cross-modal retrieval, HCCA)[38]主要研究和分析同构数据对和异构数据对的高阶相关性。该算法通过构建数据对的超图模型来表示数据之间的对应关系,不仅考虑了不同数据对之间的潜在关联,也考虑了标记数据和无标记数据的语义信息。该算法采用 HCCA 来学习数据对的线性相关关系,采用HKCCA 来学习数据对的非线性相关关系。
基于实体级细粒度相关性的跨媒体检索(Cross-media retrieval by exploiting fine-grained correlation at entity level,DPEP)[39]针对大多数方法仅利用底层特征和高层语义之间的粗粒度语义关联,从而忽略了原始特征包含的潜在语义关联信息的现象,提出了一种基于细粒度相关性分析的跨媒体检索学习框架。该方法选用统一的语义子空间来进行学习,以求获得不同数据的统一特征表示。在映射过程中,底层特征和高层语义之间通过实体级细粒度学习获得更为精确和全面的语义信息,以此加强语义子空间中异构数据间的语义关联性,从而提高了跨媒体检索的精确度。
................................
第三章 基于图正则化与模态依赖的跨媒体检索算法 ................. 17
3.1 基于图正则化与模态依赖的跨媒体检索算法 ........................... 17
3.1.1 目标函数............................... 18
3.1.2 迭代优化......................20
第四章 基于特征关联学习的跨媒体检索算法 ............................... 31
4.1 基于特征关联学习的跨媒体检索算法 ........................ 31
4.1.1 目标函数............................ 31
4.1.2 迭代优化................... 33
第五章 总结与展望 ................................ 41
5.1 研究内容总结 ............................ 41
5.2 工作展望 ............................... 42
第四章 基于特征关联学习的跨媒体检索算法
4.1 基于特征关联学习的跨媒体检索算法
4.1.1 目标函数
上述算法对不同媒体数据进行线性映射,将数据特征从原始空间转换到公共空间中,异构数据在该空间中实现了相似性度量。实验采用了传统的度量方法(欧几里得距离)来计算数据的相似距离,并使用第三章中详细介绍的评价指标 MAP 值和 PR 曲线来证明所提出算法的可行性和有效性。实验数据集依旧选用第三章中介绍的 Wikipedia、Pascal Sentence 和 INR