本文是一篇软件工程硕士论文,本文充分调研了现有的多标记学习算法,分析了这些算法的优缺点,针对弱监督场景下的多标记学习算法进行了研究,并围绕弱监督多标记学习问题提出了两个噪声容错多标记学习模型,以及设计并实现了一个图像标注的原型系统。
第一章 绪论
1.1研究背景
二十一世纪以来,随着计算机科学技术的迅速发展,人工智能在无人汽车,语言翻译,医疗,人脸识别,语音识别,身份验证等领域都有着广泛的应用。机器学习作为人工智能领域的研究热点,使得机器可以像我们人类一样,通过从以往的经验数据中学习,并不断改善自身性能,从而对未知事物进行判断分析,并且机器学习能够处理大规模数据,远超人类的处理能力,因此取得了巨大的成功。根据有没有监督信息,可以把机器学习方法分为以下三类:监督学习,无监督学习和半监督学习。其中监督学习[1]是机器学习中应用最为广泛的一类,而在传统监督学习中,一个示例只对应一个类别标签,我们把这种问题的学习称作单标记学习问题,单标记学习问题也取得了成功应用。
然而,在实际应用中,真实世界的对象往往是多义性的,一个示例通常与多个标记相关联,例如一首歌曲可能有“青春励志”和“校园”两种体裁;一篇文档可能同时与“人工智能”,“机器学习”和“深度学习”三个主题相关;一幅图片通常包含多个物体等,如图1.1(a)是一幅自然风景图片,我们可以认为它属于“天空”这个类别,同时我们也可以认为它属于“树木”或者“田野”这些类别;再如图1.1(b)的一个知乎话题,这个话题既和“互联网”相关,又和“餐饮”,“社会”相关。像这种一个示例对应多个类别标记的问题,如果用单标记学习问题去解决只考虑了明确单一的语义显然是不准确的。针对这种分类问题,多标记学习(Multi-Label Learning)框架[2]由此产生,在多标记学习框架下,一个示例不再对应一个类别标记,而是将所有与之相关的标记都赋予给示例,多标记学习在早期的研究中,主要用来解决文档分类中遇到的多义性问题[3],随着技术的不断发展,现在多标记学习已经广泛应用于各个领域,如文本分类[3],图像标注[4][5],图像分割[6],视频注解[7],面部表情识别[8],生物信息学[9],推荐系统[10]等各个领域。
1.2国内外研究现状
1.2.1 主要研究方法
由于多标记学习有着广泛应用,在国际学术会议或者期刊上,已经提出了许多行之有效的方法来解决多标记学习问题。一方面,根据文献[16]提出的多标记学习分类方法,可以将多标记学习分为两大类:问题转换(PT)和算法适应(AA)。其中问题转换方法是将多标记分类问题转换成多个单标记分类问题,这里最具有代表性的方法就是 Binary Relevance(BR)[17],BR 算法通过将多标记学习问题转换成多个独立的二分类问题,再用成熟的二分类算法如支持向量机(SVM)[18],决策树[19]等方法进行分类,但是如果当标记数量特别庞大的时候,就会非常耗时,效率低下,并且需要大量的存储开销。另一种算法适应方法直接将单标记分类算法修改为多标记分类算法,以此来解决多标记问题,最具代表性一种算法就是 ML-kNN[20],它将惰性学习算法 k 近邻进行改造,从而可以适应处理多标记问题。但是问题转换方法和算法适应方法都是以传统二分类问题为基础,因此忽略了各个标记之间的关联关系,有一定局限性。另一方面,也可以根据处理标记关联关系方式的不同,把多标记学习算法分为以下三类[21],第一种也是最简单的一种是“一阶”策略,该策略把多标记学习问题拆成许多个二分类问题,例如经典的 BR 算法,它把多标记拆成多个独立的单标记,单独的为每个标记训练一个分类器,这种方法完全忽略了与其他所有标记的关联关系,所以泛化能力很弱。第二种是“二阶”策略,“二阶”策略通过考察两两标记之间的关联关系,从而构造分类器,它相比于“一阶策略”由于考察了两两标记的关联关系使得泛化能力更强,最典型的算法就是Calibrated Label Ranking(CLR)[22],然而当实际问题中不仅只有“二阶”的关联关系,这时“二阶”策略会受到影响。因此,第三种“高阶”策略考察了高阶的标记相关性,考虑到了所有标记之间的关联关系,例如 Classifier Chain(CC)[23]将多标记学习问题转换成链式的二元分类问题,以及基于随机 k 个子集的算法 Random k-labelsets(RAKEL)[24]等。“高阶”策略由于考察了所有标记之间的关联关系,因此可以更加真实反映现实世界复杂的标记关系,但是这些模型复杂度通常较高,计算代价也太大。
第二章 相关背景知识介绍
2.1多标记学习问题定义
多标记学习框架可形式化定义如下,设𝒳 = ℛ𝑑表示𝑑维输入空间,以及标记空间为𝒴 ={𝑦1, 𝑦2, … , 𝑦𝑐},共有𝑐个标记,多标记数据集表示为𝒟 = {(𝑥𝑖, 𝑌𝑖)|1 ≤ 𝑖 ≤ 𝑛},其中𝑥𝑖∈ 𝒳是 d维特征向量,𝑌𝑖∈ 𝒴是𝑥𝑖的相关标记集合。多标记学习的任务是从数据集𝒟中学习一个分类器ℎ: 𝒳→2𝒴,从而对一个未见示例𝑥 ∈ 𝒳预测一个相关标记集合ℎ(𝑥) ∈ 𝒴。
多标记学习解决一个示例对应多个标记的问题,其数据形式如表2.1所示,根据章节1.2的描述,多标记学习算法分为“问题转换”和“算法适应”两种。“问题转换”方法把多标记学习问题转换成一系列二分类问题,例如 BR 算法[17],CC 算法[23],LP 算法[17]和 CLR 算法[22]等。“算法适应”方法将单标记算法进行改进,使其能直接处理多标记学习问题,例如 ML-Knn算法[20],LEAD 算法[49]和 Rank-SVM 算法[50]等。
2.2多视图多标记学习
在许多实际应用中,许多对象都具有多样性的描述以及丰富的语义信息,例如图2.3,在图像标注中,一个自然风景图片我们可以从 HSV 颜色空间提取它的特征,同时也可以基于图像全局 Gist 特征或者尺度特征变换(SIFT)特征提取,从而给这张图片标注上{雪景,山,树,天空}四个标记,又例在对电影《阿甘正传》进行标注时,我们不仅可以通过视频进行特征描述,也可以通过标题,音频等其它信息对数据进行表示,从而给该电影打上{剧情,励志,汤姆汉克斯}等标记。多视图多标记学习[36-42]就是解决这类问题的框架,多标记多视图学习从不同的视图对同一个具有多属性对象进行描述,并且该对象具有多个标记,基于此进行建模训练。
由于多视图多标记学习每个对象有多个视图特征信息,如何融合多个视图的特征信息成为了关键,现有的常见多视图多标记算法通常分为基于特征的融合策略 early fusion 和基于集成学习的融合策略 late fusion。Early fusion 是基于特征拼接的数据融合方式,将多个视图的特征信息拼接成一个视图,基于这一个新的视图进行学习。
Zhang 等人[42]提出的 MSFS 模型,该模型是基于特征选择的一个算法,先将所有视图的特征直接拼接成一个完整的特征矩阵,通过对标记矩阵进行矩阵分解得到潜在标记空间,并挖掘了各个视图的特征标记局部结构关联关系,利用𝑙2,1范数进行特征选择。Zhu 等人[40]提出的 MVML 模型利用 F 范数选择具有有用信息的视图,同时利用𝑙2,1范数选择具有有用信息的特征,所有类标记共享所有选择的特征,并且忽略不同特征对每个类标记的贡献。iMVML[38]解决了有缺失视图的情景,利用非负矩阵分解从多个不完全视图中学习公共的有判别性的低秩表示。McWL[26]通过将每个数据视图的独立 kNN 图与核排列技术相结合,从而学习复合加权图,然后采用矩阵补全法,以学习的复合加权图作为输入特征进行预测。
第三章 基于标记增强的单视图混合噪声容错多标记学习 .......................... 15
3.1模型介绍 ................................. 15
3.2模型优化求解 .................................. 18
3.3实验结果与分析 ............................ 19
第四章 基于标记增强的缺失多视图噪声容错多标记学习 ........................... 25
4.1模型介绍 .................................. 25
4.2模型优化求解 ............................ 28
4.3实验结果与分析 ................................... 30
第五章 图像标注原型系统的设计与实现 ......................... 34
5.1系统需求分析 ............................. 34
5.2系统概要设计 ........................ 35
第五章 图