基于机器学习的情感计算模型超参数优化方法探讨

日期：2022年04月08日编辑：ad201107111759308692 作者：无忧论文网点击次数：929

论文价格：150元/篇论文编号：lw202111251528547309 论文字数：32336 所属栏目：软件工程硕士论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

本文是一篇软件工程硕士论文，本文主要针对应用于情感计算领域中的深度学习模型带来的超参数优化难的问题提出超参数自动搜索算法，这一想法受到了图像处理领域中通过调参取得了较好的结果这一启发。

第一章绪论

1.1 选题背景与意义

1.1.1 选题背景

深度学习提供了一种黑盒方法从复杂和高维的数据中学习。深度学习方法由浅入深地学习数据的特征表示[1]，显著提高了计算机的处理能力和大量的数据处理能力，克服了传统人工神经网络的限制，已被越来越多地应用于语音自动识别、自然语言处理、生物信息学、图像识别和机器翻译等研究领域。同样，深度学习算法的应用推动了情感计算领域的快速创新和发展，然而，在情感计算领域，深度神经网络带来机遇的同时也带来了挑战，最大的问题就是超参数如何设置。超参数主要包括两种，一种是结构化超参数，例如网络层数、隐藏层单元数等；另一种是运行超参数，例如学习率、batch-size 等。

随着模型复杂度的提高，超参数的搜索空间就会越来越大，目前选择超参数的方法仅仅依靠经验设置和人工搜索，这种方法是可行的，但不是最优的，面对大量的超参数组合，不仅费时、费力，最重要的是做不到穷举。网格搜索和随机搜索是一种自动搜索超参数方法，然而，这些方法具有盲目性、随机性、需要大时间和硬件资源等缺点。

在情感计算领域，超参数的选择会在很大程度上影响模型的识别或预测的性能，而现有的调参方法存在着诸多问题，因此，选择最优超参数的研究迫在眉睫。

1.1.2 研究意义

深度学习方法在很多领域都得到了成功应用，同样包括情感计算领域。然而，随着情感计算领域深度学习模型越来越复杂，模型的训练复杂度随着模型的复杂而提高，超参数的搜索空间也在不断增大。超参数不同于可训练参数，它是在模型训练之前就设置好的，需要高度的专业知识或大量的经验来很好地优化超参数以达到一个更好的效果。

在图像分类中，其基准的最新进展来自现有技术的更好配置，而不是新的特征学习方法，说明了一组好的超参数配置能够很大程度上影响实验结果，充分证明了超参数配置的重要性。因此，这就引出了一个重要的研究问题，就是如何利用现有的模型经过调参取得更好的结果---超参数优化。超参数优化[2][3][4]是选择超参数值的过程，其目标是最小化测试误差，通常通过将一部分训练数据分离到一个验证集并在这些示例上评估每个训练模型来估计。传统上，超参数优化一直是人类的工作，只是局限于有限的计算能力，并未对其进行深入的研究。目前，网格搜索、随机搜索、人工经验设置以及基于贝叶斯优化等是常用的调参方法。

1.2 国内外研究现状

在深度学习中，超参数是训练机器学习或者深度学习模型之前设置的、在训练过程中无法更新的参数，选择最佳超参数的过程称为超参数优化(HyperParameter Optimization，HPO)。超参数优化的目的是优化算法在数据集上的性能，通常使用交叉验证评估超参数性能[5]。寻找最佳超参数值的过程通常也被转化为优化问题，但是优化了训练集上的损失函数[6]。超参数可以参与建立模型的结构，如隐藏层数和激活函数，也可以参与确定模型训练的效率和准确性，如随机梯度下降(SGD)、批处理大小和优化器的学习速率(LearningRate)。优化超参数的方法的发展历程可以总结为以下四个阶段：

第一阶段：盲目搜索阶段。起初，研究人员通常依据经验人工手动设置超参数，直到 2003 年网格搜索算法被应用于支持向量机的超参数优化问题中，这是一个自动搜索、并行计算过程。2006 年，Yukun Bao 等人提出在模型训练中寻找最大误差下降路径，以此优化网格搜索路径[7]。2007 年提出基于梯度优化算法，通过计算超参数的梯度使用梯度下降方法优化超参数，而这些技术的第一次使用集中在神经网络[8]，之后开始扩展到其他模型，如支持向量机[9]、逻辑回归[10]等。2012 年 Bengio 等人提出当超参数规模较大时，随机搜索将会是更高效的超参数优化方法[11]。

第二阶段：继承性地搜索阶段。贝叶斯优化(Bayesian Optimization，BO)弥补了网格搜索和随机搜索盲目性的缺点，借鉴之前的超参数的经验，更快更高效地选择下一组超参数。

第三阶段：解决搜索资源受限问题。针对超参数搜索过程中出现资源不够的问题，Jamieson 在 2015 年提出了 Successive Halving 算法，这种算法思想是对所有组超参数组合均匀地分配预算并根据验证评估结果淘汰一半表现差的超参数组[12]，然后重复迭代上述过程直到找到最终的一个最优超参数组合。随后提出了Hyperband 算法对 Successive Halving 算法进行扩展。

第四阶段：贝叶斯参数优化器+Hyperband。深度学习中需要高度的专业知识或大量的经验搜索超参数，Jiazhuo Wang 等人[13]提出了将贝叶斯优化和hyperband 算法结合用于深度学习算法的调参问题，结果表明犹豫单一的hyperband 算法。

第二章相关基础理论知识

2.1 任务介绍

2.1.1 语音情感识别(Speech Emotion Recognition，SER)

语音信号是人类之间最快、最自然的交流方法[25]，由于语音信号中携带的信息具有多样性，近年来，语音情感识别受到了研究人员的热切关注，它的提出为语音识别作了补充，实现了人机交互中的情感智能化，促进了人机交互的自然度、和谐度。有研究人员将语音情感识别(SER)系统定义为一组处理和分类语音信号以检测其嵌入情感的方法[26]。SER 是情感计算领域的一个重要任务，并由于人工智能技术的发展有了前所未有的突破，它可以应用于说谎探测、机器翻译、呼叫中心等领域。一个语音情感识别系统包含情感模型的建立、特征提取以及情感识别三个阶段。情感模型两种，分别是离散型情感模型和维度情感模型。离散情绪理论是基于 Ekman 等人所描述的六种基本情绪(悲伤、快乐、恐惧、愤怒、厌恶和惊讶)，这些与生俱来的和文化上独立的情感经历了很短的时间，其他情绪是通过六种基本情绪的组合来获得的[27]，现有的 SER 系统大多集中在这些基本的情感类别上。在日常生活中，人们使用这个模型来定义他们观察到的情绪，因此基于情绪类别的标记方案是直观的。然而，这些离散的情感类别无法定义日常交流中观察到的一些复杂的情感状态。维度情感模型是一种替代模型，它使用少量的潜在维度来表征情绪，如唤醒、价态、控制、力量，这些维度是情感的明确和通用的方面。在维度模型中，情感并不是相互独立的；相反，它们在系统上是相互类比的，但是维度情感模型不够直观。

特征是语音情感识别的一个重要方面，一组好的特征能够成功地描述每种情绪，以提高识别率。而语音之间长短不一，它同时承载着语义信息和情感。因此，可以根据所需提取全局或局部特征。传统的语音特征大多使用基于声学，主要包括韵律学特征、音质特征、频谱特征以及基于 Teager 能量算子特征[28]。韵律学特征是那些人类可以感知到的特征，如音高和基频等。音质由声带的物理特性决定，和谐波噪音比(HNR)是常用的音质特征之一。

2.2 情感计算相关数据库介绍

本节将介绍本研究采用的 IEMOCAP 数据集和 AVEC 2017 数据集。

2.2.1 IEMOCAP 数据集

本研究采用由美国南加州大学 SAIL 实验室收集的 IEMOCAP(interactiveemotional dyadic motion capture database)公用英文数据集中语音数据进行语音情感识别[38]。此数据集是由 5 男 5 女分别在 improvise（即兴表演）和 script（脚本）两种情形下进行录制，为了保证情感标注的准确性，每个句子由 3 个人进行标注，最后选取被标注次数的情感作为该样本的情感标签，每个句子样本对应一个情感离散标签和情感维度标签。该数据集的样本和其情感标签在一个 TXT 文件中，一个文件夹的名称对应一个情感标签，因此需要进行数据的预处理，将标签与文件夹名称进行分离提取，为每个语音样本赋予情感标签，这才是监督学习的关键所在。由于其数据的特殊性，通常在研究中会进行 5 折或者 10 折的研究。

IEMOCAP 数据集在离散情感模型分为愤怒、悲伤、高兴、厌恶、恐惧、惊讶、沮丧、激动以及中性等九个情感，但在大多数研究中，研究人员只选用了悲伤、高兴、生气以及中性四类情感做情感识别分类，在这四种情感中，由于高兴的语音样本较少，且激动与高兴有相似的语音特征，因此在研究中通常将激动和高兴合并为一个情感类别，共 5531 条语音样本进行训练，本文就是采用这种方式对深度学习模型进行 5 折训练，表 2-1 描述了数据分布：

软件工程论文怎么写

第三章超参数自动化优化方法....................................17

3.1 超参数简介........................................17

3.1.1 运行超参数.....................................17

3.1.2 结构化超参数..................................18

第四章基于超参数自动搜索的语音情感识别...................................28

4.1 算法描述....................................28

4.1.1 自注意力模型...........................................28

4.1.2 Non-Local 算法................................30

第五章基于