计算机论文范文栏目提供最新计算机论文范文格式、计算机论文范文硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于深度学习的语音截幅恢复

日期:2022年06月25日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:455
论文价格:150元/篇 论文编号:lw202206021533474978 论文字数:25322 所属栏目:计算机论文范文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇计算机论文范文,本文收集整理了关于截幅以及截幅恢复的国内外相关研究,了解了什么是语音的截幅,以及如何对截幅现象进行数学建模以便后续研究。

第一章  绪论

1.1 研究背景与意义

声音是由物体振动产生的声波,其通过介质传播进而被人或动物的听觉器官所感知。声音的频率和振幅是其作为波的两种重要属性,通常所说的音高对应着频率的大小,而振幅影响声音的大小。语音信号实际上是由不同频率、不同振幅的正弦波叠加构成。随着语音科技生态系统的不断扩展,越来越丰富的语音技术逐渐融入人们的日常生活中。自动语音识别(automatic speech recognition,ASR)[1],说话人识别(speaker recognition)[2],语音合成(speech sysnthesis),语音转换(voice conversion)[3]等技术趋于成熟,并广泛用于生产生活中[4][5][6]。

在网络信息化技术迅速发展的今天,每天都有大量的音频数据出现在 Web、呼叫中心的数据服务器以及智能手机等移动设备上,语音的传输质量变得至关重要。在硬件设备中,通常对输入音频存在限制范围,如果一个信号的振幅超过数字系统的限制,那么超过的部分会被丢弃,这一过程称为截幅,在这种情况下,与正常音频产生的平滑正弦波不同,放大器将输出一个方波,导致声音失真[7],音频截幅现象是一种常见的非线性失真,属于饱和失真。这种失真会在很大程度上降低听力质量和清晰度,并对后续的任务(如 ASR)产生不利影响[8]。

乘着新时代人工智能的东风,深度学习迅速发展,神经网络模型日新月异,尤以其在图像、语音、自动驾驶(auto pilot)等领域的优异表现而备受社会各界关注。因此利用神经网络解决问题是当今科研领域的主流思路:通过设计合理的神经网络模型,利用数据来驱动模型,迭代优化模型的训练效果,逐步获得良好的实验结果。本文将利用这一过程来探索解决截幅恢复问题,并与其他多种截幅恢复方法进行对比,旨在得出更为可靠、有效的解决方案。

1.2  音频截幅恢复概述

1.2.1  音频的截幅方式

音频的截幅方式主要有两种:硬截幅(hard clipping)和软截幅(soft clipping)[7]。 1.  硬截幅:在硬截幅中,仅原始信号中幅度大于截幅阈值的采样点将被截断,而其他部分将不会失真。

由硬截幅的表达式可以看出,这种截幅情况仅在幅度超过截幅阈值的采样点上进行操作。图 1.1 中展示了同一条语音在对称硬截幅前后的语音波形状态,上图为未截幅语音的时域波形图,下图为按一定阈值截幅之后的时域波形图。

计算机论文范文怎么写

第二章  基于深度学习的语音截幅恢复

2.1  深度学习语音截幅恢复系统原理

实际情况中,对真实语音信号的裁剪是高度复杂且非线性的,尤其是在截幅幅度未知或变化的情况下。深度神经网络具有分层架构和多层非线性,因而适合于学习复杂的模式。本章介绍了目前基于深度学习截幅恢复的研究情况,包括系统框架、常用模型以及模型的训练。另外还展示了使用 Wave-U-Net 模型和卷积循环神经网络分别在时域和频域上进行截幅恢复任务的具体过程。

基于深度学习语音信号恢复的研究,一种直观的方法是在时域中重建原始信号。然而,由于时域中的语音是高度动态的,因此这变得相当困难。另一种合理的方法是在频域中进行恢复,即需要将语音信号从时域变换到频域,通过分析研究信号中各频率成分的分布,能够更好地恢复出原始信号并且更易于集成到其他任务的前端。用到的数学工具是离散傅里叶变换(discrete fourier transform,DFT),它的输入要求信号是平稳的。首先通常假设语音信号具有短时平稳的特性,即在 10~30ms 这样短的时间内信号是平稳的,即在这段时间内语音各种特性保持不变。因此为了将语音处理为短时信号,需要对其进行分帧、加窗。分帧是将采集到的音频数据分成一段一段的进行处理,每一小段就是一帧,通常在每两帧之间会有一部分重叠,称为帧移,设置一定长度的帧移是为了缓解后续加窗过程带来的频谱泄露问题,通常帧移小于帧长。加窗过程是设计一个合理的窗函数,将其与每一帧相乘,窗长即为帧长。常用的窗函数有:矩形窗、汉明窗(hanmming)、汉宁窗(hann)。不同的窗函数对信号的特征域影响不同。汉明窗被证明可以有效缓解频谱泄露现象,是信号处理中最常用的窗函数。

2.2  基于 Wave-U-Net 模型的语音截幅恢复

2.2.1  可行性分析

受 Kashani 等人的启发,本文首先尝试采用一种 U-Net 模型在一维时域的改进结构 Wave-U-Net[48]来进行截幅恢复。Wave-U-Net 最初应用于音频源分离任务,它直接在时域音频信号中分离源信号,通过包含更多特征且分辨率越来越低的特征图来计算长期依赖关系,从而更好得将源信号分离开。

Wave-U-Net 是一种典型的端到端结构。端到端的结构是将一个复杂任务的多个阶段或步骤集成到一起,从原始输入到最终输出构成一个整体。端到端模型的训练过程为:数据输入端到端模型后,会输出一个预测结果,该值与真实结果做误差计算后,再反向传播回模型的各层,并更新每一层的参数,直至模型收敛或达到预期效果,中间的所有操作都包含在神经网络内部,不再分多个模块处理。正是由于这样的设计,端到端模型的优势也非常突出,它可以有效解决每个模块训练目标不一致的问题,使训练过程更加容易;另外,多个阶段整体训练可以避免每个模块产生的偏差影响后一个模块。

模型的详细结构及各层的特征维度见表 2.1。表中 Conv1D(x,y)表示执行一维卷积操作,输入维度为 x,输出维度为 y,其基本结构中采用 zero-padding 策略;之后连接 LeakyReLU 激活函数(最后一层除外,它使用 tanh 作为激活函数)。通过抽值(Decimate)过程来完成降采样,每隔一个时间步长丢弃对应的特征,使得时间分辨率变为之前的一半。  上采样的过程是通过插值实现的。值得注意的是,许多研究中常用具有特定采样间隔的反卷积(Transposed Convolution)来完成上采样,但这样做会对输出产生混叠效应,影响语音的恢复效果。为避免这一现象,在 Wave-U-Net 中,使用线性插值代替反卷积来完成上采样过程,这样可以确保特征空间中的时间连续性,然后再进行正常的卷积。Concat(x)用来将局部特征和当前高维特征进行逐层级联。表中 Shape 属性列的参数表示为(batch_size,channel_num,feature_map),分别表示批量大小、特征通道数、特征图维度。

第三章  Wave-U-Net 和 CRN 的联合训练模型 .................. 25

3.1  联合模型的结构 .............................. 25

3.2  联合模型的训练 ............................... 27

第四章  使用改进的区间 MSE 优化损失函数 ............................ 31

4.1 传统的损失函数 ................................. 31

4.2 改进的区间 MSE ............................ 33

第五章  总结与展望 ................................ 35

5.1  全文工作总结 .................................. 35

5.2 后续工作展望 .............................. 36

第四章  使用改进的区间 MSE 优化损失函数

4.1  传统的损失函数

在机器学习中,为了体现模型预测能力,衡量变量的真实值与预测值之间的关系,提出了损失函数(loss function)的概念。损失函数又称为代价函数(cost fucntion),但二者略有不同,损失函数用于单个样本的预测,代价函数则是指在整个训练集上的平均损失,模型整体的目标旨在最小化代价函数。损失函数可以反应模型对数据拟合的好坏,我们期望损失函数值越小越好,代表模型的拟合能力越强。通常需要根据不同的任务选择或设计合适的损失函数,但无论是哪种任务,核心思想都是最小化真实值与预测值之间的误差,使推理结果更加准确。监督学习中包括两大任务:回归问题和分类问题,二者的区别在于模型预测的目标不同,回归问题是估计一个连续的值,分类问题则是预测一种离散的类别。因此损失函数多围绕这两类任务进行设计。用于回归问题的常用损失函数有:L1 损失、L2 损失、Huber 损失等;分类问题常用的损失函数有:较为简单的 0-1 损失、交叉熵损失、指数损失、铰链损失等。下面简单介绍几种常用的损失函数。

计算机论文范文参考

第五章  总结与展望

5.1  全文工作总结

由于目前硬件设备的限制,语音信号在设备传输过程中往往会发生截幅现象,导致语音失真,因此被截幅语音信号的恢复作为语音信号处理领域一项常见任务,受到诸多研究学者的重视,同时也出现了许多巧妙、高效的截幅恢复算法。本文收集整理了关于截幅以及截幅恢复的国内外相关研究,了解了什么是语音的截幅,以及如何对截幅现象进行数学建模以便后续研究。本文还调研了现实生活中对于语音截幅现象的恢复需求;研究了语音截幅恢复在深度学习领域的可行性,并着重介绍了几种基于深度学习的截幅恢复算法,分析总结它们各自的算法设计思想以及优缺点;总结了基于