本文针对硬截幅的语音信号恢复任务,尝试采用不同的深度学习模型 Wave-U-Net 和CRN以及二者的混合模型用于截幅恢复。Wave-U-Net 和 CRN 都具有编码/解码器的结构,但它们对特征的分析域不同,Wave-U-Net 是直接对时域波形进行恢复,而 CRN 是在频域进行恢复,二者各有优势,通过适当的设计组合可以达到更好的恢复效果。本文对比了各种模型的性能表现,分析实验结果,选择出恢复效果最好的模型组合 UNet-CRN,该模型利用 Wave-U-Net和 CRN 分别学习语音的时域信息和频域信息,并将二者有效整合成一个新的混合模型用于语音的截幅恢复。另外还提出了专门针对语音截幅任务的区间损失,这一改进不但可以提高截幅程度较重时的恢复语音质量,更重要的是可以有效解决截幅程度较轻时恢复语音质量反而变差的情况。另外文中还展示了许多模型的训练技巧,以便模型能更好地收敛。
参考文献(略)