图 4. 1 攻击者和防御者工作流程图
在对抗防御上,研究者们针对文本攻击已经提出了一些防御措施来增强深度学习模型的鲁棒性,例如拼写检查,拼写检查主要针对的是拼写错误的单词,恶意的拼写错误具有很强的攻击性,它们的目的是欺骗一些自动机制,比如电子邮件的垃圾过滤器。拼写检查防御方法主要分为两个步骤:第一阶段是算法对拼写错误的单词进行检测,寻找出在表面形式上与拼写错误的单词相似的候选词。第二阶段是通过上下文比较,选择最佳的候选词对拼写错误的单词进行修改。拼写检查防御方法可以防御字符级的扰动产生的对抗性样本,字符级的扰动是通过对英文单词插入一个字符,删除一个字符,或者随机交换字符间的顺序等方法来产生对抗性样本。拼写检查通过对拼写错误的单词进行纠正来防御字符级扰动产生的对抗性样本,但是该防御方法无法直接应用于单词级的扰动产生的对抗性样本。因此,为了填补这一空白,提出了一种基于对抗性训练的防御方法来防御单词级扰动产生的对抗性样本,该方法可以有效的增强深度学习模型的鲁棒性。
.............................
第五章 总结与展望
5.1 总结
深度学习的快速发展使得它在各个领域的应用都取得了巨大的成功,由于深度学习出色的表现,它已经被广泛地应用到了现实世界,包括一些安全领域。但是近年来越来越多的研究证实了深度学习模型在设计好的输入样本中非常脆弱,攻击者在原始样本中添加一些细微的扰动,深度学习模型就会给出一个错误的分类结果。深度神经网络的脆弱性已经导致许多领域都有了潜在的威胁,同时深度神经网络的脆弱性也成为了深度学习在现实生活中进一步发展的绊脚石。
为了探究在对抗性环境下深度学习模型在情感分析领域的脆弱性问题,本文从两个方面对其进行了研究。第一,在对抗攻击上,本文提出了基于同义词替换的对抗样本生成方法,该方法可以有效地产生高效可用的对抗性样本。第二,在对抗防御上,为了增强深度学习模型在情感分析领域的鲁棒性,本文提出了一种对抗训练的对抗防御方法来提高深度学习模型在对抗攻击下的鲁棒性。 本文的主要研究工作和研究成果总结如下:
(1)本文研究了深度学习模型在情感分析领域的脆弱性问题,首先搭建了 CNN,LSTM和Bi-LSTM三种深度学习模型,利用这三种深度学习模型对IMDB,Yelp Review和AG’s News三种数据集进行情感分析,然后设计了一种评分函数算法来寻找影响情感分类结果的重要词语,最后利用这些重要词语的同义词来修改原始文本产生对抗性样本,我们的方法有效地实现了在深度学习模型上的黑盒对抗攻击。
(2)在对抗攻击中,本文针对文本的输入空间是离散的,对文本进行扰动视觉上容易感知等难点,提出了针对英文评论文本的同义词替换的对抗样本生成方法。该方法可以在黑盒设定下产生高效的可用的对抗性文本。利用了评分函数来寻找出 IMDB,Yelp Review 和 AG’s News 数据集中影响结果分类的重要的单词,然后利用 WordNet 工具对重要的单词进行同义词替换来生成对抗性样本,用该方法生成的对抗性样本改动很小,通过上下文可以很容易理解样本含义。本文在三种数据集上对其性能进行了评估,实验结果表明基于同义词替换的对抗样本生成方法可以成功地使深度学习模型的准确率降低。
参考文献(略)