3.1.2 URL 词向量表示 ..................... 21
第四章 基于 BERT 特征表示的恶意 URL 检测模型 ............................... 34
4.1 Transformer 模型.............................. 34
4.1.1 词向量化 ................................ 35
4.1.2 位置编码 ............................. 35
第五章 总结与展望 .............................. 49
5.1 工作总结 .................................. 49
5.2 展望 ........................................ 50
第四章 基于 BERT 特征表示的恶意 URL 检测模型
4.1 Transformer 模型
2018 年谷歌的 BERT 模型横空出世,NLP 领域各大任务在精度与效率上都得到了明显提升。BERT 的核心部分是 Transformer 编码器[45],并且由于 Transformer 优秀的自注意力机制,逐渐受到广大研究者的青睐。在 Transformer 模型面世之前,许多序列模型都是基于 CNN 和RNN 的,而 Transformer 是完全基于 Attention 机制的,该机制要比 CNN 和 RNN 优秀。Attention 机制可以解决 RNN 及其变体存在的长距离依赖问题,有更好的记忆力,其次支持并行化计算,能够加快运算效率。Transformer 的 encoder 模块是 BERT 预训练模型的核心,其基本架构如下图所示:
图中 N 表示 Encoder 编码器的层数,在 Transformer 论文原文中模型叠加了 6 个完全一样的 Encoder 层,为了避免模型的网络过深,导致训练困难,模型中每一层中都加入了残差连接来优化训练。此外,在每层 Encoder 的内部,输入数据先进入 Multi-Head-Attention 层,计算权重分数,之后进入一层全连接前馈神经网络,实现标准归一化处理后,进入下一个 Encoder 层中往复处理。
第五章 总结与展望5.1工作总结
近些年来互联网技术的发展越来越快,人们也享受着越来越便捷的服务,包括网络购物、在线支付,快捷搜索等。然而互联网中也有安全隐患,不法分子通过利用恶意网页伪装或盗取私密信息,对互联网用户和企业信息安全带来了巨大的威胁。URL 作为网页的访问入口,是不法分子植入恶意程序与脚本,实施网络犯罪的重要渠道。本文介绍了一些恶意 URL 攻击形式,又深入研究了 URL 字符串的特点以及现有方法的不足,在数据预处理与特征提取模块进行了大量研究,最后设计了多组对比实验验证了本文所提出方法的有效性。本文工作主要为:
(1)设计 URL 分词与词向量表示
研究了 URL 字符串的特殊性,设计了合适的分词技术,将 URL 字符串中的特殊符号也作为单词处理,将分词结果构建语料库后,使用 Word2vec 词嵌入技术获取 URL 字符串的词向量表示。
(2)基于 CNN 的恶意 URL 检测模型
实现 URL 分词以及词向量表示之后,结合深度学习技术构造了基于 CNN 与 BiLSTM 的神经网络模型以进一步提取隐含特征,其中 CNN 用于初步提取特征,BiLSTM 用来获取文本间的长期依赖。此外,在模型中还添加了 Attention 机制来学习文本序列中的重要信息,最终构建了 CBLA 模型用于检测恶意 URL。实验结果表明,该算法对恶意 URL 检测效率与准确率有所提升。
(3)基于 BERT 特征表示的恶意 URL 检测模型
提出一种基于 BERT 特征表示的检测模型。BERT 在文本预处理方面有两个优点,其一是BERT 模型使用 WordPiece 模型分词,它将单词进一步细化切分形成字符级的序列,能够大幅度提高语言模型的可能性;其二是词向量生成方面,BERT 对比 Word2vec 而言,其单词分词会经过三层编码和强大自注意力机制的 Transformer 编码器,这些处理步骤将会提高词向量的一词多义表征能力,泛化能力更强。基于这两个优点,本文根据数据集特点,对词向量的维度设置做出了改进,其次通过微调技术丰富了模型的权重参数并用于 URL 分类,最后根据BERT 生成的[CLS]词向量的特性,在 BERT 获得的特征向量后接入一层 BiLSTM 神经网络,构建了 BBL 检测模型,并与 CBLA 模型、基于微调的 BERT 模型对比分类效果。
参考文献(略)