本文是一篇软件工程硕士论文,本文提出了一种基于注意力和图神经网络的点击率预测模型VBGA,通过改进的SENET的注意力机制可以学到更细粒度的特征表示,以便于后续的特征交互。
第一章 绪论
1.1 研究背景和意义
在互联网时代,信息技术迅速发展,手机和电脑已经成为人们获取信息的主要途径。然而,互联网上的信息数量庞大,质量良莠不齐,这给用户带来了一定的困扰。为解决这一问题,点击率预测技术应运而生。点击率预测衡量的是用户与物品之间的交互概率,这种交互行为可以是点击视频、购买商品或点击广告等。通过点击率预测模型,系统能够更精准地推荐用户可能感兴趣的内容,从而提升用户体验,减少信息过载带来的困扰。实际上,许多互联网公司的盈利模式都依赖于点击率预测技术,通过个性化推荐服务为用户提供更优质的体验,同时为企业带来更多的商业机会和利润。点击率预测应用场景已扩展至各个领域,其中包括:
(1)军事领域:通过分析点击率预测,情报机构可以更准确地确定其关注的目标或话题,以及它们在公众或特定群体中的影响力。这可以帮助他们确定哪些目标或话题是最值得关注的,以及分配资源的优先级。点击率预测也可以用于指导情报收集活动的方向。通过分析哪些话题或关键词在在线平台上受到更广泛的关注和讨论,情报机构可以调整其收集策略,以确保他们能够获取到与当前事件和威胁相关的最新信息[1]。
(2)社交媒体:社交媒体平台可以利用点击率预测来个性化推荐用户感兴趣的内容。通过分析用户过去的点击行为和互动模式,平台可以向他们推荐更相关和更吸引人的内容,提高用户满意度和留存率。点击率预测可以帮助社交媒体平台识别热门话题和趋势。通过分析大量用户的点击行为,平台可以发现哪些话题或事件引起了更广泛的关注和讨论,从而帮助用户及时了解并参与到热门话题中去。
1.2 国内外研究现状
点击率预测是在线广告和推荐系统等多个领域的关键问题之一,因为预测的准确性直接影响到业务供应商的收入。在过去的十多年里,国内外的学术界和工业界对点击率预测进行了大量的研究和关注,包含基于传统方法的点击率预测模型和基于深度学习方法的点击率预测模型。
1.2.1 基于传统方法的点击率预测模型
在早期的点击率预测模型中,机器学习方法扮演了关键角色。点击率预测本质上是一个二元分类问题,逻辑回归(Logistic Regression,LR)[5]是最基本的二分类模型,具有高效和易于部署的优点,因此逻辑回归被应用于早期的点击率预测。为了捕捉特征之间的相关性,传统方法是利用特征向量的乘积来学习交叉特征[6]。例如,在多项式回归(Polynomial Regression,PR)[7]模型中,每个交叉特征的权重都会被学习。然而当数据稀疏时,该模型的性能可能会受到影响。为了解决PR的泛化问题,因子分解机(Factorization Machine,FM)[8]模型将组合特征前的权重转换成嵌入向量的内积。通过学习每个特征的嵌入向量,FM模型可以估计任意交叉特征的权重。有人提出了进一步扩展FM的模型,例如域感知因子分解机(Field-aware factorization machines,FFM)[9],在FM的基础上引入了“域(Field)“的概念,并且取得了更优的结果。之后梯度提升决策树模型(Gradient Boosting Decision Tree,GBDT)[10]得到了大量的关注,在点击率预测中也被频繁的使用。与 LR 模型,FM 模型,FFM 模型相比,GBDT 模型具有更强的表达能力。这是因为梯度提升决策树模型包含了AdaBoost[11]中的相关原理,即用下一棵树拟合上一棵数的残差,通过这种方法,梯度提升决策树模型的性能得到了极大的改善。除此之外,高阶因子分解机(Higher-Order Factorization Machines,HOFM)[12],场加权因子分解机(Field-Weighted Factorization Machines,FWFM)[13],域矩阵因子分解机(Field-matrixed Factorization Machines,FmFM)[14]也被提出来改进FM。通过直接列举所有可能的特征交互,基于FM的模型减少了人类对特征工程的参与。
第二章 相关基础知识
2.1 点击率预测相关基础知识
2.1.1 特征编码
点击率预测任务属于监督学习的一种,特征的表达对于监督学习至关重要。良好的特征有助于提高模型性能。特征的获取方式分为特征工程和特征学习两种。特征工程是一种构建特征的计算工程,通过对原始数据进行处理和提取来获得模型的初始特征。而特征学习则是指模型自动从数据中学习有用特征的方法,从而提高特征的表达能力。
特征编码是属于特征工程的范畴,主要作用是对离散特征进行连续化。传统的特征编码可以分为One-Hot编码、TF-IDF编码以及Embedding编码。
(1)One-Hot编码[45]是一种将离散特征转换为连续特征的方法,它基于一个包含所有可能单词的词库。首先对词库中的单词按照固定顺序排序,然后创建一个与词库大小相同的向量。对于文本中出现过的单词,将对应的向量维度编码为1,未出现的单词则编码为0。这样,每个单词都被转换为一个与词库大小相同的向量。简而言之,One-Hot编码将每个单词表示为一个固定维度的向量,其中每个维度代表一个单词。
(2)TF-IDF编码[46]解决了One-Hot编码的两个问题:不同单词的表示能力和单词在文章中的频率。TF-IDF考虑了单词的词频(TF)和逆向文本频率(IDF)。TF表示某个单词在文章中出现的频率,IDF表示单词在整个文本集合中的重要程度。通过将TF和IDF相乘,得到了TF-IDF编码,进一步提高了特征的表达能力。
(3)Embedding编码[47]克服了One-Hot和TF-IDF编码的缺陷,它考虑了特征之间的相关性。Embedding将每个特征嵌入到一个低维稠密的特征空间中,从而实现了对特征之间相关性的表示,并且降低了特征的维度。
2.2 深度学习相关知识
2.2.1 优化器
在深度学习的反向传播过程中,优化器扮演着关键的角色,它们能够指导损失函数中各个参数向正确的方向更新,并调整合适的值,以提高损失函数的运行效率。这些优化器通常通过梯度下降的方式进行优化,主要优化内容包括对前进方向的优化和前进值的优化。这些优化过程使得损失函数更好地逼近全局最优解。
目前,常用的优化器包括五种:梯度下降法[48]、动量优化算法[49]、自适应性梯度算法[50]、均方根算法[51]以及Adam算法[52]。
2.2.2 正则化方法
由于深度学习模型的复杂结构和大量参数,在点击率预测等领域很容易出现过拟合问题,最终导致模型的泛化能力下降。为了解决这个问题,常常会采用正则化方法来减弱模型的过拟合。接下来,将对两种常用的正则化方法进行理论介绍。
第三章 基于注意力和图神经网络的点击率预测模型 ....................... 15
3.1 引言 ................................... 15
3.2 问题定义 .................................. 17
3.3 基于注意力和图神经网络的点击率预测模型 ................... 17
第四章 基于双线性融合的欧拉交互网络的点击率预测模型 .................... 31
4.1 引言 .......................... 31
4.2 问题定义 ................................ 32
4.3 基于双线性融合的欧拉交互网络的点击率预测模型 ............... 33
第五章 总结与展望 .................. 47
5.1 总结 .................................. 47
5.2 展望 ...................................... 47
第四章 基于双线性融合的欧拉交互网络的点击率预测模型
4.1 引言
点击率预测是预测用户点击商品的概率,是在线电子商务平台上一项非常重要的任务。点击率预测的关键是通过捕获潜在的特征关系来准确地建模复杂的上下文数据。通常,这些方法要么通过基于因子分解机的模型手动设置交互形式或者阶数来学习显式特征交互,要么通过深度神经网络直接对所有特征的融合来建模学习隐式特征交互。
尽管取得了一些进展,但这些方法在学习复杂的特征关系(如高维不同的上下文)方面仍然存在局限性。首先,由于组合复杂度呈指数级增长,显式学习方法通常设置一个较小的交互阶数,不能扩展到需要高阶特征交互建模的情况。此外,它们只建模整数阶数的交互,从而导致不准确的建模现实世界的场景。其次,由于缺乏交互机制的有效设计,隐式学习方法的有效性不如显式学习方法。
在建模原始特征之间的高阶交互时,主要面临的一个主要挑战是,随着原始特征数量的增加,由于指数特征组合而产生的高计算成本。在实际场景中,原始特征往往非常稀疏,并且有数百个具有数百万维的字段。例如,当编码为一个热向量时,用户ID或项目ID等标识符特征变得非常稀疏,从用户行为日志中提取的多字段特征也变得非常稀疏。用数百个域计算这些稀疏特征上的高阶交互是计算密集型和耗时的。
第五章&nbs