软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

数据融合推荐中的隐私保护方法探讨

日期:2022年01月29日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:578
论文价格:150元/篇 论文编号:lw202201112113139381 论文字数:30225 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:软件工程硕士论文

本文是一篇软件工程硕士论文,本文关注数据融合推荐中的隐私保护方法,详细总结并分析了推荐系统中隐私保护的研究现状以及相关的研究工作,阐述了数据融合的推荐系统中存在的挑战,指出了现有的推荐系统隐私保护方法的不足,并针对这些不足,提出了自己的解决方法,并在现实中真实的数据集上进行实验,验证了本文提出的方法的有效性。


第 1 章 绪论


1.1 研究背景及意义

随着互联网的迅速发展,网络上存在的信息也在呈指数级增长。随着智能终端技术的迅速普及,人们每时每刻都可以享受便捷的网络服务。但是随着网络上数据量的不断增大,用户通常需要耗费很多精力来从这些海量而复杂的数据中筛选他们感兴趣的内容。基于这种信息过载的问题,推荐系统作为一种信息过滤工具,得到了广泛的应用,它的存在目的是准确地预测用户对物品或信息的偏好程度,从而把对用户更有价值的内容优先呈现给他们,帮助用户做出快速的决策[1]。以新闻领域为例,在线新闻网站和移动应用上大量的电子新闻信息使得用户很难快速找到自己感兴趣的内容,为了提高用户对信息的利用效率,新闻推荐系统的意义变得越来越重要。

如图 1.1 所示,中国互联网络信息中心发布的第 47 次《中国互联网络发展状况统计报告》中的数据显示,截至 2020 年 12 月,我国网民规模为 9.89 亿,与 2020 年 3 月相比新增网民 8540 万,我国网络新闻用户规模达到 7.43 亿,与2020 年 3 月相比增长了 1203 万,占全体网民的 75.1%[2]。由此可见,用户越来越多地选择通过手机、网站等在线新闻服务平台来浏览电子新闻信息,互联网新闻服务已经成为互联网服务中一个重要的部分。

软件工程论文怎么写


1.2 研究现状及分析

(1)推荐系统研究现状

协同过滤算法于上世纪九十年代首次被提出,其最初是应用于垃圾邮件识别系统中。基于用户的协同过滤算法的提出,使得推荐系统得到了迅速的发展[16]。推荐系统也逐渐成为数据挖掘领域中一个不可分割的子领域,不仅得到学术界的广泛关注,而且逐渐应用于在工业界中,如电子商务、在线新闻、广告营销等。

协同过滤作为经典的推荐算法,它的主要思想是根据用户或物品的相似性来为用户推荐他们感兴趣的内容,如 PHOAKS[17]、GroupLens[18]、Jester[19]等前期的推荐系统都是基于该算法实现的。随着技术的发展和电子商务的兴起,推荐系统在各种电商平台上得到了广泛的应用,如最早为用户推荐服务的电商平台Amazon,它通过收集用户的历史购买记录、点击记录、个人属性特征等信息,来对用户的偏好进行分析建模,从而预测并推送用户感兴趣的商品。同样在早期提供推荐服务并获得良好效果的还有在线视频提供商 Netflix,它凭借为用户推荐他们可能喜欢的电影而获得广泛的好评。除此之外,Netflix 举办的推荐算法比赛同样推动了推荐系统的发展。

在国内,推荐系统也处于快速发展阶段,各种在线服务提供商都纷纷通过融合推荐系统到产品中来提高产品的竞争力,实现更大的收益,如知名的新闻推荐服务提供商-今日头条。今日头条利用高效的推荐算法来对用户的历史数据进行挖掘和分析,快速占领了新闻类产品的市场,它的成功与其精准的推荐算法密不可分[20]。

随着深度学习的发展,越来越多的研究者提出利用深度学习模型来融合文本、标签、社会关系等多源数据,从而学习出关于用户和项目的更深层次的表征信息,提高推荐系统模型的预测性能。但是这些方法没有考虑物品之间、用户之间或用户与物品间的关联关系。比如在新闻推荐场景中,由于新闻是高度浓缩的,其中包含大量的知识实体,如果仅仅从语义层面来对新闻信息进行建模,不能充分挖掘出新闻之间潜在的知识层面的关联[3,21]。


第 2 章 推荐系统、基于数据融合的推荐以及隐私保护概述


2.1 推荐系统概述

推荐系统是一个信息过滤工具,旨在向用户推荐他们可能感兴趣的物品。根据推荐算法的不同可将推荐系统分为基于协同过滤的推荐、基于内容的推荐和基于模型的推荐。推荐系统的形式化定义如下:

推荐系统可以看做一种应用,它将收集到的用户历史数据进行分析建模,从而预测并推送用户可能感兴趣的内容。它的运行流程图如图 2.1 所示,对用户来说,推荐系统会收集他们的反馈数据,如评分等显示反馈信息和评论等隐式反馈信息,他们需要做的就是享受推荐系统提供的服务并进行反馈;对于推荐服务提供商来说,推荐系统为用户提供个性化的服务并根据用户的数据不断改进推荐效果,提高用户的体验度,增加收益。

2.1.1 基于协同过滤的推荐算法

协同过滤(Collaborative Filtering)是推荐系统中使用最广泛的技术,它的主要思想是人们会根据过往的行为而对现在的选择做出决定。协同过滤需要用到用户-项目交互矩阵,它根据相似用户具有相似偏好的假设进行推荐。它可以分为基于用户的协同过滤和基于项目的协同过滤两种方式。

基于用户的协同过滤的思想是具有相同特征的用户具有相同的偏好,因此,推荐系统可以将那些与当前用户相似的用户所感兴趣的内容提供给当前用户。其实现原理如图 2.2 所示,假设用户 A 和用户 C 曾经共同阅读过新闻 1,那么可以认为这两个用户的相似性比较高,具有相同的偏好,因此推荐系统会把用户 A曾经读过的新闻 2 推荐给用户 C。


2.2 基于数据融合的推荐技术

2.2.1 融合知识图谱的推荐技术

知识图谱是由 Google 公司于 2012 年首次提出的概念,这也是 Google 首次在其搜索引擎中加入知识图谱的功能。知识图谱本质是一种异构信息网络,常用于表示实体之间的复杂关系,网络中的节点表示实体,节点间的边表示实体间的关系,其中实体是对现实对象的抽象,知识图谱也常被成为知识库。知识图谱G可以形式化表示为三元组 (h,r,t) ,其中 h 表示头实体,t 表示尾实体, r 代表实体间的关系[48]。由知识图谱的知识类型,可将知识图谱划分为领域知识图谱和开放域知识图谱,其中领域知识图谱更加关注知识的可信度,它的优点是可以通过本体的规则和条件开约束实体、属性和其中的关系;而开放域知识图谱的核心是知识的广度,它的实体集和关系集更大,但是信息的准确性会不足[49]。

知识图谱表示学习(Knowledge Graph Embedding)将知识图谱中每个实体和关系学习得到一个低维向量,同时保持图中原有的结构或语义信息。知识图谱特征学习是网络特征学习(Network Embedding)的一个子领域,因为知识图谱包含特有的语义信息,所以知识图谱特征学习比通用的网络特征学习需要更细心和针对性的模型设计。一般而言,知识图谱特征学习的模型分为基于距离的翻译模型(Distance-based translational models)和基于语义的匹配模型(Semantic-basedmatching models)。

在融合知识图谱进行推荐的工作中,基于距离的翻译模型是常用的方法。基于距离的翻译模型使用基于距离的评分函数评估三元组的概率,将尾节点看做头结点和关系经过翻译得到的结果。其中代表性的方法有 TransE[50], TransH[51],TransD[52], TransR[53]等。其中 TransE 模型的思想是利用词向量空间中的平移不变现象,将知识库中的关系看作实体间的某种平移向量,目标是优化比如对于每个三元组(h,r,t) ,可将关系 r 看作从头实体到尾实体的偏移。这种方法的优点是简单,但它的不足是只适合处理一对一的关系,而对于一对多或多对一的关系就不能学出很好的效果[22]。而 TransH 的思想是将头实体和尾实体的向量表示投影到关系向量所在的超平面上,因此该模型能很好地解决 TransE 的不足,不仅能处理一对多或多对一的关系,并且模型的训练过程不会过于复杂。


第 3 章 融合知识图谱的新闻推荐中的隐私保护方法....................................18

3.1 融合知识图谱的新闻推荐................................18

3.2 融合知识图谱的新闻推荐中的差分隐私保护方法...........................20

第 4 章 融合情感分析的推荐中的隐私保护方法................................3

14.1 融合情感分析的推荐方法....................................31

4.2 融合情感分析的推荐中的差分隐私保护方法....................33

第 5 章 总结与展望.........................42

5.1 总结.....................................42

5.2 展望.........................................42


第 4 章 融合情感分析的推荐中的隐私保护方法


4.1 融合情感分析的推荐方法

传统的推荐系统大多使用协同过滤作为主要的推荐方法,该方法需要用到用户-项目评分矩阵,它根据相似用户具有相似偏好的假设进行推荐。在系统具备充足的用户评分数据时,通过相似度的计算,可以快速为用户找到偏好相似的其他用户,从而实现协同推荐。但是,当用户评分信息很少或没有评分信息时,就无法进行相似度计算并进行推荐,这就造成了系统的冷启动。评分数据稀疏是推荐系统中常见的问题,要想解决数据稀疏性问题,现有的研究工作中大多数是通过融合辅助信息到推荐系统中,以提高推荐的准确度,常见的辅助信息包括用户或项目的属性、用户评论。

评论文本作为一种隐式反馈数据,可以很好地反映用户的情感倾向,解释用户的行为。最近很多研究者提出将评论文本作为辅助