管理论文栏目提供最新管理论文格式、管理硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于差分隐私的复合关联数据发布与管理探讨

日期:2023年09月21日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:240
论文价格:150元/篇 论文编号:lw202309151019315685 论文字数:62522 所属栏目:管理论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇管理论文,本研究主要以差分隐私为核心隐私保护技术,结合防御的数据管理思想,建立了一套基于差分隐私的复合关联数据发布框架。

第1章绪论

1.1 研究背景及意

 随着大数据时代的来临,数据已然渗透人们的日常生活,每时每刻都有大量的数据在产生、收集、传输与分析。数据能够为社会创造巨大的经济价值,成为重要的生产要素之一,譬如,医疗数据是疾病医学研究的宝贵资料;金融数据统计分析推进国家宏观政策的调整和制定;人口普查数据为国家制定国民经济和社会发展策略的重要国情信息。数据还可以为企业带来价值,通过相关数据的收集,分析消费者的行为,为企业战略的制定提供依据。不仅如此,数据时代还为个人生活带来了极大的便利,电子支付、在线预约、网上购物等,这些都是数据时代带来的美好生活。

与此同时,个人与数据之间的联系也越来越紧密,这些数据可以是一页外卖订单、一张购物账单,也可以是一份隐私体检报告、一张个人工资单。一些手机应用会收集用户的一些行为数据,比如特定页面的曝光次数、按钮的点击次数等,设计推荐算法,已经达到了比用户自己还要了解用户的程度,仅凭借几条数据便可以定位出特定的用户。可见,数据是一把“双刃剑”,在数据爆炸的当今,个人隐私已逐渐不复存在,“大数据下无隐私”便能很好地说明当下社会的隐私现状。

相关调查表明,个人数据隐私泄露事件的发生在逐年递增,2021年7月的“滴滴出行”事件是最近较为严重的隐私泄露事件之一,该App存在严重违法违规收集和使用个人隐私数据的问题,违反了《中华人民共和国网络安全法》的相关规定。其他较为著名的事件还有Facebook泄露5000位用户的账户信息[1]、Netflix公开的匿名电影评分数据库被攻击者还原真实的用户信息[2]等。数据隐私泄露的问题时时刻刻在发生,其带来的影响和后果不可小觑,更不用提不合法的隐私数据买卖会带来的后果。在后疫情时代的背景下,人们已逐渐感受到“自由”与“隐私”的可贵,随处都需要出示的“行程码”,无时都需要上报的地点位置,个人的位置轨迹和社交网络关系已然不再是个人的隐私。

1.2 国内外研究现状

1.2.1 数据隐私保护技术

在信息时代,数据的重要性不言而喻,为了保护数据在发布、挖掘和共享、分析中的用户隐私安全,学术界与产业界都对数据隐私保护技术有所研究。目前较为主流的方法集中在数据加密、数据匿名化和数据扰动这三种技术,其中数据加密实际上属于数据安全领域,因此在这里仅作简单的介绍,加密技术即通过一些加密算法保护数据,不会使原始数据集失真,保障数据能够处于安全的状态,实现有效的保护;数据匿名化与数据扰动技术均属于数据隐私保护领域,通过对数据信息进行脱敏、扰动,使得原始数据失真,从而对用户个人的隐私信息实现保护,同时又能够使数据在互联环境中依旧保有可用性,因此数据隐私保护技术需要兼顾数据的可用性与隐私性,使得两者能够得到一个合适的平衡尤为重要。

(1)数据加密技术

在数据加密技术中,具有代表性的技术主要有多方安全计算和同态加密等。姚期智在1982年首次提出多方安全计算[8]的概念,其本质是在无可信第三方的情况下,共同约定一个函数,并实现安全计算。同态加密技术[9]由Rivest在1978年提出,这项技术成功实现了在密文上直接进行计算,在无密钥的情况下,所得到的计算结果与明文上进行计算的结果相同,即能够保证运算可靠性又提高数据的安全性。目前这两项技术在隐私保护深度学习[10-11]和隐私保护机器学习[12]中的研究与应用较多。

(2)数据匿名化技术

数据匿名化技术主要通过删去数据集中的标识符属性列,针对准标识符中的敏感属性数据进行匿名处理,实现数据脱敏,达到数据匿名化的效果。

第2章 相关理论与概念

2.1 传统差分隐私相关理论

针对差分隐私数据发布的研究主要分为两个分支,分别为中心化差分隐私[83]和本地化差分隐私[83],中心化差分隐私假定有一个可信的数据收集者,对数据进行扰动后进行发布;而本地化差分隐私在客户端扰动数据再进行收集与发布。结合本文的研究问题,主要基于中心化差分隐私框架进行研究。

2.1.1 基本定义

差分隐私[84]保证数据集中每一个个体的隐私安全,主要通过对查询的结果添加随机噪声来实现隐私保护,核心思想是使得目标个体在或不在数据集中所输出的结果没有太大的差异,主要表现为:令数据集𝐷与数据集𝐷′为相邻数据集[84],则基于差分隐私在𝐷与𝐷′上的输出应该具有很小的差异。

2.1.2 组合性质

在差分隐私的实际应用中,隐私保护参数ε决定了隐私保护水平,在数据发布任务的每一次查询计算中,都将消耗一定的隐私保护参数,当其被耗尽,即ε≤0时,差分隐私便不能再为数据提供隐私性保证,换言之,产生额外的隐私泄露,目标算法便不再满足ε-差分隐私的定义。为了使得数据发布任务能够严格满足目标的隐私保护水平,需要根据差分隐私的组合特性,合理地分配每一次查询计算的隐私保护参数。差分隐私的组合性质主要有串行组合性[85]与并行组合性[85]。

2.2 差分隐私数据发布框架

在主流的差分隐私应用当中主要分为两种数据发布的应用框架,分别是非交互式发布[83]与交互式发布[83],两者的主要区别在于是否直接与原始数据集进行交互。

2.2.1 非交互式发布框架

在非交互式发布框架中,数据管理者将事先设定好隐私保护参数,应用差分隐私噪声机制对数据集添加噪声,得到带有噪声的数据集,随后,针对数据分析者所提交的查询,在噪声数据集中进行查询计算,直接返回给数据分析者。图2-5展示了非交互式框架中完成一次查询的具体流程。

该框架多适用于静态的数据发布,且查询结果的精度会相对较低。

管理论文怎么写

第3章 差分隐私保护参数选取模型研究 ..................... 25

3.1 隐私保护参数与噪声分布 .................... 25

3.1.1 噪声添加原理 .......................... 25

3.1.2 噪声分布特点 ...................... 26

第4章 基于差分隐私的复合关联数据扰动机制研究 .................... 49

4.1 问题提出 ................................. 49

4.2 复合关联数据的定义 ................................... 53

4.3 复合关联隐私泄露量化模型 .................. 54

第5章 面向复合关联数据发布的恶意查询攻击检测模型研究 ........................... 78

5.1 主流查询攻击的方式与特点 ................................. 78

5.1.1 恶意查询攻击的类型 ............................. 78

5.1.2 恶意查询的特征 ........................ 80

第5章 面向复合关联数据发布的恶意查询攻击检测模型研究

5.1 主流查询攻击的方式与特点

5.1.1 恶意查询攻击的类型

目前主流的恶意查询攻击主要有四种类型,分别是,平均值攻击、差分攻击、语义攻击和线性重构攻击。表5-1展示了每种类型的查询攻击与其相应的特点。

管理论文参考

(1)平均值攻击

在差分隐私和其他通过添加噪声实现的匿名化方法中,攻击者可以通过提交多个相同的查询来实现平均值攻击。换言之,即在不限制查询次数且获得的返回查询结果的样本量足够大的条件下,攻击者可以通过计算添加噪声后结果的平均值来无限接近正确的结果。


第6章 结论与展望

6.1 研究结论

本研究主要以差分隐私为核心隐私保护技术,结合防御的数据管理思想,建立了一套基于差分隐私的复合关联数据发布框架。对现有差分隐私技术在复合关联数据中的应用进行探究,挖掘其不足与可优化之处。首先提出差分隐私保护参数选取模型确定数据发布的隐私保护水平,作为其应用的基础;其次,设计基于差分隐私的复合关联数据扰动机制,组合优化现有关联差分隐私使之适应更为复杂的复合关联数据应用场景;最后,为应对更多不确定背景知识与数据集潜在的第三种关联关系导致的隐私泄露隐患,建立恶意查询检测模型,在现有交互式数据发布框架的基础上增加检测层,主动对潜在的恶意攻击进行防御,充分应用数据管理的思想。全文针对提出的每个模型与机制都通过真实数据集进行实验,结果表明所提出的复合关联数据发布框架兼具高可用性与隐私性。

本文所得到的主要研究结论如下:

(1)目前虽已有一些关于隐私保护参数选取的研究,但依然存在各自应用的局限性,研究者们无法达成共识。针对这个问题,建立隐私保护参数选取模型,对现有攻击者模型与经济学模型进行跨领域延展与融合,量化社会隐私偏好。通过构建更适用于复合关联数据特点的DP-Geometric攻击模型,利用数据价值设定攻击成功概率阈值,实现三种不同类型查询下的选取算法。在真实数据集上进行发布实验得到高达87%的平均精度,并且数据经扰动前后分布的平均距离仅为1.35,表明本模型实现差分隐私应用中数据可用性与隐私性的平衡,有效地解决了隐私保护水平设置的痛点问题。同时,还可以应用于多种统计学模型与机器学习算法当中,为隐私保护参数的分配提供参考。更值得一提的是,在第四章中得到了良好的应用,可以说,本选取算法为数据发布中数据隐私保护水平的设置提供了新的思路与可参考的理论基础。

参考文献(略)