快捷搜索: 王者荣耀 脱发

差分隐私(背景介绍)

本文主要是针对B站上张啸剑老师,关于差分隐私理论与应用讲座的一个内容总结,以写促学,B站视频链接和PPT会放在文后。

1. 差分隐私

1.1 数据发布隐私泄露

现如今,我们正处在一个大数据的时代。商家通过掌握我们的一些数据,能够优化程序,设计出更好的一些产品,提升我们的生活质量,与此同时,我们也希望自己的数据在使用的过程中,能够保持隐私不被泄露(即特定个体的某种或者某些属性),这就需要一种隐私保护的方法。

如果数据没有经过隐私保护处理,或者方法过于简单的话,就会有很大的概率泄露隐私,进而损害个人的生活:

1.2 隐私保护方法

现行的隐私保护方法有一下集中,主要加上第一种和第三种:

    K-匿名(K-Anonymous) K-匿名的变种(L-diversity,T-Closeness) 差分隐私(differential Privacy)

1.2.1 K-匿名

图1:待发表数据

上图是要发布的数据,其中包含三类数据:标识数据,准标识数据和敏感数据

    标识数据:姓名,能够唯一标识用户身份的数据 准标识数据:性别,邮编,出生年月,准标识数据指的是那些介于标识数据与敏感属性之间的一些属性,这些属性通过与其它的数据表进行结合(链接攻击),也能够识别出病人的具体信息。 敏感数据:疾病,发布数据的核心信息。

K-匿名机制:数据在发布前,首先抹除标识数据,其次对准标识数据进行处理,使得每条数据与其他至少K-1条数据无法区分。

下面展示的是一个被2-匿名后的数据,首先删除姓名,然后对“性别,邮编和出生年月”等信息进行匿名。从表中可以看出,任意一条数据与其他至少一条数据无法区分。

图2:2-匿名

链接攻击:指攻击者通过对发布的数据和其他渠道获取的外部数据进行链接操作,以推理出隐私数据,从而造成隐私泄露,相当于一种个人信息维度的扩充。

CDP与LDP的实践应用

经验分享 程序员 微信小程序 职场和发展