匿名数据不可能完全匿名

本文转载自“格密链”原文作者:格密链点击阅读原文可跳转至原文链接

最近有研究称:匿名数据不可能完全匿名。研究人员发现保护数据集中的真实身份是不可能完全实现的。从现代医学研究到个性化推荐和现代人工智能技术,匿名数据是这一切的核心。不幸的是,这篇论文指出对于任何复杂的数据集来说,成功地匿名数据几乎是不可能的。尽管一个匿名数据集可能已经删除了全部个人信息,只是保留了有用的核心信息,供研究人员在不必担心侵犯隐私的情况下使用。另外,医院可能从一组健康记录中删除病者的名字、地址和出生日期,旨在希望研究人员能够运用大量数据去发现疾病之间的联系。但是,在实际情况中数据能够以多种方式命名。在 2008 年,一个匿名的 Netflix 影评数据集由于与 IMDb 电影网站 2014 年的公众评分进行比较,而取消了命名。纽约出租车司机的家庭地址在一个城市个人旅游的匿名数据集中被发现。还有澳大利亚卫生部提供匿名医疗账单数据的尝试,通过交叉引用“简单事实”来重新鉴定。比如年老的母亲和他的孩子的出生年份或者有许多孩子的妈妈的年份。现在,来自比利时鲁汶天主教大学和伦敦帝国理工学院的研究人员建立了一个如何简单的命名任意数据集的评估模型。例如,一个有 15 个人口统计属性的数据集 “会使马萨诸塞州 99.98% 的人与众不同” ,对于人口较少的来说,这会更加容易:例如,如果包括镇级位置数据,“这就不需要太多时间就可以重新确定居住在马萨诸塞州哈利奇港的人的身份,该市只有不到 2000 居住人口。”尽管如此,数据代理如益佰利仍会出售“未经身份验证”的数据集,其中包含的个人信息要多得多。研究人员强调这家公司卖给了计算机软件公司 alteryx,该公司为 1.2 亿美国人提供每户 248 个属性。由 UCLouvain 的 Luc Rocher 领导的研究小组认为,他们的研究结果表明,匿名不足以让企业绕过 GDPR (通用数据保护法规)等法律。 “展望未来,他们质疑目前的身份识别做法是否符合 GDPR 和 CCPA 等现代数据保护法的匿名化标准 [加州消费者隐私法],并强调有必要从法律和监管的角度出发,超出脱身份释放和遗忘模式。”处理大规模数据集的其他方法可能更符合现代数据保护的需要。苹果(apple)和优步(uber)等公司使用的差分隐私(differential privacy)故意模糊每个单独的数据点,在整个数据集中取平均值,通过为每个人提供不正确的信息来防止非对称化。同态加密涉及对数据进行加密,使其无法读取,但仍可以对其进行计算操作,结果仍被加密,但一旦返回到数据控制器,就可以对其进行解密。最后,合成数据集包括训练人工智能获取真实的、可识别的信息,然后使用它生成新的、假的数据点,这些数据点在统计上是相同的,但与任何真实的个体无关。

往期精彩

匿名数据不可能完全匿名IMF 雄文:「合成央行数字货币」会是未来央行货币吗?

匿名数据不可能完全匿名以太坊内的互操作性和可组合性

匿名数据不可能完全匿名基于区块链技术的供应链研究

匿名数据不可能完全匿名代币模型:仅仅是马尔可夫均衡问题

匿名数据不可能完全匿名金色财经对话“最烧钱”蒋国飞:蚂蚁区块链的“阳谋”

匿名数据不可能完全匿名国际结算银行:嵌入式监管可大幅简化合规监管

匿名数据不可能完全匿名深度丨 Bakkt 终于来了 然后呢?

匿名数据不可能完全匿名《财富》专访:Bakkt 会帮助比特币成为主流吗?

匿名数据不可能完全匿名穆迪:「区块链标准」将对整个行业大有裨益

匿名数据不可能完全匿名不同品种的 DAI:新产品的组合式爆炸

匿名数据不可能完全匿名DeFi 中的聚合理论

匿名数据不可能完全匿名FB Credit 项目分析:深入剖析 Libra 前身

匿名数据不可能完全匿名去中心化自治组织:发展现状、分析框架与未来趋势

匿名数据不可能完全匿名公钥加密、加密 Hash 散列、Merkle 树……区块链的密码学你知多少

匿名数据不可能完全匿名瑞士发布稳定币官方指南,这对 Libra 意味着什么?

匿名数据不可能完全匿名共享经济之毒,区块链是解药吗?

匿名数据不可能完全匿名计算机简史:从分布式到中心化的博弈螺旋

匿名数据不可能完全匿名货币的本质

匿名数据不可能完全匿名为什么 Solana 是区块链开发者需要的“世界计算机”?

匿名数据不可能完全匿名区块链民主的边界——论 EOSC 销毁未激活用户的代币提案

匿名数据不可能完全匿名穆长春公开课:挡不住的 Libra 阳谋与呼之欲出的 DCEP

匿名数据不可能完全匿名揭秘沃尔玛、腾讯、京东、浙商银行的供应链管理方案

匿名数据不可能完全匿名理解弱区块——BCH 新即时确认协议饭前开胃菜

匿名数据不可能完全匿名BNB、HT、OKB 全面估值分析——平台币还能涨多少倍?

匿名数据不可能完全匿名分布式金融的基础设施:如何驱动主流采用?

匿名数据不可能完全匿名几行代码就能撸一个文档注册 Dapp,一文学会以太坊 Dapp 开发

匿名数据不可能完全匿名中科院王飞跃团队提出数字货币“竞价排名”新机制

匿名数据不可能完全匿名《欧洲央行稳定币报告》:谨慎看待稳定币应用发展

匿名数据不可能完全匿名区块链技术在金融领域的应用与思考

匿名数据不可能完全匿名从开发者角度看公链基础设施现状

匿名数据不可能完全匿名区块链与智能革命的未来

匿名数据不可能完全匿名《区块链司法存证应用白皮书》解读——区块链存证的应用场景和挑战

匿名数据不可能完全匿名一文揭秘:「政府之眼」与「加密世界透视者」Chainalysis

匿名数据不可能完全匿名比特币前传:黑客和密码朋克文化是这样诞生的

匿名数据不可能完全匿名纽约客:货币是这样发明的

匿名数据不可能完全匿名一文了解比特币和加密货币领域数据分析全景图

匿名数据不可能完全匿名国际央行区块链支付系统实践研究—加拿大 Jasper 项目

匿名数据不可能完全匿名摔了一跤的 DeFi,站起来之后要往哪儿走?

匿名数据不可能完全匿名范一飞:关于央行数字货币的几点考虑

匿名数据不可能完全匿名稳定币赛道还能挤下几家巨头?

匿名数据不可能完全匿名中国央行数字货币或比 Libra 更早发行,考虑让非政府机构参与试点

匿名数据不可能完全匿名

扫描上方二维码,关注公众号“平行区块链”,获取更多精彩内容!

来源链接:mp.weixin.qq.com