本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

PII,匿名数据和大数据隐私

大数据技术 cdadata 11825℃

PII匿名数据大数据隐私

你知道,大多数美国人(87%)都可以被唯一从刚刚三块个人资料认定:出生日期,五位数的邮政编码和性别?几分令人不安的,对不对?

这经常被引用的统计,最初报道15年前的2000卡内基梅隆大学文  对个人身份信息(PII)。即使日期已经改变,因为这个报告的数据量已成倍增长,面临的挑战仍然是相同的:保护一个人的个人身份隐私的名称。

PII是在匿名数据辩论的心脏。在我过去后,我揭穿一个信念有关匿名数据,分别是:匿名数据保留我个人的身份不被泄露。更准确的说法我建议是:可以重新确定从匿名数据个人。让我们来探讨这个远一点。

关于PII和匿名数据。什么意思匿名(或去识别)的数据?简单来说,这意味着除去从数据集,可以亲自识别特定个人的任何信息; 例如,该人的姓名,信用卡号,社会安全号码,家庭住址等出售消费者的数据,如数据经纪人,通常仅出售匿名,并且经常聚集,数据公司。所以,如果PII从这些数据集剥夺(如下面的图所示),有什么大不了的?

PII,匿名数据和大数据隐私

如果我们谈论的是一个单一的数据集(如上面的例子),那么它可能不是什么大不了的事。它变得有趣,虽然是在多个数据集相结合。下图是一个什么样的数据聚合器(或经纪人)不与数据集的简单的观点:

PII,匿名数据和大数据隐私

这两个数据集可以是完全无害的,但是,当汇聚并随时间进行分析,它们可以引入新的隐私问题。微软的辛西娅Dwork说明了这种方式:“什么是学习,我买面包的危害?有在学习,没有坏处,但如果你发现,随着时间的推移,我不再买面包,你可以得出结论,也许我有糖尿病……什么是怎么回事是保密机制失效;他们不构成有效的。“

为什么这样重要。让我们回到我刚才的问题:如果我的个人身份信息(PII)被剥离出来,聚集在它之前出售或被传递下去,有什么大不了的?

大不了是这样的:今天的大数据技术,它变得更容易从这种匿名数据重新识别个人。编程技术继续发展,从一个或多个数据集拉这些匿名碎片重新走到一起。因此,如果一个公司说,它传递给它推给别人之前,匿名化的数据,要知道你的身份仍可以通过先进的再识别技术透露。

PII,匿名数据和大数据隐私

其实是有一场激烈的争论,是关于这一点。一个阵营坚定支持的技术和算法被用来匿名数据; 而且他们相当有信心,个人不得重新认定可因为技术只是不存在。对方阵营并不买账,并说,重新识别算法,其实,工作只有越来越好。他们还指出了如何一些目前正在使用的简单的匿名技术不起作用。

我倾向于同意后者阵营。即使它不是现在发生的事情,这只是时间早晚的问题的技术和算法上升到复杂,不仅一定程度再确定个人的速度更快,但这样做更快,更便宜。

最后一个想法。重新识别算法是没有好坏之分; 它只是取决于他们如何使用。所以,当一个善意的公司或券商的数据告诉你,你的个人信息受到保护,不与共享或出售给他人,这是不是让你放松警惕的邀请。你怎么知道它现在的工作,所以采取谨慎和警惕。

转载请注明:数据分析 » PII,匿名数据和大数据隐私

喜欢 (0)or分享 (0)