大数据的使用和滥用
当我们开始新的一年,我们承诺从注重的意义和大数据技术的有用和有价值的业务应用,可以提供一个举动。适时地举动确实如此。但愿,我们开始听到关于少Twitter的分析数据流来优化广告,更多的是与改善人们的生活和环境的潜在应用。而更希望,人们可能会开始考虑他们透露或聚会我们紧密相连的网络上的个人数据时,运行的风险。
与所有的同步即互联网,我碰到来自纽约时报的两篇文章发表在上周。在第一,由彼得·Jaret 1月14日,介绍了如何病历,转录和数字化从潦草(为什么他们写的如此糟糕?)医生的笔记,匿名和存储在Web上,可以挖掘统计发现以前未知的副作用效果和处方药之间的相互作用。显然有用的,有价值的工作。在第二篇文章中,三天后吉娜科拉塔,透露了一个遗传学研究员多么容易能够识别五个人和他们的家人从匿名的1000基因组计划数据库,商业家谱网站,谷歌联合公开获得的信息。
科拉塔引用艾米L.麦圭尔,一名律师和伦理学家在休斯敦贝勒医学院的:“有幻想,你可以充分保护隐私或使数据匿名不再是一个可持续发展的立场。” 潜在的遗传数据用于医学研究,当然,效果良好,但什么是对那些因此认定为保险公司,政府或其他有关方面人士可能带来的后果使潜在的负面评估,根据自己的私家后基因组?这样发生─ -和有很多人-应该是深感不安对我们这些参与大数据和分析业务。这里有医生,科学家和律师-训练逻辑,伦理和法律-谁看到分析的力量来改善人类生存条件,但谁似乎掩盖使得个人信息更广泛的隐私和安全问题广泛适用于网页。
毕竟,数据匿名的网络上的限制,正在公开讨论早在2011年5月由皮特监狱长在O’Reilly的雷达博客。而作为早在1997年,教授 Latanya斯威尼,数据隐私实验室在哈佛现在主任,能证明性别,邮政编码和生日的组合是唯一的美国总人口的87%。 埃墨戈兰,法律和法律史在哥伦比亚大学的教授主席软件自由法律中心,在警告重:publica柏林2012年5月的“媒体对间谍和数据地雷公众摧毁思想的自由,只有这一代,最后成长起来记住”老办法“,是定位到保存此,人类最珍贵的自由。“ 与媒体和医药,政府,零售,电信和金融信息的收集所有关于囤积美国,每一个为自己涉嫌良好的目的,现实的情况是,现在大数据的滥用(相对于它的使用)不仅是可能的,但进展迅速,甚至在很大程度上是民主,西方国家。
所以,考虑到大数据是匿名“不再是一个可持续的位置,”它应该清楚,在当今的高性能计算机可能的分析是一把双刃剑; 它符合美国不佳,只专注于单一,锋利的边缘。当我们评估并建立来年的有用和有价值的业务分析应用程序,让我们退一步,即使偶尔来考虑是否利润可赚取或须作出的发现是值得人类自由的代价。