社交媒体的大数据并不可靠？_数据挖掘

如今，科学家们正越来越多的把目光转向社交媒体，以研究线上及线下的人类行为，例如预测夏季股票市场的大波动。一些数据处理专家指出，使用该种方法处理数据时，研究者们须警惕超大量社交媒体数据背后可能存在的严重缺陷。

错误的结果可能产生严重的影响：每年，都有上千的研究报告是基于社交媒体上收集而来的数据。麦吉尔大学计算科学学院助理教授Derek Ruths称“这些文章中有好些被用来通报和决断公众，行业及政府的投资决策”。

卡内基梅隆大学软件科学院的合作作者Jürgen Pfeffer则说，“并不是所有打上“大数据”标签的东西就都很好”，他指出许多研究者都有或是希望有如此的前提——即只要数据足够多，他们就能修正任何可能产生的偏差。“然而，行为学研究中的一句老话说的好：了解你的数据”。不过，社交媒体作为数据源之一吸引力实在惊人。“人们想要了解世界上正发生着什么，这无疑是快速的跟进办法。”以2013年的波士顿马拉松爆炸案为例，Pfeffer在两周内收集了两千五百万的相关tweets（推特）。“你能了解百万计人的行为——还都是免费的。”

数据过滤与SPAM

一篇发表在《科学》杂志上的评论中，Ruths和Pfeffer强调了可能导致社交媒体数据失真的若干因素，及它们的解决办法。

包括：

不同社交媒体平台吸引不同的受众——比如，Instagram对18~29岁间的成年人吸引力最大，包括非裔美国人，拉丁人，女性和城市居民，而在Pinterest上，占主导地位的则是那些家庭年收入超过$100,000，25~34岁的女性用户。Ruths和Pfeffer指出，研究人员很少能够知晓，更谈不上正确对待这些内含的采样偏差。

社交媒体研究所使用的公开数据并不总能准确反映平台的总体状况——研究者们关于网站建立者如何过滤他们的数据源常常一头雾水。

社交媒体的设计通常会影响用户的行为，从而改变所测量的数据。比如，Facebook没有“不喜欢”的按钮，这就使得负面内容相比于正面的“喜欢”更难被侦查到。

大量SPAM（垃圾邮件发送者和机器人）通常在社交媒体上伪装成普通用户，也被错误地纳入了很多人类行为测算和预测。

研究者们还经常只报告来自于易于分类的用户，主题和事件所得出的结论，这就使得新的方法看起来更加准备。例如，在推知Twitter用户的政治取向时，只取得了65%的准确率——即使研究（侧重于政治活跃用户）声称有90%的准确度。

解决方法

Ruths和Pfeffer指出，以上很多问题都有显而易见的解决方法，这些方法被广泛地用在诸如流行病学，统计学和机械学等领域。Ruths说，“这些问题的共同点就是，需要研究者们在分析社交媒体数据时，能更加敏锐地感知数据本身。”

社会学家应对此种挑战的技术和标准已经十分纯熟了。Ruths说，“1948年，臭名昭著的“杜威击败杜鲁门”报纸标题就来自于电话调查，它最终在采样上低估了杜鲁门的支持者。这并不是在抹黑民意调查，正是那次显而易见的错误导致了今天日益复杂的技术，更高的标准，以及更加准确的民调。如今，我们站在与当年类似的技术发展拐点上。通过解决面临的问题，我们才能实现基于社交媒体的研究所展现出的巨大潜力。”

转载请注明：数据分析 » 社交媒体的大数据并不可靠？_数据挖掘