大数据可否算准世界杯？_数据挖掘

人类一思考，上帝就发笑；世界杯一来到，上帝笑得血压也升高。倒不是足球踢得多欢乐，而是世界杯预测太恶搞。

我略微总结了下，剔除掉贝利和大校这种声名卓着的反向指标，煞有介事的世界杯预测大致可以分为五类：一是实力决定论，以高盛和德银等投行为代表，将FIFA排名、过往战绩、近期表现、球员身价、赌球赔率、国家经济等一系列数据综合反映出的球队实力作为预测依据，用计量模型计算出看上去精确至极的概率，只不过，计算结果有较大差异，比如，高盛预测巴西夺冠，德银则更看好英格兰。

二是条件决定论，以霍金教授为代表，将各种客观条件对某一球队的表现影响糅到一个获胜公式里，这些条件包括球场选择、裁判国籍、球衣选择、阵型选择和交通工具选择等，只不过，这种公式的预测有效时段很短，所以在决赛还离得远的现在，公式还预测不出最后的冠军归属。

三是流言决定论，以雅虎和微软Bing为代表，将以亿为单位的网络噪音转化为清晰的结果信号。虽然这种互联网魔术看上去既科学又玄妙，甚至可以从经济学的“预期自我实现”理论加以解释，但总让人联想到古时候无论中国还是西方，帝王对童谣和吟游诗人作品的格外关注。

四是宿命归属论，以一则关于1966年和2014年的时空重叠热帖为代表，1966年，欧冠冠军是皇家马德里，西甲冠军是马德里竞技，西乙冠军是拉科鲁尼亚，意甲冠军是尤文图斯，皇家贝蒂斯降级西乙，2014年无一例外都是如此。“Yesterday once more”就剩世界杯了，1966年是英格兰夺冠，按照宿命归属，2014年英格兰也将问鼎。

五是动物先知论，以章鱼保罗为代表，2008年保罗预测欧洲杯6场5胜，2010年保罗预测南非世界杯8场全胜，只不过，保罗没能活到2014年巴西世界杯揭幕，于是，乌龟、大象、熊猫等动物先知又登上了预测舞台，只不过，保罗的辉煌再难复制。

当然，所有这些世界杯预测或多或少都有恶搞的成分，当不得真。但稍微严肃一下，细致分析这五种方法论，除了最后一种，剩下四种都用到了大数据，这恰是时下大数据热的一种表现。从世界杯预测看大数据热，三个误区值得警醒。

首先，大数据并不能解决所有问题。大数据是很有用的，几乎每一个环节，包括产品设计、市场定位、目标选择、销售策略和模式修正，都能靠大数据来解决问题，甚至连各种和商业无关的问题，也都能从大数据这里得到帮助。但大数据并不是万能的，大数据能解决的都是客观问题，而不是主观问题。就拿世界杯预测来说，谁能夺冠取决于多种因素，各种预测方法论本质上并无区别，只不过它们对不同决定要素赋予的权重不尽相同。也就是说，决定夺冠的要素是什么，这是一个主观问题，大数据只能说明客观的状态，无法对夹杂重要主观判断的问题直接给出解答。

其次，数据并不是越大越好。数据分析早就存在，大数据火爆却是最近的事情，其中的区别就在一个“大”字。从道理上讲，数据种类越多、序列越长，包含的信息就越丰富。但值得强调的是，信息越丰富未必就越好，当下是一个信息大爆炸的时代，信息越多有的时候越不利于获知。而且更重要的是，像世界杯预测，明显是一个核心信息不突出的事情，所以信息之间反而容易形成无逻辑的冲突，这恰是预测方法论众多，谁都不靠谱的原因。此外，数据越大，数据处理过程中的选择就越多，而选择总是难以回避道德风险问题，每一个大数据分析者，都得面对为特定目标而选择的诱惑，“有选择的选择”往往是大数据反而模糊了真相的潜在原因。

最后，大数据搞不定薛定谔的猫。在盒子打开前，薛定谔的猫既是活的，又是死的，只有打开盒子这一行为，才能导致状态叠加的坍塌，不确定性才会消失。也就是说，在世界杯真正开始前，32支球队都是冠军，又都不是冠军，只有踢起来才能见真章。大数据分析都是基于既成事实的，它更擅长于告诉我们，世界是怎样，而不是世界应是怎样和将会怎样。在不确定性面前，大数据是无力的，所以究其根本，大数据不是用来预测的。大数据能带给我们的，是知识，是获知，而不是判断，更不是武断，而尊重不确定性，才是正确使用知识的一部分。

转载请注明：数据分析 » 大数据可否算准世界杯？_数据挖掘