关键词:大数据 数粮 杨涛
从Big Data这个名词诞生起,数据资源不流通就一直是大数据行业的问题。西方世界较早提出倡议,呼吁让数据资源流通起来,从Tim Berners-Lee的“Raw Data Now”到奥巴马政府的“transparency and open government”,都是重量级人物的明确表态。但到目前为止,或许是动力不够,或许是阻碍太大,我们能看到的成果比较有限。
最有象征意义的是美国、英国等老牌强国的政府数据开放网站,如data.gov、data.gov.uk,但毕竟政府的资源有限,并且不可能全部开放出来。在一些数据早已经流动起来的领域,逐渐形成了初具规模的集散地,比较典型的是金融行业的quandl,收集了大量的财经数据并且引入了数据商;类似的公司还有经营位置数据的aggdata、factual,但这些网站通常都选择深挖一个行业,影响面有限。
走的最远的是几家数据流通平台。其中名气最大的是amazon和google,但目前来看数据资源并不多;另外还有几家公司打着数据交易旗号,其中Datamarket和Bluekai分别被Qlik和Oracle收购,qDatum和Dawex等交易平台还远未成熟。
国内大数据行业近些年来蓬勃发展,尤其在上升为国家战略之后,涌现出形形色色的技术厂商和解决方案提供商;在数据流通领域也先后出现了数据堂、百度ApiStore、聚合数据等有代表性的品牌,但总体来讲仍然没有摆脱数据流通难的局面。针对此种情况国内专家也曾发出过倡议,号召业界人士整理出大数据领域的资源“目录”。
造成数据流动性不强的原因,一方面是大数据行业整体水平有限,社会上还没有形成对数据价值的深入认识,大家并没有意愿通过出售自己的数据获取收入;另一方面是由于没有形成像阿里巴巴那样的集散地,还不能将分散的交易整合起来,形成规模效应。
“数粮”创始人杨涛认为,相对于实体商品的交易,数据这种虚拟物品的流通会有更高的集中度,并且随着人工智能、自然语言处理等技术的发展,民族之间的语言界限将逐渐模糊,再加上互联网、物联网等技术对地理距离的突破,未来全球只会有唯一的数据流通中心。虽然数据流通在技术和法律层面还有诸多障碍,但“集中”是必然的大趋势。数粮希望抓住全球数据即将流通的大机遇,首先立足国内,并逐步通过资本运作走向全球;并以此推动大数据行业的整体发展,实践大数据行业对于国家发展的战略性价值。
通过创始团队和一些种子用户的共同努力,数粮平台现已收录了“全网大部分的优质中文数据资源”,包括免费共享的数据源和公开出售的数据商品,覆盖了十三大主要领域;虽然只初步梳理了国内的数据源,但已经可以作为寻找大数据资源的理想平台。
访问平台可以看到 “数据分类”目录,据创始人说子目录最多时达到过500+的条目,最终缩减到目前的规模。从目录可以看出,数据资源基本涵盖了社会的各个侧面,从交易较活跃的金融、气象、征信,到相对偏门但含金量较高的农业、卫星遥感。据介绍,在收录数据的过程中,每一个行业至少都会从上到下覆盖统计局、政府部门网站、品牌数据商、BAT等数据垄断企业和行业龙头公司,会尽量避免“明显遗漏”优质数据源。
同时,数粮正在邀请各行业优质的数据商入驻平台,上线不到两个月的时间,已经有数十家企业和个人入驻,其中不乏北大CCER色诺芬数据库、云创大数据等行业顶尖的数据提供商。通过主动的收录,数粮初步完成了数据资源的“集”,从这个意义上来说,中国大数据行业开创了先河;随着平台用户和数据商的不断增多,数粮还希望形成数据资源的“散”——交易和流通。
考虑到数据流通还没有形成统一的技术标准和法律规范,再加上数据资源拥有方通常的保守心态,数粮采取了尽可能开放的方式——网站采用典型的电商结构,在不侵犯他人权益的前提下,鼓励数据包下载、api接口、定制等各种可行的交付方式,甚至接受卖家将交易指向平台外,目的就是最大程度地促进数据流通。
除数据交易外,数粮平台也支持大数据技术和应用产品的交易。创始人杨涛认为,数据的价值主要在加工和使用中体现,在平台中提供相关的技术产品会在很大程度上方便数据使用者;在未来,数据和大数据工具会互为天然的补充,在同一平台中流动。目前数粮已经收录了近三千种大数据技术和应用产品,并且计划在合适的时机推动该市场的交易。
在中国赶超西方发达国家的时刻,大数据火了,并且被世界主要国家都奉为国家战略。我们看到已经有不少国内企业在各自的领域通过创新走在世界前列,希望在大数据这个未来的战略要地,更多中国企业走在时代前沿,为我国在信息时代的竞争中争取主动。
转载请注明:数据分析 » 数粮汇集全网数据资源,大数据的助推器来了