气象数据的“大数据应用”浅析_大数据案例分享
1、引言
据统计,2011年全球的数据规模为1.8ZB,这些信息将填满575亿个32GB的ipad,以这些ipad做砖石,足可以垒建起两座中国的万里长城。而到2013 年,仅中国当年产生的数据总量就已超过0.8ZB,2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB.【1】而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹航空母舰。
数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”.
很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据”的应用范式,以此研判着可能给本行业带来的变化和新的业务契机–气象部门也是如此。
做为抛砖引玉,笔者拟就如下问题提出自己的看法:
(1)气象数据是否具备“大数据”的核心特征?
(2)业界公认的“大数据应用”的主要形态是什么?
(3)“大数据时代”背景下气象数据应用中新的价值领域在何处?需要首先具备哪些必要条件?
(4)气象信息技术领域当务之急需要解决的关键技术问题。
2、大数据的现实以及气象数据的体量构成
2.1 大数据的行业分布
就数据量而言,中国的大数据近期具有如下行业分布特征:
(1)互联网公司
目前国内的互联网公司,拥有总计约2EB的数据,而其中的互联网三巨头BAT(百度、阿里巴巴、腾讯)占有了其中的3/4(约1.5EB)。
(2)电信、金融、保险、电力、石化系统
这些行业及企业数据量分布较为平均,就每个企业(或运营商、部门)而言,大致都拥有10PB以上的数据,且年增量都在PB级以上。总和则有数百个EB的存储数据和数十EB的年增量。
(3)公共安全、医疗、交通、电子政务领域
城市:随着平安城市、智慧城市等工程的推进,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约300PB.最保守估计(含定期循环清除),每年能够保存下来的数据在数百PB以上。
交通:飞机航班往返一次产生的数据达TB级。列车、水陆路运输每年产生并保存下来的各种数据视频、文本类数据约达数十PB.
卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB.
电子政务:一个智慧城市的电子政务所产生的数据每季度约达200PB.而调查显示,未来1~2年中国政府部门的数据规模超过100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是10~50TB.
(4) 其他,商业销售、制造业、农业、物流和流通等领域
随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百TB甚至数十TB级别。【2】
(5)气象数据
气象部门需要永久保存的数据目前约4~5PB,年增量约1PB.
由此可见,以数据量而言,在整个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言,气象数据无论总量还是增量,较这些数据大户至少低3个数量级。
2.2 大数据的特征
早在2012年,业界便已就大数据在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的4V特征:
Volume(大体积):体积巨大是大数据的最根本的特征,体积不足够大,任何数据都不能称之为“大数据”.一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。
Variety(多样性):类型和来源渠道繁多是大数据的第二个特征。大数据非但体积巨大,而且内容繁杂,数据种类繁多,包括网络日志、音频、视频、图片、地理位置信息等等;这些种类繁杂的数据来源于多种不同的渠道。多类型的数据对数据的处理能力提出了更高的甚至全新的要求。
Velocity(高速度):生成速度快,处理时效要求高,这是大数据区分于传统数据采集、汇聚、处理乃至数据挖掘等方面最显着的特征。
Value(价值稀薄):数据价值密度相对较低,这是大数据的第四个特征。根据业界专家的看法,大数据里蕴藏着的信息无所不包,任何人所需要的任何信息,都可以从大数据里寻找到。只是这些信息隐藏在大数据的汪洋大海之中,寻之如同大海捞针,人们需要研究出类似沙里淘金的办法,才能在有效的时间内将所需信息寻找到。因此如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。当然,还有一些人将对大数据“Value”的理解确定在“价值丰富”的层面上;而最早提出“大数据”概念及特征的Gartner公司和麦肯锡公司,甚至至今仍坚持特征“3V”(Volume、Variety、Velocity)论,认为“Value”不能作为大数据的特征【3】。限于篇幅,不予展开讨论。
需要注意的是,在此“4V”(或“3V”)特征中,“Volume”(体量巨大)仅仅是成为大数据的必要条件,而非充分条件,如同 30mm的日降水,在我国东南沿海地区十分平常,但在西北地区却可算罕见大雨,所以体量大小是相对的。事实上,大数据概念的提出绝非仅因为数据量的暴增,而且是因为数据已多得用传统方法无法应对或处理,导致人们必须采用新的方法、新的思路乃至新的理念予以应对。如果数据量虽大,但却能够处理和掌控,便不能称其为“大数据”.因此,“4V”对于大数据而言,既是特征,也是考量的四个维度。
2.3 气象数据的体量种类分布
气象资料种类较多,就体积而言,其中的地面观测、气象卫星遥感、天气雷达和数值预报产品四类资料占据总量的90%以上,其中:
地面观测资料:因二十一世纪以来观测方法从人工观测改进为自动观测,摆脱了人类居住条件限制的制约,台站数由本世纪初的不到3,000个,迅速扩展到目前的40,000多个,观测频度由最初的3小时/次调整到目前的5分钟/次,因而导致资料量呈几何倍数增涨,月增量由最初的约240MB猛增到现在的约2.4TB,增幅约4个数量级。根据防、减灾以及气象服务的需要,未来扩建计划有可能将台站数继续扩增至70,000到100,000个,观测频度有可能继续加密到1分钟/次;因此未来六年内该类资料总量有可能在现有基础上再行扩增1~2个数量级,由现在的每天数百万条记录增至超过一亿条记录/天。
天气雷达资料:按照《天气雷达近期发展规划(2005-2010)》以及《气象发展规划(2011-2015)》中“新一代天气雷达建设增补站点布局方案”,目前在全国已布设约200部不同波长的多普勒天气雷达,并为达到雷达资料全社会共享的目的,已基本实现7×24小时全天候不间断观测;日增总量约300GB.
气象卫星资料:根据《我国气象卫星及其应用发展规划(2011~2020年)》,至2020年,我国计划发射11颗气象业务卫星,包括3颗风云二号03批卫星,3颗风云三号上午星、2颗风云三号下午星、1颗降水测量雷达星以及2颗风云四号光学星。此外还将在2020年前发射2颗气象试验卫星。【数据量待补充】目前的日增总量约数百GB,未来有可能增加到数TB/日。
数值预报产品:与地面观测、气象卫星和天气雷达等气象观探测资料不同,气象数值预报模式资料属于气象观探测资料的加工产品。以GRAPS、T639为代表的天气预报模式,以及以BCC_CSM2、DERF2.0为代表的气候预测模式,每天都在实时运行,不断产生着数以万计的各类要素场,以供国家级、省级乃至区域级预报员参考使用,日增量接近TB级。
在上述四类数据之外,气象资料尚有高空探测、地面农气观测、沙尘暴观测、闪电定位观测、风廓线雷达探测等等许多种,但就体积而言,较上述四类资料至少低一个数量级,难以将其称之为“大数据”.
因此,如果就体积而言,气象资料可勉强算得上“大数据”,也是因为地面观测、气象卫星、天气雷达和数值模式这四大金刚将气象资料的体积撑大而成的。
3、“气象大数据”的特征分析
气象数据的体积虽大,却有其独特的特征:
(1)体积虽大但总量可控
这里对地面观测、气象卫星遥感、天气雷达和数值预报产品这四类体量最大的气象数据进行分析:
地面观测资料数据量剧增的原因,是站点数的增加和观测频度的大幅加密。然而,这种台站规模的扩充和观测频次的加密是基于预报和服务需求,经过严格科学论证,有计划有步骤逐步推进的;在观测台站达到一定密度,观测频度足以满足气象业务需求后,台站数不会无限制持续增加,观测频度更不会无节制地永远加密下去,因此总量既是可预测的,更是可控的。
对天气雷达而言,布网工作已基本完成,雷达总量不会有成倍数的增加。而且目前的天气雷达已基本实现7×24小时全天候不间断观测。因此天气雷达的资料量(年增量),将稳定相当长一段时间,而不会有倍数的增量变化。
未来数年内,我国还将发射数颗气象卫星,每颗卫星都会产生数百TB级的数据年增量。为满足气象卫星资料的应用时效,国家卫星气象中心针对每一颗气象卫星,都建有相应专属的地面接收处理系统,已完全实现所有气象卫星遥测遥感资料的实时接收处理。因此气象卫星数据目前虽以每年数百TB的量级增长,而且规模有可能继续扩大,但却始终处于可控可管和完全可用状态。
数值预报模式产品资料是各级预报员最重要的预报参考资料,这些产品甫一生成,便即刻送达天气预报、气候预测专家的桌面,供其业务参考使用;同时以满足业务需求的时效,分发至各省级乃至地市级气象部门,供其本地化应用。因此与气象卫星资料相类似,数值预报产品资料体积虽大,却始终处于可控可管和可用的状态,未来也将始终如此。
因此,气象资料体积虽大,在量级上算得上“大数据”,但却始终处于可控可管可用状态。
(2)种类虽多但内部信息单纯,来源单一
按照行业标准《气象资料分类与编码》,气象资料分为14大类,计有数百种之多【4】。该标准基本涵盖了气象资料的所有内容。所以就内容而言,气象资料在目前及可预见的未来,超不出该行标所规定的范围。数百种的气象资料种类虽多,但每种资料所含信息却十分单纯:土壤持水量只记载某时某地某规定土壤深度中水份的持有程度,“云能天”只记录某时某地的云量云状、能见度以及天气现象等信息。这与互联网大数据如电子邮件、微信、微博中所包含的社会百态、生老病死、喜怒哀乐、柴米油盐酱醋茶等所有信息有很大差异。究其原因,海量气象数据是由气象探测系统以及数值预报业务系统产生的,来源比较单一;而互联网大数据则由人来提供的,它来源于人类社会的方方面面和各个角落,是人类活动的实况记录。
(3)价值单一而明确
气象观探测业务系统只采集那些能够客观反映自然界气象状态的要素,所以气象观探测数据里包含且只包含丰富的气象信息,而以观探测数据为唯一数据和信息来源的气象数值模式,其生成的产品中所包含的信息也只能是局限于未来天气或气候状态的预测。因此所谓“气象大数据”,其自身的直接用途只能是气象业务,即:天气预报、气候预测以及气象服务。
麦肯锡公司和Gartner公司始终认为:“大数据是用传统的架构、传统的技术方法无法解决的数据问题”【3】;而由上分析可知,气象数据始终处于可管、控、用状态,虽然随着数据体积的不断膨胀,以及原有管理和处理技术架构的陈旧,逐渐出现性能下降、时效减慢等现象,但并非没有解决的技术手段。因此应当说,气象数据是“大数据”的组成部分之一,但其自身并不完全具备“大数据”的所有特征。从这个观点考察,以体积硕大为由称气象数据为“大数据”十分勉强,而且较易产生观念和认知上的混乱;因为衡量体量大小的标准是在不断变化的。信息技术的发展突飞猛进,处理及存储能力依摩尔定律,每18个月增加一倍;今天的大体量规模数据,如果不具备超摩尔定律的膨胀能力,数年后便很有可能萎缩成中等甚至中等以下规模的数据;这样的事例在IT界俯拾皆是。
4、应用分析展望
4.1 大数据带来大变革
《大数据时代》的作者就大数据带给人们思维方面的变革,提出了三个观点:
(1)当数据处理技术已发生翻天覆地变化时,在大数据时代进行抽样分析已经过时。人们进行分析的对象已不是抽样数据,而是所有的数据,即:“样本 = 总体”.
(2)执迷于精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
(3)知道“是什么”就够了,不必知道“为什么”.在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”.【5】
而对于大数据的价值,该书作者认为,“数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予”,它目前展现在人们面前仅仅是其总价值的“冰山一角”.对此,胡小明先生的理解是:虽然一些数据所蕴含的其所属领域的内部规律(即所谓“首要价值”)已被本领域专家充分发掘,但如果将这些数据与其它领域数据相链接,却有可能发现出许多意想不到的相关关系,即所谓“丰富的未知价值在领域的外部”.【6】
因此,数据的价值由“内部自身”和“外部关联”两部分组成:内部自身价值是指该数据自身所包含的所有信息对其所属企业和部门业务工作的支撑、以及开拓业务领域的作用;而外部关联价值则是指该数据与外部企业、领域和行业数据进行深度结合以及具有创意的分析思路和有效的处理方法,从而发掘出新的、超出所属企业和部门原有业务范围的、传统思维所意想不到的、具有开创意义的信息,众多企业和行业部门可由此了解并掌握用传统思维和方法无法获得的事实,并因此可创造出新的经济和社会价值。无论是否处于“大数据时代”,数据的价值概莫能外。而所谓“大数据应用”,是由于近二十余年来,各行业信息化程度逐渐提高,互联网及其丰富的应用逐渐渗透到人类社会各个阶层的方方面面,在使得人们的工作和生活更加舒适、方便、快捷和安全的同时,也将社会上各方面信息通过网络(尤其是互联网)采集并收集管理起来,从而导致社会上数据总量以令人瞠目结舌的速度暴增,而这些暴增起来的数据也逐渐呈现出与此前数据所不同的性质和特征(即所谓“4V”特征)。由于此时的数据具有Variety(多样性)的特性,所含信息种类较之此前大大增加,人们有可能通过分析这些信息,获得以前不可能得到的新的知识、预测信息,激发出新的开拓性思维,乃至开创新的业务领域。
4.2 “大数据应用”成功案例分析
“大数据时代”伴随着“大数据应用”.通过分析众多媒体、专着上所刊载的各个“大数据应用”成功案例,不难发现三个事实:
(1)所分析的数据都是企业自身所拥有的
所有成功案例都是企业通过分析自身拥有的数据而产生的。这里既没有谷歌通过分析诸如沃尔玛等跨领域跨行业部门的数据而得到有价值信息的成功案例,也没有阿里巴巴通过分析类似腾讯或百度等同为互联网运营应用的兄弟企业的数据而获益的案例。不是这些公司没有分析能力,而是对方的数据无法获取到。所有成功案例都是该企业通过分析本企业所拥有的数据-“大数据”-所获得的。跨行业、跨部门甚至跨企业的数据联合分析应用的成功案例难觅其踪。因此所有这些成功案例,都是数据内部自身价值的被挖掘。
(2)所分析的数据对象中所需要的信息足够丰富
沃尔玛能够分析出婴儿纸尿布与啤酒销量之间的正相关关系,是因为其数据库中包含所有本系统连锁店中所有商品的销售记录,包括啤酒和婴儿纸尿布。阿里巴巴企业能够提前半年预测出2008年北美将爆发经济危机,是因为其数据库中详细记录了数年来世界各地与阿里集团的每一笔订单和询单,可从中统计并发现出其异常变化以及变化的区域分布。美国中央情报局能够通过对电子邮件的筛选探知出几十起针对美国的恐怖袭击计划,并提前采取相应措施,是因为恐怖分子使用电子邮件进行通信联络,留下了相关的痕迹。相反,我国金融行业数据量巨大,但分析师们却绝不可能通过分析金融数据来预测天气和气候,因为金融数据中不包含任何与气象有关的信息;反之亦然。
所以,大数据应用成功案例中最重要的一点,就是这些企业所分析的数据对象中包含了可能需要的所有信息,只不过这些信息在整体数据的汪洋大海中十分稀少,需要采取非传统的、被称之为“大数据”技术的处理手段、在规定的时效内挖掘出来。
(3)大多是新兴的或信息化时间不长的企业(行业)
这些成功案例企业或是近十几年来方才崛起的新兴互联网企业(如:谷歌、亚马逊、阿里巴巴、腾讯等);或是行业历史虽然悠久,但信息化建设历程并不久远(如:沃尔玛超市等),所拥有信息的内在价值尚未真正有效地挖掘出来。
由此可知,目前业界众口称道的“大数据应用”成功案例,基本上都属于数据内部自身价值的挖掘和展现,而且数据内部的信息种类十分丰富。相对而言,数据“外部关联价值”的挖掘和展现在业界和社会上尚未成为主流形态。
4.3 气象数据的“大数据应用”前景预期
气象行业是信息化建设较早的行业,气象科学家分析研究气象数据已有近百年的历史。直到目前,气象数据的核心内容并未发生根本性变化,近年来所增设的新的探测手段(如气象卫星、天气雷达等),其探测信息最终都将反演成温、压、湿、风以及云能天等有限的几个气象要素,以供业务及科研使用。而这些要素之间的物理关系,早已被动力气象学解释清楚。已有数十年历史的传统的统计气候业务,正是采用复杂的统计方法,对气象要素进行时间、空间分布方面的详尽分析,发现其中的规律,进而完成气候统计预测的。因此气象数据中常规探测部分(如:地面观测、高空探测等)对于气象行业而言,其常规的基本价值(对天气预报、气候预测以及其它专业气象预报的贡献)已被充分认识并挖掘。而其中可能潜藏的反映本领域内天气或气候规律的新的信号,正在由数以千计的气象科学家们分析研究着。
相对而言,非常规观测资料中的气象卫星和天气雷达资料,与“大数据应用”成功案例的特点较相吻合。以气象卫星数据为例:虽然气象卫星是用来获取与气象要素相关的各类信息的,然而在森林草场火灾、船舶航道浮冰分布等方面,气象卫星却同样也能发挥出跨行业的实时监测服务价值。究其原因,气象卫星视野的广阔和搭载探测设备种类的多样化,以及各类仪器设备所获信息之间、卫星数据与其它种类气象资料(如地面观测数据)之间综合应用的可能性,占据了绝大比重。气象卫星每批次(型号)所搭载的探测仪器设备都较前批次(或型号)有所调整和增加,因此每颗卫星都有可能产生新的遥感产品,除首先应用于气象行业的预定应用外,几乎都含有行业外新的服务应用的可能,从而可使气象部门得以不断扩展新的业务领域。
天气雷达数据与此类似,限于篇幅,不再展开讨论。
所以,虽然海量气象数据属于专业感知领域,所含信息量丰富而内容单纯–只包含(且富含)与气象有关的信息,并且其内部自身价值中的常规内容已被充分挖掘并应用于气象业务,可能深度蕴藏的内部自身价值正在艰难地挖掘中(已属于科学问题),但这并不意味着气象数据的内部自身价值已被挖掘殆尽。气象卫星、天气雷达等非常规遥感遥测数据中包含的信息十分丰富,有可能挖掘出新的应用价值,从而拓展气象行业新的业务领域和服务范围。然而这一切,首先需要管理者具有敏锐捕捉行业外服务需求的能力,其次则需要一支召之即来、来之能战、战之能胜的服务产品研发科技团队,而且需要积极进取和勇于担当的领导素养以及完善的机制配合。那种小心翼翼、循规蹈矩的行为方式,难以适应服务市场瞬息万变的状态。
与之相对应,气象数据“外部关联价值”的挖掘,则当出现在其与其它专业领域数据的跨领域跨部门综合分析应用过程中;而这一切的必要条件,就是行业间数据的高度共享和深度分析应用。然而,虽然需求十分迫切,呼吁也强烈而持久,但数据的社会共享至今仍是一个世界性难题。美国政府多年来年以来一再发布政令,要求政府部门在规定期限内将与国家安全无关的数据实现社会共享。在我国,早在二十一世纪初便由科技部主导的科学数据共享试点工作,十余年来进展并不顺利,行业间的数据并未真正实现共享,气象部门获得某些相关部门的观测数据异常困难,有时不得不从其网站上抓取数据表格,经人工处理后获得表格中的观测数据。因此,气象数据通过跨行业深度结合而挖掘其外部关联价值的必要环境并非已全部具备。而如果没有数据的充分社会共享,气象数据的“大数据应用”便将始终徘徊在“内部自身价值”的挖掘之中。
需要注意的是,“大数据应用”与目前的气象公共服务有所不同:后者是既定业务数据加工产品的社会推广应用,是气象数据已挖掘出的内部自身价值(天气预报和气候预测产品)的充分展示、应用和发挥;前者则是气象数据“内部自身”和“外部关联”价值的挖掘。简言之,前者是价值产品的创新,后者是价值产品的应用。产品应用需要的是积极灵活的客户经理和及时周到的服务支持,而价值创新,对内部自身而言,需要本行业领导的高素质、科学家的高度专业水准、研发团队的精干高效;对于外部关联价值而言,则须与其它相关领域原始数据的深度结合,而由于其跨行业以及数据量的浩大,这种深度结合工作所需要的是天才的跨行业创意分析师和有效地处理技术手段。
因此,不宜将气象预报产品的社会化推广应用简单地冠以“气象大数据广泛应用”的名称,因为产品应用与气象数据“大小”无关,而如此冠名将易导致概念的混乱和气象“大数据应用”的简单化。
5 信息技术领域需要突破的关键技术以及与“云”的关系
气象数据的广泛应用需要突破的关键技术很多,其中大部分(如天气雷达数据拼图等)属于专业领域的科学问题,需要相应领域科学家们的深入研究。就信息技术领域而言,海量数据的高效应用是亟需突破的核心技术难题。
(1)关键技术:海量气象结构化数据的高效应用
由“2.3”分析可知,目前气象数据的产生量巨大,每时每刻如滔滔洪水般汹涌而至,传统的技术架构已无法应对海量气象数据的处理、管理和有效服务,以至于有关业务单位不得不频繁更新设备,用更高档的服务器运行传统的关系型数据库和文件系统,用更高性能的磁盘阵列存储大小不一、数量惊人的数据文件,以及动辄数亿条记录的数据库列表,以期能够苟且满足当前日益严苛的数据处理、存储和检索等业务要求。这不仅造成了资金方面的浪费,更换系统设备过程中无法避免的系统移植和切换,也给有关业务和用户造成不必要的负面影响。分布式处理和存储等云计算/大数据技术虽然提供了对非结构化数据的规范管理和高效应用技术,但对于以地面观测资料为代表的海量气象结构化数据及其复杂多变、难以预测的应用方式,却显得束手无策。
地面观测资料是气象业务和科研中应用最为广泛和持久的一类结构化数据,被要求永久在线管理以提供实时服务。而通过“2.3”中的介绍可知,目前全国四万多个地面观测站所产生的资料,月增量数亿条记录(约2.4TB),未来更有可能膨胀到每日上亿条观测记录。因此,如何运用恰当的技术,有效管理海量地面观测资料,充分满足所有用户对地面观测资料的实时检索和分析应用,并使系统长期处于稳定状态,是目前必须解决的核心技术问题。虽然该问题在世界IT界亦属难题,但如果不予解决,则海量气象数据的应用便存在时效上的障碍,本部门业务需求尚且无法满足,遑论“大数据应用”了。
自2013年初以来,国家气象信息中心下属的气象资料服务室和系统设计室的有关技术人员,与国内有关高科技企业进行联合研发,在此领域已有突破性进展。相信不久的将来,此项关键技术将被突破。
(2)“大数据应用”与云的关系
由于体量的巨大,统筹的集约化管理大数据显得尤为重要,因为如此方可以大幅提高数据的应用效益,降低系统的复杂度和运营成本。云计算概念的出现以及随之衍生出的“云存储”等应用架构,为大数据的有效管理提供了可行的方案。这在目前国家级和省级业务系统已十分复杂的我国气象部门,显得尤为重要和急迫。
云存储在未来必将是大数据的主要管理和应用形态,因为在未来大数据开放时代,无力管理大数据者将占大数据应用者中的绝大多数;没有云存储,大数据的广泛应用就不存在。反之,如果没有大数据及大数据应用,很多“云”(尤其是“存储云”)的价值也难以体现出来,二者是相辅相成的关系。有关的内容及规划,已纳入《全国气象信息网络系统总体设计》之中,在不久的将来,将逐步予以实现。
综上所述,可得出如下结论:
(1)目前社会上的“大数据应用”大多仍局限在数据内部自身价值的深度挖掘方面,气象数据也是如此。相对而言,气象数据中的气象卫星和天气雷达数据因其信息量的较为丰富,有可能在与其它资料深度融合的过程中挖掘出新的应用价值,并由此开拓出新的业务领域。而气象数据外部关联价值的挖掘,有待于科学数据社会共享良好环境的建立。
(2)目前气象数据体量虽大,但其增速缓于摩尔定律。在未来的数年或十余年后,其体量将渐趋于适中。因此“气象大数据”的称谓将是暂时的。
(3)气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。
(4)“云存储”将是未来海量气象数据最合理的存储管理形式。
6、结语
“气象大数据”是暂时的,它终将回归到自己应有的位置,做为全社会“大数据”的组成部分之一。气象数据是汇聚自然界与气象有关的信息聚合体,其核心价值是支撑气象业务;但其自身价值并未被穷尽。通过努力,有可能在其中挖掘出新的价值,并因之开辟新的业务领域。
气象数据对于全社会而言,是极其珍贵的数据和信息资源。我们期待着气象数据在跨行业综合应用这一“外部关联价值”挖掘过程中焕发出新的耀眼光芒。而在此之前,气象预报服务产品的广泛社会应用,将是气象部门履行职责,服务社会的工作重点;它与气象数据的价值挖掘一道,成为气象业务中不可或缺的组成部分。
参考文献:
【1】ZDNET:《数据中心2013:硬件重构与软件定义》,ZDNET企业解决方案中心年度技术报告。原文链接:http://solution.zdnet.com.cn/special/datacenter2013
【2】36大数据:《大数据史记2013:盘点中国2013行业数据量 <http://www.36dsj.com/archives/6285>》,
原文链接:<http://www.36dsj.com/archives/6285>
【3】张瑾:大数据是用传统方法无法解决的数据问题,和讯科技:2012年11月30日10:59
原文链接:<http://tech.hexun.com/2012-11-30/148553904.html>
【4】QX/T 102-2009《气象资料分类与编码》行业标准
【5】[英]维克托·迈尔-舍恩伯格,肯尼思·库克耶:《大数据时代》,浙江人民出版社,2013年1月,第一版
【6】胡小明:“大数据启发新思维”,第二届大数据应用论坛大会报告,
原文链接:http://www.ciotimes.com/bi/bzjgd/82383_3.html
转载请注明:数据分析 » 气象数据的“大数据应用”浅析_大数据案例分享