给Hadoop一个支点：撬动大数据

大数据大概是继云计算之后，最热门的科技名词了。一些科技厂商不约而同，纷纷打出大数据口号，情况就像云计算热潮一样。那么大数据到底是怎么回事？

大数据照字面翻译，就是”大数据”,而这个”大”,最起码包含3种意思：大量的数据存储、很大的数据、很大的数据库。所以就中文译名来看，不论是翻成”大数据”或”海量数据”,其实都只能道出大数据的部分特性。然而，不管是大数据或是海量数据，都指向一个共同的趋势，就是数据增长的速度越来越快，而之所以能构成大数据这个新议题，就在于数据量之大已不同之前，目前的技术已经难以处理。

以前只有少数的产业会面临海量数据处理、分析的需求，例如气象、基因、科学仿真，或是金融交易诈欺分析等等，但随着科技应用的改变，有更多的产业也面临海量数据分析的挑战。例如搜索引擎厂商要索引全球的网页，就是一个艰巨的任务；电子商务企业要掌握顾客消费行为，所要分析的数据也越来越多。

以eBay的使用经验为例，看到国外媒体的看到稿件上写着eBay的数据库每天增加50TB,一度怀疑是不是粗心把5TB多加了个零，结果真的是50TB.因为eBay每天最少都有数百万次的商品查询，数据库每日增加1.5兆笔记录，而数据库的总容量则已超过9PB.所以，不仅每天新增的数据量庞大，连数据库也是超级庞大，而要从中分析顾客的浏览、消费行为，就是一件困难的事情。

大家熟悉的Facebook社交网站，每天都有数亿用户留下庞大的数据，甚至其中有很大的比例是图片、影片等传统数据库系统较不擅长的非结构化数据。这不仅挑战社交网站厂商如何管理，对于想利用社交网站来掌握消费者动态的企业而言，所面临的挑战也是前所未有的。

美国最大的超市Wal-Mart,既要分析顾客在网站上的购物行为，还要分析消费者是通过哪些关键词的搜索跳转而来，甚至，Wal-Mart想要进一步分析顾客在Facebook等社交网站的动态。Wal-Mart过去通过结账数据分析，将啤酒与纸尿布摆在一起，促进了啤酒的销售量，此举令人津津乐道。然而，这已经是属于事后分析，未来他们想要更主动了解顾客在社交网站反应的个人状态，早一步掌握潜在的消费需求，有可能他们以后会比父亲更快知道女儿怀孕了。

其实制造业也面临相同的挑战，例如随着晶圆的规格越来越精细，要掌握更精细的制程分析数据以确保准确率，就必须分析比过去还要多很多的数据。那么如何有能力分析海量数据，以及在可接受的时间内完成数据分析，就是个关键了。为此，很多公司就早早布局大数据的关键技术──Hadoop.

未来会有更多的产业要面临庞大数据量的挑战，而目前走在前头的企业，都不约而同的采用Hadoop这样的技术来克服难题。

Hadoop是基于Google搜索引擎的分布式计算技术，Google的哲学是蚂蚁雄兵精神，利用大量平价的服务器，搭配平行计算架构，以最符合经济效益的方式创造庞大的计算量。当Hadoop以此技术发展出海量数据平台，对企业而言无疑是一道克服海量数据挑战的曙光，因为企业可以不再依赖价格高昂的大型专属设备，而可以通过自建大量x86服务器群集来解决。

最近，Hadoop终于发表1.0正式版，就像是只要给我一个支点，就能撑起地球，Hadoop或许就是撑起大数据的那个支点。

转载请注明：数据分析 » 给Hadoop一个支点：撬动大数据