为什么Hadoop的不会取代你的数据仓库
很多已经取得的Hadoop成为分析奇异控制点,有效地篡夺企业级数据仓库(EDW)。近期寻求SQL集成到Hadoop是一个很好的例子。但对于Hadoop的一个较好的作用正在出现在手与现有EDW实现,它有手的工作,支持混合大数据分析架构。
围绕Hadoop的炒作水平持续高位运行的大数据浪潮还在不断变大。兴奋的最新阶段是从物联网(IOT)和周围机器数据分析的可能性到来。Hadoop的,以其经济实惠,灵活的文件系统,因此被视为一个可能的候选人来存储和处理PB级值得半结构化数据。
随着物联网的发展,Hadoop的社会继续其先前分配的任务,这是改造的Apache Hadoop的使用SQL接口,使之更容易使用(更不用提EDW-等)。Cloudera的和Hortonworks,用自己的黑斑羚和毒刺举措,是导致推加速Hadoop的SQL访问,并消除的Hadoop版本1 / MapReduce的范例。
但随着SQL工作仍在继续,它会引发问题。难道我们重新发明轮子呢?我们是否重复我们已经与EDWs?这是真的,其中的Hadoop应该向何处去?这就是我们的资源物尽其用?
有一对夫妇的角度对SQL-上的Hadoop的故事。在一方面,SQL使得Hadoop的更容易被现有的商业智能工具,以及数以百万计的数据分析师谁可以写SQL语句。但也有下足运动与Hadoop的替代EDWs,和SQL的支持是该驱动器的重要组成部分。
在一个纯粹的美元每公吨结核病,Hadoop的每一次跳动EDW手了。Hadoop的能力通过利用商品的X86处理器,SATA磁盘来提供大规模并行和纯香草以太网网络显然是一支不可忽视的力量。但EDWs提供的远不止存储和SQL接口,并提出的Hadoop作为替代一个成熟的企业级数据仓库的实施是一个命题是充满了看不见的潜在并发症。
史蒂夫Wooledge,产品营销的Hadoop分销商副总裁MAPR技术,说的Hadoop有很长的路要走,才可以通过复制成熟EDWs交付的功能。
“对于一个成熟的数据仓库用户,有一定类型的工作负载,非常复杂的SQL,即成熟的数据库技术的[占有一定的优势,”他说。“Hadoop的只是还没有。”
客户正在探索替代的Teradata或Oracle数据warehous的可能性与Hadoop的ES,Wooledge说。“这是他们的数据科学实验的一部分。他们希望看到什么Hadoop的好。在这个时间点,这是不正确的地方为一个数据仓库,“他说。
“那说说更换数据仓库厂商的误导,他们正在失去信誉。”
数据分析巨头SAS看到足够多的数据进入Hadoop的,以使它值得HDFS上提供两种产品,包括其在SAS内存统计Hadoop和可视化统计,本月早些时候,它推出。但是,这并不意味着客户抛弃自己的Teradata,甲骨文,或Greenplum的EDWs赞成的Hadoop,SAS称首席科学家,数据韦恩·汤普森。
特别是,EDWs仍抱过来的Hadoop的优势,当涉及到数据服务的分析师更新记录,汤普森说。“我们有统计数据可视化在其他平台上的原因是Hadoop是不是更新那么好,”他告诉Datanami。“很多客户都仍然会有自己的主人EDW在Teradata或Oracle系统中。我们仍然可以看到这些企业提前分析师…谁需要这些EDWs统计数据的激增,并且需要它们很长一段时间来,至少在未来五年。“
新的数据分析架构正在形成,融合的下一代平台,如Hadoop的,内存中的数据网格,和图形数据库,与传统的关系型数据库和数据仓库。在这种混合架构中,每个部件做什么,这是最好的,使客户获得新的分析技术带来的好处,而不从痛苦的缺点。
在云分析软件公司宝数据,一个趋势是新兴的用户看到他们的充实现有EDWs其托管服务,其中融合了MapReduce和等离子被称为快速面向列的数据存储。该公司的客户110目前有超过4万亿行的数据存储占用约4 PB级的数据宝藏的云。
“我们看到的是更多的人谈论我们作为一种辅助的云设施与来自甲骨文,Teradata和他人他们的经典数据仓库大数据,”富Ghiossi,营销宝数据的副总裁说。“我们不是困惑的事实,人们可能已经安装了一个数据仓库。他们看着它,并说,我们把[大数据解决方案]进入该环境是从成本和可管理性的角度来看只是望而却步。“
作为Hadoop的实现从验证的概念进入满负荷生产,将有一个扩展Hadoop的足迹,做多与它的欲望。这是一个自然的反应,尤其是如果该组织正离他们的Hadoop集群可操作的见解,这将是很难得到别处。
但热情的Hadoop需要与现实的情况,这是Hadoop的仍然是一个相当新的技术,不提供所有这一切都EDWs提供了多年的企业级功能是锥形。MAPR的Wooledge,谁曾经工作在Teradata的,并没有看到Hadoop的用户提供并发性,动态工作负载管理和数据延迟功能的很快的Teradata提供随时随地的同一水平。“有些是Teradata的创造的事情是绝对一流的,”他说。
这已Hadoop的出色,在一个工作负载运行ETL作业。十年前,ETL是一个单线程的进程,联储数据到数据仓库从一个单独的应用程序服务器。但现在这些工作量越来越大规模并行得益于Hadoop的利益。“现在的Hadoop在这里,它使自然感的土地数据到一个文件,做你的转型有,然后将那可分析到数据仓库中的数据,”他说。
随着时间的推移SQL Hadoop上的成熟,可能还有其他类型的工作负载是可以移动的。但现在,组织最好的思考Hadoop的不作为替代EDW担任,但在数据分析的机器必须与其他人打得好另一个齿轮。
转载请注明:数据分析 » 为什么Hadoop的不会取代你的数据仓库