大数据的肮脏的小秘密-数据分析

大数据的肮脏的小秘密

大数据和机器学习的孪生现象相结合，给组织前所未闻的预测能力，以推动新的方式开展业务。但背后取笑我们以惊人的洞察力和业务优化的故事的大数据头条潜伏着一个难以忽视的真相：原始数据是非常肮脏的，需要努力清理一个巨大的数额。

数据科学家无疑是大数据移动的摇滚明星，因为他们使用统计和机器学习他们敏锐的理解，以收集模式的巨大数据集，然后设立业务系统，因此他们的雇主可以从这些见解获利。虽然这确实发生每天，它掩盖了的情况，这是数据科学家花费其大部分时间的数据校工的现实。

据最近的一项调查委托Xplenty，它提供运行在云中的基于Hadoop的ETL服务，原始数据是如此肮脏的商业智能专业人士30％的花费的时间清理数据50％到90％，使得它可以进行分析。

“重新格式化，清洗和整合大量来自多个来源的数据可以是压倒性的，”莫尔的Yaniv，首席执行官和Xplenty的联合创始人，在一份新闻稿中说。“BI专业人士应该花大部分的时间评估数据和解密模式，通过过程没有准备好数据分析的分析收集到的。”

当问Xplenty 200多名专业的BI他们面临使数据的最大挑战“分析准备好了，”其中55％的人表示，从整合不同的平台，随后通过变换，清理和格式化传入的数据（39％）的数据，整合关系和非关系数据（32％），和数据的绝对数量，需要在任何给定时间（21％），以进行管理。

该研究反映在大数据清洗业务他人提供的轶事证据。乔Hellerstein，的联合创始人Trifacta，并在加州大学伯克利分校的计算机科学教授，去年告诉Datanami数据专业人员经常花费的时间需要改写的50％到80％，争吵，和他们清洗脏数据。

Trifacta的公司之一，像Xplenty，那也旨在让客户从下的数据清洗业务。“我们非常自豪地数据门卫，”Trifacta新任CEO亚当·威尔逊在最近的Hadoop峰会上表示。“我们爱，我们利用这种肮脏，凌乱的问题护理的事实。”

Xplenty的铁道部阐述了在去年11月接受采访时与脏数据的问题Datanami。“大多数时候，你无法对原始数据的分析。这太复杂了，“他说。“大多数业务分析师和数据用户需要有按摩，并改变了他们的数据做分析之前。然后，科学家的数据，真正聪明的人需要获得原始数据和编写Hadoop的代码来识别趋势，没有人能够确定，看的东西，没有人能看到。“

莫尔说Xplenty是第一家提供的公共云计算平台，如亚马逊，微软，IBM，谷歌，和Rackspace运行一个专门的基于Hadoop的数据集成和清洗服务。客户可以建立自己的数据整合和利用，不需要用户具有专业技能的图形界面改造管道。

“我们正在做的是不是新的意义上，人们一直在这样做，因为数据库时代的到来，肯定当数据仓库的方法开始出现，”莫尔说。“你有原始数据。你改造它，将它规范化，准备它，然后把它放到数据仓库。这是什么新鲜事。但是，什么是新的与我们的产品，它是建立在Hadoop的一个大数据的技术，它是一个SaaS云服务。它可以让你做一个直观简便的方法“。

随着越来越多的公司开始他们的大数据之旅，并发现这个不幸的小秘密，他们会越来越多地寻求最佳的像那些来自Xplenty，Trifacta，单点产品的Tamr，Paxata和Progress软件自动化的改造和清洗的过程。他们将不得不因为数据科学家是一个可怕的事情浪费。

转载请注明：数据分析 » 大数据的肮脏的小秘密