驯服的Hadoop大数据的野性的一面
企业被吸引到Hadoop的,因为它可以让他们存放大量不同类型的数据,并担心以后它构建。但是,“怎么都行”的理念有一个缺点,并可能威胁到把一个大数据湖成无底洞。今天Hortonworks公布了一项计划,以Hadoop的数据给管理只是有点更多的结构。
名曰数据治理倡议(DGI),Hortonworks旨在引领新的开源软件,帮助企业准确地跟踪数据进入Hadoop的,它是如何转变,谁访问它的发展,它最终结束了。该项目DGI将涉及多个学科,从元数据标记和隐私设置,以合规报告和访问控制。
有是在Hadoop的数据管理的巨大需求,说Hortonworks的产品经理Tim厅。“有这方面的需求,希望与渴望审计和合规人员来检查谁碰了数据,什么时候他们触摸它,是有一个监管链问题,有没有在数据和隐私保护方面的透明度,”他告诉Datanami。“这些事物的各种需要加以解决。您在Hadoop的土地更多的数据,就越难的问题变得“。
几个Hortonworks“客户将与Hadoop的经销商对DGI,包括默克,安泰和目标。数据分析巨头SAS,它已经在销售数据包的治理,也将是该项目的第一级成员。如果一切按计划进行,DGI最终会成为在一个开源项目Apache软件基金会,并提供作为Hadoop的堆栈的核心组成部分。
Hortonworks是不是第一家,以解决数据治理的问题,无论是内部的Hadoop或在更广泛的生态系统。但它决定走这条路,因为它认为的Hadoop生态系统将受益于具有从一开始就设计为开放和透明,一方面,并处理对其他复杂polystructured数据自身的数据治理框架。
然而,目前针对Hadoop的用自己的数据治理商品供应商可能会受到威胁。有观点认为,Hadoop的用户将具有运行所有通过这些受第三方控制不会得到太多的牵引力,从长远来看一个单一的数据管理工具,管理他们的工作量纱的确定,Hall说。开放性是关键DGI,Hall说。“有大量当今市场上的数据管理解决方案,我们绝对无意侵占现在的位置这些厂商已经和他们目前正在交付的能力,”他说。相反,Hortonworks正在寻求“充实和加强”市场上现有的数据管理解决方案,并让他们通过开放的API与集成DGI。
“有两个机会,这种事情发生的:苗条,没有,”他说。“我们正在做的是与Hortonworks的企业文化非常吻合。我们要回到创新为核心。[我们要求],我们如何确保在我们安装纱线这些新的引擎,我们正在寻找一致的审计,安全和元数据标记,这样就可以保证,无论在哪里,你的切入点是三分党的供应商工具,从Hadoop-你得到一致的审计告密,你的安全策略在所有这些发动机采用一贯的模具直接。“
这不是一个简单的问题来解决,而且还有一些需要研究的许多方面。例如,当一个给定的人或应用程序可能已被授予了基于角色的访问某些数据集,它们可从混合与其他数据的数据被禁止,即使该数据已被匿名。这样的数据混合可能会导致“重个性化”的数据集,并导致发生冲突的法律,法规的Hadoop的用户。公司应对欧盟居民的数据,尤其是必须遵循的地理覆盖区域的数据之外的运动非常严格的规定。
Hortonworks旨在帮助应对这些挑战所采取的DGI内交付所谓的基于属性的访问控制(ABAC)的能力。ABAC将补充现有的基于角色的访问控制(RBAC)功能,以及所有的工作方式下到列级。
元数据标记是将在DGI加以解决的另一个挑战。现有的工具,如Apache隼,使用户能够元数据标签应用于到达一定的频率数据。对于传入的数据是比较特别的,“有将是数据治理沙皇或数据牧马人的能力……来标记数据集,并从现有的数据分类方案和拉利用这些,”霍尔说。
Hortonworks希望有DGI的工作原型很快面市,并有一个技术预览可在第一季度结束前,有针对性的为今年下半年的第一个版本的全面上市。该公司的意图是DGI的发展将遵循三个部分组成的计划,就像毒刺其倡议改善蜂巢。在功能和functinlity更多信息将在即将举行的地层+ Hadoop的世界大会下月发生在加利福尼亚州圣何塞共享。
由一个大型开源社区的支持下,Hadoop的很快,但有些不正常发展。这是一个需要硬化和成熟的时候,才适合舒适到公司企业相对年轻,但非常有前途的代码库。这是不可避免的DGI项目,还是其他什么东西喜欢它,走过来采取一些边缘脱离Hadoop的在那里会见了抵抗的地方。但是,这听起来像Hortonworks将注意不要带太多金属关闭刀片。
“你知道那个抽屉在你的厨房?”霍尔问道。“装废品的抽屉。我们不想Hadoop的变成了。没有人愿意说……它并不需要是狂野的西部。“虽然没有人看,使Hadoop的刚性作为一个RDBMS,需要有适用于存储在Hadoop中的数据多一些结构,他说。
“它到达那里数据被摄取到的Hadoop的点,然后将它变成像一个黑盒子”,霍尔继续。“产品X说:”是的数据Hadoop的基础设施中降落。“ 但是,谁摸了一下,他们是如何通过质量流程按摩呢,他们怎么清洗呢,怎么他们策展的数据集?他们失去了洞察所有这些中间和临时措施。我们想闪耀明亮的光线在所有的东西,并确保这些现有产品的知名度得到了这个水平,这就是为什么集成API,我们正在构建的这一举措从根本上烤成的核心。“
转载请注明:数据分析 » 驯服的Hadoop大数据的野性的一面