对齐大数据_数据对齐
简介
为了使简洁,连贯性和完整性一些外表到大数据的争论我分享进化模型普适信息架构和管理。
这是大数据的调整和安置的概述成一个更广义的体系架构,集成了数据仓库(DW 2.0),商业智能和统计分析的架构。
该模型是目前称为DW 3.0信息供应框架,或简称为DW 3.0。
回顾一下
在先前与片的名义 数据所做的很简单-即使是“大数据” (可在这里上好的Strat的博客),我看了三个粗线条的数据类:企业经营数据; 企业处理数据; 并且,企业信息数据。
图。1 – 化繁为简数据
用简单的术语数据的类可以在以下术语进行定义:
企业经营数据 -这是用于支持日到组织的业务日常运行的应用程序的数据。
企业流程数据 -这是收集展示如何操作系统进行测量和管理数据。
企业信息数据 -这主要是它是从内部和外部数据源收集的数据,最显著源是典型的企业操作数据。
这三个类构成的DW 3.0的根本基础。
总体看来
下图说明的总体框架:
有此图中的三个主要组成部分:数据源; 核心数据仓库(该Inmon架构和流程模型); 并且,核心统计。
数据源 -该元件覆盖了所有的电流源,品种和其可用于支持“挑战识别”,“选项定义”,决策过程,包括统计分析和场景产生可用的数据量。
核心数据仓库 -这是DW 2.0模式的建议演进路径。它忠实地延伸Inmon范式不仅包括非结构化和复杂的数据而且从核心数据仓库景观之外进行的统计分析获得的信息和结果。
核心统计数据 -这个元素涵盖统计能力的芯体,特别是但不仅仅是与问候不断发展的数据容量,数据速率和速度,数据质量和数据种类繁多。
这件作品的重点是对 核心统计 要素。提及也将提出的三个要素是如何提供有用的协同效应。
核心统计
下面的图集中的上 核心统计 模型的要素:
图。3 – DW 3.0核心统计数字
这是什么图旨在说明是数据和信息,通过数据采集,统计分析和结果的整合过程中的流动。
这是什么模式还引入是概念 分析数据存储。这可以说是这种建筑元件的最重要的方面。
数据源
为简单起见有图三个明确命名数据源(当然也可以是更多的,与企业数据仓库或它的从属数据集市也可以作为一个数据源),但对于这个博客片的目的我已经数限制为三:复杂的数据; 事件数据; 并且,基础设施的数据。
复杂 的数据 -这是包含在文件和其他复杂的数据假象非结构化或高度复杂地结构化的数据,例如多媒体文件。
事件数据 -这是企业流程数据的一个方面,并且通常在抽象的细粒度级。下面是业务流程的日志,互联网Web活动日志和事件数据以及其他类似资源。由这些源中产生的量将趋向于比其他的数据量高,是指那些当前与大数据项相关联,覆盖因为它是大量的信息,通过跟踪,即使是最轻微的一块’行为数据生成距离,例如,有人随便冲浪一个网站。
基础设施的数据 -这方面包括其中很可能被描述为信号数据的数据。潜在的高挥发性数据的连续高速流可能会通过复杂的事件关联和分析组件进行处理。
革命从这里开始
在这里,我会稍微回溯到突出一些这种建筑元素背后的指导原则。
如果没有企业的当务之急是没有商业理由这样做: 这是什么意思?嗯,这意味着,每显著的行动和举措,甚至是高度投机的举措,必须有一个有形的和可靠的企业的当务之急支持这一倡议。所不同的是那样清楚奥马哈的圣人和圣诞老人之间找到。
所有的架构决策是基于什么需要实现和所有的可用选项的完整和深刻的理解: 例如,拒绝使用高性能的数据库管理产品必须进行充分的理由做出,即使充分的理由是成本。它不应该基于诸如“我不喜欢的供应商,多少”技术意见。如果Hadoop的的味道,使绝对意义上的,然后使用它,如果Exasol或Oracle或Teradata的意义,然后用它们。你必须要技术无关,但不是一个教条的原教旨主义的技术。
这一统计和非传统的数据源完全集成到未来的数据仓库架构景观: 建筑甚至更多的企业孤岛,无论是通过行为或疏忽,将导致更大的效率,更大的误解和更大的风险。
该架构必须是连贯的,一致的,可用的和具有成本效益: 如果不是,有什么意义,不是吗?
没有技术,工艺或方法打折: 我们需要能够经济高效地将任何相关的,现有的和新兴的技术引入到建筑景观。
减少早期并减少经常: 海量数据,特别是在高速,是有问题的。减少这些卷,即使我们不能在理论上降低速度是绝对必要的。我会阐述这一点,并分别如下。
只有所需的数据被采购。这仅需要转发的数据: 同样,这可以追溯到上需要有明确的业务需求联系在一起的感觉很好只航运数据需要被运。
减少早期,经常减少
在这里,我将在早期数据过滤,减少和聚集的主题。我们可能产生的数据越来越庞大数量,但是,这并不意味着我们需要囤积,以从中获得一定的价值它的全部。
在简单的数据来说,这是关于把最初的ET的ETL(提取和转换)尽量靠近数据发生器成为可能。它的数据库适配器的概念,但在相反。
让我们看一个场景。
一个公司要开展生成并收集每一天的每一分钟对许多TB级的互联网网站活动日志数据的一些投机的分析。
他们是航运海量日志文件,以在分布式平台上,他们可以运行数据映射和减少。
然后,他们可以分析所得到的数据。
他们,与黑客,设计师和造型师,而不是工程师,建筑师和数据库专家制定的许多网站,问题是,被乱堆着humungous和笨重的文物,如冗长,迟钝和零海量日志文件增值数据。
我们需要什么,以确保这一挑战被删除?
我们需要重新思考网络日志,然后我们需要重新设计它。
- 我们需要能够tokenise日志数据,以减少严重的设计和详细的数据造成了大量的数据占用空间。
- 我们需要具有能够连续地将数据发送到一个事件设备,可用于由事件和会话的基础,以减少对一个事件的数据卷的双重选择。
- 如果一定要使用的日志文件,然后很多小的日志文件是最好少海量日志文件,以及更多的日志周期是最好几个日志周期。我们还必须最大化并行记录的好处。时限/音量绑定会话日志也值得考虑和更深入。
所以,现在,我们得到的日志数据,使用点或者通过日志文件,日志由事件产生的设备文件(如分析数据收集适配器的工具包的一部分),或者由设备通过短信接收点发送。
一旦数据被发送(常规文件传输/共享或消息),我们可以再移动到下一个步骤:ET(A)1 – 提取,转换,分析和负荷
对于日志文件,我们通常采用ET(A)长,但对于课程的消息,我们不需要E,提取物,因为这是关于直接连接。
再次在ET(AL)是另一种形式的减速机构,这就是为什么在分析方面被包括,以确保其获得通过所述数据是需要的数据,并且该垃圾和噪声不具有可识别的值,被清洗从早期和频繁。
该分析数据存储
在ADS(其可以是分布式数据存储在云某处)支持统计分析的数据要求。这里的数据是有组织的,结构化的,综合性和丰富,以满足统计学家和数据科学家专注于数据挖掘正在进行,偶尔波动的需求。在ADS数据可以累积或完全刷新。它可以有一个短的寿命,或有显著寿命长。
ADS的是分析数据的物流中心。它不仅可以用于提供数据到统计分析过程,但它也可以被用来提供持久的长期储存以供分析结果和场景,并且为将来的分析,从而为“写回”的能力。
在ADS中的数据和信息,也可以与从存储在数据仓库中的数据得到的数据增加,它也可受益于具有它自己的专用数据栈专门为此目的而设计的。
在ADS数据的统计分析的结果,也可能会导致反馈被用来调谐数据还原,过滤和浓缩规则更下游,无论是在智能数据分析,复杂事件和歧视适配器或ET(AL)的工作流。
这是所有乡亲。
这一直是必然的我目前的标签DW 3.0一个非常简短和高级视图。
该模型并不试图定义统计还是怎么的统计分析是应用,已经做得比其他地方充分,但如何统计信息可以在扩展DW 2.0架构可以容纳,而无需拿出几乎反动和不合身的解决方案,可以通过良好的意识,完善的工程原理和适当的方法,技术和工艺的应用审慎更好和更有效的方式来解决问题。
转载请注明:数据分析 » 对齐大数据_数据对齐