本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

基于云的大数据分析系统_数据分析系统

大数据分析 cdadata 3827℃

基于云的大数据分析系统_数据分析系统

随着通信技术的高速发展,数据爆炸成为这个时代所有新话题的根源,如何应对这一严峻挑战是业界共同关注的课题。
企业数据以GB、TB再到PB级方式爆炸增长,而其中80%的信息是不需要经常访问的信息,它们占据着大量存储空间。更重要的是,这些数据不能删除,并要保存多年,以应对法规遵从和商业政策等需要。
大数据分析系统设计
    很多企业都面临着从大数据中提取所需信息的苦恼,同时需要不断投入高额成本新购设备,来满足大数据存储和计算。一些企业采用甲骨文一体机和EMCGreenplum等解决方案,这些解决方案的最大好处就是开发应用简单。但是,随着数据和应用需求不断增加,此类解决方案诸如设备昂贵、维护费用高等弱点逐渐显露出来,严重影响了它们的使用和推广。
本文介绍了一种基于云计算的大数据分析系统ClouDil。ClouDil系统基于Hadoop平台开发,实现了数据预先清洗,以及大数据的后台统计分析和数据钻取查询的功能。

数据ETL层
    数据ETL层用来实现对不同格式的外部数据提供统一的数据转换,并且在扫描数据时,根据不同的应用需求对数据进行初步的过滤和筛选。当接收到外部数据后,系统调用的数据导入功能把大数据导入到集群中,然后再对大数据进行清洗操作。数据ETL层主要包括以下几个组件:
1.数据适配器来自不同采集渠道的数据格式、数据内容等都可能会不同。最致命的是外部数据可能会出现少量的错误。为了兼容不同格式的数据和排除错误,数据适配器定义了统一的接口和错误的处理方案,并根据不同数据格式编写不同的数据解析类对象。系统根据配置文件来确定外部数据源的格式,以及根据配置文件来确定解析类对象和错误处理方式,把外部数据转换为统一的CSV格式的数据,并输出各种类型的日志。
2.Map对象适配器和Reduce对象适配器它也是定义了统一的接口,能方便增加和修改不同应用的Map对象和Reduce对象。由于外部数据是大数据,因此必须要根据不同的应用需求来过滤数据。一般的应用只会取大数据里面某几个字段和满足一定条件的数据。因此系统会合并不同应用需要的字段和过滤条件,再根据不同的应用需求,做到扫描一次全部大数据,把满足不同需求的数据分类存放到不同的目录中,对数据进行初次的分类和过滤。
3.主动任务调度外部数据都是实时发送过来的,但是很多应用的分析处理又是基于不同时间粒度的数据,例如30分钟的数据,1个小时的数据等。因此需要把数据按时间分目录,然后确认某时间段的数据全部接收完成后,主动任务调度组件就开始工作。具体的处理步骤如下:
a)主动任务调度组件调用数据适配器,根据配置的数据格式,把外部数据按行来解析,并且每一行数据解析为统一的CSV格式,存放到内存中。再根据错误数据判断的标准来确认每个字段项是否正确。如果数据存在错误,再根据错误处理方案来修复或者删除错误数据,以确保数据的完整性和正确性。
b)如果数据正确,主动任务调度组件再调用Map适配器组件和Reduce适配器组件。不同的应用需要编写不同的Map对象和Reduce对象,提取出需要的字段,对数据进行过滤,并且把过滤后的数据分类存放到不同目录中。
数据服务中心层
    在数据服务中心层,系统采用了元数据处理中心组件和智能SQL引擎中间件。其中,智能SQL引擎中间件根据SQL脚本的类型,能识别关系数据库还是Hadoop的模块。如果是发送给Hadoop的脚本,它会自动把脚本分解为Map对象和Reduce对象再进行分布式计算。通过它能大大降低开发难度和提高开发效率。数据处理具体的步骤如下:
1.通过数据适配器和ETL模块,把不同数据源或不同格式的数据进行数据清洗,再把数据导入到Hadoop中。
2.根据不同的应用,编写不同的元数据脚本。把元数据脚本统一优化后,配置到JSON格式的元数据脚本文件中。
3.数据处理中心会把JSON文件的内容读取到内存中,根据配置的业务规则,通过智能算法找出最优的运行模式和不同应用的共性,分解成最优的数据处理组件。
4.不同的数据处理组件对象通过智能SQL引擎中间件的JDBC驱动程序,采用并行的方式运行各自的脚本,实现对数据多次的过滤和统计汇总。
5.系统根据导出数据业务规则,来判断是否把保留在Hadoop中的计算结果导出到关系型数据库。如果数据量不大,并且是结构化的数据,调用关系型数据库的导入工具,把计算结果导出到关系型数据库中;如果数据量比较大,或者是非结构化的数据,这样的数据会继续保留在Hadoop中。
6.数据进入到关系型数据库中后,可以对数据进行进一步的处理。如关联配置信息表等,对数据创建索引等,方便应用层的应用系统查询和下钻。
7.系统把关系型数据库中和Hadoop的数据通过API接口发布到数据总线中,提供给不同的应用层系统使用。通过松耦合的可重复服务,将相关的数据直接呈现给各种应用和流程,并利用开放标准获得数据的可互操作性。
应用层
    应用层主要是采用网页模式来实现不同的应用需求,以及对各种任务的状态、Hadoop运行的状态等进行监控。系统采用开放式和分层设计,可以很方便地增加和删除不同的应用。所有的应用系统不会直接读取Hadoop生成的数据,只能从数据总线来获取数据。应用层主要包括以下几个组件:
1.数据订阅通过数据订阅功能,用户可以灵活订阅自己需要的数据,实现同一订阅的数据可以给不同应用使用,也可以实现同一应用使用不同的订阅数据。通过任务订阅管理来规定任务启动时间、结束数据、运行的周期等,这样可以把更多的资源分配给重要的任务。
2.任务监控由于处理大数据都是很耗时的,并且任务执行的过程可能会出现错误,因此需要对任务的状态进行监控,方便及时发现问题并解决问题。
3.应用系统它是数据的消费者,通过数据总线来获取数据,并且把数据展现给用户。但是Hadoop比较适合大的数据处理,不是很适合做实时的数据查询。因此后台采用主动的数据生成方式,根据不同的应用需要时间段粒度,自动生成数据到关系型数据库或Hadoop中,并且把数据发布到数据服务总线(ESB)中,而不是在用户点击查询按钮时,再去启动后台计算程序。
4.安全体系保证数据不会因人为或者意外的损坏而泄露或更改。系统通过防火墙、入侵检测、安全配置、数据加密、访问认证、权限控制、数据备份等手段来保证数据的安全性。由于传统软件和云计算在技术架构上有着非常明显的差异,在传统解决方案基础上,我们采用先进的数据分级隔离技术。对于共享的数据,以及安全级别比较低的数据,放在共享区。对于安全级别比较高、隐私的数据,隔离放在不同区。
系统主要特点
    ClouDil系统主要的特点如下:1.系统保留了Hadoop具有集群规模大(可扩展到1500台服务器以上)、存储容量大(可存储PB级数据)、并发用户数大(可满足几百个用户同时在线)等基本的特点外,还特别加强了安全性和容灾性的处理,以满足不同用户的特殊需求。
2.在高效性、高可靠性、高容错性的基础上,系统提供了智能SQL引擎中间件,简化了云计算系统的开发难度,提高了应用开发效率。
3.最高性价比解决方案。与其他解决方案相比,ClouDil系统最大的特点在于它能任意扩展和减少各种高低配置的电脑,并且能充分利用所有资源大幅减低成本。另外,其他解决方案只能采用专用的软硬件设备,在以后的数据升级维护中,成本会变得非常昂贵。
4.采用成熟的元数据驱动和适配器等设计模式,统一接口,并且把大量可能会出现变化的内容全部设计为元数据文件。实现了数据和功能共享,再通过ESB向外提供一个完善的数据服务中心。
5.完美地结合Hadoop和关系型数据库各自的优缺点。把处理时间长、数据量大的非结构化数据交给Hadoop,把处理时间短、数据量小的结构化数据交给关系型数据库,完美地解决了不同应用中各自不同的需求。
目前世纪鼎利ClouDil系统已经在电信、电力等行业的大数据分析领域得到广泛使用,并且获得了用户赞同和好评。他们使用该系统后,在投入较低成本的基础上,获得了高效的计算和存储能力;弥补了以前关系型数据库不能处理大数据的不足;通过使用智能SQL引擎中间件,降低了分布式程序的开发难度,大大提高了应用程序的开发效率;并且通过Hadoop和关系型数据库相结合,解决了结构化数据和非结构化数据、小数据和大数据的实时下钻查询的性能问题。

转载请注明:数据分析 » 基于云的大数据分析系统_数据分析系统

喜欢 (0)or分享 (0)