“绿色”的商务智能
绿色的商务智能?对,你没有看错,就是绿色的。不过这里的绿色是“绿色环保”中的意思,即节约成本,降低能耗的商务智能。可能你还是觉得有点疑惑,IT也能谈节能?且听我细细道来。
近几年,对IT行业来说,“绿色”已经成为了一个热点,从PC电脑、服务器,到数据仓库、存储都开始接受绿化。商务智能也不例外。
以数据仓库为例。之所以会想要绿化,是因为随着企业发展,历史数据还未理清,新的数据又在不断产生堆积,数据库的不断膨胀又直接导致了存储开销、机房占用、耗电量大的问题,也就造成了企业资源的使用负担越来越大。
为了解决以上问题,数据仓库的绿化被提上了工作计划。
现在已经有很多企业基于数据仓库的基础开始部署商务智能系统,而数据仓库的效能则直接影响着企业部署商务智能的成本。看一组真实的原始数据:Sybase IQ实施Sybase IQ实施企业Nielsen Media Research初始数据量是17.9T,数据仓库是17.6T;而雅虎的初始数据是17.0T,比Nielsen Media的少了一个T,但是它的数据仓库大小却高达100T!这是一组对比相当鲜明的数据,Nielsen Media的数据仓库显著缩小,雅虎的数据仓库却膨胀了约6倍。对于一个数据应用规模较大的企业,在获得相同性能的情况下,数据管理如人员、效率、存储、管理等的成本增加可想而知。
那么IQ是如何做到这一点的呢?如何让数据仓库缩减到小于原始数据?
其中最重要的技术就是IQ的数据库采用的是列式存储数据的方式。列式存储和传统的行式存储有什么区别呢?先看下面两张图。
1.行式存储:
2列式存储:
数据读取时,行存储通常将一行数据完全读出,如果只需要其中几列数据的情况,就会存在冗余列。列存储每次读取的数据是集合的一段或者全部,数据库是自动索引。 另外由于列存储的每一列数据类型是相同的,则使数据压缩和解析变得十分容易,更大的压缩比减少了对存储空间的需求。相比之下,行存储数据解析需要在多种数据类型之间频繁转换,这个操作很消耗CPU,增加了解析的时间。所以,列存储的解析过程更有利于分析大数据。
以上只是商务智能绿色化的其中一个环节,一个企业可以着手去实施改进的地方。在激烈的市场竞争中,要想开拓自己的市场并且获得盈利,就要求企业更加关注IT建设的成本和绩效,以绿色的思维出发。这不仅仅对企业来说可以降低成本,对用户来说,更加轻便的数据仓库和更加快速的查询速度以及更小的空间占用也是再好不过的事了。