Hadoop开启云计算之旅实战
第一部分:我们为什么要学习云计算技术
?“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
———哈佛大学
社会学教授加里·金
?一分钟内,微博推特( Twitter)上新发的数据数超过10万;社交网络“脸谱”( Facebook)的浏览量超过600万……
?这些庞大数字,意味着什么?
?它意味着,一种全新的致富手段也许就摆在面前,它的价值堪比石油和黄金。
IT人你们准备好了么
?这是一个机会,千载难逢的机会。
?IT界 的又一桶黄金。
什么是云计算
云计算就是“按需应变”的网络延伸,即厂商按照用户不断变化的需求提供相应的硬件、软件服务。
云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡、网络技术等一些传统计算方法的融合体。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的完美系统,并借助SaaS、PaaS、IaaS、MSP等先进的商业模式把这强大的计算能力分布到终端用户手中。其核心理念就是通过不断提高“云”的处理能力而减少用户终端的处理负担,最终使用户终端简化成一个单纯的输入输出设备,并能按需享受“云”的强大计算处理能力。
云计算最典型的代表就是Google的搜索引擎。
云因何而生
不断增长的计算资源
处理器核数: 每18个月 100%
内存/硬盘容量: 每年 60%
网络带宽: 每年 100%
现有计算模型的局限
低利用率: <20%
高维护费用: 软硬件成本的 x5~x10
低可用性: 65% 服务存在不可用现象
四大商业服务模式
?SaaS(Software-as-a- Service):软件即服务
?PaaS(Platform-as-a-Service):平台即服务
?IaaS (Infrastructure as a Service):基础设施即服务
?MSP (Managing Successful Programme)
SaaS(Software-as-a- Service):软件即服务
uSaaS给用户带来的优势:拿来即用、无须维护、按需使用、随处可用、风险减小、成本降低、先天防毒、低配置也可用大软件
uSaaS给软件运营商带来的优势:节约销售成本、节约维护成本、稳健的经营模式
uSaaS的缺点:依赖互联网、数据安全性、数据保密性、
uSaaS的成功案例:Salesforce公司的CRM(客户关系管理)、Google的搜索引擎和Gmail、IBM的“蓝云”、Alisoft的AEP平台等一系列SaaS软件
PaaS(Platform-as-a-Service ):平台即服务
PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。
IaaS (Infrastructure as a Service)基础设施即服务
IaaS主要提供虚拟机
IaaS分为两种用法:公共的和私有的。AmazonEC2在基础设施云中使用公共服务器池。更加私有化的服务会使用企业内部数据中心的一组公用或私有服务器池。
IaaS可以提供服务器、操作系统、磁盘存储、数据库和/或信息资源。最高端IaaS的代表产品是亚马逊的AWS,不过IBM、Vmware和惠普以及其他一些传统IT厂商也提供这类的服务。IaaS通常会按照”弹性云”的模式引入其他的使用和计价模式,也就是在任何一个特定的时间,都只使用你需要的服务,并且只为之付费。
云计算的核心技术
?编程模型
?海量数据分布存储技术
?海量数据管理技术
?虚拟化技术
?云计算平台管理技术
第二部分:典型云平台介绍
?Google 的云计算平台
Google的硬件条件优势,大型的数据中心、搜索引擎的支柱应用,促进Google云计算迅速发展。Google的云计算主要由MapReduce、Google文件系统(GFS)、BigTable组成。它们是Google内部云计算基础平台的3个主要部分。Google 还构建其他云计算组件,包括一个领域描述语言以及分布式锁服务机制等。Sawzall是一种建立在MapReduce基础上的领域语言,专门用于大规模的信息处理。Chubby是一个高可用、分布式数据锁服务,当有机器失效时,Chubby使用Paxos算法来保证备份。
?IBM“蓝云”计算平台
IBM 的“蓝云”计算平台是一套软、硬件平台,将Internet上使用的技术扩展到企业平台上,使得数据中心使用类似于互联网的计算环境。“蓝云”大量使用了IBM先进的大规模计算技术,结合了IBM自身的软、硬件系统以及服务技术,支持开放标准与开放源代码软件。
“蓝云”基于IBM Almaden研究中心的云基础架构,采用了Xen和PowerVM虚拟化软件,Linux操作系统映像以及Hadoop软件以及MapReduce的开源实现。
“蓝云”计算平台由一个数据中心、IBM Tivoli部署管理软件、IBM Tivoli监控软件、IBM WebSphere应用服务器、IBM DB2数据库以及一些开源信息处理软件和开源虚拟化软件共同组成。
“蓝云”平台的一个重要特点是虚拟化技术的使用。
?Amazon的弹性计算云
Amazon将自己的弹性计算云建立在公司内部的大规模集群计算的平台上,而用户可以通过弹性计算云的网络界面去操作在云计算平台上运行的各个。用户使用实例的付费方式由用户的使用状况决定,即用户只需为自己所使用的计算平台实例付费,运行结束后计费也随之结束。
弹性计算云平台为用户或者开发人员提供了一个虚拟的集群环境,在用户具有充分灵活性的同时,也减轻了云计算平台拥有者的管理负担。弹性计算云中的每一个实例代表一个运行中的虚拟机。用户对自己的虚拟机具有完整的访问权限,包括针对此虚拟机操作系统的管理员权限。虚拟机的收费也是根据虚拟机的能力进行费用计算的,实际上,用户租用的是虚拟的计算能力。
云计算的特点
? 易管理: 无需基础设施维护
? 灵活性: 可按需伸缩,地域无关性
? 高资源利用率: 负载平衡,资源共享
? 高可靠性: 服务质量保证,异地容灾
? 低成本: 无前期投入,按需购买
? 安全性: 集中式数据管理,统一安全策略
云计算技术发展面临的主要问题
?数据隐私问题
如何保证存放在云服务提供商的数据隐私,不被非法利用,不仅需要技术的改进,也需要法律的进一步完善 。
?数据安全性
有些数据是企业的商业机密,数据的安全性关系到企业的生存和发展。云计算数据的安全性问题解决不了会影响云计算在企业中的应用。
?用户使用习惯
如何改变用户的使用习惯,使用户适应网络化的软硬件应用是长期而艰巨的挑战。
?网络传输问题
云计算服务依赖网络,目前网速低且不稳定,使云应用的性能不高。云计算的普及依赖网络技术的发展。
本节课程小结
了解了什么是云计算
云计算的核心技术
云计算面临的问题。
转载请注明:数据分析 » Hadoop开启云计算之旅实战_hadoop云计算实战