摘 要: 分析了虚拟化技术为企业IT管理带来的影响和企业IT虚拟化过程中面临的主要风险。将PDCA的方法运用于IT资源的虚拟化过程,提出了实施IT虚拟化过程的5个步骤,以降低执行风险。
关键词: 虚拟化;资源池;风险;IT管理
从VLAN开始,越来越多的虚拟化技术逐渐被各种规模的数据中心的管理者所接受。虚拟化专网、存储虚拟化、服务器分区、服务器虚拟化等虚拟化技术在数据中心中获得广泛使用,在为管理者和使用者带来资源利用率提升、交付时间减少、系统可用性提高等收益之外,也由于管理层次和被管理对象的增加,带来了其他方面的影响,这些影响很可能会转变为威胁IT系统稳定运行的风险[1]。IT系统的管理者应采取相应的措施,使这种风险始终处于可以接受的范围内。
1 虚拟化技术为IT管理带来的影响
单一虚拟化技术的使用对IT管理的影响有限,通常可以通过手工管理的方式处理,如很多机构的网络VLAN管理是通过维护一张VLAN分配表进行的。而现今,各种虚拟化技术已经覆盖了IT环境中从网络、计算、存储到桌面以至应用等多个层面,不论在应用的部署方式还是在IT运维管理体制上,都对IT系统的管理带来了相当的影响。这些影响主要体现在以下几个方面。
(1)更多类型的资源池
网络交换机提供了数据通信能力,服务器提供了数据处理能力,磁盘阵列提供数据存储能力。随着单台设备处理能力的提高和虚拟化技术的使用,能力的使用者与提供能力的设备之间已经不存在一一对应的关系,VLAN可以贯穿多个交换机,一台物理服务器可以支撑多个虚拟服务器的运行,一台磁盘阵列可以分配给多个应用系统使用。因此,为降低系统变更时的风险,需要维持IT能力使用者与IT设备之间映射关系的准确记录,并根据这一记录管理已使用和尚未使用的IT能力。通常,提供相似能力的设备被聚合在一起,构成某种类型的资源池,而不同种类的能力被构建为不同类型的资源池,在需要某种能力时才进行能力即资源的分配。在广泛使用虚拟化技术的数据中心中,资源池的类型可能很多,如IP地址资源池、VLAN资源池、采用VMware、KVM、Xen或PowerVM虚拟化技术构建的计算资源池、共享文件系统存储资源池、裸存储设备资源池等。
(2)对IT设备的处理能力要求提高
资源池的资源总量一定时,通常希望构造资源池使用的设备数量越少越好,以减少管理上的负担,因此会尽量采用处理能力较高的设备。在选购设备时通常采用“处理能力/占用空间”或“处理能力/设备功耗”等评估参数,以便在相同的功耗或空间占用条件下获取更多的可调度资源。
(3)设备故障对系统可用性的影响面加大
在资源池中,单独的资源提供者提供的资源可能被多个资源使用者所使用,当资源的提供者个体发生故障时,多个资源使用者都会受到影响。但是,由于可以随时从资源池分配所需的资源,资源使用者受到的影响将是暂时的,不必等到故障设备修复。与一对一的资源提供与资源使用方式相比较,资源池中冗余的能力可以为更多的资源使用者提供保护,从而降低了资源提供者个体发生故障时的影响程度。因此,在规划资源池容量时应考虑必要的冗余性和随时分配资源的能力。
(4)资源池建设从规划出发,资源分配对应应用需求
通常,资源池的容量与增长规划是根据现有业务总量对资源的使用情况以及未来对资源使用需求的预测做出的,并保留有一定余量。因此,在工程建设管理上,应用系统的建设项目往往会优先考虑使用资源池提供的能力,从而获得更短的交付时间,而不是采购新的能力。因此,资源池建设项目可能无法与应用系统的建设项目一一对应。
(5)管理工具缺失与操作成熟度不足
虽然虚拟化技术在IT环境中已经使用了很长时间了,但仍然缺少能够对各种虚拟化的映射关系进行统一和集中管理的有效手段和工具,只能使用专用的管理工具进行专项管理,每增加一个虚拟化产品,都会增加对应的管理工具。另一方面,为了保证资源的有效使用,还需要在资源池和构成资源池的设备的整个生命周期中,随时进行资源的分配与回收,并对资源池的组成、资源池总容量、资源的利用率等指标进行监控,这些都是对运维管理人员的操作熟练程度的考验。
除上述几点之外,虚拟化技术为IT管理带来的影响还包括对不能进行虚拟化的设备造成的影响、对数据访问和备份体制的影响、对安全管控体系的影响、对运维管理人员的岗位和职责的影响等,这些影响贯穿了虚拟化技术使用过程的规划设计、工程实施和系统运维等多个阶段,并且有可能透过IT运维管理中的薄弱环节成为影响系统正常运行的风险。
2 IT虚拟化过程面临的主要风险
当前,很多机构希望在IT系统中使用更多更先进的虚拟化技术,以获得虚拟化技术所带来的资源利用率提升、交付时间减少、系统可用性提高、总体拥有成本降低等收益[2]。但在IT系统向大规模使用虚拟化技术演进的过程中,虚拟化技术为IT管理带来的影响很可能会转变为威胁IT系统正常运行的风险。
首先,在虚拟化系统规划设计过程中,缺少对整体IT系统虚拟化潜力的评估[3],或者对虚拟化技术的局限性认识不足,都可能导致设定了过高的虚拟化目标,最终导致虚拟化项目的失败。
其次,在应用系统由物理环境向虚拟化环境迁移的过程中,可能因为缺少对迁移过程中风险的识别与控制,或者没有正确对待重要性等级不同的应用系统,可能导致迁移过程所做准备不足、迁移过程持续时间过长或迁移失败,因应用中断带来的损失也可能超出预期。
再有,运维人员缺少虚拟化系统的运行管理经验和有效的管理工具,可能会导致资源分配与调度出现失误、资源无法顺利回收、对资源使用的预测失准等人为故障。更为严重的是,由于虚拟化设备的生成非常简单而且快速,在缺少有效的管控措施的情况下,虚拟化设备的数量可能失控,大量的虚拟化设备导致管理负担的急剧加重,运维管理质量迅速下降。一种常见的现象是在一个服务器虚拟化环境中存在很多好像无人管理和使用的虚拟机,系统管理员也不敢轻易删除它们以释放被占用的资源,只能放任其存在,这种现象被称作“虚机蔓延”。
3 IT虚拟化风险的应对策略
为了降低IT系统在虚拟化过程中所面临的风险的影响,一种有效的方法是采用PDCA法对引入虚拟化技术的整个过程进行控制,这个过程可分为5个主要的步骤。
(1)虚拟化需求分析
虚拟化需求分析的主要任务是获取并明确IT虚拟化建设的需求和目标,为其后的设计和实施工作收集必要的信息。主要的分析工作包括:
①进行当前应用系统运行环境分析,用以确定需要建设的资源池的种类与功能;
②进行IT发展规划分析,用以确定资源池的容量和扩展能力的需求;
③进行IT安全策略与需求分析,用以确定资源池的安全属性;
④进行虚拟化产品和技术分析,用以帮助选择适合的虚拟化技术,确定资源池的可靠性、可用性、扩展性和可管理性;
⑤进行应用连续性需求分析,用以选择适合的虚拟化迁移方法,并帮助制定适合的虚拟化演进路径;
⑥进行现有管理体制分析,用以确定资源管理体制建设的起点。
(2)资源池规划与设计
资源池规划设计[4]的主要任务是依照需求分析阶段提出的对资源池的功能、容量、可靠性、可用性、扩展性、安全性与可管理性的需求,选择适合的虚拟化技术,设计虚拟化体系的总体结构和各资源池的构建与部署方式,以为当前和未来的应用系统提供满足其运行要求的虚拟化运行环境,同时确定与虚拟化系统相关的系统(如数据备份系统、应用负载均衡系统等)的调整方案。
(3)向虚拟化环境演进
在完成资源池规划设计后,可以着手进行虚拟化改造的概念验证(POC)测试,以确定待迁移的应用系统能够在虚拟化环境中正常运行。进一步地,建立种子资源池,并选择适当的方法和时机将部分应用系统由当前的物理运行环境迁移到虚拟化的运行环境中。演进过程的设计和实施可借鉴业务连续性管理(BCM)的方法,对迁移过程中可能遇到的风险和应用中断造成的损失进行分析,制定迁移过程的详细方案和实施操作细则,为迁移无法按计划完成做相应准备,力求将风险、必然发生的损失和可能发生的损失控制在可接受的范围内。
(4)建立资源管理体制
在部署和使用IT虚拟化技术后,IT系统的运维管理体制应能够对资源进行管理,包括资源的申请、分配、监测、评价、调度、回收等。可对现有的IT服务管理(ITSM)流程进行优化以适应资源池管理的需要,如增加资源管理岗位、修改配置管理和变更管理流程等,也可以参考ITIL建立新的IT资源管理体制。
(5)虚拟化效果评估
IT虚拟化建设的过程是一个持续改进的过程,在建立了IT资源管理体制后,就可以利用资源管理体制提供的管理能力检查和评价IT虚拟化实施的结果,分析IT系统仍然存在的虚拟化潜力,寻找资源管理体制的缺陷,提出进一步改进的需求与建议。
通过上述五个步骤,在引入虚拟化技术时,IT管理所面临的主要风险都会得到有效控制,虚拟化项目的成功率和收益都将得到保证。
虚拟化技术的广泛使用在带来收益的同时,也对数据中心的运作和管理方式产生了重大影响,带来了新的风险。但是,通过对风险进行识别以及源自PDCA法的五个工作步骤,可以将风险控制在可接受的范围内。
参考文献
[1] 左天祖,刘伟.中国IT服务管理指南[M].北京:北京大学出版社,2004.
[2] 蔺雷,吴贵生.服务创新[M].北京:清华大学出版社,2003.
[3] CHORAFAS D N.Cloud Computing strategies[M].Boca Raton:CRC Press,2010.
[4] MARKS E A,LOZANO B.Executive′s guide to Cloud Computing[M].Hoboken:John Wiley & Sons,Inc.,2010.