文献标识码: A
DOI:10.16157/j.issn.0258-7998.2016.03.006
中文引用格式: 王欣,张铮,张为华. 数据中心的能源管理技术研究[J].电子技术应用,2016,42(3):20-23,27.
英文引用格式: Wang Xin,Zhang Zheng,Zhang Weihua. Power management technology of datacenters[J].Application of Electronic Technique,2016,42(3):20-23,27.
0 引言
随着互联网产业的发展,社交网络、人工智能、电子商务、物联网等等一系列新兴互联网业务均依赖于大规模、高流量、多功能的数据存储与计算。而数据中心作为大规模服务器集群的组织和互联形式,逐渐成为支撑现代IT产业的基础设施。随着数据中心规模的逐渐增大和硬件架构的日趋多样化,数据中心的能源管理正在逐渐成为数据中心建设和运营的一个重要问题。根据美国自然资源保护理事会(Natural Resources Defense Council)的统计,2013年,全美国的数据中心约消耗了910亿千瓦时的电量,相当于34个大型火力发电厂一年的发电量[1]。而根据Environmental Research Letters的预测,全球数据中心的功耗有可能每5年翻一番[2],截至2020年,全美的IT企业每年要在数据中心的供能上花费130亿美元,并排放大约1亿吨二氧化碳[1]。如此庞大的功耗开销已经成为数据中心的设计和运营过程中不可忽略的问题。同时,随着全球气候变暖等环境问题的出现,庞大的能源供应系统所带来的巨额碳排放量无疑会给数据中心的运营商带来环保方面的额外开支,如何将可再生清洁能源投入数据中心服务也必然会成为未来数据中心建设和研究的重点关切。
回顾近年来学术界关于数据中心能源管理问题的研究成果,可以发现当前数据中心的能源管理系统主要面临以下几个方面的问题:
(1)功率波动与能源超额认购(oversubscription)
随着数据中心规模的扩大和复杂度的提高,数据中心所要处理的任务也趋向于多样化,不同的任务所需的能源供应差别非常大。为满足数据中心功率理论峰值的消耗,设计者往往需要超额认购能源供应限额,这部分超额认购的能源在数据中心运行的大部分时间并不需要投入工作,这就造成了大量不必要的能源认购开销。
(2)能源需求的非比例增长
数据中心的可扩展性是数据中心架构设计的一个重要关切,大部分数据中心能够根据业务规模的扩展增加服务器和相关配套设施的数量。但是随着计算能力的扩展,由于散热和架构等方面的问题,数据中心的能源消耗有可能呈现超比例的增加,这会让数据中心的建设和维护成本成倍增长。
(3)散热与制冷方面的开销
温度控制设备是数据中心必不可少的配套设施,而随着数据中心发热量的增大,散热制冷以及热能的循环利用,正在成为一个具有很大研究价值的问题。
(4)巨额碳排放所带来的社会成本
随着公众和政府对环保问题的重视,对于高耗能企业征收碳排放税已经成为一种国际趋势。而数据中心作为耗电量极高的基础设施,必然会给IT企业带来高额的环保开销。这使得数据中心供应商将关注点转移到新兴的可再生清洁能源上。
为应对这些功耗问题的挑战,学术界和工业界提出了一系列的解决思路与研究方法,本文总结了这些能源管理技术,讨论了现有的数据中心能源管理措施的技术原理和实际效果,并展望了未来数据中心能源管理系统的发展趋势。
1 面向数据中心的能耗优化
数据中心能源管理方面所面临的挑战,本质上是由现有资源的低效利用和传统能源的高碳排放特性所引起的,因此学术界和产业界的优化方向和研究思路大约可以归结于两个方面:提升现有能源的利用效率以及开发利用清洁的可再生能源。近年来,关于数据中心能源管理系统的研究工作主要集中于以下几个主题。
(1)功率封顶(Power Capping)技术
通过实时监控数据中心的能源供应和消耗状况,动态调度数据中心的任务分配。并通过不间断电源(Uninterrupted Power Supply,UPS)来调节电源供应波动和应对突发的功耗高峰。通过平滑功耗曲线、降低功耗峰值压力,数据中心的供应商可以节省一大部分能源认购而不会影响数据中心的正常运营。
(2)应用级别的程序分析与指令调度
随着程序分析技术的发展,数据中心的任务调度粒度可以缩小到指令级别,改变程序指令的具体执行时序。通过对于程序指令流的分析和预测,将执行模式相近的指令批量执行,可以从微观层面降低由于任务切换而带来的功耗开销。
(3)新材料部件的应用
随着相变材料(Phase Changing Material)、热能存储设备(Thermal Energy Storage)、超级电容(Super Capacitor)等一系列新型材料部件投入商业化运用,数据中心运转过程中超额的热能和电能可以以更高的效率存储固化并在需要的场景下释放再生。
(4)可再生能源利用
风能、太阳能、水利能源是低碳环保的可再生能源,是未来数据中心供能的重要来源。然而,这类可再生能源天然地具有间断性和不稳定性,如何利用不稳定的可再生能源驱动数据中心稳定持续运行,是未来数据中心功能系统的重要研究方向。
2 提升能源利用效率
目前,在提升数据中心对于现有能源的利用效率方面,主要的解决思路集中在功率封顶技术、负载分析与指令级别调度、新型材料的利用等方面。
2.1 功率封顶技术
据统计,数据中心每认购1瓦特的电源供应,无论是否有效投入应用,都会产生10~25美元的费用[3-4]。然而,数据中心按照理论峰值认购的功率数额,实际运行过程中却很少真正发生。据一项针对Google公司的数据中心功耗状况的调查,在数据中心的运行过程中,实际功率达到理论峰值的90%的情况小于运行时间的1%(如图 1所示,横轴为耗电量与理论峰值的比值,纵轴为运行时间的累积分布函数。可以看到耗电量达到理论峰值90%的运行时间实际小于1%)[5],为这些出现可能性较小的情况而超额认购能源供应显然会带来很大的成本浪费。
针对数据中心的功耗波动问题,一个有效的解决思路是功率封顶技术,通过协调数据中的工作负载,使数据中心的功耗曲线趋于平滑。而功率封顶技术所需解决的一个主要问题是能源消耗状况的不确定性和不可预测性。目前解决这一问题的研究方向集中在两个方面:
(1)离线的功耗模型理论框架与在线的启发式能源调度算法
大型数据中心的能源供应框架往往非常复杂,为了得到最佳能源供应和能源利用效率的理论值,有必要针对数据中心能源系统的结构设计进行理论建模,从而得到可以在实际运行中作为参考的基线值。一般来说,数据中心使用大规模分布式的UPS来调节能源负载和应对能源峰值[6]。在能源供应的理论模型中,必须要考虑大规模的UPS阵列的能源存储量、运行时间、电源寿命、效率与可扩展性等诸多因素。同时,在服务器集群中,数据中心往往通过任务调度和延迟执行来调节集群中各个节点的功耗需求[7-8],而任务迁移的开销(缓存缺失、网络带宽消耗、处理器流水线排空等等)也是理论模型中所必须考虑的因素。通过这些静态参数,数据中心的管理者可以将数据中心的功耗模型规约为一个线性最小化问题,这为实际运营中的功率消耗提供了可以比较的基线值[9]。然而离线的理论模型需要对各个工作任务的功率消耗有先验的认知,因此不能直接应用于实际的能源管理过程。在线的启发式能源调度策略则实时监控数据中心运行时的各项功耗状况,在服务器级别、集群级别、跨集群级别三个层面调节任务迁移和任务延迟,从而在功率预算的约束内达到最高的计算资源利用效率。
(2)能源供应的分布式设计
UPS是存储与释放能源的基本单位,而UPS阵列可以集中于数据中心中的一个逻辑节点,也可以分布于数据中心的各个不同位置。目前,分布式的UPS备用电源正在受到包括Google在内的很多数据中心建设者的重视。在分布式的UPS阵列中,数据中心操作员可以比较灵活地决定哪些备用电源在何时接入电源供应网络以弥补设备电源的电力供应缺口[10],从而利用储备电量削减电力供应峰值的压力。
2.2 程序分析与指令级别调度
数据中心所运行的计算任务的功耗需求调节技术是功耗管理系统的重要组成部分。通过对于程序执行基本块(Basic Block)的分析,可以计算得出指令之间的相似程度,如果相似程度较高的指令连续执行,就可以省去取值、译码、控制逻辑、多路复选器等模块在任务转换等方面的功耗开销。而利用线程同步(Thread Synchronization)技术[11]可以延迟相关指令,使得相似的多条指令可以批量执行。
Princeton大学提出的拖拽执行(Execution Drafting)技术利用了上述的功耗特点,使用指令粒度的程序分析技术识别多个应用间相同或相似的指令序列,利用硬件上的指令同步器(Synchronizer)延迟一些进程或线程的指令流水线过程,从而使得相似的指令序列能够在运行时间上对齐(Alignment)。当第一条指令开始流水线过程后,后续的指令序列就可以跟随第一条指令进入处理器流水线。由于已知后续指令在操作码、寄存器使用方面与第一条指令相似,处理器可以节省一部分取指、译码和流水线控制方面的能源开销[12]。
2.3 新型材料部件的应用
除了以上软件层面的解决方案外,利用超级电容等新型材料部件的充电/放电过程平衡无规律的功耗波动,结合动态负载分配技术,也能够有效地消除能源供给与消耗之间的不匹配,达到较高的能源利用效率[13]。相比于传统的化学电池,超级电容具有以下优势:(1)较高的能源存储效率和极短的充放电循环周期;(2)支持快速充电和瞬时大电流放电;(3)使用寿命比传统电池高出2-3个数量级。但由于现阶段超级电容的成本依然较高,所以一般采用超级电容与传统电池相结合的储能模式。
而利用热能存储设备和相变材料来存储和释放数据中心的热能也已经得到了初步的验证[14-15]。当数据中心的负载率较高时,高额的放热量可以通过储热设备和相变材料固化,当数据中心负载率降低、冷却能力余量较大时,将这部分存储的热能释放。由于商业化运营的数据中心一般具有比较固定的负载变化曲线,这部分储热材料可以整合为数据中心散热与冷却系统的一部分,在一个发热/散热周期内规律运转。
3 可再生能源的利用
随着气候变化等环境问题越来越多地受到人们的关注,数据中心作为大规模服务器集群,其庞大的能源开支带来的碳排放问题也将成为数据中心运营商所必须考虑的社会成本。事实上,如Google、Microsoft、Yahoo!等大型IT企业已经在尝试使用可再生的清洁能源驱动其部分数据中心的运转,这些在清洁能源方面的积极举措能够使每个数据中心每年约减少20 000磅的二氧化碳排放。
然而,目前能实际投入运营的清洁能源主要为风能、太阳能、水利能源等等,这些可再生能源天然地具有间断性和不稳定性,如何利用可再生能源驱动数据中心稳定持续运行,依然是一个值得研究的问题。目前,学术界主要的研究方向集中于混合使用可再生能源和传统能源,即利用可再生能源减少数据中心的碳排放量,同时保留较为稳定的传统能源以保证数据中心长期平稳运行(如图 2所示)[17]。
为克服可再生能源的不稳定性,Florida大学提出了一种能源调度模型[17],将数据中心的运行过程划分为不同的周期(Period),在每个周期中取时间点进行负载率采样。假设Ui=[ui1 ui2 … uic]为数据中心中c个集群在时间点为i时的负载率,那么在过去的m个时间段内的负载情况可以用以下矩阵表示:
如果将第k个集群中需要调整的虚拟主机数量记为Sk的话,那么对于c个集群,下一时间段内各个主机调整的策略可以表示为S=[s1 s2 … sc]。为使因负载调度带来的性能波动尽可能小(即在各个时间点的负载率变化尽可能小),这里需要计算所有集群聚合的工作负载率数列的标准差,其中聚合工作负载率由U与S矩阵相乘得出,即[aij]m×1=U×ST。根据标准差的计算公式,实际上该问题可以被规约为一个非线性最小化问题:
上述启发式的能源管理策略在风能、太阳能驱动的数据中心实验中均得到了成功实践,是一种通用而有效的能源调度模型[17-19]。
但另一方面,这些研究基本上是在微型的数据中心模型上进行,并未经过大规模、异构化、高负载压力的商业化数据中心运营验证,因此在稳定性、计算资源利用效率、可扩展性方面还有很多可以拓展的空间。
4 总结与展望
数据中心作为大数据时代的基础设施,在未来的IT产业发展中会扮演越来越重要的角色。能源消耗将成为数据中心建设和运营的一项主要成本,而公众和政府对于环保问题的重视会让数据中心的供应商更多地考虑可再生能源的利用。
本文中讨论的对于现有能源的功耗管理技术,如功率封顶技术、功率实时监测与动态任务调度技术等等,均已在现有的商业化运营中得到长期验证,是比较成熟的功耗控制技术。而诸如新材料、新能源的利用,则是近年来随着学科交叉发展而带来的崭新的研究方向,一部分设计思路还仅仅经过了学术界的模型研究和小规模验证,距离实际投入商业运营还有一段距离。然而这些试验阶段的新技术无疑代表了能源管理系统未来的研究方向。
随着数据中心规模的不断扩大和功能的多样化发展,未来超大规模、异构平台、分布式的数据中心架构还必然带来新的能源消耗问题。而可再生能源的转化与利用技术依然处于试验和快速发展阶段,依然存在非常广阔的挖掘空间。
参考文献
[1] Natural Resources Defense Council.America's Data Centers Consuming and Wasting Growing Amounts of Energy[DB/OL][2015-12-27].http://www.nrdc.org/energy/data-centerefficiency-assessment.asp.
[2] KOOMEY J G.Worldwide electricity used in data centers[J].Environmental Research Letters,2008,3(3):034008.
[3] BARROSO L A,CLIDARAS J,H?魻LZLE U.The datacenter as a computer:An introduction to the design of warehouse-scale machines[J].Synthesis lectures on computer architecture,2013,8(3):154.
[4] HAMILTON J.Internet-scale service infrastructure efficiency[C].ACM SIGARCH Computer Architecture News,ACM,2009,37(3):232.
[5] FAN X,WEBER W D,BARROSO L A.Power provisioning for a warehouse-sized computer[C].ACM SIGARCH Computer Architecture News.ACM,2007,35(2):13-23.
[6] Google Server-level UPS for improved efficiency.http://news.cnet.com/8301-1001_3-10209580-92.html.
[7] AMUR H,CIPAR J,GUPTA V,et al.Robust and flexible power-proportional storage[C].Proceedings of the 1st ACM symposium on Cloud computing.ACM,2010:217-228.
[8] CHASE J S,ANDERSON D C,THAKAR P N,et al.Managing energy and server resources in hosting centers[C].ACM SIGOPS Operating Systems Review.ACM,2001,35(5):103-116.
[9] GOVINDAN S,WANG D,SIVASUBRAMANIAM A,et al.Leveraging stored energy for handling power emergencies in aggressively provisioned datacenters[C].ACM SIGARCH Computer Architecture News.ACM,2012,40(1):75-86.
[10] KONTORINIS V,ZHANG L E,AKSANLI B,et al.Managing distributed ups energy for effective power capping in data centers[C].Computer Architecture(ISCA),2012 39th Annual International Symposium on.IEEE,2012:488-499.
[11] RAKVIC R,CAI Q,GONZALEZ J,et al.Thread-management techniques to maximize efficiency in multicore and simultaneous multithreaded microprocessors[J].ACM Transactions on Architecture and Code Optimization(TACO),2010,7(2):9.
[12] MCKEOWN M,BALKIND J,WENTZLAFF D.Execution Drafting: Energy Efficiency Through Computation Deduplication[C].Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture.IEEE Computer Society,2014:432-444.
[13] LIU L,LI C,SUN H,et al.HEB:deploying and managing hybrid energy buffers for improving datacenter efficiency and economy[C].Proceedings of the 42nd Annual International Symposium on Computer Architecture.ACM,2015:463-475.
[14] ZHENG W,MA K,WANG X.Exploiting thermal energy storage to reduce data center capital and operating expenses[C].High Performance Computer Architecture(HPCA),2014 IEEE 20th International Symposium on.IEEE,2014:132-141.
[15] SKACH M,ARORA M,HSU C H,et al.Thermal time shifting:Leveraging phase change materials to reduce cooling costs in warehouse-scale computers[C].Proceedings of the 42nd Annual International Symposium on Computer Architecture(ISCA),ser.ISCA.2015,15.
[16] LI C,QOUNEH A,LI T.iSwitch:coordinating and optimizing renewable energy powered server clusters[C].Computer Architecture(ISCA),2012 39th Annual International Symposium on.IEEE,2012:512-523.
[17] GOIRI I,KATSAK W,LE K,et al.Parasol and greenswitch: Managing datacenters powered by renewable energy[C].ACM SIGARCH Computer Architecture News.ACM, 2013,41(1):51-64.
[18] DENG W,LIU F,JIN H,et al.Multigreen:Cost-minimizing multi-source datacenter power supply with online control[C].Proceedings of the fourth international conference on Future energy systems.ACM,2013:149-160.