【编者按】数据中心的管理日益复杂,时刻都有庞大而复杂的数据信息需要处理,各种各样的因素随时有可能导致突发性事故的发生,而造成的损失也是惊人的。这些复杂的因素很难通过直观的方式分析和理解,机器学习的介入有一定的必然性。Google数据中心副总裁Joe Kava告诉我们采用神经网络可以“预见”数据中心的“未来”,从而为数据中心的工程师们提供最优的方案,Google具体是怎样做的?作者Richer Miller为我们带来了精彩的分析。
免费订阅“CSDN云计算”微信公众号,实时掌握第一手云中消息!
CSDN作为国内最专业的云计算服务平台,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点,云计算技术,云计算平台,云计算实践,云计算产业资讯等服务。
以下为译文:
Google将机器学习和人工智能应用到强大的数据中心,致力于让数据中心更高效。近日,在Data Centers Europe 2014的一份简报中,Google的数据中心副总裁Joe Kava告诉我们Google已经采用神经网络来分析数据,该神经网络系统可以收集服务器群的相关信息,并提供改进方案。
实际上,谷歌已经制造出了一台超级计算机,这台计算机比谷歌的工程师们更了解数据中心。目前,数据中心仍然由人工控制,但Joe Kava告诉我们,神经网络的使用将使Google服务器群的效率达到一个全新的高度,这甚至让制造它的工程师们望尘莫及。
谷歌已经拥有了多个高效的数据中心,使用人工智能后,Google将能够预见“未来”,通过模拟出数以千计的可能情况,了解到未来数据中心的运行状况。
在早期,神经网络预测谷歌电力使用效率的准确率已经达到99.6%。这种方法带来的效率提升看起来很小,但当其应用到具有数千个服务器的数据中心时,就可以节约下大量的成本。
为什么要采用机器学习和神经网络?主要的原因是数据中心日益复杂,这对谷歌来说是个挑战,Google利用传感器从数以亿计的数据点收集有关其基础设施及能源使用状况的信息。
Google的“天才小子”
谷歌的神经网络是由Jim Gao创建的,由于他对大型数据集有很强的分析能力,他的同事给他取了个绰号――“天才小子(Boy Genius)”。Gao应用计算流体动力学来做冷却分析,利用监测数据创建了一个服务器房间里的气流3D模型。
Gao认为创建一个模型来跟踪一组广泛的变量是有可能实现的,这些变量包括IT负载、天气条件,以及冷却塔、水泵和换热器(这些设备用来给谷歌服务器降温)的运作情况。
Kava在一篇博客中写道:“计算机擅长的是在数据中发现隐含的信息,所以Jim采用了我们日常操作过程中收集的数据,并将这些数据放到一个模型中运行,目的是理解普通人(Jim的团队)可能注意不到的复杂互动的意义,如今Jim的模型在预测PUE(Power Usage Effectiveness,电源使用效率)时的准确率已经达到了99.6%。这意味着他可以使用该模型提出新方案,从我们的操作中获得更高的效率。”
Google神经网络工具的预测结果与PUE的匹配程度
机器学习的原理
Gao倡导发展和使用机器学习,并将其称之为“20 percent project”,谷歌鼓励员工在特定工作职责之外花大量时间进行创新。Gao原先并不是人工智能方面的专家,为了了解更多有关机器学习的知识,他学习了斯坦福大学Andrew Ng教授的课程。
神经网络模仿人类大脑的工作原理,让计算机在没有显式编程的情况下,自动适应和“学习”。谷歌的搜索引擎往往被看作是这类机器学习的典型,这也是该公司主要研究的一个重点。
Kava解释说:“该模型实际上就是一系列的微分方程,你需要对数学有所了解,该模型能够了解这些变量之间的交互。”
Gao的第一项任务是研究数字,标识出影响Google数据中心能源效率的重要因素,以PUE为标准。他将这些因素缩小到19个变量,然后设计了神经网络,即一个可以分析大型数据集以识别模式的机器学习系统。
Gao在他的倡议白皮书中写道:“大量可能的设备组合以及它们的设定值使最优效率难以确定,在数据中心,通过硬件(机械和电气设备)和软件(控制策略和设定值)有许多可能的组合。受到时间既定、IT负载频繁波动和天气状况的限制下,测试每一种可能组合以实现效率最大化是不可行的,更不用说还要维持一个稳定的DC环境。
该图说明分析多变量因素对数据中心PUE计算的复杂性,这将更接近于用人工智能分析
在单个服务器上运行
说到硬件,实际上机器学习不需要多么强的计算能力,Kava告诉我们,该机器学习系统在单个服务器上就可以运行,甚至可以运行在高端台式机上。
该系统已经被应用到Google数据中心,该机器学习工具能够提供建议,对PUE进行改进;或者在能源设施升级过程中,对数据中心负载迁移的改进;也可以对冷却系统中多个部分的水温调整。
Gao还写道:“谷歌(数据中心)的实际测试表明,机器学习是使用现有传感器为DC能源效率建模的一种有效方法,可以显著地节约成本。”
机器没有控制权
Kava告诉我们:“该工具可以帮助谷歌对未来设计进行模拟和完善,但我们不需要担心机器夺走人类的控制权――近期,Google的数据中心还不太可能拥有自我意识。虽然Google热衷于实现自动化,最近又收购了多家机器人公司,但新的机器学习工具目前还不可能控制一个数据中心。”
Kava说:“数据中心仍然需要人类对许多事务作出良好的判断,我仍然希望我们的工程师对机器提供的建议进行审查。”
从Google构建服务器群的方式中,我们或许可以看到神经网络带来的好处。Kava说:“我可以想象出在数据中心的设计周期中使用神经网络的情形,我们可以将它作为一个具有前瞻性的工具使用,用来测试设计的变化和创新,将来我们会找到更多的用例。”
Google在Gao的白皮书中分享了机器学习的方法,期待其他超大规模数据中心的运营商也能开发类似的工具。
Kava说:“这不是只有Google或者Jim Gao才能做到的事情,我很乐意看到这类分析工具被更加广泛的使用。我认为这个行业可以从这类工具中受益,它是一个可以提供效率的好工具。”
原文连接:
Google Using Machine Learning to Boost Data Center Efficiency(翻译/毛梦琪
责编/仲浩)