“第六届中国云计算大会”将于2014年5月20-23日在北京国家会议中心隆重召开。本次大会将历时四天,内容更加精彩,预计参会者将大大超过上一届的12000多人次。每届中国云计算大会,都有两院院士的精彩演讲。本届大会上,李德毅、怀进鹏、倪光南、李伯虎、杨学军、张尧学、李未、梅宏、高文、李兰娟等10位两院院士将集体亮相,与广大参会者共同把脉云计算与大数据的未来技术发展和应用方向。大会召开前夕,CSDN云计算频道将推出“十大院士分享系列”,走近院士,走进院士们对于云计算和大数据的理解。
杨学军,中国科学院院士, 中将军衔。1983年7月毕业于南京通信工程学院计算机系计算机科学与技术专业本科,1991年3月在国防科学技术大学计算机系计算机科学与技术专业获工学博士学位。历任国防科学技术大学计算机系教授、副总工程师、总工程师,国防科学技术大学计算机学院副院长、院长,国防科学技术大学教育长、副校长,现任国防科学技术大学校长、教授、博士生导师。
第六届中国云计算大会上,杨院士将为我们带来精彩演讲。
2013年6月,由我国自主研制的“天河二号”超级计算机出现在了全球超算TOP500的排名中,以实测速度3.386亿亿次位居世界第一,这也是继2010年10月的“天河一号”系统之后我国自主研制的超级计算机第二次获此殊荣。然而,国际超级计算领域竞争日趋激烈,为了满足高能核物理、材料化学、生命科学等大规模应用在计算能力方面的超高需求, 高性能计算正处于从P级( 1015Flops) 向E级(1018Flops)发展的阶段,世界各国都把E级计算作为下一个争夺的高地。
高性能计算技术发展至今,其性能的进一步提升却遇到了包括访存、通信、可靠性、能耗、应用等五大挑战在内的一系列问题。为此,如何定量描述上述因素对并行计算系统可扩展性的影响成为高性能计算领域亟待解决的关键问题之一。杨学军院士以“可靠性墙量化研究理论”为例向我们介绍了并行计算系统可扩展性度量模型的研究成果。同时,从并行计算机体系结构、微处理器体系结构、存储体系结构、互连技术、软件技术、新兴使能技术等方面向我们介绍我国在针对E级计算所面临挑战的一些对策与思考。杨学军院士认为E级计算的挑战正面临五个挑战:
● 挑战一:访存墙问题
访存墙问题仍然是提升计算速度的第一大难题,处理器的处理速度和访问速度之间的不匹配,处理器单个引脚的信号传输速度和引脚受限。多核处理器的出现只是提高了计算速度,不但没有缓解访问问题,反而使其变得更加严重。
● 挑战二:通信墙问题
随着超级计算的规模不断增加,互联网络对计算性能的影响越来越大,E级计算对互联网络提出了更高的要求,互联网络已成为制约超级计算机发展的核心因素之一。
● 挑战三:可靠性问题
可靠性:当系统性能由P级向E级扩展时,保存全局检查点的时候可能达到甚至超过系统的MTBF!
● 挑战四:能耗墙问题
能耗墙:ITRS估计高性能CPU的功耗将达到120~200W。世界排名第一Blue Gence的能耗达到7.8MW,如此发展下去E级系统功耗将达3.5GW,超过三峡水电站2008年平均供电能力的三分之一。
● 挑战五:并行计算的可扩展性
上述四堵墙,严重制约并行计算的可扩展性,并行计算机课扩展性度量模型指导着计算机的发展。解决计算机的并行可扩展性的难点在于要素的量纲不统一,事件离散,应用千变万化,系统、技术的千差万别。
要素的量纲不统一,归约到时间量纲,通过“容错开销”的度量,将可靠性问题的描述统一至时间量纲,进而将可靠性引入加速比公式,对可靠性墙进行量化研究。现有容错方法都会引起可靠性墙,必须研究故障影响系统的规律,探索新的方法。
杨学军院士表示,通用处理器+专用处理器是异构体系结构的一种解决方案。给予流处理的异构并行体系结构,大规模科学工程应用的可流化理论,大规模科学工程应用的高效流化方法。在可流化路理论和高效流化方法的基础上提出了CPU和流处理器相结合的异构融合并行体系结构。
硬件技术的发展在缓解通信墙、可靠墙、和功耗墙的同时,加剧了编程墙,然而如果能解决编程墙问题和底层框架优化技术,就可以缓解了访问墙及通信墙问题。
【走近院士】系列全部文章
【走近院士】怀进鹏:全球的计算模式可能重新形成
【走近院士】李德毅:大数据是连接虚拟和现实世界的桥梁
【走近院士】倪光南:自主研发,从制造转向创造
【走近院士】李未:实现云服务的有效方法是群体软件工程
【走近院士】张尧学:基于透明计算的云操作系统 (责编/仲浩)