【编者按】中国“天河二号”超级计算机在世界超级计算机排行榜上连续3次夺得冠军,我们在庆贺的同时也发现目前超级计算机的技术已经陷入瓶颈状态,庞大的功耗费用,难以控制,难以容忍的故障率,数据的访问速度限制,如何开发更加创新的系统架构从而突破性能瓶颈,使超算性能从千万亿次上升到百亿亿次,这些方面仍然是超级计算机实现突破的障碍。
免费订阅“CSDN云计算”微信公众号,实时掌握第一手云中消息!
CSDN作为国内最专业的云计算服务平台,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点,云计算技术,云计算平台,云计算实践,云计算产业资讯等服务。
以下为原文:
IT领域的摩尔定律认为,计算机性能每18个月就将提升一倍。中国“天河二号”超级计算机在世界超级计算机排行榜上连续3次夺得冠军,固然值得庆贺,但另一方面也显示,超级计算机的技术陷入瓶颈状态。
中国科学院软件研究所并行软件与计算科学实验室执行主任,HPC领域一线专家张云泉介绍说,以往超级计算机通过增加处理器数量就能不断提高性能。但美国劳伦斯・伯克利国家实验室的豪斯・费姆尼教授认为,最近几年超算技术上的发展,都不足以突破艾级超算的障碍。原来认为2018年就能实现1000P级别的超算,现在推迟到2020年,甚至2022年都无法实现。
超算发展目前面临的挑战首先是功耗控制难。目前的集成水平和此前相比并没有根本性改善,以现有技术,艾级超级计算机的功耗会超过20兆瓦,建造费用将超过2亿美元,这将带来一系列技术和运营问题。例如“天河二号”一年仅电费就要1亿元人民币,全速运算的话,电费更高达1.5个亿。如果还是按照老思路,依靠增加规模制造出的艾级超算,功耗可能会达到50-100兆瓦,这需要有一个专门的核电站来给它供电,这样的超算显然没有实用价值。同时这样密集排列的大功率处理器,也会带来无法解决的散热问题。因此国际上公认的艾级超算标准是,功耗必须控制在20兆瓦内,这就要求在制造工艺上有革命性突破。
其次是可靠性问题,将来超级计算机并发部件将超过10亿,以现在的故障率,平均每过10-20分钟系统就会报一次硬件错误,而每次处理错误需要半个小时。这显然也是无法容忍的。
第三,超算还面临数据的访问速度限制。现在超级计算机运行的速度越来越快,但现有存储器读取数据的速度却已无法跟上需求,也成为超级计算机性能提升的瓶颈。因此美国也有一批教授认为应该反思超算的发展方向,改变追求峰值运算速度的模式,而注重实用价值。例如放弃通用型超算,而是根据实际需求定制超算。
第四,超算要取得更长远发展需要解决架构难题。现任高效能服务器和存储技术国家重点实验室主任、浪潮集团高级副总裁王恩东认为,如何开发更加创新的系统架构从而突破性能瓶颈,使超算性能从千万亿次上升到百亿亿次,这是全球超级计算机专家都关心的话题之一。去年在上海交通大学上线运行的中国高校第一超级计算机就使用了浪潮和上海交大共同开发的CPU+GPU+MIC的创新技术架构,目前这种架构被普遍认为是突破P级到艾级最有可能的方法。
原文链接:超算发展面临技术瓶颈:天河二号一年电费1亿 (责编/魏伟)
上一篇 “中国杯”游戏极限开发大赛报道