NNSA的Sierra这是世界上第三快的超级计算机

人工智能2020-03-23 16:01:06
导读能源部国家核安全管理局(NNSA),劳伦斯利弗莫尔国家实验室(LLNL)及其行业合作伙伴今天正式公布世界上最快的超级计算机之一Sierra,以庆祝该

能源部国家核安全管理局(NNSA),劳伦斯利弗莫尔国家实验室(LLNL)及其行业合作伙伴今天正式公布世界上最快的超级计算机之一Sierra,以庆祝该系统的完工。

Sierra将为国家核安全局的三个核安全实验室,LLNL,桑迪亚国家实验室和洛斯阿拉莫斯国家实验室提供服务,提供高保真模拟,以支持国家核安全局确保国家核储存的安全性,安全性和有效性的核心任务。它的到来代表了多年的采购,设计,代码开发和安装,需要数百名计算机科学家,开发人员和操作人员与IBM,NVIDIA和Mellanox密切合作。

“今天我们标志着我们在真正的亿亿级别上实现计算的最新里程碑,”能源部部长里克佩里在致力于为奉献精神准备的视频信息中说道。劳伦斯利弗莫尔国家实验室凭借其对塞拉利昂的戏剧性揭幕,代表美国国家安全向前迈出了关键一步。“

“随着塞拉利昂的到来,利弗莫尔为国家核安全局和库存管理提供了一个强大的新工具。这台机器代表了一种新的高性能计算方法,使我们能够解决和回答以前无法实现的科学问题,“LLNL主任Bill Goldstein说。“我感谢所有参与我们的人:我们在国家核安全局的赞助商,我们的行业和国家实验室合作伙伴以及我们自己的敬业员工。这是利弗莫尔历史上的一个信号时刻,也是我们在高性能计算和仿真领域的新里程碑。“

Sierra是全球第三大超级计算机,在最新的TOP500排行榜上名列前茅,是NNSA首个大规模生产异构系统,意味着每个节点都包含IBM中央处理器(CPU)和NVIDIA图形处理单元(GPU)。它专为NNSA的库存管理计划,持续的寿命延长计划,武器科学和核威慑所必需的建模和模拟而设计。预计将于2019年初投入分类生产。

“自第二次世界大战以来,国家核安全局及其前身一直处于科学计算的最前沿,”国家核安全局高级模拟与计算与机构研究与发展办公室主任马克安德森说。“国家核安全局提供的超级计算机是没有核试验的库存管理的基本要素。Sierra是我们有史以来最强大的计算机。它也是未来计算技术的先驱,也是实现亿亿增长的关键一步。“

Sierra拥有125 petaFLOPS的峰值性能 - 每秒125千万亿次浮点运算。使用现有代码和基准测试的早期迹象很有希望,证明Sierra可以比仅由CPU组成的系统在成本和功耗方面更有效地执行大多数所需的计算。根据应用的不同,预计Sierra的能力将比LLNL的20-petaFLOP Sequoia高6到10倍,后者是目前世界上第八快的超级计算机。

“库存的持续老化需要更强大的计算系统,”LLNL武器项目代理首席副主任迈克邓宁说。“Sierra代表了NNSA在高性能计算领域的领导地位。今天,随着我们面临日益复杂的全球复杂性,这一点变得更加重要,因此我们的工具必须能够在前沿运作。“

Sierra的占地面积为7,000平方英尺,由240个计算机架和4,320个节点组成,每个节点由两个IBM POWER 9 CPU,四个NVIDIA V100 GPU和一个Mellanox EDR InfiniBand互连组成。为了准备这种架构,LLNL与IBM和NVIDIA合作,快速开发代码并准备应用程序以有效优化CPU / GPU节点。

IBM和NVIDIA人员与LLNL密切合作,包括现场和远程,代码开发和重组,以实现最高性能,而LLNL人员则向供应商提供有关系统设计和软件堆栈的反馈。这种“卓越中心”协同设计策略对于确保代码和平台匹配良好以及应用程序针对GPU加速架构进行了优化是必要的。LLNL与橡树岭国家实验室的合作伙伴关系,该实验室选择了IBM的Summit系统,从采购到运营,整个项目也非常有用。

LLNL因其能源和成本效率以及有效运行NNSA应用程序的潜力而选择了IBM / NVIDIA系统。Sierra的IBM POWER9处理器通过NVIDIA NVLink互连实现CPU到GPU的连接,在每个节点之间实现更大的内存带宽,因此Sierra可以在整个系统中移动数据,以实现最高的性能和效率。支持Sierra是154 PB的IBM Spectrum Scale,这是一个软件定义的并行文件系统,部署在24个机架的Elastic Storage Servers(ESS)上。为了满足异构系统的扩展需求,该解决方案在读取和写入带宽方面每秒可提供1.54 TB的数据,并且每个文件系统可管理1000亿个文件。

“超级计算的下一个前沿在于人工智能,”认知解决方案和IBM研究部高级副总裁John Kelly说。“IBM与LLNL长达数十年的合作关系使我们能够从头开始构建Sierra,其中包括将AI应用于海量数据集所需的独特设计和架构。研究人员所看到的巨大见解只会加速研究和业务的高性能计算。“

作为第一个由GPU加速架构支持的NNSA生产超级计算机,Sierra的收购要求三个NNSA实验室的科学家们如何对其代码进行编程以利用GPU。该系统的NVIDIA GPU还为科学家们提供了研究机器学习和深度学习的使用的机会,以加快物理代码解决时间。预计未来十年将越来越多地采用由人工智能技术的加速利用的模拟。

“Sierra是一款世界级的超前级超级计算机,它允许研究人员以前所未有的速度大规模运行大型复杂的科学模拟,”NVIDIA公司副总裁兼加速计算总经理Ian Buck说。“Sierra配备了超过17,000个Tesla Tensor Core V100 GPU,是一个功能强大的通用平台,可用于计算密集型科学模拟,机器学习,深度学习和可视化应用程序 - 为高性能的未来铺平道路计算“。

Sierra还利用Mellanox EDR 100千兆位InfiniBand网内计算加速引擎来实现更高的应用程序性能和可扩展性。

“我们非常自豪能为劳伦斯利弗莫尔国家实验室的世界上最快的超级计算机之一提供基本技术,”Mellanox Technologies营销副总裁Gilad Shainer说。“我们的InfiniBand智能互连提供了必要的性能,效率和可扩展性,以支持实验室下一代高性能和人工智能应用的需求,以及通向亿亿次级计算的途径。”

除了关键的国家安全应用之外,还在利弗莫尔计算中心安装了一个名为Lassen的配套非机密系统。这个以机构为重点的系统将在旨在加速癌症药物发现,精准医学,创伤性脑损伤研究,地震学,气候,天体物理学,材料科学和其他有益于社会的基础科学的项目中发挥作用。

Sierra继续推出世界级LLNL超级计算机的长篇大论,代表了NNSA通向亿亿次级计算之路的倒数第二步,预计将于2023年通过名为“El Capitan”的LLNL系统实现。该计划由NNSA的高级仿真和计算机提供资金( ASC)计划,El Capitan将成为NNSA的第一台亿亿级超级计算机,每秒计算能力超过五分之一,性能比Sierra高出约10倍。这种计算能力将很容易被NNSA吸收,因为它需要最先进的计算能力和与美国工业的深厚合作伙伴关系。

“在短短几年内,我们期望看到在劳伦斯利弗莫尔,阿贡和橡树岭(国家实验室)部署的exascale系统,确保我们在这个领域的全球优势多年和未来几十年,”佩里说。“从Sierra开始,这款新一代超级计算机将成为全球的绝对改变者。”

免责声明:本文由用户上传,如有侵权请联系删除!