全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一

   通讯基站        

最近,TOP500官方公布了第56期榜单,TOP500超级计算机排名最新出炉。日本超算富岳 Fugaku 再次搭载ARM芯片夺冠!不过,虽然日本的 Fugaku 超算巩固了它在榜单中的第一位置,但与此同时,本次排名榜单也反映了一个平坦的性能增长曲线。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


第二名Summit,是IBM在田纳西州橡树岭国家实验室(ORNL)建造的系统,以148.8 PetaFLOPS的性能保持着美国最快的系统。拥有4356个节点,每个节点都容纳了两个22核Power9 CPU和6个NVIDIA Tesla V100 GPU。


第三名是位于加利福尼亚州劳伦斯-利弗莫尔国家实验室的系统Sierra,以94.6 PetaFLOPS的HPL排名第三。其架构与Summit非常相似,其4320个节点中的每个节点都配备了两颗Power9 CPU和四颗NVIDIA Tesla V100 GPU。


本次新上榜的 JUWELS Booster Module 位列榜单第七。JUWELS Booster Module单独运行时能够达到44.1 HPL PetaFLOPS,使其成为欧洲最强大的系统。


本次排名第十的 Dammam-7 安装在沙特阿拉伯的沙特阿美公司,是目前前十名中的第二台商用超级计算机,也是前十里第二台新上榜的机器。它采用英特尔Xeon Gold CPU和NVIDIA Tesla V100 GPU,在HPL基准上达到了22.4 PetaFLOPS。


富岳:以富士山的别名命名,搭载ARM芯片且创造新纪录


曾在2011年的时候,日本凭借K(京)超级计算机拿下了TOP500冠军,是世界上第一台每秒执行10万亿次运算的超级计算机,使用的是日本富士通研发的SPARC64处理器。去年,K超算退役。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


Fugaku 富岳超算由日本理化研究所联合富士通打造,此前的代号叫Post-K,也就是京超算后一代的意思,最终以富士山的别名正式命名为 Fugaku。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


值得注意的是这台超级计算机竟然是基于ARM架构的,这也是 TOP500 排行榜里首个采用ARM芯片的超级计算机。


从传统观念来看,ARM是移动芯片,性能比较低。目前,多数超级计算机仍然采用的是英特尔和AMD的芯片组。


与现有超算相比,这代超算最大的变化就是采用ARM架构,由富士通的48核A64FX SoC提供支持。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


富岳 Fugaku 的目标是要比上一代京计算机强100倍(即性能目标为1 exaflop) ,并在世界上具有高度的实用性。Fugaku 使用了158,976个 A64FX 处理器,使用富士通专有的环面融合互连技术连接在一起。


Fugaku 超算最大的变化就是CPU采用了ARM架构,峰值浮点性能高达 537PFLOPS(53.7亿亿次),Rmax性能为 442PFLOPS(PFLOPS指的是每秒1千万亿次浮点运算),是第二名超算 Summit 的近3倍,不过功耗也达到了29MW,也是 Summit 的接近3倍。


同时,富岳拥有442 PetaFLOPS,这也创造了新的世界纪录,使其领先榜单中排名第二的系统三倍。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


目前Fugaku超算的性能还不是完整版,后续还会继续升级到1000PFLOPS,也就是百亿亿次,最终要在2021年左右投入使用。


据理化研究所称,除了运算速度,Fugaku在其他三个部门也是第一,成为全球首个获得「四项冠军」。其他三个部门是产业方面利用较多的计算手法性能,用于AI领域的计算性能,以及成为大数据解析指标的解析性能。


超算TOP500榜单


TOP500项目是针对全球已知最强大的计算机系统做出排名与详细介绍。此项目始于1993年并且一年出版两次最新的超级计算机排名列表。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


图:自1993年以来登顶过榜首的超算


每年的第一次排名公布总是在6月份的国际超级计算机会议上,而第二次排名公布则是在11月份的超级计算会议上。此项目主旨在提供一个可靠的基础去追踪与侦测高性能计算的趋势。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


图:top500超算处理器架构分布


从上图可以看出,截至2019年11月,所有TOP500超级计算机全部为64位,大部分是基于x86-64的CPU(英特尔的EMT64和AMD的AMD64指令集架构),只有少数是基于精简指令集(RISC),其中有13台基于IBM POWER微处理器的超级计算机使用Power架构,有6台基于富士通设计的HAL SPARC64芯片。


另外,还有少数计算机使用了另一种非美国设计,即基于ARM架构的PEZY-SC,它是与英特尔Xeon配对的加速器。


中国超算总数实力霸榜


Top500排行榜目前依然是由中国和美国的超级计算机主导 , 美国开发的另一台超级计算机Sierra排名第3,而中国的「神威·太湖之光」和「天河2A」分别排在第4和第6位。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


中国长期以来在超算领域保持优势,对美国政府和研究机构触动很大,也促使美国加大投入研发新一代超级计算机。


AMD在全球前500名超级计算机中的影响力正在持续增长,从而削弱了英特尔的主导地位,因为两家公司都对Nvidia的GPU宝座提出了新的挑战。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


这是根据周一由其同名组织Top500在虚拟超级计算2020会议期间发布的世界上最快的超级计算机的更新列表得出的。


日本的Fugaku超级计算机在基于Arm的富士通CPU上运行,在今年早些时候一直保持着该系统首次亮相的第一名,但是在该处理器上仅增加了一个新的超级计算运行的基于Arm的处理器。 2020年秋季更新中列出。


AMD在顶级超级计算机中的CPU份额从夏季的11部增加到了21部,几乎翻了一番,其中包括一个使用Hygon Dhyana处理器的系统,该系统使用AMD技术作为中国合资企业的一部分。过去几个月来,该芯片制造商的增长来自具有第二代EPYC处理器的新系统。


在前500强名单中的44个新系统中,有29个使用英特尔处理器,主要来自第二代至强可扩展阵容,但该芯片制造商整体上失去了份额,在过去几个月中从470个系统下降到459个。具有第二代Xeon可扩展CPU的整体系统数量也从72个减少到54个。


在加速器和协处理器方面,英伟达继续占据主导地位,其GPU现在位于全球141台超级计算机中,而夏季时只有135台。尽管使用该公司上一代V100 GPU的系统推动了大部分增长,但使用该芯片制造商的新A100 GPU的系统数量增加到了两个,而Nvidia基于A100的Selene超级计算机的排名从7位上升到5位。集群中的新系统。


AMD在GPU方面没有增长,只有一个系统使用其GPU。仍使用英特尔折旧至强融核加速器的三个系统仍在列表中。


但是,英伟达将面临更大的竞争,尤其是在高性能计算领域。


周一上午,AMD展示了其新的Instinct MI100服务器GPU,称其为“全球科学研究最快的HPC加速器”,这归功于它具有超过10 teraflops的双精度浮点性能的能力。


新的GPU配备32GB的高带宽HBM2内存,并借助其新的Matrix Core技术,将AI训练工作负载的半精度浮点性能提高了近七倍。


Matrix Core技术是AMD新的CDNA架构的一部分,该架构专为HPC和机器学习工作负载而设计。该体系结构的未来版本将用于下一代Instinct GPU,它将用于美国能源部的首批百亿亿级超级计算机中的两个,即Frontier和El Capitan,这两个超级计算机分别定于2021年和2023年推出。


数据中心GPU和加速处理AMD的公司副总裁Brad McCredie对CRN表示:“这是AMD的旗舰工厂,标志着百亿美元的发展之路。”


随着MI100的发布,AMD宣布其ROCm开发人员软件现在具有可支持OpenMP 5.0和HIP的开源编译器。该软件现在还可以为运行PyTorch和Tensorflow框架的应用程序提供更快的性能。


另一方面,英特尔计划在2021年末或2022年初发布专注于HPC的GPU,代号为Ponte Vecchio,这是针对不同市场更广泛地推出分立GPU的一部分。该GPU将被美国能源部的另一亿亿级超级计算机Aurora使用。


在英特尔的举动,异构计算产品组合,其中包括图形芯片,该公司上周宣布其第一个独立的GPU服务器,英特尔服务器的GPU,它是基于该公司的氙低功耗微架构也列强英特尔显卡的笔记本电脑,其目的是适用于Android云游戏和高密度媒体转码工作负载。


英特尔表示,除了新的GPU之外,其oneAPI工具包的黄金版将于12月推出,这将使开发人员更容易为公司的CPU,GPU,FPGA和其他各种加速器产品组合优化软件。


“今天是我们雄心勃勃的oneAPI和XPU旅程中的关键时刻。随着oneAPI工具包的黄金发布,我们将开发人员的经验从熟悉的CPU编程库和工具扩展到了我们的矢量矩阵空间体系结构,”英特尔架构高级副总裁,首席架构师兼总经理Raja Koduri说道。建筑,图形和软件小组。


但是Nvidia丝毫没有减慢速度。周一,该公司发表了自己的公告,展示了新的A100 80GB GPU,它使今年初推出的原始A100 SXM GPU的高带宽存储容量增加了一倍。


Nvidia加速计算产品管理高级总监Paresh Khaya说:“将世界上最快的GPU与世界上最高的内存带宽以及我们的软件平台中的所有优化结合在一起,可以带来显着的性能和效率提升。”


总部位于伊利诺斯州诺斯布鲁克的系统制造商International Computer Concepts的CTO Alexey Stolyar表示,他的HPC客户关心GPU可以提供的“触发器”或每秒浮动操作的数量,这很重要,因为仅CPU不能提供那个水平的表现。


他说,例如,他正在与一个需要达到400 teraflops的客户合作。


Stolyar说:“使用CPU很难达到这个数字,您确实需要GPU的支持才能达到目标。”


迄今为止,尽管英伟达已经在GPU加速服务器的客户对话和部署方面占据主导地位,但Stolyar表示,他认为AMD的产品有一些吸引力。


但他补充说,为了使英特尔和AMD的新GPU得到更大的采用,两家公司都需要确保各自的工具集可以与Nvidia的CUDA平台竞争。


他说:“如果性能出色且数量众多,那么看看它们如何处理工具集将很有趣。”


为何各国要以举国之力研制新超算?


有专家曾介绍说,无论是的国防、材料科学、天文学,还是距离我们生活更近的天气预报、灾害监测、交通管理,超算都大有用武之地。


在抗击新冠疫情的过程中,各国超算也都倾尽全力。


中国「天河二号」超算协助搭建起「15秒断诊」的新冠CT影像智能诊断平台,并助力筛选能抑制病毒的小分子药物。美国Summit超算同样参与到新药研制中,模拟新冠病毒与不同化合物的反应。此次夺冠的日本Fugaku超算也为探索新药启动了试验。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


由中国国家并行计算机工程技术研究中心(NRCPC)开发的「神威·太湖之光」排名第四。该系统完全由 Sunway 260核 SW26010处理器提供动力。2016年6月在中国无锡国家超级计算机中心安装,HPL性能为93 petaflops。


全球超算Top500最新榜单公布!日本Fugaku搭载ARM芯片再次蝉联第一


由中国国防科技大学开发的「天河2A」排名第6。它是采用 Intel 至强 CPU 和定制的 Matrix-2000协处理器的混合架构,HPL性能为61.4petaflop,目前部署在中国广州的国家超级计算机中心。


尽管本次公布的 Top500 排名榜单有两个新的系统进入了前10名,但是完整的名单记录了自1993年该项目开始以来最少的新项目。


或许传统的超算已经开始进入一个拐点的时刻,新兴的智能超算和未来的量子霸权也许会开启崭新的时代。


Top500前十名:


1、Fugaku,由富士通建造,安装在日本神户的RIKEN计算科学中心(R-CCS)。拥有442 PetaFLOPS的新世界纪录。这使其领先榜单中排名第二的系统三倍。


2、Summit,是IBM在田纳西州橡树岭国家实验室(ORNL)建造的系统,以148.8 PetaFLOPS的性能保持着美国最快的系统。拥有4356个节点,每个节点都容纳了两个22核Power9 CPU和6个NVIDIA Tesla V100 GPU。


3、位于加利福尼亚州劳伦斯-利弗莫尔国家实验室的系统Sierra,以94.6 PetaFLOPS的HPL排名第三。其架构与Summit非常相似,其4320个节点中的每个节点都配备了两颗Power9 CPU和四颗NVIDIA Tesla V100 GPU。


4、由中国国家并行计算机工程与技术研究中心(NRCPC)开发并安装在无锡国家超级计算中心的神威太湖之光位列第四,它完全采用了Sunway SW26010处理器,在HPL上实现了93 PetaFLOPS。


5、Selene,它是NVIDIA公司内部安装的NVIDIA DGX A100 SuperPOD。在6月份的时候是第七名,但现在规模已经翻了一番,使得它的排名上升了两位。该系统基于AMD EPYC处理器,采用英伟达新的A100 GPU进行加速。由于升级,Selene在HPL上实现了63.4 PetaFLOPS。


6、天河-2A(Milky Way-2A),由中国国防科技大学开发的系统,部署在广州的国家超级计算机中心,排名第六。它采用英特尔Xeon CPU和NUDT的Matrix-2000 DSP加速器,在HPL上达到61.4 PetaFLOPS。


7、新上榜的JUWELS Booster Module,位列榜单第七。阿托斯制造的BullSequana机器最近安装在德国Forschungszentrum Jülich(FZJ)。它是模块化系统架构的一部分,第二款基于Xeon的JUWELS模块单独列在TOP500的第44位。这些模块通过使用ParTec Modulo集群软件套件进行集成。增压模块使用AMD EPYC处理器与NVIDIA A100 GPU进行加速,与排名第5的Selene系统类似。JUWELS Booster Module单独运行时能够达到44.1 HPL PetaFLOPS,这使其成为欧洲最强大的系统。


8、意大利Eni S.p.A.公司安装的戴尔PowerEdge系统HPC5排名第八,使用了英特尔Xeon Gold CPU和NVIDIA Tesla V100 GPU,性能达到35.5 PetaFLOPS。在榜单上用于商业用途的系统里,以这台性能最为强大。


9、安装在德克萨斯大学德克萨斯高级计算中心的戴尔C6420系统Frontera现在列在第九位,它使用其448,448个英特尔Platinum Xeon核心,实现了23.5 PetaFLOPS。


10、排名第十的Dammam-7安装在沙特阿拉伯的沙特阿美公司,是目前前十名中的第二台商用超级计算机,也是前十里第二台新上榜的机器。HPE Cray CS-Storm系统采用英特尔Xeon Gold CPU和NVIDIA Tesla V100 GPU。它在HPL基准上达到了22.4 PetaFLOPS。


Green500的情况:


1、最节能的系统是美国NVIDIA新推出的DGX SuperPOD。它在2.4 HPL性能运行期间取得了26.2 GigaFLOPS/Watt的能效,功耗为38MW(忽略扩展所需的额外硬件),位列TOP500的第172位。


2、上届Green500冠军MN-3。虽然它的得分从21.1提高到了26.0 GigaFLOPS/Watt,但却滑落到了第二名的位置。该系统采用MN-Core芯片,这是一款针对矩阵运算进行优化的加速器。它在TOP500中排名第332位。


3、安装在德国Forschungszentrum Jülich(FZJ),它实现了25.0 GigaFLOPS/Watt,在TOP500中排名第七。


4、阿托斯制造的另一台机器Spartan-2。它在HPL上实现了24.3 GigaFLOPS/Watt,在TOP500榜单中排名第148位。


5、Selene,效率为24.0 GigaFLOPS/Watt。它也占据了TOP500榜单的第五位。


除MN-3系统外,其余排名前五的Green500系统均采用了全新的NVIDIA A100 GPU作为加速器,同时这四款系统均采用AMD EPYC作为主CPU。


在Green500排名前40的系统中,有37个系统利用了加速器,2个系统使用了A64FX矢量处理器,1个系统(神威太湖之光)是申威多核处理器。


TOP500榜单的一些其他数据:


1、共有149个系统使用加速卡/协从处理器技术,比6个月前的146个有所增加。其中140个采用了NVIDIA芯片。


2、英特尔继续在TOP500的处理器份额中占据主导地位,超过90%的系统配备了Xeon或Xeon Phi芯片。尽管最近高性能计算领域的替代处理器架构兴起,但AMD处理器(包括中国海光的芯片)在目前的榜单中仅占21个系统,还有10个基于Power架构的系统和5个基于ARM架构的系统。不过,采用基于AMD处理器的系统数量比半年前增加了一倍。


3、系统互连的分类基本没有变化,大约一半的系统(254个)使用以太网,大约三分之一的系统(182个)使用InfiniBand,大约十分之一的系统(47个)使用OmniPath,一个系统使用Myrinet;其余的系统使用定制互连(38个)和专有网络(6个)。在总容量方面,InfiniBand连接的系统仍然占主导地位,其性能超过1个ExaFLOPS。由于Fugaku使用专有的Tofo D互连,6个专有网络系统的总性能(472.9 PetaFLOPS)几乎与254个基于以太网的系统(477.7 PetaFLOPS)相当。


4、中国以212台机器上榜,继续在系统占有率上领先,轻松击败美国的113台,和日本的34台。尽管系统数量较少,美国仍以668.7 PetaFLOPS的总性能领先于中国的564.0 PetaFLOPS。得益于排名第一的Fugaku系统,日本593.7 PetaFLOPS的总性能超过了中国。

文章来源: 超能网

最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~

相关新闻推荐