英伟达发布全球最强AI超算A100 80GB GPU!内存带宽每秒超2TB

   通讯基站        

11月16日消息,在今天的SC20(Supercomputing Conference)超级计算大会上,NVIDIA在加速计算领域、HPC、网络三大领域分别发布了新一代A100 80GB GPU处理器、新一代DGX StationA100和DGX A100 640GB移动数据中心、Mellanox 400G InfiniBand系统多款重磅新品,以应对全球爆发式增长的数据处理需求和日益凸显的机器学习需要。


英伟达发布全球最强AI超算A100 80GB GPU!内存带宽每秒超2TB


其中,NVIDIA A100 80GB GPU搭配 TC32核心,AI吞吐量提高达20倍,HPC性能提升达2.5倍,高带宽内存翻倍至80GB,内存带宽每秒超过2TB。NVIDIA DGX Station A100则有着强劲性能和高度集成性,尺寸虽小,AI性能却达到了2.5 petaflops。Mellanox 400G InfiniBand产品提供超低延迟,并在上一代产品的基础上实现了数据吞吐量翻倍。


NVIDIA加速计算产品管理总监Paresh Kharya、DGX系统副总裁兼总经理Charlie Boyle、网络事业部高级副总裁Gilad Shainer对这三大发布进行了详细介绍。


英伟达发布全球最强AI超算A100 80GB GPU!内存带宽每秒超2TB


NVIDIA加速计算产品管理总监Paresh Kharya在会上发言


一、NVIDIA A100 80GB GPU:高带宽内存翻倍,内存带宽每秒超2TB



在今年五月,英伟达发布了基于全新Ampere架构打造的GPU A100。


据该公司CEO黄仁勋介绍,A100 采用台积电当时最先进的7 纳米工艺打造,拥有 540 亿个晶体管,面积高达 826mm2,GPU 的最大功率也达到了 400W。又因为同时搭载了三星 HBM2 显存、第三代 Tensor Core和带宽高达600GB/s 的新版 NVLink,英伟达的A100在多个应用领域也展现出强悍的性能。从英伟达提供的数据可以看到,如果用 PyTorch 框架跑 AI 模型,相比上一代 V100 芯片,A100 在 BERT 模型的训练上性能提升 6 倍,BERT 推断时性能提升 7 倍。而根据MLPerf组织在十月底发布的最新推理基准测试(Benchmark)MLPerf Inference v0.7结果,英伟达A100 Tensor Core GPU在云端推理的基准测试性能是最先进英特尔CPU的237倍。


但英伟达不止步于此。在昨日,他们发布了面向AI超级计算的全球最强GPU——A100 80GB。



1、第三代Tensor Core核心:AI吞吐量提高达20倍,HPC性能提升达2.5倍;


2、 更大、更快的HBM2e GPU内存:高带宽内存翻倍至80GB,内存带宽每秒超过2TB;


3、第三代NVLink和NVSwitch:GPU之间带宽增加,GPU数据传输速度提高。


英伟达发布全球最强AI超算A100 80GB GPU!内存带宽每秒超2TB


官方发布NVIDIA A100 80GB GPU的主要优点


NVIDIA透露,源讯、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想、云达科技、超微等全球领先系统供应商将于2021年上半年发行基于HGX A100集成底板的系统,每个集成底板将搭载4-8个A100 80GB GPU。


官方消息称,这款产品预计将于本季度发货。


今年5月,英伟达在线上召开了GTC大会,并推出基于安培架构的7nm A100显卡,AI训练速度提升20倍。


今天, NVIDIA在前代的基础上推出了A100 80GB GPU,实现性能的大幅提升。


全新A100采用HBM2e技术,将GPU内存在上一代A100 40GB GPU的基础上提升了一倍,达到80GB,每秒能提供超过2TB 的内存带宽。


在HPC高性能计算方面,如果以2016年推出的P100处理器为基准,A100 处理器在主流HPC应用上的性能已提升了10倍。


A100 处理器搭载全新TF32核心,将上一代Volta架构的AI吞吐量提高多达20倍。通过FP64(双精度运算),将HPC性能提高多达2.5倍,达到19.5 TFlops。


通过INT8(一种低精度的定点计算),A100 处理器将AI推理性能提高多达20倍,达到1248 TOPS,并且支持BF16数据格式,能满足医疗、AI推理、云存储、计算机视觉、模拟技术等多个研究领域日益增长的计算需求。


此外,A100 处理器在保障更大计算能力的前提下,还做到了节能。其能源效率达到26.2 GF/W,在短短六个月内成功在上一代的基础上将能效提升了25%。


据了解,这款GPU 处理器还会搭载在同时发布的另一款新品DGX Station A100移动数据中心上,能在移动场景下提供超强算力。


NVIDIA加速计算产品管理总监Paresh Kharya在会上讲到:“我们想把HPC、数据分析和深度学习计算技术结合起来,共同推动科学进步。”


二、NVIDIA DGX Station A100:一台能推着走的千万亿级集成型AI工作组服务器


1、千兆级工作组服务器:AI性能可达2.5 petaflops;


2、第三代NVLink:四个A100 GPU通过NVLink实现完全互连,内存最高可达320GB或640GB;


3、两种规格:分为普通版和SuperPOD版本,满足不同需求;


4、MIG技术:最多分割为28个GPU实例,每个实例的内存达到10GB;


5、随时随地:高度集成、体积小、冷却散热,同时支持远程互联和遥控。


英伟达发布全球最强AI超算A100 80GB GPU!内存带宽每秒超2TB


第二代NVIDIA DGX Station A100


第二代NVIDIA DGX Station A100也在此次线上大会上登场。


这次英伟达共发布两个版本,DGX Station A100和DGX A100 640GB,并表示可以为320GB版本用户提供付费服务,升级到最新的DGX Station A100 640GB版本。


DGX系统副总裁兼总经理Charlie Boyle在会上提到,配有A100 80GB GPU 的 NVIDIA DGX SuperPOD系统将首先运用在英国的Cambridge-1超级计算机上,以加速推进医疗保健领域研究,同时还将运用于佛罗里达大学的全新HiPerGator AI超级计算机上,从而助力这一“阳光之州”开展AI赋能的科学发现。


DGX Station尽管身形娇小,但运算性能强劲。DGX Station A100的AI性能可达2.5 petaflops,即每秒能实现两千五百万亿(=10^15)次的浮点运算。


截至目前,DGX Station A100是唯一能支持NVIDIA多实例GPU(MIG)技术的工作组服务器。


为支持更大规模的数据中心工作负载,DGX Station A100将配备四个NVIDIA A100 80GB GPU处理器,每个处理器最多分割为7个MIG。


因此,单一DGX Station A100最多能分割为28个独立GPU实例来执行并行任务,从而在处理负载较小的工作时,实现GPU的最佳利用率,同时确保AI团队能够使用更大规模的数据集和模型来提高准确性。


据称,这一代产品GPU之间的双向带宽达到200 GB/s,近乎是PCIe Gen4的三倍。


在实现性能大幅提升的同时,DGX Station通过使用冷却剂,免去了配备散热系统的烦恼。


此外,DGX Station A100还具有远程管理功能,可供分布全球各地的科研团队远程协作使用。


英伟达发布全球最强AI超算A100 80GB GPU!内存带宽每秒超2TB


NVIDIA DGX SuperPOD系统将首先运用在英国的Cambridge-1超级计算机上。


三、Mellanox 400G InfiniBand:高效节能


第七代Mellanox 400G InfiniBand是英伟达应对计算需求猛增推出的网络解决方案,其产品架构包括适配器、DPU、交换机和网线。运用InfiniBand技术,Mellanox 400G InfiniBand 400Gb/s产品提供了超低延迟,并在上一代的基础上实现了数据吞吐量翻倍,同时增加了新的NVIDIA网络计算引擎,实现了额外的加速。


Mellanox NDR 400G InfiniBand交换机的端口密度和AI加速能力分别是上一代的3倍和32倍。此外,它还将框式交换机系统的聚合双向吞吐量提高了5倍,达到1.64 petabits/s,使得用户能够以更少的交换机,运行更大的工作负载。


Mellanox InfiniBand NDR在节省成本的同时,还提高了能源效率。


其中,运用Mellanox InfiniBand NDR,1500 GPUs以内的数据中心在成本控制方面较上一代提升20% ,节能方面较上一代提高20%,4000 GPUs 以内的数据中心在成本控制方面较上一代提升40% ,节能方面较上一代提高60%。


微软Azure、美国Los Alamos国家实验室等全球大型科研机构均表现出对下一代Mellanox InfiniBand技术的关注。


微软公司Azure HPC和AI产品负责人Nidhi Chappell谈及InfiniBand技术时说道:“在HPC领域,Azure HBv2 VM率先将HDR InfiniBand引入云端,并为MPI客户应用在云上实现了超算级规模和性能,展示出可扩展MPI HPC应用到超过80,000核的能力。”


英伟达发布全球最强AI超算A100 80GB GPU!内存带宽每秒超2TB


Mellanox 400G InfiniBand产品架构


NVIDIA数据中心业务势头强劲,Mellanox或将成为新增长点


2019年,NVIDIA宣布以69亿美元现金收购Mellanox,在经历了漫长的全球反垄断审批流程之后,这笔交易终于在今年四月尘埃落定。当初,NVIDIA收购Mellanox的原因不仅仅是技术层面的,更是因为它和自己数据中心业务的用户群体高度重合,二者的结合也因而产生了强大的协同效应。


此次发布会推出的Mellanox 400G InfiniBand便是二者协作的产物。它的出色表现,加上英伟达2019年财报展现出的数据中心业务的强劲增长趋势,恰好指明了英伟达未来几年的业务重心或许就在数据中心领域,而Mellanox或将成为新增长点。


文章来源: 智东西

最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~

相关新闻推荐