Nvidia透露了有关新GPU架构Ampere的初步细节

科技2020-09-04 12:35:01

导读Nvidia透露了有关新GPU架构Ampere的初步细节。Volta的后继产品旨在在数据中心中用于AI培训和深度学习。在这种情况

Nvidia透露了有关新GPU架构Ampere的初步细节。Volta的后继产品旨在在数据中心中用于AI培训和深度学习。在这种情况下，据说第一款安培GPU A100的功率是Volta的20倍。带有A100的第一款产品是DGX A100。

基于Ampere的第一款芯片A100具有重要的生命统计数据。根据Nvidia的数据，它由540亿个晶体管提供支持，是世界上最大的7纳米芯片，每秒可传输超过1个Peta运算。英伟达(Nvidia)声称，对于AI训练(单精度，32位浮点数)和AI推理(8位整数)，A100的性能是等效Volta设备的20倍。用于高性能科学计算的同一设备可以使Volta的性能提高2.5倍(64位双精度)。A100的每个SM都带有64个FP32内核和32个FP64内核。A100视频卡使用PCI Express 4.0和Nvidia专有的NVLink接口进行超快速的相互通信，最高速度为600 GB / s。TDP设置为400瓦。您可以在照片上看到有六个HBM2堆栈，它们总共占了40 GB的视频内存。给定总内存带宽为1550 GB / s，即5120位内存总线。

A100添加了功能强大的新型第三代Tensor Core，可在V100之上提高吞吐量，同时增加了对DL和HPC数据类型的全面支持，以及新的Sparsity功能，可将吞吐量进一步提高一倍。A100中的新TensorFloat-32(TF32)Tensor Core操作为在DL框架和HPC中加速FP32输入/输出数据提供了一条简便的途径，其运行速度比V100 FP32 FMA操作快10倍，而稀疏性则快20倍。对于FP16 / FP32混合精度DL，A100 Tensor Core的性能是V100的2.5倍，而稀疏性则提高到5倍。新的Bfloat16(BF16)/ FP32混合精度Tensor Core操作以与FP16 / FP32混合精度相同的速率运行。Tensor Core加速了INT8，INT4和二进制，全面支持DL推理，其中A100稀疏INT8的运行速度比V100 INT8快20倍。对于HPC，

该GPU具有7nm Ampere GA100 GPU，具有6912个着色器处理器和432个Tensor内核。GPU尺寸为826mm2，具有108个流式多处理器x 64个着色器处理器。A100不是完全启用的芯片。Tesla A100具有40GB的HBM2e内存。

A100 GPU流式多处理器

基于NVIDIA Ampere架构的A100 Tensor Core GPU中的新流式多处理器(SM)大大提高了性能，并基于Volta和Turing SM架构中引入的功能，并增加了许多新功能。

A100第三代Tensor内核增强了操作数共享并提高了效率，并添加了功能强大的新数据类型，其中包括：

TF32 Tensor Core指令可加速FP32数据的处理

适用于HPC的IEEE兼容FP64 Tensor Core指令

BF16 Tensor Core指令的吞吐量与FP16相同

40 GB HBM2和40 MB L2缓存

为了满足其巨大的计算吞吐量，NVIDIA A100 GPU拥有40 GB的高速HBM2内存，具有一流的1.6 TB /秒的内存带宽–与Tesla V100相比增加了73%。此外，A100 GPU拥有更多的片上内存，其中包括40 MB的2级(L2)缓存-比V100大近7倍-以最大化计算性能。借助新的分区交叉开关结构，A100 L2缓存提供了V100的L2缓存读取带宽的2.3倍。为了优化容量利用率，NVIDIA Ampere体系结构提供了L2缓存驻留控件，供您管理要保留或从缓存中逐出的数据。A100还增加了计算数据压缩功能，以使DRAM带宽和L2带宽最多增加4倍，L2容量最多增加2倍。

A100 GPU硬件架构

NVIDIA GA100 GPU由多个GPU处理群集(GPC)，纹理处理群集(TPC)，流式多处理器(SM)和HBM2内存控制器组成。

GA100 GPU的完整实现包括以下单元：

每个完整GPU 8个GPC，8个TPC / GPC，2个SM / TPC，16个SM / GPC，128个SM

每个完整GPU 64个FP32 CUDA内核/ SM，8192个FP32 CUDA内核

每个完整GPU 4个第三代Tensor内核/ SM，512个第三代Tensor内核

6个HBM2堆栈，12个512位内存控制器

GA100 GPU的A100 Tensor Core GPU实现包括以下单元：

7个GPC，7个或8个TPC / GPC，2个SM / TPC，最多16个SM / GPC，108个SM

每个GPU 64个FP32 CUDA内核/ SM，6912个FP32 CUDA内核

每个GPU 4个第三代Tensor内核/ SM，432个第三代Tensor内核

5个HBM2堆栈，10个512位内存控制器

免责声明：本文由用户上传，如有侵权请联系删除！

标签：Nvidia GPU

上一篇:Apple TV Plus将于11月1日以4.99美元的价格推出

下一篇:英伟达宣布推出Ampere A100 GPU 7nm 拥有540亿个晶体管

Nvidia透露了有关新GPU架构Ampere的初步细节

热门文章

栏目推荐

Nvidia透露了有关新GPU架构Ampere的初步细节

猜你喜欢

最新文章

热门文章

栏目推荐