Nvidia推出具有高达20倍AI性能的Ampere GPU


Nvidia的第一款基于Ampere的图形卡A100 GPU在826mm 2 的硅上封装了540亿个晶体管 , 成为世界上最大的7纳米芯片 。今天 , 在Nvidia首席执行长黄仁勋(Jensen Huang)的预先录制的“厨房主题演讲”中推出了Ampere架构 , 该架构沿袭了前辈Volta的脚步 , 一个巨型GPU开启了晶体管 , AI专业化和整体性能的表盘 。12nm Volta和7nm Ampere均由台积电制造 。
加上TensorFloat-32(TF32)张量核心 , 峰值单精度性能比哥哥的Volta(V100)理论上提高了10-20倍 。HPC工作负载受益于峰值双精度浮点性能提高250% , 这归功于用于HPC处理的新的符合IEEE的张量核心指令 。
其他新功能包括:
?多实例GPU(又称MIG) , 可将单个A100 GPU划分为多达七个独立的GPU 。
?第三代Nvidia NVLink结构 , 将GPU之间的高速连接性提高了一倍 。
?结构稀疏性 , 它在Tensor核心中引入了对稀疏矩阵运算的支持 , 并将其加速了两倍 。
Ampere将Nvidia的单一通用GPU策略加倍 , 该策略是由支持HPC , AI和图形的Volta架构引入的 。“在[使用Ampere A100]时 , 无需拥有一堆Volta GPU服务器 , 一堆T4 GPU服务器和CPU服务器 , 所有这些现在都可以在一个统一的Ampere服务器上运行 , ”黄在为昨天的媒体 。
Huang补充说:“毫无疑问 , 这是我们首次将整个数据中心的加速工作负载整合到一个平台中 。” “您知道 , 从视频分析到图像处理再到语音再到训练再到推理的一切 , 数据处理现在是一台统一服务器 。”
Huang在这里指的是今天也推出的新型DGX机器 。DGX A100由八个A100 GPU供电 , 它们一起提供320GB的内存和每秒12.4TB的带宽 。六个具有第三代NVLink结构的NVSwitch连接GPU , 每秒提供4.8TB的双向带宽 。每个DGX 100系统都提供9个Mellanox ConnectX-6 200Gb / s网络接口和15TB Gen4 NVMe存储 。
对于第三代“ DGX” , 英伟达做出了另一项改变 , 只有昨天的简报或其他新闻材料没有强调 。最新的DGX取代了两个Broadwell Intel Xeon , 而是配备了两个64核AMD Epyc Rome CPU 。此举可能预示着英伟达(Nvidia)会推迟英特尔正在涌现的GPU业务 , 或者可能是受AMD的性价比故事激励 。
现在还可以选择Arm CPU选项 , 并且围绕GPU加速的Arm正在进行大量的开发活动 , 因此看到第四代DGX中的另一次CPU升级也就不足为奇了 。Nvidia可以选择Marvell或Ampere(hmm)的Arm服务器芯片 , 也可以决定采用全孔技术 , 并将内部开发的Arm CPU添加到其不断增长的堆栈中 。
说到Nvidia的堆栈-四年前通过宣布(现已完成)收购Mellanox引入DGX-1 , Nvidia避开了系统制造商的称号 , 意识到与OEM合作伙伴的潜在冲突 。这种不情愿似乎已经减少 。
Nvdia数据中心和云平台产品管理总监Paresh Kharya在同一场媒体发布会上表示:“我们开发了垂直完全集成的系统 , 以开拓计算机的新外形 。” “我们也打开了整个系统 , 并将它们变成了基本的组成部分 。因此 , 我们的生态系统 , 整个行业都可以购买 , 甚至整个都可以买到 。”他继续说道 , 并引用了由合作伙伴云服务提供商和服务器制造商支持的HGX A100设计 。
Huang随后补充说:“ Nvidia确实是一家数据中心规模的计算公司 。30年前我们曾经是一家PC公司 , 然后我们成为了工作站公司 , 然后又成为了服务器公司 , 最终我们进入了数据中心 。但是计算的未来:数据中心是计算单元 。计算的未来确实是数据中心规模 。应用程序将同时在整个数据中心中运行 。”
英伟达还宣布创建DGX A100 Superpod , 该产品跨越140个DGX A100系统(1,120个GPU) , 170个Mellanox Quantum 200G IB交换机 , 280 TB / s的网络结构(超过15公里的光缆)和4个全闪存联网的petabyes存储 。Nvidia表示 , 整个系统提供了近22 petaflops的峰值双精度性能(700 petaflops的“ AI计算”) , 并在不到三周的时间内建成 。
Nvidia已在其内部超级计算机Saturn-V中添加了四个Superpods , 从而将其“ AI超级计算”总容量提高到近5 exaflops , Nvidia称这使Saturn-V成为世界上最快的AI超级计算机 。所有这些GPU的总双精度容量达到了约93个峰值petaflops , 但Jensen澄清说Saturn-V并不是真正的一个系统 。它位于一个管理界面下的四个不同位置 。Nvidia将该系统用于与计算机图形学 , 机器人技术 , 自动驾驶汽车 , 医疗保健及其新推荐系统Merlin有关的软件开发 。
DGX A100的价格为199,000美元 , 现已开始发售 。第一份订单送给了能源部的阿贡实验室 , 该实验室正在使用该集群进行AI和计算 , 以更好地理解和对抗 。HPC研究社区的其他早期采用者包括印第安纳大学 , 朱利希超级计算中心 , 卡尔斯鲁厄技术学院 , 马克斯·普朗克计算和数据设施以及能源部伯克利实验室的NERSC 。Huang说:“如果我们是一家数据中心规模的公司 , 以数据中心规模开发芯片 , 系统和软件 , 那是我们应该自己构建它的理由 。”
有强大的合作伙伴支持 。有望集成A100的云服务提供商和系统构建商的名单包括阿里云 , 亚马逊网络服务(AWS) , Atos , 百度云 , 思科 , 戴尔技术 , 富士通 , 技嘉科技 , 谷歌云 , H3C , 惠普企业 , 浪潮 , 联想 , Microsoft Azure , Oracle , Quanta / QCT , Supermicro和腾讯云 。
HGX A100参考设计是DGX A100的骨干 , 具有四GPU和八GPU配置 。四个GPU的HGX A100提供了具有NVLink的GPU之间的完全互连 , 而八个GPU的版本通过NVSwitch提供了完整的GPU到GPU带宽 。w ^ 第i个新的多实例GPU(MIG)架构 , 安培服务器 , 因为我们听到黄打电话给他们 , 可配置为56个小GPU来推理或八个GPU的培训或HPC工作负载一起工作 。
【Nvidia推出具有高达20倍AI性能的Ampere GPU】

    推荐阅读