价值无处不在,世界财经资讯媒体平台。
手机版
访问手机版
世界总裁网 首页 头条资讯 世界企业 新闻内容

AMD最强AI芯片发布:性能是英伟达H100的1.3倍!

发布时间: 2023-12-9 19:49| 发布者: wangjing| 查看: 15367| 评论: 0

摘要: 12月7日消息,AMD于当地时间周三举行了“Advancing AI”发布会,正式推出了面向AI及HPC领域的GPU产品Instinct MI300A/MI300X加速器,直接与英伟达(NVIDIA)H100加速器竞争。同时AMD还发布了代号为Hawk Point的最新 ...
 

12月7日动静,AMD于本地工夫周三举办了“Advancing AI”公布会,正式推出了里背AI及HPC范畴的GPU产物Instinct MI300A/MI300X加快器,间接取英伟达(NVIDIA)H100加快器合作。同时AMD借公布了代号为Hawk Point的最新一代Ryzen 8000系列APU,可里背AI PC产物。

MI300A:HPC机能到达NVIDIA H100的4倍

固然正在本年6月的“数据中间取野生智能手艺公布会”,AMD便有公布MI300A战MI300X,只不外其时MI300X只是纸里上的公布,如今MI300A战MI300X曾经开端批量量产了,AMD也宣布了更多闭于MI300A、MI300X的机能数据。

AMD MI300A接纳了Chiplet设想,其内乱部具有多达13个小芯片,均基于台积电5nm或6nm造程工艺(CPU/GPU计较中心为5nm,HBM内乱存战I/O等为6nm),此中很多是 3D 堆叠的,以便创立一个里积可控的单芯片启拆,统共散成1460 亿个晶体管。

详细来讲,MI300A取上一代的MI250X一脉相启,接纳新一代的CDNA 3 GPU架构,具有228个计较单位(14592个中心),并散成了24个Zen 4 CPU内乱核,设置了128GB的HBM3内乱存。MI300A的计较中心被 8 个HBM3内乱存包抄,单个HBM3的带宽为6.3GB/s,八个16GB仓库构成128GB同一内乱存,带宽下达5.3 TB/s。

正在算力圆里,MI300A供给了下达61 TFLOPS FP64算力,多达122 TFLOPS FP32算力。

AMD暗示,MI300A GPU将HPC提拔到一个新的程度,其机能是NVIDIA H100的4倍,能效是H100的两倍。

详细来讲,正在OpenFOAM中,MI300A APU供给了比拟H100下达4倍的机能提拔,那次要去自于同一的内乱存规划、GPU机能和团体内乱存容量战带宽。取NVIDIA的Grace Hopper超等芯片比拟,该体系每瓦的机能也进步了2倍。

AMD证明,MI300A今朝正正在收货,借将用于为下一代El Capitan超等计较机供给动力,估计该超等计较机将供给下达2 Exaflops的计较才能。值得一提的是,AMD是独一一家凭仗Frontier超等计较机打破1 Exaflop年夜闭的公司,也是天球上服从最下的体系。别的,惠普、Eviden、技嘉、超微等也将是MI300A加快器的OEM息争决计划协作同伴。

MI300X:AI机能比英伟达H100超出跨越30%!

MI300X接纳了比拟MI250X更简朴的设想,MI300X内乱部散成了12个5/6nm工艺的小芯片(HMB战I/O为6nm),具有1530亿个晶体管,抛却了 APU 的 24 个Zen4内乱核战 I/O 芯片,与而代之的是更多计较中心的 CDNA 3 GPU。

MI300X的每一个基于CDNA 3 GPU架构的GCD统共有40个计较单位,相称于2560个内乱核。统共有八个计较芯片(GCD),因而统共有320个计较战20480个中心单位。不外,便今朝的量产版而行,AMD缩加那些中心的一小部门,因而实践统共有304个计较单位(每一个GPU小芯片38个CU)可用于19456个流处置器。

正在内乱存带宽圆里,MI300X也装备了更年夜的 192GB HBM3内乱存(8个HBM3启拆,每一个仓库为12 Hi)比拟MI250X进步了50%,带去下达5.2TB/s的带宽战896GB/s的Infinity Fabric带宽。比拟之下,英伟达行将推出的H200 AI加快器供给141 GB的容量,而英特我行将推出的Gaudi 3将供给144 GB的容量。年夜型内乱存池正在LLM(年夜言语模子)中十分主要,LLM年夜多是取内乱存绑定的,AMD能够经由过程正在HBM内乱存容量上的抢先职位去提拔器野生智能才能。

详细来讲,AMD的MI300X取英伟达的H100加快器比拟:

内乱存容量进步 2.4 倍

内乱存带宽进步 1.6 倍

1.3 倍 FP8 TFLOPS

1.3 倍 FP16 TFLOPS

正在 1v1 比力中,速率比 H100 (Llama 2 70B) 快达 20%

正在 1v1 比力中,速率比 H100 (FlashAttention 2) 快达 20%

8v8 效劳器中的速率比 H100 (Llama 2 70B) 快达 40%

正在 8v8 效劳器中,速率比 H100 (Bloom 176B) 快达 60%

正在详细的AI年夜模子加快机能比照傍边,MI300X比拟H100正在 FlashAttention-2 战 Llama 2 70B 中供给了下达 20% 的机能提拔。

从仄台角度去看,将 8x MI300X 处理计划取 8X H100 处理计划停止比力,前者正在 Llama 2 70B 中得到了更年夜的 40% 的机能提拔,而正在 Bloom 176B 中则得到了 60% 的机能提拔。

AMD指出,正在AI锻炼机能圆里,MI300X 取合作敌手 (H100) 相称,并供给有合作力的价钱/机能,同时正在推理事情背载圆里表示超卓。

正在功耗圆里,AMD MI300X的额定功率为750W,比 MI250X的500W增长了50%,比NVIDIA H200多了50W。

ROCm 6.0开放硬件仄台

AMD借推出了ROCm 6.0开放硬件仄台,该最新版本具有壮大的新功用,包罗撑持各类野生智能事情背载,比方天生式野生智能战年夜型言语模子。

新的硬件仓库撑持最新的计较格局,比方 FP16、Bf16 战 FP8(包罗 Sparsity)等。

那些劣化相分离,经由过程劣化的推理库将 vLLM 的速率进步了下达 2.6 倍,经由过程劣化的运转工夫将 HIP Graph 的速率进步了 1.4 倍,并经由过程劣化的内乱核将 Flash Attention 的速率进步 1.3 倍。

AMD指出,取上一代硬硬件组开比拟,利用MI300X战ROCm 6跑Llama 2 70B文本天生,AI推理速率进步了约8倍。

ROCm 6 估计将于本月早些时分取 MI300 AI 加快器一同推出。看看 ROCm 6 取 NVIDIA CUDA 仓库的最新版本(它的实正合作敌手)比拟怎样,将会很风趣。

G593-ZX1/ZX2系列效劳器

AMD借展现了一种设置是Gigabyte的G593-ZX1/ZX2系列效劳器,它供给多达8个MI300X GPU加快器战两个AMD EPYC 9004 CPU。那些体系将装备多达八个3000W的电源,总功率为18000W。

据引见,该散成了8个MI300X GPU的加快器仄台,比拟NVIDIA HGX H100仄台,带去的提拔包罗:

2.4倍更下的HBM3内乱存(1.5 TB vs. 640 GB)

1.3倍以上的计较FLOPS(10.4 PF vs. 7.9 PF)

相似的单背带宽(896 GB/s vs. 900 GB/s)

相似的单节面环形带宽(448 GB/s vs. 450 GB/s)

相似的收集功用(400 GbE vs. 400 GbE)

相似的PCIe和谈(PCIe Gen 5 128 GB/s)

据semianalysis此前报导,微硬、Meta、甲骨文、谷歌、Supermicro/Qunta-direct、亚马逊等公司曾经背AMD下了差别数目的MI300系列定单。

此前市场估计AMD的MI300系列正在2024年的出货约为30~40万颗,最年夜客户为微硬、谷歌,若非受限台积电CoWoS产能欠缺及英伟达早已预订逾四成产能,AMD出货无望再上建。

值得留意的是,正在没有暂前的财报集会上,AMD CEO苏姿歉(Lisa Su)暗示,“基于我们正在野生智能道路图施行战云客户购置许诺圆里获得的快速停顿,按照估计,跟着整年支出的增长,数据中间GPU的支出正在第四时度将约为4亿美圆,2024年将超越20亿美圆。那一增加将使MI300系列成为AMD汗青上贩卖额最快增加至10亿美圆的产物。

今朝,正在天生式AI的高潮之下,英伟达凭仗其AI芯片的超卓机能及CUDA的死态劣势,正在云端AI芯片市场占有者把持劣势。不外,因为英伟达的AI芯片价钱昂扬和供给欠缺,云效劳及AI手艺厂商们处于本钱及多元化供给链宁静思索,也使得AMD战英特我等合作者有了更多的时机。

Ryzen 8040系列公布:主频下达5.2 GHz,AI机能提拔60%

代号为“Hawk Point”的Ryzen 8040系列APU是专为客户端战消耗类 PC 设想的处置器,次要针对条记本电脑市场,此中下真个版本可里背AI PC。

AMD Ryzen 8040系列装备了取上一代不异的4nm Zen 4 CPU 中心架构,最多 8 核/16 线程,只不外主频进步到了5.2 GHz;具有不异的 RDNA 3 图形中心架构,下达 Radeon 780M iGPU(12 个计较单位);晋级了XDNA NPU,具有16TOPS的AI算力,AI机能比拟上一代提拔了60%。TDP 范畴为 15-54W。将于2024 年第一季度推出 PC 产物。

该产物线次要分为三个部门,起首是下端 Ryzen 8045HS 系列,它将成为具有最下时钟速率的佼佼者,然后是更支流的 Ryzen 8040HS 系列,和专为功耗劣化仄台设想的进门级 Ryzen 8040U 系列。

详细来讲,AMD Hawk Point 系列共有 9 个 Ryzen 8040 SKU。起首是Ryzen 8045HS SKU,此中包罗 Ryzen 9 8945HS、Ryzen 7 8845HS 战 Ryzen 5 8645HS。那三款芯片取 Ryzen 9 7940HS、Ryzen 7 7840HS 战 Ryzen 5 7640HS SKU 具有不异的规格,最多 8/6 个中心、Radeon 780M/760M iGPU、下达 5.2 GHz 时钟速率、16 MB 总 L3 缓存战 35- 54W TDP。

AMD Ryzen 8040HS SKU,次要有 Ryzen 7 8840HS 战 Ryzen 5 8640HS。那两个 SKU 设想为低功耗产物,目的功率为 20-30W。Ryzen 7 8840HS APU 具有 8 核、16 线程、16 MB 缓存、Radeon 780M iGPU,时钟速率下达 5.1 GHz,而 Ryzen 5 8640HS APU 具有 6 核、12 线程、16 MB 三级缓存、Radeon 760M iGPU战下达 4.9 GHz 的时钟。那些芯片将装备较低的根本时钟,并具有分外的热量/功率限定,以满意功率受限的 PC 的请求。

最初,AMD Ryzen 8040U SKU,其设置再次取 Ryzen 7040U SKU 不异。有四种 SKU,包罗 Ryzen 7 8840U、Ryzen 5 8640U、Ryzen 5 8540U 战 Ryzen 3 8440U。8540U 战 8440U 短少 NPU,由于它们基于包罗Zen 4 战 Zen 4C 内乱核的较小混淆芯片。那些低功耗处理计划出有包罗公用的 XDNA NPU。那些 SKU 仅装备 Radeon 740M iGPU,此中包罗 4 个计较单位。

道到利用更小的 Zen 4C 内乱核的劣势,最较着的一个是更小的芯片尺微暇,那能够带去更下的稀度战更下的功率服从。AMD 暗示 Zen 4C 中心供给:

更下的服从:具有不异 IPC 的较小内乱核可使用更少的功率去供给低于 15W 的更下机能。

初级版的可扩大性:具有不异 IPC 的较小内乱核开启了下端市场将来内乱核数目增长的潜力。

进门级的可扩大性:具有不异 IPC 的较小内乱核使 AMD 可以为消耗者供给更多挑选。

齐新的AMD Ryzen 8040“Hawk Point”APU 系列的一个次要目标是吸收购家进进 AI PC 死态体系。行将推出的 Windows 版本 Windows 12 正在野生智能圆里估计将是一件年夜事,有传行夸大,次要请求之一将是具有充足 TOP 的公用 NPU 去处置新操纵体系的野生智能处置功用。

因而,AMD 晋级了那些新 APU 上的 NPU,可供给多达 16 TOPS 的 AI 计较才能。AMD 本人也声称Ryzen 8040系列利用 Llama 2 战 Vision 模子的机能提拔了 40%。AMD 借努力于经由过程驱动法式战 Ryzen AI 硬件套件的各类改良去微调其 ML 战 AI 机能。

值得留意的是,很快英特我行将正在好国本地工夫12月14日正式公布里背AI PC齐新酷睿Ultral处置器。而正在此之前,下通也曾经推出了里背AI PC的骁龙 X Elite处置器。

据市场研调机构Canalys最新的猜测显现,2024年小我私家电脑(PC)出货量无望同比增加8%至2.67亿台。而那此中,AI PC将是增加动能之一,2024年AI PC比重将达19%,出货量将超越5000台。

  • 0
    粉丝
  • 15367
    阅读
  • 0
    回复

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息
掌握市场风云动态
助力商场共赢至胜
改变你所看到的世界
热门资讯
排行榜

关注我们: 微信订阅&APP下载

发现价值 创造价值

WNCEO.COM

世界总裁网版权所有 未经世界总裁网书面授权禁止复制或建立镜像内容

Email: service@wnceo.com 电话: 010-86398086 / 400-848-6648

地址: 北京市朝阳区广渠路36号首城国际大厦10层 邮编: 100010

Copyright  ©2008-2025 世界总裁网All rights reserved. 工信部许可备案号:京ICP备12045339号-2