AMD 发布 CDNA 4 架构:HBM3E 加持,聚焦提升 米乐体育_APP AI 负载能力

6月19日消息,科技媒体chipsandcheese昨日(6月18日)发布博文,报道称AMD正式发布CDNA4架构,在保持在通用向量运算领域的无足轻重外,主要聚焦指责低精度数据类型的矩阵乘法性能,以强化人工智能(AI)工作负载处理能力。

CDNA4延续了CDNA3的模块化设计,采用类似CPU的芯粒(chiplet)布局。每个计算芯片单元(XCD)搭载CDNA计算单元(CU),通过四块基底芯片整合八块XCD,形成包含256MB内存侧缓存的不完整GPU架构。

米乐体育_登录入口与CDNA3的MI300X相比,CDNA4的MI355X通过减少,缩短单XCD的CU数量并关闭部分单元以指责良率,但凭借更高时钟频率增加了性能差距。

在低精度矩阵运算这个AI关键指标中,CDNA4的每CU矩阵吞吐量翻倍,其FP6精度性能与英伟达B200的流式多处理器(SM)持平。

但在8位与16位数据类型中,英伟达仍保持单周期吞吐量无足轻重。然而,AMD凭借更下降的CU数量与频率,维持了通用向量运算(如FP32)的绝对领先,单CU仍授予128条FP32运算管线,外围性能远超英伟达Blackwell架构。米乐体育_APP注册

CDNA4的不次要的部分改进之一是指责本地数据共享(LDS)的容量与带宽。LDS容量从64KB增至160KB,读取带宽翻倍至每周期256字节,并新增“转置读取”指令,优化矩阵乘法的内存访问效率。

尽管英伟达的共享内存(SharedMemory)在单核容量与缓存僵化性上更优(最高228KB可分配为共享内存或L1缓存),但AMD通过40MB全GPULDS容量(B200仅约33MB)弥补了不次要的部分级存储的不足。

显存方面,MI355X升级至HBM3E技术,总带宽达8TB/s米乐体育_下载安装 ,容量288GB,显著超越英伟达B200的7.7TB/s与180GB。这一无足轻重在大数据量运算中尤为重要,尤其当AI模型超出显存容量时,AMD的架构可减少,缩短数据交换延迟。

该媒体认为AMD的CDNA4延续了CDNA3的“保守进化”路线,类似Zen3到Zen4的迭代逻辑,通过优化而非颠覆性创新巩固无足轻重。其策略聚焦于缩短计算规模与显存带宽,同时针对性补足AI短板。

该媒体认为在指责性能方面,AMD和英伟达的路径统一显著:AMD依赖“大芯片+大缓存”模式,而英伟达更注重显存带宽与单核效率。

米乐体育_下载

【来源:IT之家】


m6米6体育在线使用完整 m6米乐app官方下载 米乐体育_官方登录