美光 ddr5 搭配第四代 amd epyc 处理器官方基准测试:内存带宽翻倍 -j9九游会登陆入口
it之家 12 月 19 日消息,据美光发布,美光与 amd 双方在奥斯汀建立联合服务器实验室,以减少服务器内存验证时间,在产品验证和发布期间共同进行工作负载测试。
目前美光适用于数据中心的 ddr5 内存和第四代 amd epyctm (霄龙)处理器均已出货,官方对其进行了一些常见的高性能计算(hpc)工作负载基准测试。
长期以来,超级计算机承担着高性能计算工作负载。此类大规模的数据密集型工作负载需要运行 tb 级的数据量以进行数百万个并行操作,以解决人类世界的难题,如天气和气候预测;地震建模;化学、物理和生物分析等。
随着计算机架构的进步,此类工作负载往往托管在超大型“可横向扩展”的高性能服务器集群中。这些服务器集群需要集合最强大的算力、架构、内存和存储基础设施,以满足关键工作负载对可扩展性、低延迟和高性能的需求。然而随着服务器 cpu 的性能和吞吐量不断增长,ddr4 无法提供足够的内存带宽,来满足不断增长的高性能内核。
为缓解这一瓶颈,美光 ddr5 内存与采用了 zen 4 服务器架构的第四代 amd epyc 处理器联合,使服务器 cpu 能够更好地匹配内存产品,满足数据密集型工作负载对性能和效率的需求。it之家获悉,美光对最新的 amd zen 4 96 核 cpu 和美光 ddr5 进行了行业内高性能计算工作负载基准测试,所有结果均显示性能提升了两倍。
stream1 是常见的基准测试工具,用于测量高性能计算机的内存带宽,可捕获高性能计算系统的峰值内存带宽。
该工作负载使用的软件堆栈
● alma 9 linux kernel 5.14
● stream.f,2021 年 11 月 29 日发布版本
测试设置
● ddr4 系统搭配第三代 64 核 3.7 ghz amd epyc 处理器;ddr4 3200 mhz 系统 2 的 rdimm 内存槽插满,共 64gb
● ddr5 系统搭配第四代 96 核 3.7 ghz amd epyc 处理器;ddr5 4800 mhz 系统 3 的 rdimm 内存槽插满,共 64gb
测试结果
● ddr5 系统每插槽内存带宽翻倍,达到 378 gb / s
● 该结果意味着客户能运行更大规模的人工智能 / 机器学习 (ai / ml) 项目,或利用 ddr5 增加的内存带宽进行更多高性能计算。
此次测试使用的高性能计算工作负载代码针对天气和气候。wrf 模型在一些支持高性能浮点处理、高内存带宽、低延迟网络等传统高性能计算架构中表现良好,测试对象为横向分辨率为 2.5 公里的美国大陆地区 (conus)。
该工作负载使用的软件堆栈
● alma 9 linux kernel 5.14
● wrf 2.3.5 & 4.3.3
● open mpi v4.1.1
测试设置
● ddr4 系统搭配第三代 64 核 3.7 ghz amd epyc 处理器;ddr4 3200 mhz 系统 2 的 rdimm 内存槽插满,共 64gb
● ddr5 系统搭配第四代 96 核 3.7 ghz amd epyc 处理器;ddr5 4800 mhz 系统 3 的 rdimm 内存槽插满,共 64gb
测试结果
● 美光 ddr5 搭配第四代 amd epyc 处理器,可实现 1.3567 时间步 / 秒 vs ddr4 系统的 2.8533 时间步 / 秒
● 速度更快意味着可使用更大的数据库或运行更多模型以进行天气预测,进而改善预测的准确度。
openfoam 是一种计算流体动力学 (cfd) 的开源高性能计算工作负载,广泛应用于多个行业,有助于缩短开发时间并降低成本。从消费类产品设计到航空航天设计,openfoam 能够模拟不同应用中的物理互动,包括摩托车风挡湍流。
在该模拟中,openfoam 能够计算摩托车和骑手周围的稳定气流。openfoam 能够根据用户指定的进程数进行负载均衡计算,以此将网格分解成多个部分并分配给不同的进程求解。求解完成后,再将网格和解重新组合为单个域。
该工作负载使用的软件堆栈
● openfoam cfd 软件 (版本 8),其中摩托车网格尺寸为:600 x 240 x 240
● alma 9 linux kernel 5.14
● open mpi v4.1.1
测试设置
● ddr4 系统搭配第三代 64 核 3.7 ghz amd epyc 处理器;ddr4 3200 mhz 系统 2 的 rdimm 内存槽插满,共 64gb
● ddr5 系统搭配第四代 96 核 3.7 ghz amd epyc 处理器;ddr5 4800 mhz 系统 3 的 rdimm 内存槽插满,共 64gb
测试结果
测试结果表明美光 ddr5 产品组合将 openfoam 性能提高了 2.4 倍。openfoam 为五大高性能计算软件平台之一,拥有大型开源社区。该软件广泛应用于大学和研发中心,可利用高带宽内存和拥有密集内核的高性能 cpu,实现高度的并行操作。
cp2k 是一款开源量子化学工具,适用于许多应用,包括固态生物系统模拟。cp2k 能够为不同的建模方法提供通用的框架。此次测试对象为水 (h2o) 的密度泛函理论 (dft),模拟盒子中共包含 6,144 个原子(2,048 个水分子)。
该工作负载使用的软件堆栈
● h2o-dft-ls.nrep4 及 h2o-dft-ls
● alma 9 linux kernel 5.14
测试设置
● ddr4 系统搭配第三代 64 核 3.7 ghz amd epyc 处理器;ddr4 3200 mhz 系统 2 的 rdimm 内存槽插满,共 64gb
● ddr5 系统搭配第四代 96 核 3.7 ghz amd epyc 处理器;ddr5 4800 mhz 系统 3 的 rdimm 内存槽插满,共 64gb
测试结果
测试结果表明美光 ddr5 产品组合将分子动力学性能提高了 2.1 倍。随着内核数和内存带宽增加,此类工作负载的性能也显著提升。
总结
目前只针对少量高性能计算工作负载进行测试,因此以上只是初步成果。将高性能高带宽内存与最新的服务器处理器(如第四代 amd epyc 处理器)相结合,可为高性能计算客户创造新的可能。
1 在 stream 基准测试中配置了 25 亿个向量的 stream benchmark—— 运行在一台单 amd cpu 系统上
2 amd ddr4 系统为一台 64 核 amd epyc 7763 处理器,ddr4-3200 mhz 的 rdimm 内存槽插满,共 64gb
3 amd ddr5 系统为一台 96 核 amd epyc 9654 处理器,ddr5-4800 mhz 的 rdimm 内存槽插满,共 64gb
4 横向分辨率为 12.5 公里 conus 的 wrf 在 ddr4 系统上的运行时间为 929 秒,在 ddr5 系统上的运行时间为 287 秒(均包括存储器的输入 / 输出时间)。该测试中 wrf 配置为 2.5 公里 conus,测试结果为 1.3567 时间步/ 秒,相比之下 ddr4 的运行时间为 2.8533 时间步 / 秒。
5 针对 openfoam,运行了三种变体:
5a:1004040 runtimes,ddr4 系统运行时间为 1,144 秒,ddr5 系统运行时间为 478 秒
5b:1084646 runtimes,ddr4 系统运行时间为 1,633 秒,ddr5 系统运行时间为 698 秒
5c:1305252 runtimes,ddr4 系统运行时间为 2,522 秒,ddr5 系统运行时间为 1,091 秒
6 分子动力学工作负载在 ddr4 系统上的运行时间为 2,519 秒,在 ddr5 系统上的运行时间为 1,242 秒