英特尔至强6性能核官方测试结果：AI性能远超128核AMD Turin

更新时间：2024-10-22 16:16:26作者：big100

继今年6月6日发布至强6能效核处理器（Sierra Forest）之后，英特尔也于上个月在中国正式发布了至强6性能核处理器（代号Granite Rapids），作为针对AI、数据分析、科学计算等计算密集型业务推出的数据中心CPU产品，至强6性能核处理器在性能、内核密度、内存和I/O创新都有十分明显的突破，在多个实际负载中的表现相当出色，在部分负载中的表现不但大幅超越AMD Zen4 EPYC，也远超AMD最新推出的Turin处理器。

具体来说，在云计算领域，相比上一代处理器，至强6性能核处理器能够提供多达2倍的每路核心数，并实现平均单核性能提升1.2倍、每瓦性能提升1.6倍，且帮助云服务提供商（CSP）在同等性能水平下实现平均30% TCO的显著下降。在科学计算中，至强6性能核处理器则凭借MRDIMM实现更强存力，并通过英特尔AVX-512输出更高算力，从而实现2.31倍NEMO geomean代际性能提升、2.43倍OpenFOAM geomean代际性能提升，以及2.5倍HPCG代际性能提升。

现阶段，以深度学习、机器学习等算法为代表的AI技术正步入高速发展时期，对计算资源的需求急剧增加。而得益于内置的AI加速功能——英特尔高级矩阵扩展(AMX) 和专门面向AI优化的英特尔AVX-512提高性能与效率，至强6性能核处理器凭借在运行AI工作负载上展现出的卓越性能。已成为数据中心和CSP的优选机头。

值得注意的是，在软件优化的加持下，至强6性能核处理器能够在运行多元化AI工作负载时展现出最佳性能。如在运行7亿参数的Llama2 INT4推理任务时，至强6性能核处理器提供了比AMD Turin 128核处理器更高的吞吐量。而在诸如文本摘要、聊天机器人和翻译这类生成式AI应用中，至强6性能核处理器分别展现出了约2.1倍、5.4倍及1.17倍的性能提升。

此外，在最新的MLPerf推理v4.1基准测试中，至强6性能核处理器与第五代至强处理器相比，实现了AI性能约1.9倍的几何平均值提升。特别是在自然语言处理任务BERT上，其相比第三代至强处理器性能提升高达17倍，而在计算机视觉任务ResNet50上，性能提升也高达15倍。而这主要得益于至强6性能核处理器的先进架构，包括对英特尔AMX的支持，以及优化的内存带宽等创新。

特别是在内存带宽方面，至强6性能核处理器最大拥有12通道的内存。内存规格支持DDR5 6400或者MRDIMM 8800，相比上一代实现了大幅提升，这使得至强6900P系列处理器的每个核心拥有了更加充裕的内存带宽，更加有利于核心性能的释放，从而在生成式AI、深度学习、机器学习、推理训练等场景中获得更好的表现。

同时，至强6处理器作为英特尔首代支持CXL 2.0规范的处理器，不但极大地提高了内存利用率，也为未来内存扩展和内存池化奠定了基础。在实际的应用场景中，客户可以通过CXL NUMA节点模式、异构交织模式（Hetero Interleaved）和扁平内存模式（Flat Memory）三种模式实现内存的扩展。

现阶段，以至强6900P系列处理器为代表的至强6性能核处理器已上市，并被诸多CSP广泛应用至实践中。面对AI时代对算力多元、高效的需求，英特尔通过持续加速创新，打造包括至强6处理器在内的领先硬件，以及开发者首选的软件工具、开发套件和优化库，从而助力生态伙伴以提升的性能拓展新商机，并实现关键业务成果。

不难看出，凭借创新的微架构、显著提升的核心数量、双倍内存带宽，以及对PCIe 5.0和CXL2.0等最新技术的支持等领先特性，至强6性能核处理器实现了整体性能的显著提升，能够应对边缘、数据中心、云环境的严苛挑战，是数据中心的理想选择。

(9106735)