历史首次!AMD服务器CPU市占率达50%
发布时间:2025-08-11 09:34 浏览量:1
电子发烧友网报道(文/黄晶晶)近日,根据市场研究机构PassMark对于服务器CPU 市场占有率调查的数据显示,截至2025年一季度AMD 在服务器CPU 市场市占率首次达到50%,与竞争对手英特尔持平。根据AMD的数据显示,自EPYC CPU推出以来,其在服务器领域的市场份额由2018年的2%提升到2024年上半年的34%。在持平之后未来竞争将变得更加激烈。
回看每一代AMD EPYC处理器的演进,它们都致力于为客户提供性能更高、能耗更省的CPU。2017年AMD推出基于Zen架构的EPYC霄龙服务器处理器Naples,一举打破了英特尔在服务器市场的优势,正式开启高性能计算赛场的征战。2019年基于Zen 2架构的第二代霄龙Rome问世,首次将7nm先进制程带入数据中心。2021年,AMD发布采用Zen 3架构的第三代EPYC霄龙服务器处理器Milan。以及后续第四代产品Genoa、Bergamo等,直到去年第5代EPYC CPU Turin将核心数推升至192核。
AMD抓住AI时代数据中心领域对高性能CPU适配GPU以及承担AI推理任务等需求,凭借核心密度、能效、性价比等优势强势崛起。
CPU适配助GPU发挥潜力
GPU 加速器已成为现代 AI 的主力军,在训练大型复杂模型和支持高效的大规模实时推理方面表现卓越。GPU 能够利用其并行处理能力,加速大型和中型模型的训练。同时,GPU 为大规模部署的实时推理提供所需的速度和可扩展性。但要充分发挥GPU的潜力,与合适的 CPU结合可显著提高 AI 效率。
而这样的CPU需要具备高频率,快速高效地处理大量数据准备和后处理任务;大容量高速缓存,便于快速访问海量数据集;高内存带宽和高性能 I/O,支持 CPU 和 GPU 之间快速无缝地交换数据;高能效核心,节约功耗以供 GPU 使用,同时有助于降低整体能耗;兼容 GPU 和软件生态系统,实现性能优化、效率提升和流畅运行。
AMD EPYC(霄龙)9005 系列处理器专为加速数据中心、云计算和 AI 工作负载而设计,助力企业将计算性能提升到全新水平。该处理器基于Zen5/Zen5c架构,采用台积电4nm/3nm工艺制造,IPC提升高达17%,最高规格为192核/384线程,运行频率最高可达5GHz。采用全新“Zen 5c”核心架构可提供更高的吞吐量和更高的能源效率,与竞品相比,插槽吞吐量预计可提升高达1.3倍,每瓦效能预计可提高1.3倍。每个插槽高达6TB的DDR5存储器容量、扩展的I/O连接性以及透过CXL2.0支援高达160条PCIe Gen5通道,还支持更多安全功能。
据介绍,使用 AMD EPYC(霄龙)9005 处理器,在机架数量减少多达 86% 的情况下仍能实现与原有硬件相当的整数性能,大幅减少了物理占用空间、功耗和所需软件许可证数量,从而为运行全新或扩展的 AI 工作负载腾出空间。
基于 AMD EPYC(霄龙)9005 CPU 的纯CPU型服务器能够高效处理大量 AI 工作负载,如具有 130 亿个及以下参数的语言模型、图像和欺诈分析或推荐系统。与上一代产品相比,运行两个第五代 AMD EPYC(霄龙)9965 CPU 的服务器可实现高达2倍的推理吞吐量提升。
作为CPU AI 平台,基于 AMD EPYC(霄龙)处理器的服务器可高效运行推理工作负载,满足各类模型和应用场景的需求。AMD EPYC(霄龙)CPU 具有出色的灵活性,可充分满足从实时推理到批量推理或离线推理等的一系列需求。
以 FP32 精度运行常用的梯度提升模型 XGBoost(Higgs 数据集)时,基于 192 核 AMD EPYC(霄龙)9965 处理器的双路服务器的推理吞吐量(平均每小时运行次数)是原有解决方案的 3 倍之多。
AMD EPYC(霄龙)9005 系列中的有些型号经过专门优化,在搭载 GPU 的系统中用作主机 CPU时可帮助提高特定 AI 工作负载的性能,从而提高每台 GPU 服务器的投资回报率。例如,运行 Llama3.1-70B 时,在相同情况下使用高频 AMD EPYC(霄龙)9575F 处理器且搭载 8 个 GPU 的服务器在系统性能上可提升高达 20%。
五大CPU推理负载
AI 推理是指将经过训练的 AI 模型应用于全新数据并据此做出预测。AMD 具有一系列专为 AI 推理打造的出色解决方案,可适应不同模型大小并胜任不同的应用需求。对于需要尽量接近数据源的中小型 AI 模型和工作负载而言,AMD EPYC(霄龙)处理器是适合之选。对于延迟不会造成重大影响的批处理或离线处理应用而言,AMD EPYC(霄龙)处理器是可以满足推理需求的高性价比解决方案。
具体来看,一个现代的数据中心必须支持多种AI工作负载,而这些工作负载中很少有是完全相同的。通过精心配置,数据中心可以在成本较低的CPU上支持许多AI服务,并将预留的GPU用于更繁重的工作负载。
传统的机器学习算法无法从并行计算GPU中受益,使用决策树、随机森林和线性统计模型的机器学习任务能从多核心CPU中受益而通常并不充分利用并行计算GPU所提供的优势。如果情感分析、文本和图像分类、欺诈检测或时间序列预测等工作负载在您的负载中占很大比例,那么配备最高可用核心数的CPU将是一个明智的投资选择。
模式识别和深度学习视觉模型在CPU上表现良好。面部识别、物体检测、图像分类、热图分析,乃至缺陷和异常检测,都可以在GPU上以极快的速度运行,但可能并不一定需要达到那样的响应速度。在企业级和边缘用例的规模化场景下,CPU通常也能相当高效地处理视觉任务。
在内存密集型图分析方面,对于大型数据集的图分析,CPU通常优于GPU。复杂网络如社交网络、IT系统、物流和供应链等拥有复杂的节点、交互和模式,最适宜用图算法进行分析。它们还能生成庞大的数据集。CPU拥有直接且低延迟的访问系统RAM的能力,这使得它们能够在内存中处理大型数据集,从而省却了与存储设备的读写循环。选择拥有最高可用内存速度和容量的CPU以获得最佳性能。
小型到中型推荐系统上,CPU非常适合实时推荐引擎。频率更高、核心数量更多的CPU为推荐系统提供了足够的并行化和处理速度。对于实时的推荐系统,应选择具备大缓存、支持高速RAM且能充分利用系统内存的CPU。
此外,CPU为特定任务微调模型可以显著减少其占用空间。诸如参数高效微调(PEFT)和低秩适应(LORA)等技术能够将大型通用模型转化为更小、更高效的模型,从而提供高度准确的结果。在特定知识库(如产品目录、技术文档或托管文件)上经过微调的模型,能够支持在CPU上高效运行的专家代理、聊天服务和决策应用。
更省能耗和空间的方案
单颗AMD EPYC基于9005 CPU的服务器可以完成超过7台2019年款的英特尔Xeon®Platinum服务器的工作量,这有助于降低能源消耗并缩小数据中心占地面积,腾出空间用于新的服务器基础设施,以满足日益增长的AI工作负载需求。
将1,000台基于Intel Xeon Platinum 8280 CPU的服务器替换为127台基于EPYC 9965 CPU的服务器,以提供391,000单位的整数性能,这将使电力消耗减少多达69%,在五年期间节省多达340万美元的能源账单。
AMD已将硬件创新聚焦于AI领域,提供了诸如AMD Instinct这样的优化解决方案。加速器与EPYC CPU相结合,可帮助您最大限度地发挥在AI领域的投资效益。例如,一个由1,000个节点组成的AI集群,使用了8xAMD Instinct MI300X加速器与EPYC 9575FCPU,在运行Llama 3.1-70B(128/2048 I/O tokens,FP8)时,相比使用Intel Xeon Platinum 8592+ CPU的同规模集群,每秒可处理最多70万个tokens。
通过测试AMDEPYC 9575Fvs.IntelXeon8592+在AMDInstinct MI300x和基于NVIDIA H100 GPU的系统,可以看到AMD EPYC CPU 降低了推理延迟,提高GPU的利用效率。
在Llama 3.1和Mixtral等AI模型上,基于AMD Instinct™ MI300 GPU的系统平均推理时间快了9%。在Llama3.1和Mixtral等AI模型上,8个Nvidia H100 GPU系统平均推理时间快了8%。
小结:
AMD2025年一季度营收达74.38亿美元,同比增长36%,净利润为15.66亿美元,同比增幅达55%。其中数据中心业务表现尤为突出,一季度营收37亿美元,同比增长57%,超出预期的36亿美元。AMD预计二季度营收在71亿至77亿美元之间,中值为74亿美元,略高于分析师预期的72.4亿美元。
得益于人工智能产业的爆发式增长,以及AMD产品竞争力的提升,后续有望在数据中心处理器市场持续扩大份额。