首页 / 科技

传统与AI性能两开花:AMD Zen 5架构处理器全解析

发布时间:2024-07-15 21:55:48

如今我们早已进入了AI时代,包括ChatGPT、LLM等模型应用已经让人们的生活得到天翻地覆的变化,对于CPU等硬件厂商来说,AI大规模普及带来的算力要求达到了前所未有的程度,除了面向AI训练的服务器级别的硬件之外,主要用于AI推理的消费级处理器同样也需要强大的算力,让AI应用更加高效。

在台北Computex 2024中,AMD发布了Zen 5架构处理器,包括锐龙AI 300系以及锐龙9000系处理器,就在上周,AMD于洛杉矶举办了2024年的Tech Day活动,为大家详细介绍了Zen 5处理器的性能、参数以及与之配套的应用。热点科技也受邀来到现场,为大家带来Zen 5架构的详细介绍。

Zen 5:彻底优化,新制程架构让AI应用得心应手

首先是Zen 5架构,Zen 5架构拥有6个ALU,数量是上一代的3倍,此外AMD也表示锐龙9000系列处理器的调度器更加统一,从而能够让数据处理更加高效。以满足AI、游戏等应用的高效运行。此外Zen 5也采用了48KB的12路L1缓存,在浮点运算以及最大带宽上均是上代的2倍,当然Zen 5处理器也同样支持完整版的AVX512指令,从而在一些专业应用上有事半功倍的作用。

值得注意的是,与移动处理器有所不同的是,AMD锐龙9000桌面处理器并没有加入NPU,预计未来桌面CPU的主要功能还是与GPU打配合,从而满足复杂的AI应用。具体到大家关心的性能数据上,AMD Zen5的IPC相比较Zen 4提升了16%左右,这个成绩还是相当令人满意的,毕竟除了IPC之外,基于Zen 5打造的锐龙9000系处理器在频率上同样有所提升。

在AI应用上,Zen 5表现得就更加出色,其中机器学习应用中,单核性能至高可以提升32%,而AES-XTS加密算法性能提升将达到35%,从而在新兴应用中充分压榨处理器的性能。此外Zen 5也采用了台积电的4nm以及3nm制程架构,从而在频率、性能、功耗等方面都处于行业领先。此外这一次AMD也表示Zen 5架构将会应用于各个领域,除了桌面与移动处理器之外,包括EPYC霄龙处理器以及嵌入式处理器等都将采用Zen 5架构,从而让企业部署更加得心应手。

锐龙9000系处理器:综合性能最优

对于桌面级用户来说,锐龙9000系处理器的出现能够让游戏表现更加出色,当然全新的Zen 5架构也让整个处理器的综合表现达到前所未有的程度,而这种表现不仅仅是简单的性能,更包括功耗以及温度。

首先是这一次的锐龙9000系处理器首发包括四个不同的型号,也就是锐龙9 9950X、锐龙9 9900X、锐龙7 9700X以及锐龙5 9600X,从核心以及线程数来看,它们与锐龙7000系处理器也没有什么区别,分别为16核32线程、12核24线程、8核16线程以及6核12线程,频率方面分别为5.7GHz/5.6GHz/5.5GHz以及5.4GHz。这些实际参数也已经在台北电脑展上公布了。

具体到实际性能,AMD锐龙9 9900X处理器与Intel Core i9-14900K相比,生产力性能提升幅度在10%,而游戏性能则领先13%上下。AMD锐龙7 9700X处理器与Intel Core i7-14700K相比,生产力性能领先15%,游戏性能领先12%,而锐龙5 9600X在生产力应用中性能领先20%,游戏性能提升11%。至于为什么没有锐龙9 9950X处理器的对比,大概率就是因为目前还没有一个合适的对手吧。

不过如果光是从游戏性能来说,除了AMD老对手英特尔酷睿处理器之外,AMD锐龙9000系处理器还有一个自家兄弟需要竞争,那就是拥有超大缓存的X3D系列处理器,AMD拿出锐龙7 9700X处理器以及锐龙7 5800X3D处理器作为对比对象,应该是认为这颗处理器算得上是最适合游戏玩家的处理器产品。在官方给出的对比图中,锐龙7 9700X处理器的游戏性能平均提升12%,还是相当给力的。

当然AMD也承认,在一些特别吃缓存的游戏中,还是X3D系列处理器更有优势,并且与锐龙7000系X3D处理器相比,锐龙7 9700X处理器只能算是打得有来有回,不出意外的话未来AMD也将推出基于Zen 5架构打造的X3D系列处理器,从而在游戏性能上更加出色。事实上新的制程以及架构红利让锐龙9000系处理器不但在绝对性能上让人满意,更是在温度以及功耗上可以带来十分惊艳的表现。

除了旗舰锐龙9 9950X处理器仍然保持170W的TDP之外,其他三款处理器在TDP上均有所下降,锐龙9 9900X变成了120w,而锐龙7 9700X以及锐龙5 9600X处理器的TDP为65W。热阻效率提升了15%,从而让在相同TDP下,锐龙9000系处理器的温度下降幅度大约为7摄氏度。再加上改良过的PBO策略,新一代的锐龙9000系处理器将不再是火龙而让人头疼,主流处理器达到95摄氏度阈值的这种情况应该不会在默认设置下再次出现。

可以说改良之后的锐龙9000系处理器不但在性能上有比较大的提升,功耗以及温度的下降也让处理器当之无愧地成了如今综合性能最为出色的处理器终端,锐龙9000系处理器将于7月31日正式发售。

锐龙AI 300系处理器:集AI大成于一身

锐龙9000系处理器如果说是桌面处理器的巅峰的话,那么锐龙AI 300系处理器则是集AI大成于一身的新一代APU,除了CPU之外,包括RDNA 3.5 GPU以及XDNA 2 NPU更是让这颗处理器拥有极其出色的图形以及AI算力。

AMD两款锐龙AI 300系处理器包括锐龙AI 9 HX 370以及锐龙AI 9 365处理器,前者拥有12核24线程的规格,最高频率5.1GHz,拥有36MB的缓存,搭载Radeon 890M移动显卡,后者则拥有10核20线程的规格,最高频率为5.0GHz,34MB的缓存,搭载Radeon 880M移动显卡。AMD将大头放到了锐龙AI 300系处理器的NPU上,实际上这一次的Tech Day对于锐龙AI 300系处理器的CPU和GPU着墨就没有这么多了。CPU在架构上与桌面处理器相差不大,而GPU则采用了RDNA 3.5架构,在能效比以及带宽上拥有更高的表现,同时AMD也表示RDNA 3.5能够为笔记本带来更高的续航。

与上一代GPU相比,RDNA 3.5的纹理渲染率达到了2倍,并且显存带宽也将有所增加,具体到实际表现上,与Hawk Point处理器相比,TimeSpy性能提升32%,而Night Raid提升19%,这还是在15W条件下的使用场景,如果TDP提升至25W或者35W,那么GPU性能将会提升更大。在台北电脑展上AMD就已经公布了一部分的测试成绩,应对1080P分辨率的游戏也是完全没有任何的问题。

当然锐龙AI 300系处理器中的C位选手显然是NPU,AMD也花大量的时间为大家介绍基于XDNA 2打造的全新一代NPU。首先是AI,AMD表示对于不同的AI应用负载,所需要的算力实际上也是不同的,例如高负载过去一直使用GPU,而轻度AI负载由CPU负责,但是CPU需要负责通用任务,而GPU更多地使用在图形渲染上,两者处理AI任务的效率谈不上特别高,这时候就要第三种处理单元也就是专门为AI打造的NPU登场。 


AMD表示对于AI应用来说,不同应用的模型大小实际上有着很大的不同,比如说实现实时应用的AI特效所使用的模型就十分小巧,不需要太大的AI算力,但是像是Stable Diffusion 或者是LLM,就需要更大的AI算力,甚至还需要GPU来帮忙,但是GPU的功耗十分高。如果以能效比计算,GPU是CPU的8倍,而NPU则是CPU的35倍,因此越来越多的厂商将NPU植入到处理器之中。而AMD也是世界上首个将NPU植入到X86处理器中的厂商,也初步打造了属于自己的AI生态系统。

传统的多核处理器的计算单元之间相对比较独立,在进行计算的时候需要先通过缓存才能进行数据交换,这样无形中添加了数据交换的延迟,而到了XDNA AI引擎中,计算模块共同在一个大的计算单元之中,相互之间为并行状态,从而能够更加快捷地从事特定任务例如AI的计算,AMD XDNA 2则将AI计算单元进行了大幅扩容,从20个AI引擎提升到了32个AI引擎,进而让AI算力从10TOPS狂飙至50TOPS,算力提升5倍,并且效率也能提升2倍,从而让AI笔记本在续航表现上更加出色。

除此之外,随着AI应用场景的不断延伸,大家对于AI计算的精度也越来越高,传统的INT8似乎已经有点力不从心,但是FP32算力又太过于浪费,因此AMD想到了FP16,它的算力远超FP32,并且精度也足够使用,因此AMD选择FP16以及INT8将其融合打造成为Block FP16数据类型,结合了16位数据的高精度和8位数据的高性能,使AI计算更高效,实际表现也同样如此。

甚至和更高精度的FP32相比,Block FP16在特定场合也没有太大的损失,满足AI任务是完全没有任何的问题。可以说在如今的技术水平下,Block FP16是让消费者处理器解决AI应用的最优选,此外50TOPS的NPU算力也是目前移动处理器中最好的选择。有了强大的NPU,再配合改良过后的GPU与CPU,AMD锐龙AI 300系处理器能够带给用户无与伦比的综合体验。

Ryzen AI:新技术让应用更加得心应手

虽然AMD新一代锐龙AI 300系处理器的硬件很出色,但是没有好的软件只能让处理器成为无米之炊,因此AMD也不断地更新自家Ryzen AI的应用,从而让NPU发挥最强大的性能。

随着AI的爆发,越来越多的用户、科技企业以及资本涌入到这个行业之中,目前已经有74万个AI模型顺利落地,2023年一共创造了155亿张AI图片,过去十年计算模型的规模也提升了整整1000倍,全球AI使用者也达到了3.14亿,而这些数据又给AI不断地学习与提升自我,进一步推动AI的发展。

作为底层操作系统,微软对于AI的力度支持达到了前所未有的程度,目前微软已经宣布了Copilot PC概念,未来借助支持Copilot的Win11来让用户的生活与工作效率更上一层楼。当然AMD也已经和微软达成深度合作,微软Copilot可以充分利用AMD的NPU来从事高效的AI计算。除此之外Stable Diffusion 3也在6月初的时候正式开源,能够创造出与真实社会相媲美的图片,而Stable Diffusion XL Turbo实现了AMD NPU的深度整合,从而让AIGC更加高效。

AMD表示与友商相比,自家Block FP16能够带来极其明显的优势,在训练和推理70亿参数的Llama v2模型的时候,AMD的NPU算力可以提升整整五倍,而Agentic AI RAG的测试版本也已经兼容AMD的锐龙AI 300系处理器,可以让NPU直接运行Llama2-7B模型,在测试成绩给力的同时也让能耗大幅下降。BlackMagicdesign则表示利用AMD的AI算力,可以让生产力软件的效率大幅提升,部分特效的处理时间甚至高出了4倍,从而满足视频工作者的工作效率。

同时包括Adobe、Amuse、Ollama、Huging Face等软件厂商也已经实现了Ryzen AI的支持,总计超过了100余款。当然第三代Ryzen AI还不是终点,AMD还推出了North Star计划,未来AMD的Ryzen AI将会支持300亿参数的大模型,实现3000的语义长度,并且首个Token的生成时间也将缩短到100ms,每秒可以生成100个Token,远超现在的数据,显然AMD未来认为AI能够带来前所未有的能量,而自己的处理器也是为AI而生。

这一次的AMD Tech给人感受最深的就是整个会议都围绕着AI打造,毕竟现在AI的发展实在是太过出乎意料,尤其是当资本大幅涌入之后,AI模型日新月异,大家对于AI的算力要求也达到了前所未有的程度,AMD推出的基于Zen 5架构的处理器,可以很好地应对消费级的AI应用,从而为用户带来不同寻常的使用体验,自然也能在这场AI时代中占尽先机。

不过我们也看到,AI发展得越快,算力要求也就越高,部分应用像是Sora、Stable Diffusion 3.0都对AI提出了极其严苛的算力需求,而这已经不仅仅是APU可以解决的,不过可以肯定的是,今后的很长一段时间内,APU等处理器所负责的AI应用覆盖面将会越来越广,而一些高要求的AI应用,还将采用CPU与独立显卡搭配的组合,从而让功耗以及效率保持一个完美的平衡。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com