腾讯频道 - 数码猫 - 高通骁龙8Elite架构+性能解析

雪落温灯

高通骁龙8Elite架构+性能解析

高通的每次改名，要么造就了神U（骁龙835），要么造就了火龙（骁龙888，骁龙8Gen1），最离奇的是，无论是冰龙835还是火龙888，8Gen1，都是三星工艺的产物，可谓成也萧何败也萧何，而这次改名，本该叫8Gen4的8ELite这次行了吗？每个使用高通芯片的厂商似乎都被这次突如其来的改名吓得抖三抖，面对苹果A18pro，联发科天玑9400两位强力对手是否能处于领先地位？

首先对这颗骁龙8Elite的架构进行窥探，骁龙8Elite采用台积电第二代3纳米工艺打造（n3e工艺），与它的两位对手一样，均使用了台积电最新工艺打造。

CPU部分使用全大核，2+6设计，两颗4.32Ghz的Oryou L超大核，使用性能库，六颗3.53Ghz的Oryou M大核，使用密度库，两颗超大核共享12MB的L2缓存，六颗大核共享12MB小核，而且这次是用高通自研的Oryou架构，对CPU架构大刀阔斧的改造了一番，摆脱了Arm架构的限制，高通直接砍掉了8Elite上的L3系统缓存，和苹果的设计思路一样，砍掉L3缓存，这对于芯片是有好处的，它的缓存相关性和缓存命中率都会因此收益，而12MB的缓存在大核中是很珍贵的，单颗核心可调用的缓存资源比苹果A18系列以及天玑9400的大核都要来的多。

乍一看，六颗大核的频率都已经接近天玑9400的那颗X925超大核了，而超大核的频率远远超越了现有所有移动端芯片的频率，这似乎暗示着它是一颗火龙，但是值得一提的是，两颗超大核均使用了性能库，而且使用了从来没见过的架构，高通自研的Oryou架构，上一次使用自研架构还是在骁龙820上的kryo架构，如此激进的设计和频率，以及口碑崩坏的自研架构，能够压住功耗，救高频于水火之中吗？

GPU部分，依旧是高通自研的GPU架构，而且继骁龙8Gen1之后全新升级了800系，Adreno830，对比Adreno700系，也是一次巨大的进步，GPU频率1.1Ghz，拥有12MB超大显存，大幅改善了带宽的瓶颈。

除了CPU和GPU的缓存增大，还有一个Arm公版做不到的地方，在观察其架构时，我们发现高通的工程师单独给了一颗8MB的SLC缓存，这个缓存是可以给CPU,GPU,NPU,ISP等芯片内其他单元直接调用的。

在进行了如此大刀阔斧的改造后，这颗骁龙8Elite比联发科的天玑9400更可以被称为X3D，简直就是掌管缓存的仙人。但是在台积电n3e工艺的加持下，芯片的面积却比上代骁龙8Gen3来的更小（8Elite为124.1m㎡，8Gen3为137.3m㎡）。

接下来来看看这次的Oryou架构，对芯片的微架构有什么改变，Oryou L超大核延续了骁龙X Elite的设计，但在此基础上进行了一点修改。前端解码部分维持了和X Elite和Arm X4一样数量的8-Wide解码单元（A18系列的P核和Arm的X925是10-Wide解码单元）。L1指令缓存则是有所减小，只有128KB，比X Elite的192KB整整少了一颗X925（或者说一颗X4的缓存），而苹果也使用了192KB的指令缓存。而后端的执行单元，同X Elite相比，并没有改变，，只是优化了整数和浮点的调度器队列深度。和Arm的X925核心一样，象征乱序执行能力的ROB队列深度也在增大，从本就非常巨大的650，增大到679，虽然并没有X925那么恐怖的768，但是也足够巨大了，同样的，它的乱序执行能力也将得到增强。

总体而言，8Elite的超大核维持在X Elite的基础上，小修小补得来的，但是单论X Elite的绝对性能，那还是很不错的。

不过Oryou M的大核，就是确实是没有见过的全新核心，从规模上来看，更像是Arm公版A7xx系列，代替的是大核。前端有个4-Wide的解码单元，整数部分搭载四个ALU（Arithmetic Logic Unit，算术逻辑单元:负责执行算术和逻辑运算），但是浮点执行部分却非常小，仅有两组执行单元，ROB队列深度314。

整个架构的设计思路清晰，整数部分规模大，稍强，浮点部分规模小，偏弱；而考虑到Oryou L是浮点超强的架构，那么8Elite小核的设计思路就很明显了，强整数，弱浮点，与超大核相对的，强浮点，弱整数，形成完美的互补。可以使用自研架构的高通似乎把这造芯片这事玩明白了。

接下来就是大家所说的赛博斗蛐蛐——跑分环节了，这里引入一个能够减少争议的新概念，每瓦功耗。跑分跑出来的是峰值性能，参考意义不大，但是如果能把芯片的某个部分压在某个功耗下，那么它就意义重大了，比如日常使用，它的功耗区间基本处于5w以下，那么将芯片控制在5w的功耗以下进行跑分，那么这它就具有了实际意义。

首先登场的是计算机行业标准，SPEC 2017。

骁龙8Elite Oryou L超大核（内存频率8533）的整数部分:

峰值功耗6.5w，8.9分

定值功耗5w，8.2分

天玑9400 X925超大核（内存频率10667）的整数部分:

峰值功耗7.1w，8.9分

定值功耗5w，8.2分

乍一看，这两玩意好像是一个师傅教出来的，分数几乎一样，但是注意，两个内存频率不一样，峰值性能可能差距10%左右，从这就看得出来，公版Arm架构是多么感人，难怪高通要自研，跟苹果比确实差远了，整数部分的能效和A16差不多。

接下来看看浮点，骁龙8Elite Oryou L超大核（内存频率8533）的浮点部分:

峰值功耗8w，14分

定值功耗5w，12.6分

天玑9400 X925超大核（内存频率10667）的浮点部分:

峰值功耗8.5w，13.9分

定值功耗5w，12.4分

在浮点方面，这两家差别就体现出来了，尤其是高频表现，相差了近5%，这可是在内存频率的差距下跑出了的优异表现，X925的浮点能效和A17pro差不多，而骁龙8Elite则是介于A17pro和A18pro之间。

总的来看这次高通自研的Oryou L超大核的性能，如果在同内存频率下，一定是略强于Arm公版的X925核心，而且这两位的特点很相似，强浮点（略强于A17pro），弱整数（A15到A16之间），两家头部芯片设计公司的超大核属于是强强对决了。

接下来看小核，两家都抛弃A5xx系列这种垃圾小核，骁龙8Elite Oryou M大核整数表现:

峰值功耗2.5w，5.1分

定值1w，3.5分

天玑9400 A720大核整数表现:

峰值功耗1.1w，3.5分

从大核上看得出来，高通利用高频，在峰值性能上压了联发科一头，但是1w的定频，两家其实是差不多的，两家的低频能效稍逊于苹果A16小核，不过看在Oryou M核心的主要目的是在于弥补Oryou L核心整数性能的不足，定高频似乎还能接受。

接下来看看两家小核的浮点表现，骁龙8Elite Oryou M大核浮点表现:

峰值功耗3.3w，8分

定值功耗1w，4.6分

天玑9400 A720大核浮点表现:

峰值功耗1.4w，5.8分

定值功耗1w，4.9分

正如在微架构上所说的，由于浮点部分由超大核承担，大核的浮点相对应的在架构上，由于规模给的小，使得其在同频性能下稍逊于A720，整体浮点性能和去年的骁龙8Gen3上的A720几乎一样。

这似乎是高通刻意而为之，高通更希望浮点部分的工作交给超大核来完成，而小核来完成整数方面的工作，浮点与游戏性能息息相关，而整数更多的用于办公，也就是生产力，而单核对游戏的提升巨大，多核则是对办公一类的生产力有着巨大的提升，不难看出，高通对于游戏以及生产力的平衡，在芯片设计有了不错的理解。

高通自研的Oryou架构，对比Arm公版架构，属于是针尖对麦芒，不分上下，考虑到今年Arm公版架构进步很大，这一代的Oryou架构的表现还算不错。不过还是没有改变现有格局，苹果A18pro拥有的“外星科技”，苹果的超大核整数架构依旧是领先安卓阵营两三代的，浮点则是领先一代，小核则是整数以及浮点都领先两代，但毕竟万事开头难，高通打下了一个不错的开头，后面只要努力改进，潜力一定是巨大的。

但是哪怕架构不太行，只要规模够大，那么在性能上，也是能够打赢的。

接下来是Geekbench6，骁龙8Elite:

峰值功耗15.2w，10521分

定值功耗8w，8473分

定值功耗5w，6751分

天玑9400:

峰值功耗18.8w，9376分

定值功耗8w，7826分

定值功耗5w，6119分

A18pro:

峰值功耗11.9w，8840分

（苹果无法进行root，无法进行定值功耗测试）

这么一看，骁龙8Elite的多核能效强的很，无论是低中高频，全方位压制天玑9400和A18pro，而且这是移动端第一颗cpu过万的处理器。

跟上一代骁龙8Gen3相比，骁龙8Elite仅需6w的功耗，即可打平骁龙8Gen3满血11w的性能释放，这进步恐怖如斯。

再来看看单核性能，骁龙8Elite的单核性能在Geekbench6上跑分高达3242分，而苹果A18pro只是3509分，天玑9400只有3010分。

骁龙8Elite的单核性能和能效均已经介于A17pro以及A18pro之间，其CPU提升可见一斑。

接下来看看骁龙8Elite的GPU部分，三块散装单元拼起来的玩意就是它的Adreno830，频率1.1Ghz，高通在最新的800系GPU里引入了新的概念——Slice。也就是切片组，每四颗CU分成一个切片组，骁龙8Elite的GPU就是由三枚这样的切片组组成，总共12颗CU，比骁龙8Gen3多了一倍，而每个Slice分到了4MB的缓存，相当于每颗CU平分1MB缓存，总共12MB，给GPU配备大量缓存，思路很像近年来的桌面显卡。

高通的GPU一直以来都是黑箱状态，不过在经过一系列逆向工程，我们窥见了一些端倪。这次GPU的渲染管线大不相同，以往的高通GPU或多或少会使用TBR（Tile-Based Rendering，切片渲染:移动设备上广泛使用的渲染架构，主要特点是将屏幕划分为多个小块进行渲染。这种技术通过将屏幕分割成多个小块，可以有效地减少内存带宽的消耗，提高渲染效率，适合移动设备的性能限制‌），这是移动端GPU特殊的处理方式，用于降低显存带宽的需求，而高通Adreno系列特有的FlexRender是GPU在间接渲染(分箱或延迟渲染)和直接渲染到帧缓冲区之间切换的能力，根据其缓存压力来决定切片大小，但是由于今年有巨大的缓存，所以这就有些不一样了。

我们使用了网上的一个GPU测试，直观的看到了区别，有了巨大的缓存之后，骁龙8Elite不需要刻意去使用TBR，12MB的缓存搭配帧缓冲压缩技术，可能直接就能塞进去一整个帧，这其实更加接近桌面端显卡常用的IMR技术（Immediate Mode Rendering，即时渲染模式，传统桌面GPU常用的渲染架构。在这种模式下，每一次渲染API的调用都会直接绘制图形对象），直接渲染无需大量切块影响GPU效率，高通这一举动很有野心，不过也像各家芯片一样，无论是苹果还是联发科，都在将移动端GPU往桌面端GPU靠。

1.1Ghz的GPU，它的性能以及能效几何？

使用3Dmark Steel Nomad Light，骁龙8Elite:

峰值功耗10w，2486分

定值功耗5w，1864分

天玑9400:

峰值功耗11.2w，2671分

定值功耗5w，1898分

苹果A18pro:

峰值性能11.8w，2201分

这么看来，虽然骁龙8Elite在能效上，全面被天玑9400压制，但是考虑到内存频率的差异，可能在峰值性能上于天玑9400差不多，不过在全频段上，骁龙8Elite性能以及能效领先骁龙8Gen3达30%，更是比A18pro领先了一代之多。

在过去的几年，安卓阵营的芯片一直被苹果压制，在某些方面，去年都是差距极大的但是在如今，这个差距仅限在单核。在并未远去的2020年，那时麒麟绝代，高通火龙，联发科默默无闻，似乎安卓阵营一眼望得到头，苹果当时风光无两，以至于无数人都在唱衰安卓，但是在仅仅过去不到五年，安卓阵营几乎全方面超越了苹果，性能更是对比5年前暴涨了200%。

为什么要测试芯片的性能以及极限，这不仅是科技对于人类的福泽，更是人类对科技的极致追求，哪怕是摩尔定律即将到头，可是不服输的人类依旧在挤尽摩尔定律最后一点牙膏，小小的手机里集成了人类近代以来大部分进步最快的高精尖技术，这就是追求其极限的意义所在，这不仅是对技术的追求，也是对物理极限的探究。

2024-11-07

手机

登录后评论