高通骁龙8Elite架构+性能解析
高通的每次改名,要么造就了神U(骁龙835),要么造就了火龙(骁龙888,骁龙8Gen1),最离奇的是,无论是冰龙835还是火龙888,8Gen1,都是三星工艺的产物,可谓成也萧何败也萧何,而这次改名,本该叫8Gen4的8ELite这次行了吗?每个使用高通芯片的厂商似乎都被这次突如其来的改名吓得抖三抖,面对苹果A18pro,联发科天玑9400两位强力对手是否能处于领先地位? 
 
首先对这颗骁龙8Elite的架构进行窥探,骁龙8Elite采用台积电第二代3纳米工艺打造(n3e工艺),与它的两位对手一样,均使用了台积电最新工艺打造。 
 
CPU部分使用全大核,2+6设计,两颗4.32Ghz的Oryou L超大核,使用性能库,六颗3.53Ghz的Oryou M大核,使用密度库,两颗超大核共享12MB的L2缓存,六颗大核共享12MB小核,而且这次是用高通自研的Oryou架构,对CPU架构大刀阔斧的改造了一番,摆脱了Arm架构的限制,高通直接砍掉了8Elite上的L3系统缓存,和苹果的设计思路一样,砍掉L3缓存,这对于芯片是有好处的,它的缓存相关性和缓存命中率都会因此收益,而12MB的缓存在大核中是很珍贵的,单颗核心可调用的缓存资源比苹果A18系列以及天玑9400的大核都要来的多。 
 
乍一看,六颗大核的频率都已经接近天玑9400的那颗X925超大核了,而超大核的频率远远超越了现有所有移动端芯片的频率,这似乎暗示着它是一颗火龙,但是值得一提的是,两颗超大核均使用了性能库,而且使用了从来没见过的架构,高通自研的Oryou架构,上一次使用自研架构还是在骁龙820上的kryo架构,如此激进的设计和频率,以及口碑崩坏的自研架构,能够压住功耗,救高频于水火之中吗? 
 
GPU部分,依旧是高通自研的GPU架构,而且继骁龙8Gen1之后全新升级了800系,Adreno830,对比Adreno700系,也是一次巨大的进步,GPU频率1.1Ghz,拥有12MB超大显存,大幅改善了带宽的瓶颈。 
 
除了CPU和GPU的缓存增大,还有一个Arm公版做不到的地方,在观察其架构时,我们发现高通的工程师单独给了一颗8MB的SLC缓存,这个缓存是可以给CPU,GPU,NPU,ISP等芯片内其他单元直接调用的。 
 
在进行了如此大刀阔斧的改造后,这颗骁龙8Elite比联发科的天玑9400更可以被称为X3D,简直就是掌管缓存的仙人。但是在台积电n3e工艺的加持下,芯片的面积却比上代骁龙8Gen3来的更小(8Elite为124.1m㎡,8Gen3为137.3m㎡)。 
 
接下来来看看这次的Oryou架构,对芯片的微架构有什么改变,Oryou L超大核延续了骁龙X Elite的设计,但在此基础上进行了一点修改。前端解码部分维持了和X Elite和Arm X4一样数量的8-Wide解码单元(A18系列的P核和Arm的X925是10-Wide解码单元)。L1指令缓存则是有所减小,只有128KB,比X Elite的192KB整整少了一颗X925(或者说一颗X4的缓存),而苹果也使用了192KB的指令缓存。而后端的执行单元,同X Elite相比,并没有改变,,只是优化了整数和浮点的调度器队列深度。和Arm的X925核心一样,象征乱序执行能力的ROB队列深度也在增大,从本就非常巨大的650,增大到679,虽然并没有X925那么恐怖的768,但是也足够巨大了,同样的,它的乱序执行能力也将得到增强。 
 
总体而言,8Elite的超大核维持在X Elite的基础上,小修小补得来的,但是单论X Elite的绝对性能,那还是很不错的。 
 
不过Oryou M的大核,就是确实是没有见过的全新核心,从规模上来看,更像是Arm公版A7xx系列,代替的是大核。前端有个4-Wide的解码单元,整数部分搭载四个ALU(Arithmetic Logic Unit,算术逻辑单元:负责执行算术和逻辑运算),但是浮点执行部分却非常小,仅有两组执行单元,ROB队列深度314。 
 
整个架构的设计思路清晰,整数部分规模大,稍强,浮点部分规模小,偏弱;而考虑到Oryou L是浮点超强的架构,那么8Elite小核的设计思路就很明显了,强整数,弱浮点,与超大核相对的,强浮点,弱整数,形成完美的互补。可以使用自研架构的高通似乎把这造芯片这事玩明白了。 
 
接下来就是大家所说的赛博斗蛐蛐——跑分环节了,这里引入一个能够减少争议的新概念,每瓦功耗。跑分跑出来的是峰值性能,参考意义不大,但是如果能把芯片的某个部分压在某个功耗下,那么它就意义重大了,比如日常使用,它的功耗区间基本处于5w以下,那么将芯片控制在5w的功耗以下进行跑分,那么这它就具有了实际意义。 
 
首先登场的是计算机行业标准,SPEC 2017。 
骁龙8Elite Oryou L超大核(内存频率8533)的整数部分: 
峰值功耗6.5w,8.9分 
定值功耗5w,8.2分 
天玑9400 X925超大核(内存频率10667)的整数部分: 
峰值功耗7.1w,8.9分 
定值功耗5w,8.2分 
乍一看,这两玩意好像是一个师傅教出来的,分数几乎一样,但是注意,两个内存频率不一样,峰值性能可能差距10%左右,从这就看得出来,公版Arm架构是多么感人,难怪高通要自研,跟苹果比确实差远了,整数部分的能效和A16差不多。 
 
接下来看看浮点,骁龙8Elite Oryou L超大核(内存频率8533)的浮点部分: 
峰值功耗8w,14分 
定值功耗5w,12.6分 
天玑9400 X925超大核(内存频率10667)的浮点部分: 
峰值功耗8.5w,13.9分 
定值功耗5w,12.4分 
在浮点方面,这两家差别就体现出来了,尤其是高频表现,相差了近5%,这可是在内存频率的差距下跑出了的优异表现,X925的浮点能效和A17pro差不多,而骁龙8Elite则是介于A17pro和A18pro之间。 
 
总的来看这次高通自研的Oryou L超大核的性能,如果在同内存频率下,一定是略强于Arm公版的X925核心,而且这两位的特点很相似,强浮点(略强于A17pro),弱整数(A15到A16之间),两家头部芯片设计公司的超大核属于是强强对决了。 
 
接下来看小核,两家都抛弃A5xx系列这种垃圾小核,骁龙8Elite Oryou M大核整数表现: 
峰值功耗2.5w,5.1分 
定值1w,3.5分 
天玑9400 A720大核整数表现: 
峰值功耗1.1w,3.5分 
从大核上看得出来,高通利用高频,在峰值性能上压了联发科一头,但是1w的定频,两家其实是差不多的,两家的低频能效稍逊于苹果A16小核,不过看在Oryou M核心的主要目的是在于弥补Oryou L核心整数性能的不足,定高频似乎还能接受。 
 
接下来看看两家小核的浮点表现,骁龙8Elite Oryou M大核浮点表现: 
峰值功耗3.3w,8分 
定值功耗1w,4.6分 
天玑9400 A720大核浮点表现: 
峰值功耗1.4w,5.8分 
定值功耗1w,4.9分 
正如在微架构上所说的,由于浮点部分由超大核承担,大核的浮点相对应的在架构上,由于规模给的小,使得其在同频性能下稍逊于A720,整体浮点性能和去年的骁龙8Gen3上的A720几乎一样。 
 
这似乎是高通刻意而为之,高通更希望浮点部分的工作交给超大核来完成,而小核来完成整数方面的工作,浮点与游戏性能息息相关,而整数更多的用于办公,也就是生产力,而单核对游戏的提升巨大,多核则是对办公一类的生产力有着巨大的提升,不难看出,高通对于游戏以及生产力的平衡,在芯片设计有了不错的理解。 
 
高通自研的Oryou架构,对比Arm公版架构,属于是针尖对麦芒,不分上下,考虑到今年Arm公版架构进步很大,这一代的Oryou架构的表现还算不错。不过还是没有改变现有格局,苹果A18pro拥有的“外星科技”,苹果的超大核整数架构依旧是领先安卓阵营两三代的,浮点则是领先一代,小核则是整数以及浮点都领先两代,但毕竟万事开头难,高通打下了一个不错的开头,后面只要努力改进,潜力一定是巨大的。 
 
但是哪怕架构不太行,只要规模够大,那么在性能上,也是能够打赢的。 
接下来是Geekbench6,骁龙8Elite: 
峰值功耗15.2w,10521分 
定值功耗8w,8473分 
定值功耗5w,6751分 
天玑9400: 
峰值功耗18.8w,9376分 
定值功耗8w,7826分 
定值功耗5w,6119分 
A18pro: 
峰值功耗11.9w,8840分 
(苹果无法进行root,无法进行定值功耗测试) 
这么一看,骁龙8Elite的多核能效强的很,无论是低中高频,全方位压制天玑9400和A18pro,而且这是移动端第一颗cpu过万的处理器。 
跟上一代骁龙8Gen3相比,骁龙8Elite仅需6w的功耗,即可打平骁龙8Gen3满血11w的性能释放,这进步恐怖如斯。 
 
再来看看单核性能,骁龙8Elite的单核性能在Geekbench6上跑分高达3242分,而苹果A18pro只是3509分,天玑9400只有3010分。 
骁龙8Elite的单核性能和能效均已经介于A17pro以及A18pro之间,其CPU提升可见一斑。 
 
接下来看看骁龙8Elite的GPU部分,三块散装单元拼起来的玩意就是它的Adreno830,频率1.1Ghz,高通在最新的800系GPU里引入了新的概念——Slice。也就是切片组,每四颗CU分成一个切片组,骁龙8Elite的GPU就是由三枚这样的切片组组成,总共12颗CU,比骁龙8Gen3多了一倍,而每个Slice分到了4MB的缓存,相当于每颗CU平分1MB缓存,总共12MB,给GPU配备大量缓存,思路很像近年来的桌面显卡。 
高通的GPU一直以来都是黑箱状态,不过在经过一系列逆向工程,我们窥见了一些端倪。这次GPU的渲染管线大不相同,以往的高通GPU或多或少会使用TBR(Tile-Based Rendering,切片渲染:移动设备上广泛使用的渲染架构,主要特点是将屏幕划分为多个小块进行渲染。这种技术通过将屏幕分割成多个小块,可以有效地减少内存带宽的消耗,提高渲染效率,适合移动设备的性能限制‌),这是移动端GPU特殊的处理方式,用于降低显存带宽的需求,而高通Adreno系列特有的FlexRender是GPU在间接渲染(分箱或延迟渲染)和直接渲染到帧缓冲区之间切换的能力,根据其缓存压力来决定切片大小,但是由于今年有巨大的缓存,所以这就有些不一样了。 
我们使用了网上的一个GPU测试,直观的看到了区别,有了巨大的缓存之后,骁龙8Elite不需要刻意去使用TBR,12MB的缓存搭配帧缓冲压缩技术,可能直接就能塞进去一整个帧,这其实更加接近桌面端显卡常用的IMR技术(Immediate Mode Rendering,即时渲染模式,传统桌面GPU常用的渲染架构。在这种模式下,每一次渲染API的调用都会直接绘制图形对象),直接渲染无需大量切块影响GPU效率,高通这一举动很有野心,不过也像各家芯片一样,无论是苹果还是联发科,都在将移动端GPU往桌面端GPU靠。 
 
1.1Ghz的GPU,它的性能以及能效几何? 
使用3Dmark Steel Nomad Light,骁龙8Elite: 
峰值功耗10w,2486分 
定值功耗5w,1864分 
天玑9400: 
峰值功耗11.2w,2671分 
定值功耗5w,1898分 
苹果A18pro: 
峰值性能11.8w,2201分 
这么看来,虽然骁龙8Elite在能效上,全面被天玑9400压制,但是考虑到内存频率的差异,可能在峰值性能上于天玑9400差不多,不过在全频段上,骁龙8Elite性能以及能效领先骁龙8Gen3达30%,更是比A18pro领先了一代之多。 
 
在过去的几年,安卓阵营的芯片一直被苹果压制,在某些方面,去年都是差距极大的但是在如今,这个差距仅限在单核。在并未远去的2020年,那时麒麟绝代,高通火龙,联发科默默无闻,似乎安卓阵营一眼望得到头,苹果当时风光无两,以至于无数人都在唱衰安卓,但是在仅仅过去不到五年,安卓阵营几乎全方面超越了苹果,性能更是对比5年前暴涨了200%。 
 
为什么要测试芯片的性能以及极限,这不仅是科技对于人类的福泽,更是人类对科技的极致追求,哪怕是摩尔定律即将到头,可是不服输的人类依旧在挤尽摩尔定律最后一点牙膏,小小的手机里集成了人类近代以来大部分进步最快的高精尖技术,这就是追求其极限的意义所在,这不仅是对技术的追求,也是对物理极限的探究。
 
2024-11-07
浏览5357
手机
登录后评论
6
33