本文来自威锋网
上个月初,高通在夏威夷召开的第三届骁龙技术峰会上,正式推出了万众瞩目的骁龙8系列旗舰移动芯片Snapdragon。正如大多数机友所知,骁龙将会是年新一代顶级旗舰智能手机标配的移动芯片。那么,这枚芯片与上一代相比究竟带来怎样的性能改进呢?本月中旬,知名评测站AnandTech发布了骁龙芯片的首测报告,我们一同来看看。
在开始性能评测之前,还是要把骁龙的性能参数复习一遍。高通骁龙是一枚7纳米工艺八核心设计的芯片,这次高通的核心结构设计主要基于ARM的DynamIQCPU集群,具体为1大核+3中核+4小核的设计。大核基于ARM最新Cortex-A76设计,可以提供非常高的峰值性能,3个中核同样也是Cortex-A76定制,4个小的核心基于Cortex-A55。
与此同时,与上一代骁龙芯片相比,骁龙并没有大幅提升CPU核心的时钟频率。高通强调,自家的KryoCPU集群由于是基于ARM最新的Cortex-A76进行半定制设计,大内核配备了更大的kb的L2缓存,频率达到2.84GHz峰值频率,高通称性能相比上一代还是提高了45%。
骁龙中的三个中核频率为2.42GHz,并各有kb的L2缓存,4个1.8GHz主频小核的每个核心各有kb的L2缓存。此外,骁龙还集成了新一代图形处理单元AdrenoGPU,高通官方称能够带来高达20%的图形渲染速度提升,同时还能继续保持业界领先水平的每瓦特能效。
AnandTech这一次拿到手的骁龙设备并非任何一个品牌的零售机型,而是高通所准备的参考设计机型SnapdragonQRD。经上手,他们认为今年高通QRD测试机的设计可能是有史以来最接近于上市新机的一次,外壳更加美观,也更加坚固,让人很难注意到这本是一款参考设备。
而在硬件方面的性能表现,高通已经明确表示,任何情况下对QRD设备的性能测试结果,都只会是一种接近于正式零售机型的成绩而已,手机厂商真正发布的旗舰机成品将可能与此有明显偏差,因为改进软件底层设计也会对性能有所优化。
AnandTech称,他们真正对这款高通QRD设备的实际设备操作时间是有限的,所以尽管已经进行了大量的测试,但仍会遗漏掉某些测试,因为某些些测试很耗时间,例如GPU连续性能测试环节。
骁龙的最大问题在于内存延迟
AnandTech称,去年高通在骁龙上引入一个奇怪的设计,就是在内存控制器前引入一个系统级缓存大小为3MB的新缓存层次结构。这个新模块主要是为各种IP模块充当SoC更宽的缓冲范围,从而减少对DRAM运行内存访问量,达到提高系统能效的目的。除了提高能效水平,理论上该模块理应还能起到性能助推器的作用。因为行业早有先例,最著名的就是苹果自主设计的A系列芯片,自A7以来苹果的芯片就开始充分利用这一系统缓冲模块。
作为去年的旗舰,高通在骁龙中引入这样一个IP模块相当令人兴奋,但是这也是一把双刃剑,因为直接导致了30%的DRAM内存延迟(相比骁龙),从而限制了基于Cortex-A75定制内核的某些性能。不幸的是,最新的骁龙在这方面似乎没有做出任何明显改进,因为高通已经确认这一IP模块与骁龙中使用的相同。
AnandTech表示,为了研究骁龙、和麒麟之间的差异,首先根据延迟测试中绘制图表了解内存层次结构,也就是通过可视化的图标更好的分析层次结构之间的各种延迟跳跃。
在骁龙与骁龙芯片之间,最新的Kryo大核L2缓存增加了KB,相比上一代的性能内核增加了KB,同时L2延迟得到了改善,只不过两枚芯片在2.8GHz频率下彼此接近。骁龙与骁龙的DSUL3缓存大小相同,在这部分缓存层次结构上,两个芯片之间的延迟几乎是相同的,但有趣的是,这与华为麒麟的4MB大小的L3形成鲜明对比,后者虽然更大,但似乎慢了20%。
在另一张线性图上,可以更清楚地看到DRAM内存延迟的差异。骁龙似乎确实比稍微改善了内存延迟。不过,这可能是其他组件带来的功效,因为新款参考设备配备的是MHzLPDDR4X内存,而去则为MHz内存,新内存在频率上就已提高了14%。关键是与麒麟芯片相比较,麒麟采用了与骁龙相同的CPU微架构和MHz频率内存,但在这方面高通这一旗舰芯片的内存延迟表现似乎并不理想。
针对CPU性能和效率的SPEC测试
AnandTech继续针对高通骁龙设备进行了SPEC测试,并称SPEC这个测试软件权威性更足,可作为确定CPU和系统的微观体系结构方面的宏观基准测试,或者说是一个重要的行业标准化的CPU测试基准套件。当然了,尽管SPEC已被弃用,取而代之的是SPEC,但AnandTech认为编译的SPEC对于移动平台来说仍然是一个很好的基准测试工具。
在SPEC测试中,骁龙的表现出色,与华为麒麟的表现不相上下,不过这个结果应该不太令人惊讶。
在SPECint测试中,骁龙的性能相比骁龙提升了51%,同时能效提升了39%。而与麒麟相比,骁龙仅略微领先4%,可以说在Android阵营之中,麒麟和骁龙是目前性能表现最接近的竞争对手。
在SPECfp测试中,高通骁龙比骁龙提升了61%,而且比华为麒麟表现更好,9%的频率优势即是领先优势。
不过,在所有这些测试结果中,能效方面的数据同样非常之重要。由于高通上个月在夏威夷发布骁龙时,并没有在CPU能效方面发表任何有意义的说明,这不免让人担忧。幸运的是,这种担忧是多余的,因为骁龙似乎已非常高效,即便是在频率高达2.85GHz的大核表现上。
其实深入到测试的成绩去分析,最有趣的肯定还是高通骁龙与麒麟的性能比较。骁龙的时钟频率高了9%,并且官方表示经过一些微结构特性的调优改善了IPC性能,而麒麟则又有更大的L3缓存和内存延迟优势。
在绝大多数负载测试中,这两种芯片基本并驾齐驱,只是在一些关键方面存在差异。某些对运行内存需求较少的负载测试中,骁龙更容易展现出其高频率的优势。而在延迟敏感的负载测试中,这种差异会缩小或逆转。其中在.libquantum测试项目中,骁龙表现相对优异,按照高通方面的解释,该芯片之所以在这方面的领先,主要是得益于CPU内核的定制功劳,不过高通没有具体说明是哪个方面带来的提升。
测试项目.sjeng显示出了两者最大的性能表现差异,这个差距达到了13%。该项基准对内核分支机构的错误预测最为敏感,高通声明他们对核心的分支机构数据结构进行了更改。而比较让人觉得奇怪的结果是.mcf测试项目,该项骁龙表现出色,尽管芯片存在内存延迟的缺陷,但结果却与此相悖,AnandTech认为骁龙在这项比麒麟性能更好,有可能是因为有更出色的L3缓存延迟。
再深入SPECfp的测试结果,可以非常明确地将结果分为两组。在其中一组项目测试中,骁龙明显优于华为麒麟,在.dealII和.povray这两项测试中分别领先了17%和22%。而在另一组测试中,骁龙则与麒麟并驾齐驱,因为这些负责测试项目对内存较为敏感。
跑完这些测试,AnandTech表示,总体而言,骁龙的CPU性能并不令人失望,平均性能领先于华为麒麟,只不过不是很多。在大多数情况下,两芯片组的基本并驾齐驱,这主要取决于两枚芯片针对不同负载项目的工作量。
当然了,AnandTech还认为骁龙芯片的能效一流,因为其能效表现超出了实现更高频率的预期。不过,既然是QRD参考平台,很多数据就仍可能存在一定程度的不确定性,不代表真正上市的品牌零售手机,但如果确实有代表性,那么年安卓旗舰将能提供更出色的续航性能。
AI人工智能“理论”性能很出色
除了大量改进CPU和GPU,骁龙另一重要的改进就在于AIEngine人工智能引擎。高通骁龙芯片通过内部改进Hexagon技术,并增加了相应的运算能力,可以实现每秒超过7万亿次运算(7TOPs)
简单的说,骁龙的Hexagon在上一代包含有4个标量处理单元和2个b的HVX向量处理单元(HexagonVectoreXtensions)的基础上,将HVX向量处理单元数量提升到了4个,使其处理能力是之前两倍。不仅如此,高通还首次引入了全新的HTA(HexagonTensorAccelerator)张量加速器,为特定的复杂机器学习任务提供更高的吞吐量。
不过,AnandTech在询问高通关于全新HTA张量加速器的进一步细节时,高通并不愿透露更多关于这一新模块的性能,只是简单的提到了AI运算性能达到7TOPs,但具体每一个单独的单元性能如何高通不会提供具体数字。
AnandTech称,其实最糟糕的情况是关于最新HTA张量处理器的API开放情况,毕竟要等到年底的AndroidQ发布之后才会公开提供NNAPI,而当前相关API仅限于内部公开。这就意味着,当涉及到AI运算性能测试的环节,无法实测出最新HTA张量加速器性能如何,实测数字更多还是体现在HVX向量处理单元的改进上。
-AiBenchmark
首先,从AiBenchmark性能测试开始。AnandTech认为,这一来自瑞士苏黎世联邦理工学院计算机视觉实验室的新工具,足已经足以展开AI性能的广泛测试,因为这个工具是第一个广泛利用到Android最新NNAPI的测试工具,而不是依赖于每个SoC芯片厂商的SDK工具和API,所以理应能够更好地如预期那样准确测出基于NNAPI应用程序的性能。
AnandTech将AiBenchmark的测试结果划分为好几组,在第一组测试中,高通骁龙的表现良好,只是没有非常突出的某一项。这里的AI运行性能更多还是受到了系统调度程序的影响,而且由于负载测试是短时间突发的性质,主要测试的是CPU允许以多快的速度达到其最大性能点。
接下来转到8位整数量化模型测试,这些测试模型适用于大多数硬件加速的设备。高通骁龙在这一组所有基准测试中表现都处于领先。在Pioneers这项的基准测试中,可以清楚地看到得益于HVX加速单元的性能翻了一番,完成测试的时间不到上一代芯片骁龙的一半。
这部分AI性能基准测试,主要体现出NNAPI基准测试中API和驱动程序方面的表现。结果显示,骁龙比上一代以及竞争对手都出色,拥有更优异的加速度。这可能是因为高通明显改善了这里的驱动程序,所以与过去的骁龙芯片相比,新一代能够更充分地利用硬件。
再到FP16的负载测试,终于看到高通的一些竞争出头了,其中麒麟的NPU硬件加速在这里得到了体现。其实按照以往,高通的芯片应该利用GPU性能来处理这些工作负载,显然骁龙在这方面取得了巨大的进步,因为新平台对NNAPI功能支持更加成熟了。
最后到FP32负载测试,这一组测试也能看出骁龙显著的改进,高通骁龙终于能够充分利用GPU加速了,所以新一代芯片在这项测试中拥有相当大的领先优势。
-鲁大师AIMark
AnandTech称,与AIBenchmark相比,AIMark仍然算得上是有用测试工具。这个基准测试没有利用到NNAPI,但利用到了高通的SNPE框架进行加速测试。因此,这也为能够与苹果iPhone进行比较提供了的难得机会。
总的来说,在鲁大师测试中,高通骁龙的AI性能相比骁龙提高了2.5-3倍。
AnandTech表示,在高通当天的发布会活动中,官方还展示了运行InceptionV3的内部基准测试,该测试充分体现了HVX向量处理单元单元和最HTA张量加速器的性能。根据当时提供的数据显示,这款骁龙参考设备可以达到inferences/s的AI运算性能。
总的来说,尽管在AI性能基准测试中没有能直接测试HTA张量加速器的性能,但骁龙的AI推理性能非常出色,这一点主要基于其驱动程序得到了很大的改进,而且Hexagon的向量执行单元也增加了一倍。不过测试归测试,如何利用和处理这种性能才是关键,希望接下来能够看到基于AI的更出色、更令人兴奋的相关应用程序。
综合系统性能:略显不足?
AnandTech称,任何设备在现实世界常规的实际负载测试都更具参考意义,因为其实际性能不仅取决于硬件的原生性能,还取决于软件,例如CPU调度和系统API之类的因素会对设备的实际性能产生非常大的影响。
这部分测试首先从PCMark的WebBrowsing2.0测试开始,不过高通骁龙开局不利。由于某些原因,骁龙QRD参考设备难以与骁龙正式零售机型拉开差距,甚至与华为Mate20的麒麟相近的预期也没能达到。
VideoEditing测试部分骁龙的分数也很一般,但原因很大程度上受限于这个测试本身的瓶颈,大多数设备在这份排名之中已经很多体现出显著差异。
Writing2.0这项测试是PCMark中最重要的测试之一,幸运的是,骁龙QRD设备与华为麒麟相比性能差距终于在预期的范围之内。
PhotoEditing2.0这一测试比较能够突显RenderScript负载的爆发性能。结果显示高通骁龙QED设备性能表现良好,不过去年正式零售的骁龙机型还是排在第一。
最后,在单线程绑定的数据处理测试结果中,高通骁龙的性能表现很好,但仍然与华为麒麟设备差不多,并且落后于Pixel3,毕竟谷歌亲儿子手机的调度程序非常激进。
总的来说,高通骁龙QRD设备在PCMark测试中的得分是比较高最高,但是这样的成绩有点令人失望,因为当前来看似乎没有达到骁龙手机谷歌Pixel3的高度,而且部分排名华为麒麟的Mate20也比它领先。
AnandTech表示,他们与高通讨论了上述情况,看到这样的数据高通方面也很惊讶,不过高通表示,他们将会对此进行深入了解,并认为手机厂商掉正式零售机型调度程序和软件堆栈,可能会提供更高的性能。无论如何,还要等骁龙零售机型上市之后才有最后结论。
在另外两项基于网络浏览器的基准测试Speedometer2.0和WebXPRT3之中,高通骁龙参考设备也只跑出了类似上述相对较弱的成绩。AnandTech认为,在这部分本来预期高通骁龙会表现得非常好,毕竟骁龙如此突出,然而骁龙进步非常非常小,特别是在考验吞吐量负载的Speedometer2.0测试项目中。结果来看,骁龙仅比上一代提升了17%,与麒麟相比也有显著的差距。
CPU调度加载机制分析
AnandTech从去年开始引入这一新的测试项目,之前在针对iPhoneXS的评测中就曾详细比较过历代A系列芯片,结果显示运行iOS12系统之后每一代机型的调度程序和DVFS响应能力都有明显不同。
在这部分测试中,骁龙QRD从睡眠空闲到满载峰值性能的状态,其调度机制让其只要大约ms就能实现。AnandTech还将搭载骁龙的三星GalaxyS9+和谷歌Pixel3进行了比较,在这之中Pixel3的调度非常激进,而GalaxyS9+则是呈阶ti化的频率提升方式,这两款设备的感知响应有明显差异。
高通骁龙参考设备的CPU调度机制介于两者之间。需要注意的是,骁龙负载情况下,在大约40ms的时间内就能提升到2.45GHz频率,激活“高效”的大内核,这必须是一种非常快速的响应能力了。
再将高通骁龙与麒麟进行比较,可以看出骁龙在达到峰值性能状态方面并没有变慢,但这些成绩的奇怪之处在于,当从小内核转移到其他内核时,负载过程中会出现明显约2.4ms的暂停状态。当然了,这只是高通为其参考设备定制调度机制而已,其他厂商的骁龙正式零售机型如何调度还需进一步研究。
AnandTech表示,总的来说,高通在现实世界中的性能,或者说实际性能比预期的要低一。目前还不太能确定这是什么原因,但在CPU调度机制方面,经验证其负载的升频速度并不比华为麒麟慢。现在另一种可能合理的解释是,骁龙的L3缓存较小乃至DRAM延迟较高,所以在实际性能中暴露出了某些缺点。
无论如何,各大手机厂商正式零售的骁龙旗舰机型,最终性能肯定会与高通的参考设备有所差异,不同的厂商对设备的性能都有不同的调整。
GPU性能测试
GPU图形处理单元一直是高通旗舰芯片的强项,这一次骁龙所集成的AdrenoGPU虽然变得更强劲了,但提升幅度上仍有所保守,仅能够带来高达20%的图形处理速度提升,更像只是利用了7纳米工艺制程的进步而已。不过,这可能是因为高通在保持GPU模块面积不变大的情况下,又增加了50%ALU(算术逻辑单元)数量的缘故。
首先来看最新GFXBench5AztecRuins测试工具的成绩如何。AnandTech声明称,由于时间有限,这次测试并非非常完整的测试,在以往既包含峰值性能又提供持续性能成绩的情况下,这次测试只简单的测试了峰值性能。
在AztecRuins场景之下,无论是高级模式还是普通模式下,骁龙的AdrenoGPU性能提升幅度基本与高通官方宣称的不一致,实际是比20%的提升有所下降的。同时,这一性能成绩也落后于苹果的A11和A12芯片,当然峰值性能的功耗不同。
说到功耗,就来看看跑Manhattan3.1场景的性能和负载能效情况。如下面两图可以看到,在峰值性能的能效方面,高通骁龙处于领先地位,不过还是落后于苹果最新的A12仿生芯片。比较明显的改善下雨,骁龙的总功耗与骁龙相比有所下降了,目前约为4.4W,而之前骁龙手机通常为5W。
最后是T-Rex场景的性能,由于像素和填充率限制比较大,所以在此场景的性能提升比较有限。这可能是因为受到了某些方面的CPU限制,但不确定这是否是问题的答案,因为GFXBench基准测试一直以来对CPU的要求都非常低。
T-Rex场景的能效方面,在性能略微提高的情况下,骁龙相比骁龙能效提升了30%左右。
AnandTech表示,总的来说,骁龙内置AdrenoGPU初始性能和效率成绩,已经比较让人满意了,主要是上一代骁龙在某些方面有点令人失望,因为去年高通选择通过提高峰值功率来实现更高的性能,相比骁龙的做法相当消极。不过,虽然骁龙这枚新芯片并没有完全恢复到骁龙芯片的低功耗水平,但至少已经达到了一半,而且与骁龙相比性能确实有了显著的改进。
最终小结
AnandTech表示,对于高通和上一代旗舰芯片骁龙来说,年是非常成功的一年。因为作为芯片设备供应商,高通为各大厂商提供了一枚非常可靠和全面的SoC系统级芯片,有助于厂商更轻松的构建自家的旗舰设备。从这方面来看,新一代芯片骁龙仍将会延续这一趋势不变。
AnandTech一直对高通采用的1+3的CPU配置是否具有优势持怀疑态度,但在看到新一代芯片主要核心的初步性能和能效测试数据之后,他们对此不再那么担心。不过,AnandTech称他们不会就参考设备的整体表现过早下结论,因为他们还没有时间来测试非主要内核的性能和能效,不确定他们在竞争中是否处于领先位置。
在性能方面,AnandTech称骁龙的表现有点奇怪,只有在SPEC中相对稳定的负载测试中,骁龙的性能似乎表现非常好,性能持平或超过华为麒麟。不过,高通对CPU微架构的改良通过测试成绩还是能表现出来的,可以说已经是不错的壮举了。但不幸的是,骁龙内存子系统没有得到改进,仍然存在一些DRAM延迟的情况,这主要是高通系统级缓存的问题所在。
同时,虽然骁龙芯片在现实应用测试中的性能足够出色,但并没有达到AnandTech对性能的预期。无论出于什么原因,至少高通对芯片的改进在对参考设备的测试中没有明显体现出来。令AnandTech更为好奇的是,在几乎所有实际应用的负载测试中,华为麒麟都能够击败了骁龙,而且高通表示CPU微体系结构的改变能够帮助提升web浏览器性能,但在这方面测试又落后于竞争对手,目前不清楚是不是限制系统缓存或系统缓存延迟造成的结果。
AnandTech表示,上述一切就是他们非常典型的芯片测试过程,但在一些性能测试中,骁龙表现有点不理想,高通可能会对此进一步调查并改进,或许在正式零售机型发布之前能解决这些问题。但无论正式零售设备的系统性能能否得到改善,骁龙改善最明显还是功耗,其能效看起来非常出色。高通今年没有公开谈论骁龙能效水平,这不免让人担心,实际经过测试发现其能效非常不错,年的旗舰相比去年理应能够带来更长的续航时间。
在GPU性能方面,高通对骁龙的GPU性能改进相当保守,仅20%的性能提升比预期低。不过,AnandTech认为这可能是因为高通有了更多的内部目标,例如将改进的重点放在整体功耗的降低上,希望能够将之前骁龙较高的GPU功耗水平上降下来。
AnandTech最后表示,总的来说,骁龙是高通又一枚打造得非常出色的SoC系统级芯片,非常期待能快点去验证这一结论,但真正的定论,还要等到在首批正式商用的零售旗舰上市并测试后才能得出。