性能超越GPUFPGA,华人学者提出软 - 数据

TUhjnbcbe - 2025/7/3 13:35:00

中科助力健康中国 http://www.zkyyhhyy.net/index.html

作者

王言治，美国东北大学电子与计算机工程系助理教授

近年来，机器学习(MachineLearning)领域的研究和发展可谓是与日俱新，各式各样与机器学习相关的研究成果与应用层出不穷（如图像识别，自动驾驶，语音识别等），机器学习能够处理的任务也愈发的复杂。但与此同时，新的问题也随之而来，机器学习模型变得更加庞大复杂，因实时性而对算力所产生的需求也远远超乎了我们的想象。这一问题严重阻碍了人工智能（AI）产品及应用融入到人们的日常生活中，因此亟待解决。

谷歌、微软、亚马逊、华为和苹果等科技巨头以及众多初创公司每年都会花费数以亿计的经费来研发机器学习专用硬件加速器，他们希望能够早日在边缘设备(edgedevice)与物联网设备(IoTdevice)上实现人工智能应用的部署，并将人工智能真正的带入到人们的生活中。

现今，全球有不少于家的AI芯片初创公司，各种新硬件层出不穷，从重塑可编程逻辑和多核设计（programmablelogicandmulti-coredesigns），到开发自己的全新架构，再到使用神经形态架构（neuromorphicarchitectures）等。此外，我们还看到了诸如英特尔以极其高昂的价格收购了MobilEye、Movidius和Altera，NVIDIA在自动驾驶处理器方面花费了大笔的开销，谷歌开发了TPU，各家公司都试图都在硬件上抢占先机。

这里我们不难发现，工业界目前的认知是——“硬件才是真正制约移动AI发展的主要因素”。他们缺乏对于软件以及目前所使用的通用芯片的计算资源及计算能力的信任。因此，相较于软件，他们将注意力更多地放在了开发机器学习和推理专用的硬件加速器上。

但是，在如此巨大的资金注入下，到目前为止，硬件加速仍成效甚微，我们尚未看到任何边缘AI硬件加速器的大规模部署。这不禁令人深思，专用硬件加速真的是正确的道路吗？软件能否成为移动AI时代的主导？

从各大公司的角度来看，如果想要让自家的AI产品或应用迅速落地抢占市场，设计专用的芯片或硬件显然并不是最优选择。众所周知，芯片以及硬件的开发成本非常高昂，且开发周期漫长，并非所有公司都可以承受。若是选用第三方提供的AI加速硬件，则可能会面临诸如成本增加，兼容性等一系列问题。而设计专用软件则不同，它的开发成本低廉，容易实现快速部署，可以做到针对性优化，且通常具有完备的生态系统。

从大众的角度来看，若想让AI产品或应用真正融入人们的日常生活，那么它至少需具备几个特点，价格低廉、随时随地、方便快捷。价格低廉就不必多说了，很多AI产品和应用都会给人们的生活带来更大的便利，但这更多的是锦上添花而非必不可少，而使用专用硬件加速器无疑会增加产品的成本，所以人们究竟会不会为这一成本增加而买单、究竟可以接受的尺度有多大，这仍然是个未知数。

目前很多AI相关应用比如最常见的手机语音助手，智能音箱等采取的模式是云端计算，即用户端将数据传输给云端服务器进行运算，云端再将结果传回给用户。这就对用户所处的网络环境提出了要求。如果AI相关运算能在例如手机、音箱等边缘设备上完成，那么用户就可以不受网络环境影响，随时随地的使用AI应用。

试想，当你在地铁上看高清视频，由于网络信号不好，高清视频数据传输量又大，导致了视频卡顿。但如果在你的手机上能够本地运行一个实时视频超分辨率转换的AI应用，那么就可以使用低清分辨率视频源进行传输，从而减少卡顿。

此外，能够方便快捷的使用AI应用也是至关重要的一环，由于移动支付的普及，很多人出门连钱包都省了，只带一个手机。显然，随身携带GPU或FPGA硬件加速器是不现实的。所以无论从公司的角度还是大众的角度来说，基于软件和通用计算设备（比如手机）的AI加速无疑是AI应用的最佳选择。

那么我们不禁要问:

1.我们能否在没有特殊硬件加速器的普通手机（或其他边缘设备）上，克服高算力需求，将各种AI应用实时化呢？

2.如果真的可以，那么与专用硬件加速器相比，基于软件优化和普通手机的实现方式性能又如何呢？能不能比硬件加速器跑的还快，能量效率还高呢？

答案是肯定的。

近期，由美国东北大学王言治研究组、威廉玛丽学院任彬研究组和北卡州立大学慎熙鹏研究组共同提出了名为CoCoPIE的软件算法架构，通过有效的“压缩-编译”协同设计(

数据结构论坛