从算力数据算法工程化等维度看AI的 - 数据

TUhjnbcbe - 2025/5/10 16:16:00

北京哪里能治疗白癜风 https://jbk.39.net/yiyuanfengcai/yyjs_bjzkbdfyy/

来源：虎嗅网

本文作者：王元（苏宁金融研究院金融科技研究中心主任助理），题图来自：视觉中国

年是不寻常的一年，全球的健康、贸易、经济、文化、政治和科技领域，无不发生着深刻的变化。笔者所在的科技领域，也恰逢现代人工智能（简称AI）发展10周年。前10年，人工智能技术得到了长足的发展，但也留下许多问题有待解决。

那么，未来AI技术将会如何发展呢？本文将结合学术界、工业界的研究成果，以及笔者个人研究见解，从算力、数据、算法、工程化4个维度，与读者一起探索和展望AI发展的未来。

一、数据

我们首先分析数据的发展趋势。数据对人工智能，犹如食材对美味菜肴，过去10年，数据的获取无论是数量，还是质量，又或者是数据的种类，均增长显著，支撑着AI技术的发展。未来，数据层面的发展会有哪些趋势呢，我们来看一组分析数据。

首先，世界互联网用户的基数已达到十亿量级，随着物联网、5G技术的进一步发展，会带来更多数据源和传输层面的能力提升，因此可以预见的是，数据的总量将继续快速发展，且增速加快。参考IDC的数据报告（图1），数据总量预计将从年的33ZB（1ZB=GB），增长到年的ZB。

其次，数据的存储位置，业界预测仍将以集中存储为主，且数据利用公有云存储的比例将逐年提高，如图2、图3所示。

以上对于未来数据的趋势，可以总结为：数量持续增长；云端集中存储为主；公有云渗透率持续增长。站在AI技术的角度，可以预期数据量的持续供给是有保证的。

另一个方面，AI技术需要的不仅仅是原始数据，很多还需要标注数据。标注数据可分为自动标注、半自动标注、人工标注3个类别。

那么，标注数据未来的趋势会是怎样的？

我们可从标注数据工具市场的趋势窥探一二，如图4所示。可以看到，人工标注数据在未来的5年~10年内，大概率依然是标注数据的主要来源，占比超过75%。

通过以上数据维度的分析与预测，我们可以得到的判断是，数据量本身不会限制AI技术，但是人工标注的成本与规模很可能成为限制AI技术发展的因素，这将倒逼AI技术从算法和技术本身有所突破，有效解决对数据特别是人工标注数据的依赖。

二、算力

我们再来看看算力。算力对于AI技术，如同厨房灶台对于美味佳肴一样，本质是一种基础设施的支撑。

算力指的是实现AI系统所需要的硬件计算能力。半导体计算类芯片的发展是AI算力的根本源动力，好消息是，虽然半导体行业发展有起有落，并一直伴随着是否可持续性的怀疑，但是半导体行业著名的“摩尔定律”已经经受住了年考验（图5），相信未来5年~10年依然能够平稳发展。

不过，值得注意的是，摩尔定律在计算芯片领域依然维持，很大原因是因为图形处理器（GPU）的迅速发展，弥补了通用处理器（CPU）发展的趋缓，如图6所示，从图中可以看出GPU的晶体管数量增长已超过CPU，CPU晶体管开始落后于摩尔定律。

当然，半导体晶体管数量反映整体趋势可以，但还不够准确地反映算力发展情况。对于AI系统来说，浮点运算和内存是更直接的算力指标，下面具体对比一下GPU和CPU这2方面的性能，如图7所示。可以看出，GPU无论是在计算能力还是在内存访问速度上，近10年发展远超CPU，很好的填补了CPU的性能发展瓶颈问题。

另一方面，依照前瞻产业研究院梳理的数据，就年的AI芯片收入规模来看，GPU芯片拥有27%左右的份额，CPU芯片仅占17%的份额。可以看到，GPU已成为由深度学习技术为代表的人工智能领域的硬件计算标准配置，形成的原因也十分简单，现有的AI算法，尤其在模型训练阶段，对算力的需求持续增加，而GPU算力恰好比CPU要强很多，同时是一种与AI算法模型本身耦合度很低的一种通用计算设备。

数据结构论坛