AI大模型应用专题国内AI大模型趋势探讨,互联网大厂AI进程梳理 - 数据

TUhjnbcbe - 2025/7/31 17:46:00

（报告出品方：国信证券）

大模型技术本质上来源于科研创新与技术积累

海外大厂核心大模型的能力迁移是国内AI发展的重要考量。考察是否有海外大厂核心大模型研发的技术积累和知识迁移到国内，以及这些技术在本土的应用情况和调整，对理解国内外AI技术的差异和互动具有重要意义。

国内企业大模型技术路线有两类：①自研效果复现类：参考GPT论文自研复现效果，前期耗时、后续Finetuning对于数据数量质量也有一定要求，能力天花板高；②基于开源迭代类：训练更顺畅但天花板低，依赖开源社区，且开源模型如Llama2比较GPT3.5还是有差距。

国内企业大模型团队发展路径有两类：①从搜广推背景转向大模型研发，如百度和百川；②成立之初主要基于大模型研究路线和学术背景，如月之暗面的杨植麟团队和清华的智谱团队。

基于开源大模型框架进行优化调整、应用创新较易落地

OpenAI的核心能力主要体现在三个方面：1）数据收集和处理的能力，包括数据来源，清洗方式，数据结构等；2）模型结构，包括注意力、隐藏层等设计；3）训练方法，包括各类超参数，学习率等。海外大模型开源后，我国大模型企业可在其框架上进行优化调整，以百川智能为例：

基于开源模型提升性能：据GitHub，百川智能通过对LLaMA框架进行修改以提升训练时的吞吐。此外，在LLaMA较为薄弱的中文语料方面，百川智能采用万条以中英为主的多语言语料训练分词模型，显著提高中文的压缩率。

大模型+搜索增强解决方案服务B端场景：百川智能通过借助搜索增强，解决大模型在幻觉和时效性问题，提升了模型的可用性，并拓展了应用领域，如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等。

高质量训练数据促进大模型技术的提升，但优质数据集稀缺

有效数据集有限，优质数据集仍旧稀缺。当前开源榜单公开训练数量级，现有常见的大模型训练数据集往往在几十到几百B的量级，优质的数据集可能就只有-Btoken，进化到多模态数据量有所增加，但总量也不多。有的模型会用万亿级别的数据token训练，但很多数据其实是无效的。

大模型的未来发展依赖于训练数据集的质量，而非仅仅是数量。根据ScalingLaw，Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量，性能与这三个因素之间存在幂律关系，且趋势跨越多个数量级，而对其他架构细节（如网络深度或宽度）的依赖相对较小。未来的大模型可能会经历增长飞轮效应，但关键在于训练数据集的质量。这强调了选择和使用高质量数据的重要性，而不仅仅是追求数量。单纯的用户数据上不一定会产生飞轮效应，比如某些用户数据目前只具备统计学的能力，能够发现逻辑、数学的问题还需要找逻辑、数学数据集去优化。

AI技术将更大范围的数据带入分析领域，

数据结构论坛