2025年中期大语言模型市场更新:基础模型格局与经济学

随着使用量和支出激增,新的企业级大语言模型领导者已经出现

2025年7月31日

作者:Tim TullyJoff RedfernDeedy DasDerek Xiao

基础模型不仅仅在驱动生成式人工智能,它们正在塑造计算的未来。随着其能力和经济学的发展,基于它们构建的系统、应用程序和行业也将随之发展。

当我们在去年11月发布Menlo Ventures的《2024年:生成式AI在企业中的现状》报告时,关于这个基础层的几个关键问题仍然没有答案:

六个月后,数据讲述了一个更清晰的故事:

模型API支出在这个短暂的时期内增长了一倍多——从35亿美元(我们去年估计的总计138亿美元生成式AI支出中)跃升至84亿美元。企业正在增加生产推理而不仅仅是模型开发,这标志着与往年的转变。

代码生成已成为AI的第一个突破性用例。除了预训练之外,基础模型现在正沿着第二个轴进行扩展:带验证器的强化学习。虽然开源继续进步,但西方实验室前沿突破的放缓已经缓解了之前企业采用的上升。因此,企业资金现在正在围绕几个高性能的闭源模型进行整合,给了我们一个新的市场领导者——Anthropic

为了捕捉当前大语言模型市场的现状,我们调查了超过150名技术领导者,涵盖了正在构建AI应用程序的初创公司和企业,调研现代AI堆栈基础层的情况:谁在获得市场份额,什么在生产中运行,以及影响整个堆栈的选择标准。

以下是我们了解到的情况:

Anthropic在企业使用量上超越OpenAI

到2023年底,OpenAI占据了企业大语言模型市场50%的份额,但其早期领先优势已经被侵蚀。今天,它仅占企业使用量的25%——是两年前的一半。

Anthropic是企业AI市场的新头号玩家,占32%,领先于OpenAI和Google20%),后者在最近几个月表现出强劲增长。MetaLlama9%,而DeepSeek尽管在年初备受瞩目地推出,但仅占1%

推动Anthropic登上大语言模型排行榜榜首的动力始于2024年6月Claude Sonnet 3.5的发布。2025年2月Claude Sonnet 3.7的发布加速了这一势头,该版本首次真正展示了以代理为中心的大语言模型。到2025年5月,Claude Sonnet 4Opus 4Claude Code巩固了Anthropic的领先地位。

推动Anthropic势头的三大行业定义趋势:

  1. 代码生成成为AI的第一个杀手级应用
    Claude迅速成为开发者代码生成的首选,占据42%市场份额,是OpenAI(21%)的两倍多。仅在一年内,Claude帮助将一个单一产品空间(GitHub Copilot)转变为一个19亿美元的生态系统。2024年6月Claude Sonnet 3.5的发布展示了模型层的突破如何推动应用市场,使全新的类别成为可能,如AI IDE(CursorWindsurf)、应用构建器(LovableBoltReplit)和企业编码代理(Claude Code、All Hands)。
  2. 带验证器的强化学习是扩展智能的新路径
    在2024年,扩展智能的主要方式是用越来越多的数据预训练越来越大的模型。互联网数据的规模现在正成为一个限制因素。使用可验证奖励的强化学习(RLVR)的后训练是推动极限的下一个解锁。这种策略在像编码这样更容易确定性验证的领域特别有效。
  3. 将模型训练为使用工具的"代理"使它们更加有用
    大语言模型最初被设计为在单一响应中提供完整答案。然而,使它们能够逐步思考、推理问题,并在多个交互中使用外部工具——创建所谓的代理——使它们对现实世界应用程序更加有效。2025年已被称为"代理之年"。Anthropic在训练模型迭代改进其响应并通过MCP(模型上下文协议)集成搜索、计算器、编码环境和其他资源等工具方面领先,显著提升了其能力和用户采用率。

开源在企业中的采用趋于平缓

今天13%的AI工作负载使用开源模型,比六个月前的19%略有下降。市场领导者仍然是Meta广受欢迎的Llama模型,尽管4月份的Llama 4发布在现实世界环境中表现不尽人意。

市场仍然活跃,在过去六个月中出现了来自DeepSeek(V3、R1)、字节跳动Seed(豆包)、Minimax(Text 1)、阿里巴巴(Qwen 3)、月之暗面(Kimi K2)和智谱AI(GLM 4.5)的显著发布。您可以在OpenRouter上通过一个API尝试所有这些。

开源模型提供明显的企业优势:更大的定制化、潜在的成本节约,以及在私有云或本地环境中部署的能力。但尽管有这些优势和最近的改进,开源模型在性能方面仍然落后于前沿闭源模型9到12个月。

这种性能差距,加上部署开源模型的技术复杂性以及企业不愿使用来自中国公司的API——这些公司产生了许多最近表现更好的开源模型——导致了市场份额的停滞。

这不仅仅是企业的情况。出于这些原因,更少的初创公司采用开源模型。正如一位受访者所说:

"目前,我们100%的生产工作负载都在闭源模型上运行。我们最初从Llama和DeepSeek开始做概念验证,但随着时间的推移,它们无法跟上闭源的性能。"

企业为性能而非价格切换模型

在供应商之间切换相对容易,但越来越罕见。大多数团队与他们的提供商保持合作,只是在新模型可用时升级到最新模型。一旦构建者承诺一个平台,他们倾向于留下来,但在发布更新、更高性能的模型时会迅速升级。

根据我们的调查:66%的构建者在其现有提供商内升级了模型,而23%在过去一年中根本没有切换模型。只有11%切换了供应商。

性能驱动决策。构建者一致选择前沿模型而非更便宜、更快的替代方案。他们优先考虑并为性能付费。当新模型发布时,切换在几周内发生。例如,在Claude 4发布的一个月内,Claude 4 Sonnet占据了Anthropic用户的45%,而Sonnet 3.5的份额从83%下降到16%

这创造了一个意想不到的市场动态:即使单个模型的价格下降10倍,构建者也不会通过使用旧模型来获得节省;他们只是大规模转移到性能最佳的模型。

AI支出从训练转向推理

计算支出正在稳步从构建和训练模型转向推理,即模型在生产中实际运行。这种转变在初创公司中最为明显:74%的构建者现在表示他们的大部分工作负载是推理,比一年前的48%有所上升。大型企业也不甘落后。近一半(49%)报告说他们的大部分或几乎所有计算都是推理驱动的——比去年的29%有所上升。

我们从这里走向何方

预测AI的未来可能是愚人的差事。市场每周都在变化,有令人兴奋的新模型发布、基础模型能力的进步和成本的急剧下降。然而,已经变得清楚的是,条件已经成熟,可以在今天的基础构建块之上构建新一代持久的AI业务。

在Menlo Ventures,我们多年来一直与在AI基础设施层构建的创始人合作,包括AnthropicCleanlabGoodfireMercorOpenRouterPineconeUnstructured。如果您正在为AI时代创建基础设施、工具和应用程序,我们很乐意听取您的意见。


注释:

  1. 我们的大语言模型市场规模估算排除了前沿AI实验室从面向消费者的产品(如ChatGPT)或企业应用程序(如Claude for Work和Claude Code)获得的收入。在我们2024年11月的报告中,我们估计这个市场的规模为35亿美元,是在基础模型、模型训练、AI基础设施和应用程序上总计138亿美元生成式AI支出的一部分。
  2. 本报告总结了对150名构建AI应用程序的企业和初创公司技术决策者进行的调查数据,调查时间为2025年6月30日至7月10日。企业定义为拥有5000名或以上员工的组织。样本中包含的初创公司至少筹集了500万美元的风险投资资金。基于这些基础数据,我们叠加了我们作为该领域积极投资者的观点和见解。
  3. 大语言模型市场份额反映的是生产AI使用量的比例,而非支出。调查受访者报告了使用每个模型的AI工作负载份额。响应根据每个企业和初创公司应用程序的规模进行加权。
  4. 来源:Menlo Ventures的《2024年:生成式AI在企业中的现状》,2024年11月

*由Menlo Ventures支持

原文

2025 Mid-Year LLM Market Update

相关链接

Menlo Ventures AI报告