2025 AI 现状实证研究报告

基于 OpenRouter 平台 100 万亿 Token 的全景分析
a16z & OpenRouter 发布时间:2025.12 数据周期:2024.11 - 2025.11
范式转移:从“生成”到“推理”
+

2024年12月5日 o1 模型的发布是真正的分水岭。AI 领域从单次前向传递(Single-pass)转向了多步深思熟虑(Multi-step deliberation)。

数据
>50% 的流量现在流向了经过推理优化的模型(Reasoning Models)。 与此同时,平均 Prompt(输入)长度增长了 4倍,Output(输出)长度增长了 3倍
核心观点
代理式推理 (Agentic Inference) 已成主流: 用户不再只是问一个简单的问题,而是提供代码库、长文档,要求模型进行规划、工具调用(Tool Use)和迭代修正。模型正在从“聊天机器人”演变为“分析引擎”。
📊
市场格局:开源崛起与中型模型
+

闭源模型仍占据主导,但开源模型(OSS)特别是中国模型的增长不容忽视。

份额
闭源模型 (OpenAI, Anthropic) ~70%
全球开源 (Llama, Mistral) ~17%
中国开源 (DeepSeek, Qwen) ~13%
趋势
中型即新型 (Medium is the New Small): 原本的小模型(<15B)使用率下降。市场向 15B-70B 参数量的中型模型集中(如 Qwen 32B, GPT-OSS 20B)。这一区间在能力与推理成本之间找到了最佳平衡点(Model-Market Fit)。
🎮
使用场景:不仅仅是生产力
+

如果你认为 AI 只是用来写代码和写邮件的,数据会反驳你。

开源模型主战场

  • 角色扮演 (Roleplay): 占比 >50%。用户寻求无审查、富有创造力的叙事体验。
  • 编程辅助: 本地部署或低成本调用的首选。

闭源模型主战场

  • 专业编程: Claude 系列占据该领域 >60% 份额。
  • 高精知识: 科学、法律等对幻觉零容忍的领域。
启示
娱乐需求被低估: 角色扮演的巨大流量证明了 AI 在情感陪伴、游戏和创意写作中的潜力。这是消费级应用的金矿。
💰
重点分析:成本与使用的二元结构
+

市场并未像预期的那样完全“商品化”(即价格决定一切)。相反,我们观察到了基于任务性质的清晰分层。价格弹性在微观层面表现出极大差异。

宏观
整体需求缺乏价格弹性。简单地将价格降低 10%,并不会带来 10% 的使用量增长——除非你的模型达到了某种能力阈值
AI 模型市场的四象限图 (对数坐标)
高用量 / 低成本
高效巨人类 (Efficient Giants)
通过极低成本和足够好的性能,捕获了海量自动化、长文本和脚本流量。存在“杰文斯悖论”效应:越便宜,用得越多。
DeepSeek V3
Gemini Flash
Qwen 2.5
高用量 / 高成本
溢价领袖类 (Premium Leaders)
尽管价格昂贵($2-$30/1M Tokens),但因其推理能力和可靠性,仍被大规模用于关键业务代码、架构设计和复杂科研。
Claude 3.7 Sonnet
GPT-5
o1
低用量 / 低成本
长尾商品类 (Long Tail)
廉价但缺乏分发渠道或核心竞争力。仅在某些极其细分的低价值场景中使用。
Small OSS Models
Older Models
低用量 / 高成本
利基专家类 (Specialized Experts)
高风险、低频次任务。用户愿意为了一次完美的金融分析或医疗诊断支付高昂费用,但总调用量不大。
GPT-4 Legacy
Domain Finetunes
深度解析
  • 特例 - "Technology" 类别: 唯一的既昂贵又高频的类别。这代表了系统架构设计等高价值任务,用户愿意为此支付溢价。
  • 二元对立: 企业在关键任务上对价格不敏感(只选 Premium Leaders);但在流水线任务上对价格极度敏感(涌向 Efficient Giants)。
  • 开源的胜利: 开源模型通过占据“左上角”(高效巨人)象限,成功从闭源模型手中夺走了大量低价值但高频次的处理任务。
👠
用户留存:辛德瑞拉“水晶鞋”效应
+

什么是“水晶鞋”效应?

报告发现,用户留存率并非线性变化,而是取决于“模型-工作流契合度” (Workload-Model Fit)

当一个新模型(如 o1 或 Claude 3.5)发布时,如果它率先解决了某个之前无法解决的痛点(就像水晶鞋完美契合灰姑娘的脚),这批早期用户就会形成“基础群组” (Foundational Cohorts)

关键结论: 这批用户的留存率极高,几乎不会流失。因为他们的业务逻辑已经基于该模型构建。后续模型即使更便宜,也很难撬动他们(切换成本 > 价格差异)。

怪象
DeepSeek 的“回旋镖”效应: 数据显示 DeepSeek 的用户群组出现了罕见的“回流”现象。用户尝试了其他模型后,因为性价比或特定能力的缺失,又重新回到了 DeepSeek。这证明其在特定生态位中具有不可替代性。

原文

翻译版

相关链接

源链接

附件

中文PDF (3.9M)

下载