深度访谈摘要与核心判断分析:李想谈AI

受访者:李想 (理想汽车创始人、董事长兼 CEO)

访谈嘉宾:小俊 (主持人)

第一部分:访谈核心摘要 (交互式)

软件工程与AI的深度融合

AI作为生产力工具 (AI as a Production Tool)

  • 核心标准: AI要成为生产工具,必须具备 Action (行动)能力,实现“知行合一”,而不仅是提供信息。用户愿意为之付费是重要衡量标准。
  • 编程工具案例: 编程辅助工具 Cursor 被工程师认为是初级的生产工具,员工自愿付费使用,显著提升了开发效率。

构建VLA模型的工程实践 (Engineering VLA Models)

三阶段训练法:

  1. 预训练 (Pre-training): 训练一个 32B 参数的云端VL(视觉-语言)基座模型,融合3D/2D视觉数据、交通专用语言数据和VL联合数据。
  2. 模型蒸馏 (Distillation): 将云端大模型蒸馏成一个 3.2B 参数、包含8个专家的 MOE 架构的端侧模型,以满足车载芯片的实时性要求。
  3. 后训练与强化 (Post-training & RL):
    • 模仿学习: 类似驾校学车,让模型学会Action,此时模型规模扩展至约 4B
    • 强化学习 (RLHF): 通过人类反馈(如接管数据)进行安全和习惯对齐,使其驾驶行为“像一个职业司机”,而非“赛车手”。为此专门成立了百人规模的“超级对齐”团队。

底层软件工程的挑战与实践

  • 硬件适配与编译优化: 由于NVIDIA Orin芯片原生不支持语言模型,理想的编译器团队自主编写底层软件,实现了用 INT4 的方式运行VLM,这与DeepSeek做 FP8 优化的工程思路异曲同工。
  • 系统架构: 设计了“中央大脑 + 分脑”的分布式计算架构,以平衡集中计算和实时传输效率,而非单一的中央计算。
  • 世界模型与仿真测试: 构建了高度仿真的交通世界模型用于“考试”和生成强化学习数据,将每 1万公里 的验证成本从 18万 元降低到 4000 元,大幅提升了算法迭代和验证的效率。

新范式:Agent OS

  • 理念: 通用Agent的更优形态是 Agent OS。这是一个平台,让不同领域的专业人员可以在上面开发自己专用的Agent。
  • 内部实践: 计划由基础模型、操作系统和智能商业三个团队联合打造内部的Agent OS,赋能客服、销售、研发等团队开发自己的专业Agent,例如“电话专家Agent”或“编程Agent”。

组织与效率变革

  • 小团队高效率: 理想的端到端智驾团队仅 200 人,与特斯拉规模相仿,而业界采用规则算法的团队规模则高达 2000-6000 人。这体现了AI原生开发模式对组织效率的颠覆。
  • 研究驱动: AI时代,研究=能力。认知可以直接转化为模型能力,因此强调研究的重要性,并大胆启用年轻人和校招生进行前沿探索,避免被过往经验束缚。

(注:访谈中的“Minus”、“Deepmind”在特定语境下可能指代“Minos”或“DeepSeek”,已根据上下文进行修正和解读。)

智能驾驶的技术演进与VLA架构

智能驾驶的三个阶段类比:

  1. 规则算法时代: 像“昆虫智能”,依赖固定规则和高精地图,泛化能力差。
  2. 端到端+VLM时代: 像“哺乳动物智能”,通过模仿学习人类行为,但对物理世界理解不深。
  3. VLA (Vision-Language-Action) 时代: 像“人类智能”,能真正理解物理世界和语言指令,并作出行动,是“司机大模型”。

VLA的核心优势: 解决了端到端模型无法处理的复杂Corner Case(如复杂修路)和与人的自然语言交互问题。它不仅能看懂物理世界,还能看懂导航地图等软件界面。

L3/L4展望: 当前车载算力是瓶颈,基本是L3水平。实现L4需要端侧能运行更大规模的模型(如 32B 级别)。预计今年三、四季度能看到L3能力的产品。

理想的战略定位:人工智能终端公司

公司新定位: 成为全球领先的“人工智能终端企业”。

战略思考: 对比PC时代(微软vs苹果)和移动互联网时代(谷歌vs苹果),李想认为在涉及生命和财产安全的物理世界,软硬件一体的“终端企业”模式将比“平台企业”模式更具优势。

AGI终端的四大特征:

  1. 360度物理世界感知能力
  2. 认知决策能力
  3. Action执行能力(控制机器或软件)
  4. 反思反馈能力

未来布局: 在汽车这个最大的AI终端之外,未来可能会在家庭、工作等场景中,探索符合以上四个特征的新型AGI终端产品。

组织、能量与成长

能量场理论: 一个高效的组织核心在于构建“能量场”。3-7人 的小团队能形成最稳固的支撑结构,共同组成“更强的大脑”(集体思考)和“更强的心脏”(相互支撑)。

亲密关系的重要性: 能量的来源是关注人,尤其是亲密关系(家庭、核心同事)。核心在于建立“我需要你,甚至超过你需要我”的心态,这会激发主动性和正向连接。

成长驱动力: 个人和组织的终极驱动力是“掌控自己的命运,挑战成长的极限”。通过不断学习和成长来增强能力,最终实现用户价值和商业价值。

智慧与智能: 人工智能解决的是“智能”问题,而人类需要发展“智慧”。智慧是处理与自己、与他人、与万物之间“关系”的能力。AI的发展,要求人类更加关注智慧的提升。

第二部分:深度剖析 —— 李想对人工智能的核心判断

通过本次深度访谈,我们可以清晰地勾勒出李想对人工智能的系统性思考。他的判断并非源于纯粹的技术理想主义,而是植根于产品经理的思维、企业家的战略远见和对物理世界工程实践的深刻理解。其核心思想呈现出高度的实用主义、对垂直整合的信念以及人机协同的终极愿景。

判断一:实用主义至上 —— AI必须成为“生产工具”
判断二:垂直整合与专业化 —— “Agent OS”而非“通用Agent”
判断三:人机协同的新范式 —— “人类智慧”与“AI智能”的分工
判断四:工程为王 —— 从底层构建全栈能力
判断五:终极形态的预判 —— AI将以“终端”形态赢得物理世界

总结而言,李想对人工智能的判断是高度务实且极具野心的。他摒弃了关于AGI的空泛讨论,将焦点牢牢锁定在“创造价值”这一商业本质上。他认为AI的落地需要深厚的工程积累和垂直领域的专业化,同时又将人机关系提升到了“智能”与“智慧”协同共生的哲学高度。最终,他为理想汽车选择了一条类似苹果的“终端”之路,这是一条更艰难但可能在物理世界中更具统治力的道路。这一系列判断共同构成了一个清晰、自洽且可执行的战略蓝图。

原文

源链接