深度访谈：李飞飞谈空间智能与World Labs

李

李飞飞 (Fei-Fei Li)

World Labs 联合创始人 | 斯坦福教授

Jeetu Patel

Cisco 执行副总裁 | 访谈主持人

🗝️ 核心概念・知识翻转

(点击卡片查看深度解析)

进化论视角

为什么是“空间智能”？

Click to Flip

5亿年前的起源

李飞飞指出，生物进化的“军备竞赛”始于5亿年前的感知能力（视觉/触觉），而非语言（仅50万年）。能够理解、推理并在3D/4D世界中互动的能力，是智能的真正基石。

Marble 模型

World Labs 首代产品

Click to Flip

不仅仅是视频生成

不同于普通视频模型，Marble 生成的是具有永久一致性 (Permanently Consistent) 和几何结构的完全交互式 3D 世界。它是一个“前沿模型”，支持多模态输入（文本/图/视频）转 3D 环境。

AI 发展的双刃剑

对当前舆论的批判

Click to Flip

拒绝两极化

李飞飞对当前“科技乌托邦”与“世界末日”的两极化讨论感到担忧。她强调技术是双刃剑，关键在于人类的主观能动性 (Agency)。不要为了“点击率 (Clickbaits)”而牺牲细致、仁慈的讨论。

成功的定义

文明层面的视角

Click to Flip

类比电力革命

借用150年前的电力类比，AI 成功的标志不是技术参数，而是文明的提升：温暖的家、明亮的学校、延长的寿命，以及每个人有尊严地追求幸福的权利。

混合数据策略

解决 3D 数据稀缺

AI Engineering

Click to Flip

Hybrid Strategy

物理世界数据（像素/体素）混乱且稀缺。策略：
1. 互联网文本/视频数据。
2. 合成数据 (Synthetic Data)。
3. 真实世界采集（类似自动驾驶）。
形成“生成-训练”的飞轮效应。

机器人 vs 汽车

维度与复杂度的差异

Robotics Eng

Click to Flip

为什么这么难？

自动驾驶汽车是“在2D平面上移动的方形机器人”，目标是不碰东西。通用机器人是在3D空间操作，目标是接触并操作物体且不损坏它们。这在感知和灵巧度上是更高维度的挑战。

📝 深度访谈纪要

1. World Labs 的使命：空间智能

李飞飞介绍了她成立两年的公司 World Labs。目前她每天只思考一件事：空间智能 (Spatial Intelligence)。

演化论据： 语言（Language）在进化史上非常年轻，而感知（Perception）驱动了神经系统的早期发展。要在物理世界中生存，理解3D空间是基础。
产品现状： 发布了名为 Marble 的模型。尽管仍处于第一代，但已被视为该领域的最先进水平 (State-of-the-Art)。

2. 意想不到的应用场景 (Use Cases)

除了预期的机器人训练、游戏开发和虚拟制片（VFX），Marble 激发了一些令人惊讶的垂直领域应用：

🧠 临床心理健康： 研究人员使用 Marble 为强迫症 (OCD) 患者生成特定的“触发环境”。李飞飞举例说，有人可能被“脏衣服 (Dirty Laundry)”触发，医生可以生成个性化的脏衣服场景进行暴露疗法。
🧘 个人健康： 生成个性化的瑜伽或健身环境。
🏗️ 广泛的企业端应用： 农业、制造业、仓储、城市规划、金融服务及教育。

AI Software Engineering & Scaling

3. 技术深潜：算力、数据与缩放定律

算力规模对比：

Jeetu 询问了 World Models 的计算强度。李飞飞透露，目前 Marble 的训练算力比顶级 LLM（如 GPT-5，约 10²⁶ FLOPS）要小几个数量级。原因在于空间智能模型的研究比 Transformer（2016年提出）晚了约 10 年，目前仍处于“科学去风险 (De-risk)”的早期阶段，但即将迎来 Scaling Law 的爆发。

数据工程挑战：

与纯文本不同，物理世界的数据（Pixels/Voxels）非常混乱 (Messy)。World Labs 采用混合数据策略：

利用互联网数据： 文本、图像、视频。
合成数据： 模型生成的模拟数据反哺训练。
真实世界捕捉 (Real-world Capture)： 类似于 Waymo/Tesla 收集路测数据，必须投资于物理数据的采集。

4. 机器人领域的现实检验 (Reality Check)

作为掌管斯坦福机器人实验室十余年的科学家，李飞飞对通用机器人保持谨慎乐观：

时间线回顾： 2006年 Sebastian Thrun 团队的自动驾驶车在内华达沙漠跑了 138 英里，人们以为自动驾驶即将实现。然而直到去年，Waymo 才真正规模化上路。这中间有 20 年的工程鸿沟。
难度分析： 相比汽车（2D 避障），人型机器人需要处理灵巧手 (Dexterity)、精细视觉和复杂的物理交互，这是一个漫长的征程。
态度： 科学家不应过度承诺 (Overpromise)。

"Don't just optimize for clickbaits. Let's be benevolent. Let's have the optimism of using technology for good, but the sense of responsibility of using it responsibly."
—— 别只为了点击率优化。让我们心存善意，保持技术向善的乐观，同时肩负责任。

🔮 总结

访谈最后，李飞飞重申 World Labs 是一家面向企业 (Enterprise-facing) 的公司，欢迎各行各业（从医疗到农业）的合作伙伴共同探索空间智能的边界。她希望在未来几年，AI 的讨论能从两极分化的争吵转向更具建设性的、关于人类福祉的实际行动。

Cisco AI Summit 访谈摘要

李飞飞 (Fei-Fei Li)

Jeetu Patel

🗝️ 核心概念・知识翻转

进化论视角

Marble 模型

AI 发展的双刃剑

成功的定义

混合数据策略

机器人 vs 汽车

📝 深度访谈纪要

1. World Labs 的使命：空间智能

2. 意想不到的应用场景 (Use Cases)

3. 技术深潜：算力、数据与缩放定律

4. 机器人领域的现实检验 (Reality Check)

🔮 总结

原文