📅 2026年1月 👤 黄东旭 ⚠️ 认知有效期:1个月

Vibe Engineering

从“玩具”到“工业级 Infra”。TiDB Postgres 重写项目已接近生产级水平。
核心论点:重点已不再是代码 (Vibe Coding),而是更高维度的工程能力。

📉
认知的极速贬值

当前的 SOTA (State of The Art) 下个月即过时。DHH, Linus 等大佬于 2025.12 纷纷改口,承认 AI 编程工具的跳跃式进步。

核心突破点:
  • 长上下文召回: GPT-5.2 在 >256K 窗口下,3轮以上推理召回率仍 >70% (旧模型降至 12.5%)。
  • 大局观: 使得 100% 无人工干预的 Agentic Loop 成为可能。
🦀
Rust:唯一的正确选择

Infra 项目首选 Rust。Python/Shell 在项目变大后维护性剧降。

Rust 的严谨性帮助 AI 写出 Bug Free 代码。

为什么 AI 偏爱 Rust?
相比于动态语言,Rust 严格的编译器就像一个不仅能发现错误还能指导 AI 修正的“围栏”。这极大地提高了 AI 生成 Infra 代码的成功率和稳定性。

🤖 必须雇佣最强模型 (Hire the Best)

拒绝 $20/月 的入门模型。在复杂 Infra 开发中,差距是毁灭性的。

Opus 4.5

性格: 话唠,手快,诚实。

✅ 解决 Sonnet 4 作弊通过测试的问题。
❌ 思考时间太少,需用 Ralph-loop 强制反思。

GPT-5.2 (xhigh)

性格: 谨慎,深沉,慢。

✅ 真正的深度思考 (xhigh),前期读文档可能花1-2小时。
✅ 代码稳定性、大局观最强。

Gemini 3 Pro

性格: 炫酷,多模态。

✅ 前端 Demo / 原型制作王者。
❌ 复杂后端任务表现一般。

反直觉事实: AI 更擅长搞后端 Infra 代码,而不是简单的 CRUD。因为 Infra 有清晰的抽象和高质量的测试,适合 AI 发挥高智商。

🛠️ Vibe Engineering 核心工作流

1
需求提出 (Role Play)
人类很难准确描述需求。
技巧: 让 AI 扮演资深用户/开发者,列出高 ROI 功能列表,人类再进行打磨。这是高效冷启动的关键。
2
规划 (Planning)
不要给具体方案,只给基础设施约束。强制 Agent 维护以下文件:
  • work.md / todo.md:任务列表。
  • agents.md:经验教训 (Memory)。
  • .codex/knowledge:设计文档沉淀。
3
调研与实现 (Zero Human Intervention)
人类介入:0%。 给予无限预算和时间,开启 xhigh 模式。
⚠️ 要么全自动,要么全手动,切忌混合操作。
4
测试与验收 (人类主战场)
人类精力占比:90%。
There's a test, there's a feature. AI 擅长单测,但不擅长集成测试。
关键动作: 开工前,先准备好一键运行的集成测试框架和用例,写入 agents.md
5
重构与拆分
单模块 > 50k 行代码是临界点。AI 无法一次性解决,会造成债务爆炸。
人类需介入进行架构拆分和重构。
🧬
多 Agent 协同 (Multi-Agent)

不要让同一个模型既当运动员又当裁判。

最佳实践流水线
  1. GPT-5.2 (Codex):出设计文档。
  2. GPT-5.2:实现代码,记 Todo。
  3. ⏸️ 暂停提交
  4. Claude (Opus 4.5):在无上下文状态下 Review 代码 (盲评)。
  5. GPT-5.2:根据意见修改。
  6. 提交 Git:使用 Git Worktree 并行开发不同模块。
🏢
One-Man Army 与组织形态
Token 消耗 ∝ 产出质量

头部 20% 工程师消耗 80% 的 Token,产出是普通人的 10x。

头狼理论:

顶尖 Vibe Coder 都有独特的私有工作流,很难在同一代码库紧密协作。

管理者新职责: 资源调度与冲突隔离。切分清晰的“领地”,让头狼带领各自的 Agent 群独立作战。

“对于具体造物的 Builder,这是最好的时代;对于抽象的人类,我们是否准备好面对冲击?我不知道。”

原文

源链接