git 历史考古分析 / 2025-10-09 → 2026-04-23 / ≈ 6.5 个月 / 438 commits

Superpowers 演变史
一份提示工程的
实证研究日志

如何用结构化语言约束 LLM 行为?这份项目的 git 日志,是一部用 6.5 个月的迭代写就的"AI 编程代理失败模式手册"。

438
commits
26
tagged releases
14
核心 skills
6
支持的 harness
80%
主作者贡献
§ 00 — Abstract

主线 ✕ 三力

几乎每一次重要修改,都对应某种真实观察到的 agent 失败模式。这不是普通的演变史,而是一部失败 → 修复 → 验证的循环日志。

A Single Through-Line

整个演变可压缩为一条核心命题:

让 agent 在面对"快速跳过工程纪律的诱惑"时,依然遵守 brainstorming → writing-plans → executing-plans → verification 的工作流。

围绕这条主线,项目内部存在三种持续拉锯的力量。每一次 commit,都是这三种力量的一次再平衡。

— 力一 —
Add structure Simplify
加结构 · 去结构
HARD-GATE / checklist / dot graph 不断在堆叠与精简之间反复。过度工程会引发简化反弹;过度简化又导致 agent 跳过流程。
— 力二 —
Subagent review Inline self-review
外审回路 · 内审自校
subagent 审查曾被认为"显然有用"。直到 5 版本 × 5 试验的回归矩阵证明它零边际价值—— 实证否决了直觉。
— 力三 —
Multi-platform Core stability
扩展平台 · 稳住核心
支持 Claude Code、OpenCode、Codex、Gemini、Cursor、Copilot 共 6 个 harness 的同时,核心 14 个 skill 不能漂移。
§ 01 — Monthly Pulse

两次心跳

活跃度有明显双高峰。第一次在创世月,定型 skills 体系;第二次在 v5 发布月,引入可视化与实证驱动的反转。

2025-10 ★
115 commits
创世 + skills 体系定型 + 心理工程奠基
2025-11
80
OpenCode 接入 + 稳定化
2025-12
37
v4.0.0 测试基础设施大爆发
2026-01
29
持续打磨
2026-02
31
Codex native + Cursor + Windows 硬化
2026-03 ★
124 commits
v5.0.0 可视化 + 审查回路实证否定 + 多平台收官
2026-04
22
收尾、Codex 同步工具完善
§ 02 — Five Stages

演变的五个章节

从混乱的第一日 → 心理工程加固 → 测试基础设施大爆发 → 多平台扩张 → 实证否定与收官。

Stage I
i.
起源与第一日的混乱
2025-10-09 ~ 10-15
7 小时内 14 commits。SessionStart hook 反复调试,persuasion research 与 TDD-for-skills 同日诞生。
Stage II
ii.
稳定化与心理工程加固
v3.1 ~ v3.6 · 约 7 周
v3.2.2 把"反 rationalization"提升为一等设计目标。OpenCode 首次跨平台支持。
Stage III
iii.
测试基础设施大爆发
v4.0.0 · 2025-12-17
39 个 commits 引入 skill 测试框架、DOT 图作为一等设计语言、HARD-GATE 机制。从直觉转向测试驱动。
Stage IV
iv.
多 harness 时代
v4.0 ~ v4.3 · 2 个月
Codex native、Gemini、Cursor 接入。Windows 兼容性持续硬化。一个 harness 接入往往需要 10-30 commits。
Stage V
v.
可视化、实证否定与收官
v5.0 ~ v5.0.7 · 2026-03~04
引入可视化 brainstorm,5 版本 × 5 试验否决了 subagent review。Copilot 收官,共支持 6 个 harness。
§ 03 — Day Zero

创世日 · 7 小时 14 commits

2025-10-09 这一天的 commit 序列,密集得像一场实况赛跑。前 40 分钟在调试 hook,晚上 10 点诞生项目灵魂。

12:57 · dd013f6
Initial commit · v1.0.0
项目诞生。
13:07 → 13:24 · 8 个 commits
SessionStart hook 的连环修复
前 27 分钟全在调试 hook —— 项目最关键的"心理触发器"机制(每次会话强制注入 bootstrap)从一开始就难以稳定。hookEventName、命令格式、变量展开、最小化 bootstrap…… 错误一个接一个。
13:26 → 13:27
第一次微观反复
Add brainstorming trigger section,紧接着 Restore mandatory brainstorming workflow —— 简化与强制的拉锯,从第一天就开始
22:10 · e3e02fe★ 项目灵魂诞生
Add persuasion research foundation and enforce TDD for skill edits
这一刻,Superpowers 与所有"AI prompt 库"分道扬镳。同一个 commit 同时引入两件事:
① Cialdini 说服心理学 —— 作为 skill 设计的理论基础
② TDD-for-skills —— 用对抗测试验证 skill 行为 从此 skill 不是文档,而是经过实证调优的行为代码。
23:02 · fc06ba4
specific instructions ≠ permission to skip workflows
已经预防一种典型的 agent 合理化模式:用户的具体请求会被解读为"绕过 skill 的许可"。这条原则将在未来 6 个月被反复引用。
§ 04 — The Definitive Reversal

实证否定一个直觉

2026-03-20 ~ 03-25。一个看似显然有用的机制,被 25 组对照试验证明零价值。这是项目工程哲学最纯粹的体现。

Most Important

subagent review loop 的实证否定

v5.0.0 引入了 spec / plan reviewer subagent。直觉上,让另一个 agent 审查计划质量"显然"有用。但作者用 5 版本 × 5 试验的回归矩阵进行了验证 ——

03-09 · 引入 reviewer 03-16 · Tone down 03-20 · Replace with inline 03-22 · Revert 03-23 · Reapply 03-23 · Revert again 03-25 · Final ★
"The subagent review loop ... doubled execution time (~25 min overhead) without measurably improving plan quality. Regression testing across 5 versions with 5 trials each showed identical plan sizes, task counts, and quality scores regardless of whether the review loop ran."
— commit e6221a4
25 min
subagent review
0 bug
30 sec
inline self-review
3-5 bugs

期间经历两次 revert 又 reapply —— 作者顶住了"恢复 subagent"的诱惑。这次反转单独就证明了项目哲学:测试 > 直觉,即使是作者自己的直觉。

§ 05 — Five Layers of Defense

反 rationalization 的五层防御

项目的核心结构:从 hook 注入,到层层心理工程屏障,直至防御外部贡献者的 AI agent。

01HOOK
SessionStart Hook
每次会话强制注入 bootstrap,agent 无法"忘记"superpowers。这是所有防御的物理基础 —— 没有它,后续所有层都无法触发。
02SKILL
using-superpowers skill
<EXTREMELY-IMPORTANT> 标签 + "1% chance" 概率提示 + "you cannot rationalize" 命令式语言。把一切合理化的可能性预先剥夺。
03FLAGS
Red Flags + Rationalization 表
各 process skill 内预先列举所有借口("too simple to need a design"、"already discussed"、"user is in a hurry" 等),逐条反驳。让 agent 在产生借口前就被拦截。
04GATE
HARD-GATE + DOT graph
结构化强制 —— 不是 "should",是 "cannot proceed without"。dot graph 比 prose 更容易被 agent 严格遵守(9d2b886 实证)。
05META
CLAUDE.md · 反 slop 治理
2026-03-31 引入,因为 v5.0.0 后 AI 灌水 PR 成灾(94% rejection rate)。第一次把心理工程武器对准外部贡献者的 AI agent —— 而不只是用户的 agent。
§ 06 — Skill Iteration

高迭代 Skills 排行

TOP 5 全部是 process skills(如何工作),而非 implementation skills(做什么)。TDD、systematic-debugging 修改最少 —— 早期定型且有效。

#
SKILL
COMMITS
主导主题
1
brainstorming
51
触发 + 强制 + 简化
2
using-superpowers
20
rationalization 防御
3
writing-plans
19
审查回路演变
4
subagent-driven-development
18
流程图化 + 上下文隔离
5
writing-skills
16
心理工程方法论
6
executing-plans
8
与 plans 协同
7
requesting-code-review
7
审查协议
8
systematic-debugging
6
skill 合并整合
9
using-git-worktrees
5
隔离机制
10
test-driven-development
4
稳定 · 早期定型
§ 07 — Platform Expansion

六个 harness 的扩展之路

每个 harness 都有自己注入 bootstrap 的最佳路径,没有"通用方案"。Windows 兼容占用了不成比例的工程时间。

CC
Claude Code
v1.0.0
2025-10-09
OC
OpenCode
v3.5.0
2025-11-23
Cx
Codex
v4.2.0
2026-02-05
Gm
Gemini CLI
v4.2 / v5.0
2026-02-05+
Cu
Cursor
v4.3.1
2026-02-21
Co
Copilot CLI
v5.0.7
2026-03-31
Principle
平台原生 > hook 注入
早期把 Claude skill 通过 hook 强行塞给 Codex。v4.2.0 意识到 Codex 有自己的 skill discovery 机制 —— 平台原生路径优先。
Cost
10-30 commits / 平台
OpenCode 单独用了 30+ commits 摸索注入路径。每加一个 harness 都要重新工程化 SessionStart 等价物。
Pain Point
Windows 占据不成比例的工程时间
shebang、PID 跟踪、grandparent 解析、hooks/run-hook.cmd …… 跨平台 server 进程管理远比想象复杂。
§ 08 — Brainstorming Skill

brainstorming 的六次重塑

最高频迭代的 skill (51 commits)。每一次迭代都对应一种 agent 行为失败,每一次失败都驱动下一次设计。

1
描述对话式流程(v1)
被跳过
2
加结构化阶段(v3.x 早期)
过度工程
3
回归对话 + 命令式触发(8e38ab8)
仍被跳过
4
HARD-GATE + checklist + dot graph(7f2ee61, v4.0.0)
prose 步骤被忽略
5
关键步骤搬到 checklist 与 diagram(9d2b886)
subagent review 时间过长
6
inline self-review + 校准(e6221a4)· 当前
30s 抓 3-5 个真 bug,远胜 25 min subagent
§ 09 — Five Verified Laws

五条经过验证的法则

从 438 个 commits 中归纳出的工程哲学。每一条都有具体 commit 作为证据。

i.
Latent Space 位置敏感性
同样一段文字,放在 description / checklist / dot graph / prose 中,对 agent 行为影响差异极大。规律:dot graph + checklist >> prose
ii.
简化与强制的拉锯
每次过度工程都会迎来一次简化反弹,但每次过度简化又会造成 agent 跳过流程。最佳点在动态平衡上
iii.
测试 > 直觉
哪怕是作者自己设计的机制,只要测试证明无价值就果断删除。回归测试矩阵(5 版本 × 5 试验)是黄金标准
iv.
Description Trap
skill 的 description 字段如果总结了 workflow,agent 会读 description 而忽略 flowchart。description 应该是 trigger,不是 summary
v.
新 harness ≠ 抽象层
每个 harness 的 bootstrap 注入路径都不同,没有"通用方案",只有平台特定的最佳路径
A One-Sentence Summary

Superpowers 不是一个 prompt 库,而是一个用 git 历史逐周记录的"如何用结构化语言约束 LLM 行为"的实证研究项目。

它的 438 个 commits 中相当一部分是负面发现("X 不起作用,删除")—— 这种对自己设计的批判性诚实,是其工程哲学的最深一层。

原文

源链接