🚀 编程Agent的演进与极简主义革命
各大CLI工具深度评测与Pi框架诞生记 · 互动式翻转卡片
👤 访谈嘉宾简介:Mario
背景: 来自奥地利,拥有深厚的游戏开发(Game Development)背景。
开源资历: 在开源社区摸爬滚打 17年 ,管理过各类大小型开源项目。
AI探索: 2025年4月前后,与业界大牛 Armin Ronacher(Flask/Sentry作者)、Peter 闭关极限编程,见证了代码Agent的爆发。
核心成就: 对现有Agent框架感到极度不满后,亲手缔造了开源极简编程Agent框架 "Pi" 。
💡 访谈核心金句 (Golden Quotes)
"The clankers can write so much code, why not just let it write all the features you could ever imagine... eventually you end up with a spaceship."
(机器员工能写这么多代码,为什么不让它把你想象的所有功能都加进去?……结果就是你最终得到了一个臃肿复杂的“宇宙飞船”。)
"If you come to a gym and don't behave and abuse the infrastructure... you're going to get banned."
(如果你去健身房却不遵守规矩,滥用基础设施……你就会被封禁。——谈及部分开源工具被大模型厂商限制的隐情。)
"Adapt your coding agent to your needs instead of the other way around."
(让你的编程Agent适应你的需求,而不是反过来被工具裹挟。)
标识说明:
客观事实/技术细节
嘉宾主观观点
优点 (Pros)
缺点/痛点 (Cons)
1. 主流Agent框架深度解剖
2. 早期工具与商业极简派
3. 核心启示:Terminal Bench
4. Pi 框架:做减法的艺术
5. 开源生态保卫战
🛸
Cloud Code
Agentic Search的开创者,却陷入了“宇宙飞船”的功能膨胀陷阱。
点击翻转查看优劣解剖 ⤻
🔍 Cloud Code 深度剖析
✅ 核心优点
开创性: 2024年底发布,2025年初大火。放弃了Cursor构建AST索引的老路,首创让大模型通过Bash和文件工具直接探索代码库。
团队极佳: 团队优秀,Anthropic生态原生模型表现极好。早期版本简单且工作流可预测。
❌ 致命痛点
功能冗余: 成了大杂烩("宇宙飞船"),用户只用5%功能,剩余90%是黑盒的"AI暗物质"。
TUI性能极差: 强行在终端用 React 渲染UI,重绘整个UI图耗时12ms导致无端闪烁。被 Ghosty 终端作者无情吐槽。
极度封闭: 零模型选择权;零扩展性(Hook系统靠启动新进程实现,开销极其高昂)。
缺乏可观测性: 为配合花哨UI,牺牲了用户对底层Agent运作的透明度,且暗中改动经常破坏原有稳定工作流。子Agent(Team mode)也缺乏可见性。
💣
Open Code
高人气的开源方案,团队务实,但在上下文工程与底层架构上存在致命硬伤。
点击翻转查看优劣解剖 ⤻
🔍 Open Code 深度剖析
✅ 核心优点
开源与务实: 纯开源路线。核心团队不炒作花哨功能,致力于维持一条极其稳定的“快乐路径(Happy Path)”。
❌ 致命痛点
摧毁Prompt Cache: 每次调用 `session_compaction.prune` 直接丢弃4万Token前的工具结果,直接导致提示词缓存失效,涉嫌滥用基础设施,引发Anthropic不满。
失败的LSP设计: 默认开启语言服务器(LSP)。修改多行代码时会产生短暂语法错误,LSP过早注入错误反馈,让LLM直接崩溃放弃 。
架构草率: 每一次对话Message都会在硬盘上单独生成一个JSON文件。
安全黑洞: 默认开启的Server架构被曝出存在严重的远程代码执行(RCE)漏洞。
🦖
早期探索:Copilot, Cursor, Aider
从复制粘贴到初具雏形的Agent工具进化史。
点击翻转查看评价 ⤻
🔍 时代眼泪与先驱
初代 GitHub Copilot:
优点: 集成在VS Code中,“敲击键盘通向幸福”。
痛点: 经常崩溃。更糟糕的是,会一字不差地默写带GPL传染协议的开源代码(例如John Carmack著名的平方根倒数算法) 。
Cursor:
痛点: 早期尝试通过构建AST(抽象语法树)来索引整个代码库,“实际上效果并不好” 。
Aider & Auto GPT:
评价: 行业先驱。Aider 是只有“白发老程序员”才懂的情怀,属于最早期的Agent尝试。
💼
商业极简派:Amp, Troy, Codex
另一条道路:拒绝功能堆砌的商业化产品表现如何?
点击翻转查看评价 ⤻
🔍 商业化工具评测
Amp:
优点: 由前 Sourcegraph 顶尖工程师团队打造。极少数敢于“做减法”的商业Agent ,产品决策极其务实,强烈推荐。
痛点: 完全没有模型选择权 ,单一任务强绑定单一模型。
Factory Troy:
优点: 相对 Amp 来说模型选择更开放一些。
痛点: 当时试用时,没有展现出明显优于 Cloud Code 的特质,缺乏极客实验精神。
Codex CLI:
评价: 早期的UI和模型表现令人反感,但近期的Codex模型能力已经变得相当出色 。
🏆
Terminal Bench的降维打击
权威评测榜单揭示了Agent的真正能力上限:复杂工具其实是伪需求。
点击翻转查看核心论点 ⤻
🔍 终极启示与两大论断
测试背景: Terminal Bench 包含 82 个涵盖计算机使用和编程的复杂任务(从修复Windows设置到编写蒙特卡洛模拟)。
榜一王者 Terminus: 得分最高的工具 Terminus 2 ,没有文件工具、没有网页搜索、没有子Agent 。
极简原理: LLM仅仅拥有一个 `tmux` 会话,只能发送击键并读取VT控制码流。
论断一(探索期): 目前业界纯粹处于“瞎折腾”阶段(Messing around & finding out)。 没有人知道完美的编程Agent长什么样。
论断二(高可塑性): 既然花哨功能并非必要,未来的工具必须具备极高可塑性(Malleable) ,让开发者能自由定义专属工作流。
🧱
Pi的极简主义架构
剥离一切冗余,构建最小可扩展核心。不要宇宙飞船,只要引擎。
点击翻转查看底层设计 ⤻
🔍 底层模块分解
模块化拆分: 包含AI包(多协议提供商适配)、Agent Core(通用循环与验证层)、Headless SDK。
超轻量UI: 纯TUI界面仅仅 600 行代码 。运行如丝般顺滑,因为“它不是由AI机器员工瞎写的代码”。
树状会话结构: 对话不是线性的!支持在任意节点开辟分支去阅读文件夹,携带总结回到根节点继续编写代码。
硬核成绩: 在未加入上下文剪裁功能的早期版本(配合Claude Opus 4.5),在Terminal Bench上紧随榜一Terminus 2之后。提供完整的 Token 与成本追踪(Cost Tracking)。
⚡
Pi的“反共识”哲学
向繁琐的System Prompt和弹窗审批说不。
点击翻转查看设计理念 ⤻
🔍 核心哲学抉择
极短系统提示词: 全网最短的System Prompt。前沿模型已经被重度强化学习(RL)训练过了,完全知道怎么写代码,天天提醒它“你是个写代码的”毫无意义。
默认 YOLO 模式: 抛弃“修改文件需用户点击Approve”的行业惯例。安全审批只会导致操作疲劳,最终用户会无脑敲回车。真正的安全应该交给容器隔离(Containerization)。
四大核心工具: 底层只保留 Read, Write, Edit, Bash 四种基本能力。Bash 就是一切的基础。
🧩
极致扩展:做减法换来的自由
原生不支持的功能,你可以用 TypeScript 在几分钟内自己写出来并热重载生效。
点击翻转查看扩展性实战 ⤻
🔍 扩展性如何碾压同行?
替代复杂方案: 不用MCP,改用 CLI+Bash;不用Sub-agent,改用原生的 `tmux` 多开;不用内置计划UI,直接让Agent写 `plan.md`。
TypeScript热重载(Hot Reload): 修改扩展代码后无需重启进程,即刻生效。
魔改底层工具: 仅花5分钟,就能覆写底层,将文件读写工具重写为基于SSH的远程操作。 五十行代码就能写出自定义权限拦截门(Permission Gates)。
生态扩展群: 支持自定义UI,例如网页内联标注并直接反馈Agent的 Pi annotate;支持群聊监听并管理多Agent的 Pi messenger;甚至还有 Pi mess 让你在等代码时打游戏。
⚔️
对抗 "AI机器人垃圾"
Rage against the clankers:当AI开始破坏开源生态,维护者该如何反击?
点击翻转查看保卫战策略 ⤻
🔍 生态防卫战
现象 (Clanker Filth & Slop): 开源项目经常遭到全自动Agent(如 Open Claw 衍生工具)生成的数百个毫无意义、充满幻觉的 Issue 和 PR 轰炸。
策略一 (OSS Vacation): “开源休假”。直接在代码库关闭 Issue 和 PR 的提交入口几周,专心写代码不受干扰。
策略二 (人工白名单验证): 在项目中建立一个 Markdown 验证文件。如果想提PR,必须先用纯人类的语气写一个极短的Issue自报家门 。审核通过进入白名单后,PR才不会被自动关闭。
生态影响: 基于这个理念,Mitchell (Ghosty作者) 开发了 vouch 工具,将其通用化,用于保护更多受害的开源仓库。