🚀 编程Agent的演进与极简主义革命

各大CLI工具深度评测与Pi框架诞生记 · 互动式翻转卡片

👤 访谈嘉宾简介:Mario

💡 访谈核心金句 (Golden Quotes)

"The clankers can write so much code, why not just let it write all the features you could ever imagine... eventually you end up with a spaceship."
(机器员工能写这么多代码,为什么不让它把你想象的所有功能都加进去?……结果就是你最终得到了一个臃肿复杂的“宇宙飞船”。)
"If you come to a gym and don't behave and abuse the infrastructure... you're going to get banned."
(如果你去健身房却不遵守规矩,滥用基础设施……你就会被封禁。——谈及部分开源工具被大模型厂商限制的隐情。)
"Adapt your coding agent to your needs instead of the other way around."
(让你的编程Agent适应你的需求,而不是反过来被工具裹挟。)
标识说明: 客观事实/技术细节 嘉宾主观观点 优点 (Pros) 缺点/痛点 (Cons)
🛸

Cloud Code

Agentic Search的开创者,却陷入了“宇宙飞船”的功能膨胀陷阱。

点击翻转查看优劣解剖 ⤻

🔍 Cloud Code 深度剖析

✅ 核心优点
  • 开创性:2024年底发布,2025年初大火。放弃了Cursor构建AST索引的老路,首创让大模型通过Bash和文件工具直接探索代码库。
  • 团队极佳:团队优秀,Anthropic生态原生模型表现极好。早期版本简单且工作流可预测。
❌ 致命痛点
  • 功能冗余:成了大杂烩("宇宙飞船"),用户只用5%功能,剩余90%是黑盒的"AI暗物质"。
  • TUI性能极差:强行在终端用 React 渲染UI,重绘整个UI图耗时12ms导致无端闪烁。被 Ghosty 终端作者无情吐槽。
  • 极度封闭:零模型选择权;零扩展性(Hook系统靠启动新进程实现,开销极其高昂)。
  • 缺乏可观测性:为配合花哨UI,牺牲了用户对底层Agent运作的透明度,且暗中改动经常破坏原有稳定工作流。子Agent(Team mode)也缺乏可见性。
💣

Open Code

高人气的开源方案,团队务实,但在上下文工程与底层架构上存在致命硬伤。

点击翻转查看优劣解剖 ⤻

🔍 Open Code 深度剖析

✅ 核心优点
  • 开源与务实:纯开源路线。核心团队不炒作花哨功能,致力于维持一条极其稳定的“快乐路径(Happy Path)”。
❌ 致命痛点
  • 摧毁Prompt Cache:每次调用 `session_compaction.prune` 直接丢弃4万Token前的工具结果,直接导致提示词缓存失效,涉嫌滥用基础设施,引发Anthropic不满。
  • 失败的LSP设计:默认开启语言服务器(LSP)。修改多行代码时会产生短暂语法错误,LSP过早注入错误反馈,让LLM直接崩溃放弃
  • 架构草率:每一次对话Message都会在硬盘上单独生成一个JSON文件。
  • 安全黑洞:默认开启的Server架构被曝出存在严重的远程代码执行(RCE)漏洞。
🦖

早期探索:Copilot, Cursor, Aider

从复制粘贴到初具雏形的Agent工具进化史。

点击翻转查看评价 ⤻

🔍 时代眼泪与先驱

  • 初代 GitHub Copilot:
    优点:集成在VS Code中,“敲击键盘通向幸福”。
    痛点:经常崩溃。更糟糕的是,会一字不差地默写带GPL传染协议的开源代码(例如John Carmack著名的平方根倒数算法)
  • Cursor:
    痛点:早期尝试通过构建AST(抽象语法树)来索引整个代码库,“实际上效果并不好”
  • Aider & Auto GPT:
    评价:行业先驱。Aider 是只有“白发老程序员”才懂的情怀,属于最早期的Agent尝试。
💼

商业极简派:Amp, Troy, Codex

另一条道路:拒绝功能堆砌的商业化产品表现如何?

点击翻转查看评价 ⤻

🔍 商业化工具评测

  • Amp:
    优点:由前 Sourcegraph 顶尖工程师团队打造。极少数敢于“做减法”的商业Agent,产品决策极其务实,强烈推荐。
    痛点:完全没有模型选择权,单一任务强绑定单一模型。
  • Factory Troy:
    优点:相对 Amp 来说模型选择更开放一些。
    痛点:当时试用时,没有展现出明显优于 Cloud Code 的特质,缺乏极客实验精神。
  • Codex CLI:
    评价:早期的UI和模型表现令人反感,但近期的Codex模型能力已经变得相当出色
🏆

Terminal Bench的降维打击

权威评测榜单揭示了Agent的真正能力上限:复杂工具其实是伪需求。

点击翻转查看核心论点 ⤻

🔍 终极启示与两大论断

  • 测试背景:Terminal Bench 包含 82 个涵盖计算机使用和编程的复杂任务(从修复Windows设置到编写蒙特卡洛模拟)。
  • 榜一王者 Terminus:得分最高的工具 Terminus 2没有文件工具、没有网页搜索、没有子Agent
  • 极简原理:LLM仅仅拥有一个 `tmux` 会话,只能发送击键并读取VT控制码流。
  • 论断一(探索期):目前业界纯粹处于“瞎折腾”阶段(Messing around & finding out)。没有人知道完美的编程Agent长什么样。
  • 论断二(高可塑性):既然花哨功能并非必要,未来的工具必须具备极高可塑性(Malleable),让开发者能自由定义专属工作流。
🧱

Pi的极简主义架构

剥离一切冗余,构建最小可扩展核心。不要宇宙飞船,只要引擎。

点击翻转查看底层设计 ⤻

🔍 底层模块分解

  • 模块化拆分:包含AI包(多协议提供商适配)、Agent Core(通用循环与验证层)、Headless SDK。
  • 超轻量UI:纯TUI界面仅仅 600 行代码运行如丝般顺滑,因为“它不是由AI机器员工瞎写的代码”。
  • 树状会话结构:对话不是线性的!支持在任意节点开辟分支去阅读文件夹,携带总结回到根节点继续编写代码。
  • 硬核成绩:在未加入上下文剪裁功能的早期版本(配合Claude Opus 4.5),在Terminal Bench上紧随榜一Terminus 2之后。提供完整的 Token 与成本追踪(Cost Tracking)。

Pi的“反共识”哲学

向繁琐的System Prompt和弹窗审批说不。

点击翻转查看设计理念 ⤻

🔍 核心哲学抉择

  • 极短系统提示词:全网最短的System Prompt。前沿模型已经被重度强化学习(RL)训练过了,完全知道怎么写代码,天天提醒它“你是个写代码的”毫无意义。
  • 默认 YOLO 模式:抛弃“修改文件需用户点击Approve”的行业惯例。安全审批只会导致操作疲劳,最终用户会无脑敲回车。真正的安全应该交给容器隔离(Containerization)。
  • 四大核心工具:底层只保留 Read, Write, Edit, Bash 四种基本能力。Bash 就是一切的基础。
🧩

极致扩展:做减法换来的自由

原生不支持的功能,你可以用 TypeScript 在几分钟内自己写出来并热重载生效。

点击翻转查看扩展性实战 ⤻

🔍 扩展性如何碾压同行?

  • 替代复杂方案:不用MCP,改用 CLI+Bash;不用Sub-agent,改用原生的 `tmux` 多开;不用内置计划UI,直接让Agent写 `plan.md`。
  • TypeScript热重载(Hot Reload):修改扩展代码后无需重启进程,即刻生效。
  • 魔改底层工具:仅花5分钟,就能覆写底层,将文件读写工具重写为基于SSH的远程操作。五十行代码就能写出自定义权限拦截门(Permission Gates)。
  • 生态扩展群:支持自定义UI,例如网页内联标注并直接反馈Agent的 Pi annotate;支持群聊监听并管理多Agent的 Pi messenger;甚至还有 Pi mess 让你在等代码时打游戏。
⚔️

对抗 "AI机器人垃圾"

Rage against the clankers:当AI开始破坏开源生态,维护者该如何反击?

点击翻转查看保卫战策略 ⤻

🔍 生态防卫战

  • 现象 (Clanker Filth & Slop):开源项目经常遭到全自动Agent(如 Open Claw 衍生工具)生成的数百个毫无意义、充满幻觉的 Issue 和 PR 轰炸。
  • 策略一 (OSS Vacation):“开源休假”。直接在代码库关闭 Issue 和 PR 的提交入口几周,专心写代码不受干扰。
  • 策略二 (人工白名单验证):在项目中建立一个 Markdown 验证文件。如果想提PR,必须先用纯人类的语气写一个极短的Issue自报家门。审核通过进入白名单后,PR才不会被自动关闭。
  • 生态影响:基于这个理念,Mitchell (Ghosty作者) 开发了 vouch 工具,将其通用化,用于保护更多受害的开源仓库。

原文

源链接