Andrej Karpathy - LLM 知识库及其深度解析

LLM 知识库 最近我发现一个非常有用的方法：使用 LLM（大语言模型）为各种研究兴趣主题构建个人知识库。这样一来，我最近消耗的大量 token 不再仅仅用于处理代码，而是更多地用于处理知识（以 markdown 和图片的形式存储）。最新的 LLM 在这方面表现非常出色。具体流程如下： 数据摄入 (Data ingest): 我将源文件（文章、论文、代码库、数据集、图片等）索引到一个 raw/（原始数据）目录中，然后使用 LLM 增量式地“编译”出一个 wiki，它本质上就是目录结构中的一组 .md 文件集合。该 wiki 包含 raw/ 目录中所有数据的摘要、反向链接，然后它将数据按概念分类，为它们撰写文章，并将它们全部链接起来。为了将网络文章转换为 .md 文件，我喜欢使用 Obsidian Web Clipper 浏览器扩展，同时我还使用快捷键将所有相关图片下载到本地，以便我的 LLM 可以轻松引用它们。 集成开发环境 (IDE): 我使用 Obsidian 作为 IDE 的“前端”，在这里我可以查看原始数据、编译后的 wiki 以及衍生的可视化内容。需要重点指出的是，LLM 负责编写并维护 wiki 的所有数据，我很少直接去碰它。我也尝试了一些 Obsidian 插件，以其他方式渲染和查看数据（例如用于幻灯片的 Marp）。 问答 (Q&A): 有趣的地方在于，一旦你的 wiki 足够大（例如，我最近关于某些研究的 wiki 大约有 100 篇文章和 40 万字），你可以向你的 LLM 智能体提出针对该 wiki 的各种复杂问题，它会去研究答案等等。我本以为我必须求助于花哨的 RAG（检索增强生成）技术，但 LLM 在自动维护索引文件和所有文档简短摘要方面表现得相当不错，并且在这个相对“较小”的规模下，它可以相当轻松地读取所有重要的相关数据。 输出 (Output): 我不想仅仅在文本/终端中获取答案，而是喜欢让它为我渲染 markdown 文件、幻灯片（Marp 格式）或 matplotlib 图表，然后我会在 Obsidian 中再次查看所有这些内容。你可以想象根据查询生成许多其他形式的视觉输出。通常，我最终会将这些输出“归档”回 wiki 中，以增强它以供进一步查询。因此，我自己的探索和查询总是能在知识库中不断“积累”。 数据清理与审查 (Linting): 我在 wiki 上运行了一些 LLM“健康检查”，例如查找不一致的数据、填补缺失数据（通过网络搜索）、为新的候选文章寻找有趣的关联等，从而增量式地清理 wiki 并提高其整体数据完整性。LLM 非常擅长建议要进一步提出和调查的问题。 额外工具 (Extra tools): 我发现自己正在开发额外的工具来处理数据，例如，我通过自然语言提示（vibe coded）为这个 wiki 编写了一个小而简单的搜索引擎，我既可以直接使用它（在 Web UI 中），但更多时候我想通过命令行（CLI）将它作为工具交给 LLM，以进行更大规模的查询。 进一步探索 (Further explorations): 随着知识库的增长，人们自然而然地会考虑合成数据生成 + 模型微调，让你的 LLM 在其“权重”中记住这些数据，而不仅仅是在上下文窗口中。 总结 (TLDR): 从特定数量的来源收集原始数据，然后由 LLM 编译成 .md 格式的 wiki，接着 LLM 通过各种命令行工具对其进行操作以进行问答并增量增强 wiki，所有这一切都可以在 Obsidian 中查看。你几乎不需要手动编写或编辑 wiki，这是 LLM 的领域。我认为在这里有潜力打造出一款令人难以置信的新产品，而不仅仅是一堆拼凑起来的脚本。

哦，补充一个自然的延伸推论，你可以想象，向一个前沿级别（frontier grade）的 LLM 提出的每一个问题，都会生成一个 LLM 团队来自动化整个过程：迭代构建一个完整的临时 wiki，对其进行审查清理（lint），循环几次，然后写出一份完整的报告。这远远超越了简单的 `.decode()`。

每个企业都有一个 raw/（原始数据）目录。
但从来没有人去编译过它。
这就是产品所在。

这可能是个 LLM 生成的回复我不知道，但没错，完全正确。

你能做个视频演示你是如何使用 md 文件和智能体 IDE（agentic IDEs）工作的吗？
你早期关于使用 LLM 的解释非常有帮助。

我刚刚也正在想同样的事情

能多分享一些关于增量编译的内容吗？
我发现如果逐个处理，它们没有足够的上下文来理解如何划分到各个目录中。
有没有最佳的批处理大小？或者分多阶段处理？

目前它还不是一个完全自主的过程，我手动逐个添加每个源，并且我始终参与在循环中（in the loop），特别是在早期阶段。过了一段时间后，LLM 就“明白”了这种模式，处理新增文档就容易多了，我只需说“将这个新文档归档到我们的 wiki：(路径)”。

你现在就像是 Linux 界的 Linus，元级别的直觉编程（vibe coder）大佬，我很好奇因为你这条推文，一夜之间会诞生多少个项目。

哈哈，我通过 Twitter 随性编程（vibe code）开发产品 :D

你在使用 obsidian cli 吗？

目前没有，因为我试图让它保持超级简单和扁平，它只是一个包含 .md 文件、.png 文件以及少数 .csv 和 .py 文件的嵌套目录，并且 schema 结构会在 AGENTS.md 中保持最新。LLM 非常容易理解这一点。任何自定义功能都很容易通过提示词（vibe code）生成工具。

杀手级的工作流。你实际上将 LLM 变成了一个“图书管理员-架构师”，它不仅存储数据，还主动构建并审查清理（lint）整个结构，这简直太棒了...

正在运行这套流程。
真正的转变在于 LLM 进行回写，而不仅仅是读取。
Markdown 在这里证明了它的价值：同一格式可以在不加繁文缛节的情况下同时适用于人类和智能体。
一个能够标记过期条目并交叉引用新来源的智能体，将知识库变成了一个保持真实有效的系统。

这与我构建架构的方式非常吻合。我主要使用 ChromaDB 作为官方文档的刷新层 - 让我的本地 LLM 保持使用最新的框架/语言/AI 模型文档，以便它们始终基于最新的知识进行推理。然后是查询和合成...

我在写书和写日记时做过类似的过程。将我下载的一整年 ChatGPT 聊天的 JSON 数据导入 IDE，然后使用 Claude 代码和 Obsidian 将其解析并把元数据标记转换为 markdown 格式。虽然没有你做得那么花哨，但结构非常有效！

非常喜欢这个详细的拆解！我很好奇：在编译来自不同作者的数据源时，你遇到过 LLM 生成冲突的概念定义的问题吗？很想知道你是如何处理并保持 wiki 一致性的。超级期待尝试这个工作流！

你有在这个场景下对 NotebookLM 进行极限测试吗？对同一组数据源进行 A/B 测试可能会揭示你的数据审查（Linting）阶段所带来的附加价值。

我做了类似的事，但你的方法更好。
顺便说一句：tobi/qmd 是我们查询所需的全部 :)
另外，感谢你的所有教学！我甚至记得这个数字：2147483647 - 你为什么要用它？我能理解 42，但不理解那个数字。

如果今天的 Obsidian 被设计用于人与智能体协作会怎样？当智能体会话成为一等公民，并通过“token 代谢”自动更新知识图谱——不仅摄入文档，还摄入通话、任务、聊天、会话——你的整个运营生活将进化为一体...

临时 wiki 的想法太棒了 —— 前沿模型按需生成一个团队来构建上下文，然后将其丢弃。不再有臃肿陈旧的持久化知识库。在需要时计算上下文，而不是存储上下文，这是我们在思考 AI 记忆方式上的根本性转变 🧠

通过 Wiki 实现的有趣方法。然而；对于深度文档，我发现双层索引已经足够且经济。它能够抓取大量文档（测试过一次性处理 500 份多页文档）并可靠地执行 RAG 且迄今未失败，同时具有成本效益。

将 2 小时的搜索缩短到 2 分钟，这彻底改变了整个收益模型。优势在于你能额外获得 20 次机会去提出真正重要的问题。

一样，我也有类似的设置。混合使用了 Obsidian、Cursor（用于处理 md）以及通过自然语言编写（vibe-coded）的 Web 终端作为前端。

因为我做播客，所以研究兴趣的数量和多样性非常大。但这种知识库的方法一直非常有效。

关于答案，我经常让它...

我已经创建了你描述的完全一样的系统。而且我把它做成了完全基于云端的，因此不需要依赖文件系统、markdown 或 Obsidian。

“摄入”端仍然不够完善（基本上就是复制粘贴到文本框里），但其他的都具备了。

我用类似的方法为我学步期的孩子构建了一个里程碑追踪器。我从 CDC（疾控中心）获取了各项发育里程碑，并将其以 md 格式存储在 Obsidian 中。然后我使用 Telegram/终端来记录行为，并在 Obsidian 中创建仪表板来追踪她的进度。

每个人都在用 AI 生成东西。Karpathy 在用它“积累”东西。

区别在于：生成的内容没有记忆。而编译好的 wiki 会在每次会话中不断成长。你上个月的查询会让这个月的回答变得更好。

特别是数据审查（linting）部分。运行健康检查...

@grok 从中给我提取 5 个有用的可执行步骤

完全同意！我们一直在构建各项技能，教你的智能体如何在一个定义良好的树状结构中遵循并维护这样一个 wiki。希望能听到反馈！

这太棒了 @karpathy！我尝试用 NotebookLM 实现了你关于 LLM 知识库的想法（无需本地设置）。

针对该工具的源文件限制、有依据的引用和“源指南”功能进行了优化 —— 将其转变为一个有生命力的、不断复合累积的 wiki。

你认为在这个知识库上同时训练 nanogpt LLM 会不会更好？

所以其实没发生多大变化 - 仅仅是形式变了。我们都可以成为专业的撰写 md 文件的“新派 wiki 作者” 😅

我们正在为 @usespeak_kr、@creately、@sleekflow_io、@ForefrontAI 和 @kyligence 等顶级初创企业提供联盟计划支持。

所以，快使用 @ToltHQ 启动您的联盟计划，让今年大放异彩！
私信我或预订演示...

这只是把你的大脑外包给 LLM，说实话，我已经坦然接受了

@grok 这看起来像是一个个人/私有且更狭窄版本的 grokipedia。没什么新意。是我遗漏了什么还是缺乏视角？

我一直在做类似的事，但要手动得多，这把我的整个研究过程提升了一个层次。一个可能对其他人也有帮助的快速问题：

你目前的 LLM “编译”步骤是如何设置的？你是用自定义脚本/提示词链，还是用类似 Claude + Cursor 的工具...

是的，完全同意。

我让 PAI 算法的 LEARN（学习）阶段来决定某条信息是否应该成为一篇知识文章，然后它会去为我们在 MEMORY/KNOWLEDGE 下构建它。

所以我们在会话中进行的任何工作都会被收获为知识文章，而且它永远在持续...

当订阅状态改变时瞬间做出反应。

自动化访问控制、消息传递和后端流程。
• 服务器端订阅事件
• Webhooks
• 与您的技术栈即时同步

我们来处理后端管道，这样您就可以专注于发展应用的各项功能。

💡 深度解析：LLM驱动的个人知识架构范式转移

1. 核心思想：从“一次性生成”到“复利式知识积累”

2. 关键步骤解析（The Workflow Pipeline）

3. 认知与产品视角的创新亮点 🌟

4. 社区反馈与演进方向总结

相关回复与互动

原文