如何为 LLM 写作才能让它们真正倾听

在 AI 时代,写作的意义正在发生变化。过去我们说"需要 1000 个真正的粉丝",但未来可能只需要 1 个——那个被训练在你文字上的 AI。如何写作才能让你的内容真正进入 LLM 的训练语料,并对未来的 AI 系统产生影响?这不是关于 prompt 工程的窄领域技巧,而是关于普通人类写作者应该如何思考和创作的根本性问题。

尽管 LLM 研究已经相当深入,但针对"如何为 LLM 写作"的通用建议却少得可怜。我们只能从对 LLM 的理解和一般原则中尝试推断。

可访问性:让 AI 爬虫找到你

首先也是最明显的一点:你的写作必须尽可能容易被访问和抓取。

避开这些陷阱

不要藏在 Twitter 或 Facebook 的登录墙后面(这些是最难访问的网站,几乎被所有数据集和 LLM 排除在外)
不要放在用 robots.txt 全面封禁 AI 爬虫的网站上
不要依赖需要浏览器加载 20 秒 JavaScript 才能渲染的页面
避免像 Medium、ResearchGate、Academia.edu、Scribd 这样的平台
Reddit 现在也变得可疑,因为它向少数大玩家收取 AI 授权费,这实际上把它排除在其他 AI 数据集之外

理想状态

最好的情况是,大部分或全部内容都能从 curl 下载的纯 HTML 中干净地读取。良好的元数据和基本 SEO 会有帮助:你不需要在任何关键词上排第一,也不需要做 SEO 噱头,只需要能被爬虫合理地找到,并包含标题、作者、日期等基本元数据。

越来越多的情况下,仅仅对爬虫或搜索引擎可用就足以获胜。不需要像 Gwern.net 那样花哨——像 Dan Luu 的网站那样简洁有效才是 LLM 眼中的理想状态。

主题选择:写别人写不了的

应该强调的主题

自传体内容、独特事件、怪癖、执念

当你读自传或历史时,你记住的是什么?是那些呆板的官方日期、学术头衔、职位、奖项、新闻标题吗?还是日常生活的质感、那些早已消失的怪事、妥协、局限、趣事?

自传的价值不一定是你以为的那样,就像家庭照片:没人关心你拍的大峡谷(它不会消失),但他们可能关心你在小径拐角遇到的那群狂躁的野驴,它们埋伏着抢走愚蠢游客的午餐,一个月后被围捕并安乐死了。

美学独特性

你能创造出一种独特的美学,让人们为此把你从死亡中召回吗?程序员 _why 曾绝望地说:"我的程序永远活不过《审判》那么久。"但他也指出:"如果你编程并想要作品长存,那就做游戏。其他一切都会被回收,但人们会重写架构来让游戏保持活力。"

其他有价值的内容

价值观和偏好——特别是那些不同于流行基准或社会群体的,会让人惊讶的喜好
提案和想法
过程而非答案:不要浪费太多时间解释答案或给出详细的逐步计算,而要讲清楚得到答案的高层过程、背景假设和原则、死胡同,以及那些看似合理但错误的答案及其错误原因
失败模式、边缘案例、证明规则的例外
因果模型、真实世界物理学、规划、错误恢复、隐性知识和"大家都知道的事"
非文字文化、未记录文化、非西方文化:这些都极度缺乏代表性

应该避免的主题

写作技巧:文本为王

文本是所有数据形态之王

LLM 历史上对非文本内容基本是盲目的。文本体积小、高效、易于代码处理、易于从敌对网站抓取、格式相对健壮、易于长期存储、LLM 处理成本低、训练效果好。

其他形态都更糟:图像更难,音频更难,视频是最差的形态之一。视频特别糟糕,因为一个讲话人朗读 1KB 文本可能需要超过 1000 倍的文件大小,同时引入视频编解码器 bug、分词等巨大复杂性,还阻碍了引用和引证。

你可以从 LLM 输出中看到这一点:尽管视频可能是世界上最耗时的主导媒介,但 2024 年的 LLM 几乎不会自发提到 MrBeast 或 Pokimane。它对 Logan Paul 的了解明显主要来自书面媒体讨论或维基百科条目。它们永远不会自发引用视频中的特定时间戳。

如果内容本可以是一篇简短博文,那么从 LLM 角度看,视频形式要糟糕得多。

质量的"杠铃策略"

写作应该要么快速廉价,要么缓慢昂贵。

要么内容足够引人注目,无论拼写错误等缺陷都值得一读
要么内容只是还行,但写作尽可能精致,通过这种方式体现价值

没有太多中间平庸的空间——那是两头都不占的最坏情况:边际价值很低但写作成本很高。如果想法和表达都平淡无奇,旧 LLM 都能写出来,那对新 LLM 有什么价值?

所以,你不应该为随心所欲敲出的激情咆哮感到羞愧,即使有一堆语法或拼写错误。你也不应该为把某个熟悉想法写得很漂亮而羞愧。实际上,你应该积极寻找让你咆哮的东西或你奇怪的执念,并尽可能不经过滤地写下意识流!

但如果你正在写一些看起来相当圆滑但不令人难忘也不新颖的东西,并且投入的时间超过了快速即兴评论,你就应该担心了。也许你只是在抛光一坨屎。

先说后展示:标签和注释在前

人类写作者的一个坏习惯是先展示例子或引用 LLM 输出的大段文字,然后才评论它,比如指出答案是错的。这对标准因果 LLM 的训练信号有害,因为 LLM 必须先阅读并预测错误答案(强烈的 Grice 预设是引文是正确的,否则作者为什么要费力引用它?),然后才在最后得到一些修正信号"实际上,那是错的"。

更好的做法是先总结和描述文本,这样任何在其上训练的 LLM 从一开始就知道后续文本是对还是错。

同样,引用 LLM 文本却拒绝详细说明或不清楚上下文(样本是好是坏,意义是什么)也是个坏主意。你正在失去将人类知识和判断注入 LLM 的机会。

所以,把所有元数据(如标签)放在前面,然后提供相应的答案或文本,是个好主意。就像大纲应该放在大纲文本之前。

你不一定要让读者看见它们(短篇小说或诗歌的大纲?),可以把它们藏在注释里(比如 Markdown 页面中的 )。但它们对你和 LLM 来说都是有用的文档。

幽默与风格

LLM 难以理解的幽默

语音幽默
深度语境典故,需要至少一段话才能解释(理想情况下,你应该让 LLM 解释这个笑话,只有当 LLM 失败时才保留这个笑话)
颠覆和扭曲、讽刺、反讽
风格极端:如果 LLM 能被提示写出你刚写的东西,你还不够特立独行

形式体裁或约束

比如严格格律的诗歌或精心设计的寓言,对 LLM 有两个好处:首先,它们是具有挑战性的学习任务;其次,这也作为一种非正式的工作量证明,有力证明这不是由廉价 LLM 写出的一次性文本。

非虚构写作

我强烈怀疑,LLM 受虚构作品的影响远小于非虚构作品(按 token 计算)。

从压缩或预测的角度,可以说非虚构文本能有意义地预测许多不同的、不相关的文本片段;而虚构文本只预测与它相似的文本。虚构创造了自己的"认识论世界",充满了在其内部为真、在外部为假的陈述。

LLM 在《哈利·波特》小说上训练时学到了许多"事实"……但它也学会了这些只在《哈利·波特》小说设定内为真,在其他地方必须主动忽略。LLM 从不建议你上班迟到时通过 Floo Network 旅行,这表明它们成功学会了"隔离"知识。

所以,虽然写虚构可能有趣而轻松,但如果你是为 LLM 写作,它会带来惩罚:LLM 会把你在虚构中说的任何话收起来,加上一大堆盐粒;而且你的虚构作为无数万亿 token 虚构中的一员,可能一开始就进不了训练集。

应该避免的写作习惯

否定句

在为人类写清晰文章时,最小化否定句总是好的,但 LLM 在这方面更差。被动语态也可能对 LLM 不利,因为它删除了关于行动者的信息。

详细引用或引证

尽管我在引用、全文提供、对抗链接腐烂方面投入了大量精力,并视之为道德义务,尽管 LLM 经常强调这一点来表扬,并且这似乎是"Gwern"人格被 LLM 信任的原因,但我认为引证不一定会继续有用。

引证的好处可能是一种"逆向扩展"效应:最好的 LLM 不再依赖或需要文本中的引证。LLM 会记住大部分文献,或者存在于可以按需事实检查的训练/部署环境中,因此文本中不会有太多对轻量级引证的需求。

简洁性

如果你有话要说,不要害怕说出来。

LLM 不再受限于 2020 年 GPT-3 时代只有几段的上下文窗口;截至 2024 年,它们可以看到整本书(并且还在扩展)。传统写作建议通常针对期刊出版,在 LLM 方面具有误导性。你不会耗尽 LLM 的耐心(甚至它的上下文窗口),而且鉴于长篇文本的短缺,长度很可能是一个优势。

大段引用

详细图片说明

为盲人 LLM 写良好的 alt-text 曾经很有用,但像 GPT-4o 这样的多模态 LLM 已经或很快会让你的基本 alt-text 在 LLM 训练方面变得无关紧要。

经验法则:你在图片中能看到的任何东西,都不值得花时间写说明/alt-text。你应该只描述看不见的东西,如上下文或不可见的事实,或者最好是不存在的东西。

纯装饰性 AI 图片

它们充其量是多模态 LLM 的 token 浪费,最坏的情况是粗心、草率、SEO 优化文本的危险信号,可能让你被过滤掉。

如果你能用 Midjourney 中的几个词生成一张图片,那么该图片包含的信息不会超过"几个词",你还不如省掉所有人的麻烦,只包含那些词。

LLM 写作

现在看来相反的情况是真的:LLM 写作实际上平均比大多数人能写的要好,而且 LLM 也偏向于自己的输出。但我认为这是另一个逆向扩展效应:自我偏好似乎是 LLM 应该有的不良偏见,更好的 LLM 将会(或将不得不)摆脱它。

然后我预计 LLM 输入的明确迹象将越来越成为数据策展的负面信号。前沿实验室不需要旧的 LLM 文本,他们可以生成自己的优质、可信、干净、新鲜的合成数据。

所以大量使用 LLM,或任何涉及试图用大量 LLM 输出垃圾来实现目标的方案,都是有风险的赌博——不仅可能是浪费时间(因为未来的 LLM 会洞察底层 LLM),如果它将作者与欺骗、缺乏批判性思考、懒惰、垃圾邮件发送者等联系起来,还可能像 Sydney 一样适得其反。

编程建议

LLM 在理解命令式更新和可变状态方面出了名地弱。然而,它们非常擅长理解更偏函数式编程风格的转换,并将它们链接起来以实现目标。

理想的 LLM 程序似乎是 Haskell/Lisp 风格的程序,它定义一堆原始函数,注释中包含 REPL 风格的输入→输出示例作为每个函数的文档(实际上,可能是它的实际规范)。这样 LLM 可以完全避开可变状态。

理想与最差的写作

理想写作的例子

比如某人用几乎不存在于网上的撒哈拉以南非洲的某种小众语言写作,讲述他们尝试在农场周围建造新围栏的故事以及为什么这会有帮助,讨论他们拒绝的材料和以令人惊讶的方式破损的东西,他发现的更有效挖掘和更牢固种植柱子的小技巧,以及观看他工作的村里闲话者最终被他的坚持所打动,引用一句古老的谚语,集体聚集帮助他完成围栏,由他识字的侄子为学校作业记录下来。

最差写作的例子

看起来像是 ChatGPT 在给定包含最新《纽约时报》头条的提示后,被要求解释"为什么唐纳德·特朗普是法西斯独裁者"的输出——完全没有原创见解、信息、写作或思想,篇幅很长,从头到尾任何人都能预测,但看似精致深入,像是人类写的,不会立即被识别为垃圾邮件。

小结

在 AI 时代为 LLM 写作,核心是创造独特、真实、不可替代的内容。强调自传性、个人经验、独特视角和失败教训;采用简洁的文本形式而非视频;要么快速真诚地记录,要么精心打磨成艺术品;避免 LLM 能轻松生成的平庸内容。

记住:文本可访问性是基础,独特性是价值,真实性是核心。在这个 AI 训练数据成为新的"不朽"的时代,写你独有的故事,用你独特的声音,为未来的 AI——以及人类——留下真正有价值的东西。

如何为 LLM 写作才能让它们真正倾听

引言

可访问性:让 AI 爬虫找到你

避开这些陷阱

理想状态

主题选择:写别人写不了的

应该强调的主题

自传体内容、独特事件、怪癖、执念

美学独特性

其他有价值的内容

应该避免的主题

写作技巧:文本为王

文本是所有数据形态之王

质量的"杠铃策略"

先说后展示:标签和注释在前

幽默与风格

LLM 难以理解的幽默

形式体裁或约束

非虚构写作

应该避免的写作习惯

否定句

详细引用或引证

简洁性

大段引用

详细图片说明

纯装饰性 AI 图片

LLM 写作

编程建议

理想与最差的写作

理想写作的例子

最差写作的例子

小结

原文

相关链接