1. LLM 核心概念与心智模型
- 核心比喻:将LLM想象成一个巨大的、有损的、概率性的“ZIP压缩文件”。 它压缩了整个互联网的知识,但这种记忆是模糊和概括性的,而非精确的数据库检索。
- 两个训练阶段:
- 预训练 (Pre-training): 在海量互联网文本上通过预测下一个词来构建世界知识。这个阶段成本高昂(数千万美元),导致了知识截止日期 (Knowledge Cutoff) 的存在。
- 后训练 (Post-training): 使用人类构建的高质量对话数据进行微调(Fine-tuning),让模型学会扮演“乐于助人的助手”角色,赋予其特定的个性和对话风格。
- 基本交互单位: Token。 用户输入和模型输出的文本都被分解成称为Token的小块。整个对话在底层是一个连续的、一维的Token序列。
- 核心工作区: 上下文窗口 (Context Window)。 这是模型处理信息的“工作记忆”或“便签本”。所有当前对话的Token都在其中。当开启新聊天时,这个窗口会被清空,模型会“忘记”之前的所有内容。
🧠 认知改变建议
从“与搜索引擎对话”转变为“管理一个短暂的工作记忆”。 把上下文窗口看作宝贵且有限的资源。如果当前对话与新话题无关,果断开启新聊天。这不仅能避免模型被无关信息干扰,还能提高响应速度和准确性。
2. LLM 生态系统与选择策略
- 百花齐放的生态: 除了先驱 ChatGPT (OpenAI),还有来自大型科技公司的竞品,如 Gemini (Google), Copilot (Microsoft),以及备受关注的创业公司产品 Claude (Anthropic), Grok (xAI) 等。
- 性能排行榜: 可以通过 Chatbot Arena 或 Scale AI 的排行榜来追踪和比较不同模型的性能,了解当前业界的最前沿水平。
- 付费与免费的本质差异: 付费版本通常提供更强大、参数量更大、更“聪明”的模型(如GPT-4o vs GPT-4o mini)。讲者认为,对于任何专业或严肃用途,投资于顶级模型所带来的效率和质量提升是完全值得的。
🧠 认知改变建议
从“寻找唯一最好的工具”转变为“组建并指挥你的‘LLM委员会’”。 不要只依赖一个模型。针对重要问题,同时向多个顶尖模型(如ChatGPT, Claude, Gemini)提问,综合它们的答案来获得更全面、更可靠的视角。将自己定位为这些AI专家的“管理者”。
3. “思考型”模型 (Reasoning Models) 的威力
- 训练的第三阶段:强化学习 (Reinforcement Learning)。 这是最新的技术前沿。模型通过解决海量复杂的数学和编程问题来自我“练习”,并发现能够稳定导出正确答案的“思考策略”或“内心独白”。
- 行为特征: 模型会展现出类似人类的解题过程,如分解问题、尝试不同思路、回溯检查、验证假设。这会导致响应时间显著变长(可能需要几分钟),因为它在生成大量的中间思考步骤Token。
- 适用场景: 这是解决高难度问题的“攻坚模式”。最适合用于复杂的、需要多步推理的数学、逻辑和编程调试任务。 对于简单的知识查询或创意写作,使用“思考”模式不仅没必要,还会浪费时间。
🧠 认知改变建议
从“追求即时答案”转变为“给予模型思考的时间和空间”。 当遇到难题时,不要期望模型立即给出完美答案。主动切换到“思考模式”(如OpenAI的 o1-pro-mode 或 Grok 的 Think Mode),并耐心等待。把它看作是你在给一位专家时间去深入研究问题,而不是简单查询。先用标准模式,如果答案不理想,再升级到思考模式。
4. 工具使用 (Tool Use) 的革命
- 网页搜索:
- 核心价值: 克服知识截止日期,获取最新信息(如新剧上映时间、今日股市是否开盘)或对专业、小众领域进行事实核查。
- 深度研究 (Deep Research):
- 定义: 这是“思考”模式与“网页搜索”的强力结合。模型会自主进行多轮、多角度的搜索,阅读大量资料,并综合成一份结构化的研究报告,通常耗时10分钟以上。
- 案例: 讲者使用此功能研究补充剂成分 Ca-AKG 的功效、机制和安全性,以及比较Brave和Arc浏览器的隐私策略。
- 代码解释器 & 生成:
- 能力: 模型不仅能写代码,还能在沙箱环境中执行代码,从而完成精确计算、数据分析、图表绘制等任务。这极大地增强了其处理数字和逻辑问题的可靠性。
- 案例: OpenAI的高级数据分析功能可以根据用户要求,获取数据、清洗、拟合曲线并绘制图表。Claude的Artifacts功能可以直接在浏览器中生成并运行一个交互式Web应用(如抽认卡App或概念图)。
- 专业开发: 对于程序员,讲者强烈推荐使用集成了LLM的专用代码编辑器,如Cursor。它能理解整个代码库的上下文,通过高级指令(如“给这个游戏增加胜利时的彩带和音效”)自主修改多个文件,实现“氛围编程 (Vibe Coding)”。
🧠 认知改变建议
从“自己动手”转变为“成为一个高效的委托者和审查者”。
1. 信息获取: 停止手动Google搜索。直接向集成了搜索功能的LLM提问,让它为你完成信息搜集和整理的初步工作。
2. 深度分析: 面对复杂课题,不要自己去读20篇论文。让“深度研究”功能为你生成一份摘要报告作为研究的起点。
3. 代码与数据: 不要逐行编写基础代码或手动制作图表。直接用自然语言描述你的目标,让模型生成代码。你的核心任务从“执行者”转变为“审查者”——信任但必须验证 (Trust, but verify) 模型生成的代码和结果,因为它们可能包含微妙的错误或不合理的假设。
5. 多模态交互的沉浸式体验
- 音频 (Audio):
- “真”音频交互: 高级语音模式 (Advanced Voice Mode) 直接处理和生成音频Token,能理解并模仿语调、情感和声音风格(如模仿尤达大师或海盗)。这是一种更自然、更具表现力的交流方式。
- 播客生成: Google的 NotebookLM 可以根据你上传的任何文档(PDF、网页等)生成一个定制化的、多角色对话的播客,将枯燥的阅读材料转化为通勤路上的听觉盛宴。
- 图像与视频 (Image & Video):
- 图像输入: 随时随地使用“视觉提问”。上传图片让LLM分析,如拍摄食品营养成分表并询问各成分作用、分析血液检测报告、让它解释一个你看不懂的“梗图”(Meme)。
- 视频输入 (实时视觉): 在移动端,高级语音模式通常结合摄像头,允许模型“看到”并实时评论你镜头中的物体,如识别书籍、设备,或为你导航。
🧠 认知改变建议
从“文本是唯一入口”转变为“用人类最自然的方式进行交互”。
1. 解放双手和双眼: 懒得打字?直接对它说。讲者坦言自己超过50%的查询是通过语音完成的。把LLM当作一个可以随时交谈的助手。
2. “Show, don't just tell”: 遇到视觉问题,不要试图用文字描述它。直接把图片或实时视频流展示给模型。让它成为你的“第二双眼睛”,帮你阅读、识别和理解你周围的世界。
6. 个性化与效率倍增
- 记忆 (Memory): ChatGPT独有的功能,可以跨越不同聊天会话记住关于你的关键信息和偏好(例如,你对电影的品味、你的职业背景)。这些记忆存储在一个用户可管理的数据库中,并被自动添加到新对话的上下文中。
- 自定义指令 (Custom Instructions): 允许用户设置全局指令,定义希望ChatGPT如何回应、扮演什么角色、遵循何种格式、避免何种行为(如“不要像HR那样说话”)。
- 自定义GPT (Custom GPTs): 这是一个强大的功能,允许用户创建一个预设了特定长篇指令、知识库和能力的专用GPT。这对于需要重复执行的、有固定流程的任务非常有用。
示例:讲者创建了用于韩语学习的“词汇提取器”(输入句子,输出可导入Anki的词汇表)和“详细翻译器”(提供逐词逐句的语法分析)。
🧠 认知改变建议
从“每次都是初次相识”转变为“培养一个专属你的长期助手”。
1. 主动“教”它: 当你告诉LLM关于你的偏好或事实时,明确指示它“记住这一点”。随着时间推移,它的回应会越来越贴合你的需求。
2. 自动化你的重复工作: 识别出你反复向LLM提出的、格式相似的请求。花15分钟,将这些请求的逻辑和示例封装成一个自定义GPT。这就像是为你自己编写了一个“效率宏”,一劳永逸。