1. 基于语音的新型AI业务与价值
Jun
观点: 新的业务机会在于直接处理原始音视频,进行摘要和转写。这比传统的网络爬虫更有价值,因为会议、聊天等非结构化语音中蕴含着大量未被开发的信息,而大模型处理这类信息“极其高效”。
事实: 市场正在掀起一股“录音卡”热潮,钉钉等大厂都在布局。这并非全新概念,讯飞、印象笔记(2022年)都曾推出过类似产品,但当时市场反响平平。
观点: 这一波浪潮的核心竞争力已不再是硬件,而是背后的AI模型和应用场景。未来的竞争是模型和场景的竞争。
2. AI的核心挑战与人类的关键能力
Jun
事实: 当前的AI模型能出色完成目标清晰的简单任务,但一旦将多个简单任务揉合在一起,处理复杂问题时,AI就显得很“傻”。
观点: 人类与AI的核心差异在于“复杂任务的拆解能力”。有经验的专家(如CTO)能凭借其大脑中的架构和经验,将复杂项目分解为AI可以独立执行的简单模块。这种能力是一种宝贵的元认知Metacognition,即“关于认知的认知”,指的是对自己的思维过程进行认知和监控的能力。技能。
xBeta
观点: 任务拆解的本质与经济学中的“分工”思想异曲同工。通过拆解,可以将原本需要“天才”才能完成的复杂工作,转化为普通执行者(无论是人还是AI)都能胜任的简单流程。
案例: xBeta分享了1998年将“翻译香港银行名称和地址”这个复杂任务,成功拆解为“找熟悉香港的人翻译地名”和“找熟悉金融的人翻译银行名”两个简单任务并解决的亲身经历。
3. 人机协作的新范式:人人都是项目经理
xBeta
观点: AI正在从一个被动的“工具”转变为主动的“虚拟员工”或“伙伴”。这意味着未来每个人都可能需要管理几个虚拟下属,对个人的角色提出了根本性转变:从被动的“被分配者”转变为主动的“管理者”。
Jun
观点: 这种转变下,项目经理可能比纯技术人员更擅长驾驭AI,因为他们天然具备沟通、分配和拆解任务的能力。反而,许多程序员虽然逻辑能力强,但因缺乏“为他人清晰下达指令”的能力,可能在AI时代面临被淘汰的风险。
4. 对企业内部Wiki的革命
Jun
颠覆性观点: 未来基于语音的工作流将彻底颠覆传统以文档为核心的知识管理体系(如Wiki)。目标是“自己革自己的命”,不能等别人来革。
工作流变革:
- 旧模式:先由人工撰写文档(Wiki),再将会议录音作为附件。文档是核心,语音是补充。
- 新模式:以语音对话为源头和核心,所有文档、需求、任务都由AI从对话中自动生成,人只负责最终确认。
价值: 这种模式将“直接跳过人工写文档”这一环节,极大地改变了工作行为,其效果已经“非常好”。
5. 内容载体的演变:从文本到音视频
Jun
个人行为转变: Jun坦言自己现在获取深度信息的主要方式已不再是阅读文章,而是观看经AI翻译的国外优质视频和访谈,因为许多行业领袖已不再撰写长文。
观点: 知识的载体已经发生了根本性迁移,从文本(博客)演变为音视频(播客、访谈)。这并非内容质量的降级,而是载体的变化。人类协作的基础本就是口头沟通,技术只是让这种原始高效的方式得以大规模传播。
xBeta
观点: 视频和音频的流行,本质上是降低了内容创作的门槛。“说”的能力比“写”的能力在人群中更普遍。同时,音视频的后期处理(如剪辑)是劳力密集型工作,可以低成本外包给AI或助理,而修改文章则需要比作者更高水平的编辑。
6. AI音频处理的实践工作流与挑战
xBeta
具体需求: 能否将一段30分钟的聊天音频,通过AI自动、智能地剪辑成一段15分钟的精华版音频?
Jun
观点: 直接对音频进行剪辑的技术挑战很大,因为它会像有损压缩一样,丢失大量必要的上下文和背景信息,导致最终成品不连贯。
推荐工作流: 最佳实践是分三步走:
- 语音转文字 (STT): 先将原始音频完整转录为文本。
- AI文本处理: 让大模型对文本进行润色、总结和精简。
- 文本转语音 (TTS): 使用音色克隆Text-to-Speech技术的一种,可以学习并模仿特定人物的声音来朗读文本。技术,用原始发言者的声音将处理后的文本重新生成为音频。
挑战: 这个流程的最大挑战是,AI在润色文本时可能会抹去每个人的语言风格和个性,导致生成的对话听起来像是两个风格统一的“播音员”。解决方案是使用更精细的PromptPrompt是给AI模型的指令或提示。一个好的Prompt可以精确地引导AI生成符合要求的结果。,明确指示AI在生成时保留或模仿特定人物的说话风格。
7. 个人利用AI编程的初步探索
xBeta
作为非程序员的体验: xBeta分享了他使用AI辅助编程的两次重要感悟。
感悟一:理解边际效应递减: 亲身体会到软件开发中“增加一点点功能,代码量可能要翻好几倍”的现实,从而更能理解开发者为何某些功能不做或做得不好。
感悟二:克服数据格式焦虑: AI赋予了普通人处理专业数据格式的能力。以前看到JSONJavaScript Object Notation,一种轻量级的数据交换格式,在程序员中很常用,但对非技术人员不直观。这样的格式会束手无策,现在相信借助AI可以轻松转换和利用,数据的开放性大大增强。
8. AI模型选择与Prompt优化技巧
Jun
模型选择策略:
- 长文本/内容处理: 优先使用 GeminiGoogle开发的大语言模型。Jun使用的是拥有100万Token超大上下文窗口的版本,非常适合处理长篇内容。,因其无与伦比的上下文窗口。
- 代码编写: 曾倾向于使用 Claude,但近期因严格的用量限制而体验下降。
- 日常聊天/快速问答: 使用 ChatGPT。
xBeta & Jun
Prompt高级技巧:“反向工程”: 与其自己绞尽脑汁编写完美的Prompt,不如采用“示例学习法”,这是一种更高效的捷径。
操作步骤:
- 向AI提供一份原始输入(Input),例如会议录音的逐字稿。
- 再向AI提供一份你手动整理好的、符合你最终要求的输出(Output),例如一篇完美的会议纪要。
- 命令AI:“请分析输入和输出之间的差异,为我生成一个能够实现这种转换的、可复用的Prompt。”
9. AI工具链的实际操作与策略
Jun
观点: 在处理复杂任务时,倾向于使用Gemini的AI Studio界面而非NotebookLM。因为AI Studio是纯粹的长上下文模式将所有相关信息一次性放入模型的“记忆”中进行处理,信息保真度高。,人工可控性强;而NotebookLM更依赖RAGRetrieval-Augmented Generation,检索增强生成。模型会先从知识库中检索相关片段,再进行回答。这个检索过程可能丢失信息。,信息在检索过程中可能被压缩或丢失,导致幻觉。
环境管理策略: 为了保证稳定使用和账号安全,会使用一个独立的、“干净”的浏览器专门登录和访问AI服务,并确保网络环境稳定。
上下文管理策略: 为了让AI更好地“理解”一个长期项目,会将该项目所有的会议记录和讨论都放在同一个Chat会话中。这样,整个会话历史就构成了项目庞大而连续的上下文,AI的处理会越来越精准。
10. AI的未来:多模态与哲学思考
Jun
技术前沿—多模态: 从语音到文本的转换会丢失大量宝贵的多模态信息指信息中超越文本的部分,如语音中的情绪、语调、重音、节奏等。。未来的先进技术将直接在原始音频(或视频)层面进行处理,保留所有这些非文本信息,从而在翻译或编辑时,能够复现原始的情感和语境,效果远超当前工作流。
xBeta
哲学反思: 人工智能的发展促使我们反思人类智能的本质。人类知识本身就是模糊、带权重且充满矛盾的,这与早期计算机的精确二进制逻辑截然不同。AI的神经网络正是在模拟这种“模拟电路”式的模糊性。语音中的语调、重音等,正是为AI提供了宝贵的“权重”,帮助其更高效地理解真实意图。
科幻脑洞: xBeta提出了两个科幻小说级的想法:
- AI发展到算力极限后,发现无法突破,最终选择重新创造碳基生命,利用其“低效”的进化模式来探索新的智慧可能,形成一个循环。
- 当人类完全解开DNA和RNA的编码后,可能会发现DNA是核心程序,而大量功能未知的RNA其实是创造者留下的“注释”。