有价值的 LLM 应用擅长犯错
在我这两部分指南的第一篇:建立你的 LLM 胡扯检测器。正如人类通过拥抱自身本性而茁壮成长,成功的 LLM 应用不是与幻觉对抗,而是利用幻觉。
Jing Hu
这是一个两部分系列的第一篇,我将在这里区分有价值的 LLM 应用和昂贵的噱头,最终说明为什么 Meta 可能会主导 AI 领域。
你有没有在 LLM 讨论中点头附和,但其实完全搞不清楚它是怎么工作的?或者尝试阅读技术解释后,比之前更困惑了?更糟糕的是,如果你不了解这些模型,直接影响你判断哪些 AI 应用真的有价值。
我会在不让你脑袋炸裂的情况下揭开 LLM 的神秘面纱 —— 试试看吧!
更重要的是,你将学会如何检测 LLM 胡扯 —— 避免掉进昂贵的 AI 误区,而别人还在交学费。
这很重要,因为革命性 AI 和昂贵的噱头之间的区别,往往只有当你知道该找什么时,才能看得出来。
第二部分将揭示 Meta 在 AI 方面的独特策略如何可能彻底改变他们的业务,而其他公司则在挣扎。关注这两篇,你将得到一个不会出现在融资 PPT 或新闻稿中的 LLM 业内视角。
你再也找不到比这更清晰的分析,来帮助你看懂 LLM 在商业世界的全貌。
LLM 复习
想象一下,你有一个超大硬盘,里面存了所有现存的网站,还有所有 YouTube 视频的转录文本、所有电影剧本、报纸,甚至书籍的电子版。这些内容全都被整理、分类,以文本文件的形式提供给你。
一个最基础的计算机程序可以统计出,在所有这些文本中,某个单词后面最常跟着哪些单词。这将生成一个分布,显示单词 B、C 和 D 在单词 A 之后出现的概率。你可以把它想象成一个帽子(叫它“单词 A 之后的可能选项”),里面装着所有可能的后续单词。但这个帽子被“做了手脚”,抽出 B、C 或 D 的概率,和之前统计的一致。然后,你也有类似的帽子,比如“单词 B 之后的可能选项”、“单词 C 之后的可能选项”等等。
有了这些帽子,现在可以玩一个有趣的游戏了。每当你看到单词 A,你就把手伸进“单词 A 之后的可能选项”帽子里,抽出一个单词。有时候抽到 B,有时候是 C 或 D。但无论抽到哪个,你就继续按规则抽取,直到写出 100 个单词。
你会得到一些有趣的结果,但大部分都是垃圾。想想有多少单词可以接在 "the" 后面?不需要多久,你的 100 个单词就会变成胡言乱语。
注意力机制改变了一切
然后,2017 年 Transformer 诞生,彻底改变了游戏规则。它不仅仅是预测下一个单词,而是带来了两个关键突破。
第一个关键变化是注意力机制。
简单来说,就是它可以同时查看所有输入单词,并理解它们彼此的关系。这就是为什么它能区分 "I swing my bat" 里的 "bat"(棒球棒),和 "The bat sleeps in a cave" 里的 "bat"(蝙蝠)。
这种注意力机制有多个层次,分别关注不同的关系(句法、语义等)。随着上下文窗口(即模型可以接收的输入量)的增长,它不仅仅考虑某个单词周围的几个单词,还能引用更远的内容。
- 并行处理(Parallel Processing)
第二个重大突破是并行处理输入。
过去的模型是逐字处理,而 Transformer 可以同时分析所有单词,并计算它们之间的关系。这大幅提高了处理速度,也增加了模型可以处理的信息量。
一个意外的副作用是,当你输入足够多的文本时,这些单词之间的统计关系会开始代表真正的概念。比如," aris" 和 "France" 之间的统计关系,与 "Madrid" 和 "Spain" 的关系非常相似,而且都与 "capital" 这个词紧密相连。
这一切,都是语言模型的基础训练。
强化学习(微调)
下一步是让它变成一个有用的助手。这时,人类会介入,对模型进行强化学习,来分辨好的回答和坏的回答。
如果简单拆解,这个过程其实就是调整概率,让输出更像一个“合格的助手”。这不仅影响生成的文本风格,还会改变模型对某些概念的理解方式。这也是 AI 对齐(alignment)和训练偏见(bias)问题的来源。
比如,你有没有注意到 ChatGPT 经常在回答结尾问你是否需要更多帮助?
或者,即使没必要,它也会给你提供“下一步建议”?
又或者,它会在回答时重复你问题中的关键词?
这些行为,都是这个阶段训练的结果。
相比于基础训练,这种训练更快也更便宜,因为它不是学新东西,而是调整已有的知识。基础训练产出的叫“基座模型”(base model),这个阶段的产物则被称为“指令模型”(instructed model)。
最终,你得到的是一个根据统计规则预测下一个 N 个单词的系统,带着复杂的机制来保持话题相关。
低至零价值的 LLM 应用
一个“具有上下文感知能力的下一个单词预测器”在技术上当然很酷、很厉害,但它真的有价值吗?
考虑到从零开始训练一个模型并运行它的成本极其昂贵,这意味着不会有太多这样的模型。至少在训练和运行成本大幅下降之前,不会出现大规模的自定义模型。
而且,这里说的“成本下降”是指要远远低于 DeepSeek 报告的 500-600 万美元。
大部分成本都在 功耗和散热 上,或者更广义地说,是 数据中心和硬件效率。因此,这些方面的优化(以及代码优化)最终会降低训练成本。但别指望它会很快发生。我们离“每家公司都有自己独立的大模型”的时代还很远。
所以,目前我们基本上就像是被“几家发动机制造商”垄断了一样。作为一个汽车爱好者,我知道,一台发动机只有在配上车架、方向盘和流畅的外形之后,才真正变得有趣。
那么,这些 LLM “发动机”真正有价值的应用是什么呢?
会议记录助手
现在,几乎所有人都在争相做会议总结工具。每次你开 Zoom、Teams 或 Google Hangout 会议时,总会有个“AI 会议记录助手”。
“会议记录助手”这个说法,其实是个好听的包装,本质上就是个总结生成器。大部分情况下,这些公司只是把会议的逐字转录文本丢给现成的大模型,然后加个提示词,比如:
“你是一个智能助手,请总结这次会议,并列出关键行动点以及对应的负责人。”
这个行业几乎没有什么竞争壁垒或独特性。
看看 Fireflies.ai、tldv.io 这些产品……很难不把它们当成“商品化工具”。它们的普及更多是因为新鲜感,而我怀疑它们最终都会被会议软件本身集成,成为一个普通功能。
更别提,这些 AI 生成的总结和任务分配,不一定真的可靠。
我曾在电信行业负责销售团队的电话记录业务,我可以负责任地说:
“会议转录和总结,就是新的‘电话录音’。”
它最终会变成通信软件里的一个基础功能,不会再有溢价。
更何况,由于 LLM“幻觉”(也就是它偶尔会胡编乱造)的特性,人们逐渐学会不太依赖它。
这个应用的最终价值,大概率是用于合规性要求和责任追踪——但这些场景极度依赖准确性,而这恰好不是 LLM 的强项。
高价值的 LLM 应用
话虽如此,确实有一类公司能真正通过生成式 AI 提供额外价值。有些公司在生成式 AI 出现之前就已经存在,但它们能利用 AI 增强自身业务。而另一些公司则天生就是为 AI 而生的。
我想到了一些新兴玩家,比如 Cursor(我的环境里用 Claude 驱动的 AI 代码助手)。它能让我这个 7-8 年没怎么写代码的人,快速写出还算过得去的代码来验证想法。
当然,我不会拿这些代码直接上线。但如果你知道正确答案大概长什么样,即使无法准确表达,LLM 也能帮你接近正确答案。
这种情况不仅限于编程,在深度研究型任务里也同样适用。
另外,我对 Gong 这样的公司也抱有很大希望。他们长期专注于语言理解,现在有了一整套全新的 AI 工具可以使用。
关键区别是什么? 这些公司提供的,不是“让猴子跳舞”般的噱头,而是真正能给用户带来持久价值的工具。
成功的 LLM 应用,有两个核心特征:
- AI 隐藏在幕后,重点是解决实际问题,而不是炫技。
- 它们不依赖 100% 的准确性,而是找到一个“方向上正确即可”的平衡点。
如果你想打造一个成功的 LLM 应用,你必须明白:
“大体正确,精准错误”是可以接受的,甚至是一种 优势。
目前,大部分成功的 LLM 应用,仍然专注在文本生成这个核心功能。但我知道,未来 AI 迟早会发展到可靠生成图片和视频。这只是时间问题。
但更重要的是,我期待这些模型能学会如何与其他工具交互。
比如:
你在计算 483 × 7289 时,通常会拿起计算器对吧?
如果 LLM 不是自己计算,而是学会“调用计算器”呢?
这样,问题就不再是 “模型需要理解数学”,而是 “模型需要识别数学问题并找到合适的工具”。
如果把计算器换成各种常见的软件,你会发现这条路的潜力有多大。
这意味着,AI 不再是直接解决问题,而是先分类问题,然后协调不同的工具来找出解决方案。
你可以把它叫做 “代理智能(Agentic AI)”。
分类问题,在计算机科学领域已经相当成熟(尽管仍然不完美,比如看看你的 Netflix 推荐质量就知道了)。
但协调多个独立工具,就要困难得多了。
让一个 AI 代理和另一个 AI 代理对话,并自动搞定数据格式转换……听起来就像是魔法一样,对吧?
这最终引出了 Meta,以及他们在生成式 AI 方面的布局
现在,你已经掌握了 LLM 的基本原理,以及如何判断 LLM 应用的价值。
AI 既不是万能的,也不是一无是处的。
希望这些实用知识能帮你分辨AI 真正的价值应用,而不是被炒作产品骗走钱。
记住:最强大的 LLM 应用,追求的不是完美准确,而是“基本正确”,并且 让 AI 本身隐形,专注于解决现实问题。
下一篇:Meta 的 AI 玩法
Meta 正坐在一座金矿上,你一定想知道他们会如何利用它:
• Meta 如何利用 AI 彻底改变 1600 亿美元的广告业务(占总收入 97%)?
• 如果 AI 让广告生成的成本降到接近 0,会发生什么?
• Meta 能否打造一个系统,完美匹配你的需求,并自动撰写能直击你内心的广告?
这些数字将令人瞠目结舌。
我们正在谈论的是每天生成数十亿个个性化广告,单个广告的生成成本可能低至几分钱,甚至更低。
与此同时,Google 正在面临搜索引擎的生死存亡问题,而 Meta 可能正在悄悄布局,利用其庞大的用户数据和生成式 AI,重新定义广告价值。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |