找回密码
 立即注册
首页 业界区 安全 Manus没有秘密

Manus没有秘密

忿惺噱 7 天前
提供AI应用咨询+陪跑服务,有需要回复1
最近Agent话题很火,明浩老师做了一份70页的PPT,用了材料还是得帮忙打个广告,给明浩老师(微信:rosicky311)捧场!
粗看了下结构,个人觉得做得很不错,这里拿出来与大家做下交流(我也是第一次细看),本来还有同步音频,我这里就不放出来了,更多是跟着明浩老师的结构阐述个人的一些对Agent的理解
1.webp

请注意:我这里更多跟着明老师的思路,整理自己对AI的一些理解,有错漏大家笑笑即可
基本结构

2.webp

PPT虽然以Manus命名,但从结构上来说,感觉更多会围绕Agent做展开,包括五个部分:

  • 核心叙事,从L1到L3,这里估计是要定义Agent的自动化等级;
  • 定义Agent,从特征到看见,当前市面上还没有Agent清晰的定义,这里应该是要先做定义,再做描述;
  • 实现原理,这里应该是一部分干货,要将Manus实现路径打开了;
  • 使用体验,具体的Agent使用情况,着眼点可能不只是Manus的发展,更多要着眼于Agent整个的发展;
  • 暴论输出,这应该是私货部分了;
结构很不错,我们继续往下(没有逐一解释)。
一、核心叙事

AI分级

3.webp

4.webp

5.webp

这里的AI应用分级最初由OpenAI提出,基于AI系统的能力、自主性、智能水平以及应用范围进行划分:

  • L1:聊天机器人(Chatbots),主要用于对话和简单的信息交流。
  • L2:推理者(Reasoners),能够进行推理和问题解决,展现出高级推理能力。
  • L3:智能体(Agents),能够完成长期任务,具备更强的自主性和决策能力。
  • L4:创新者(Innovators),具备创新能力,能够像科学家一样发现新的科学信息和技术突破。
  • L5:完整组织(Organizations),能够像公司或组织一样运作,具备全面的决策、规划、执行和协调能力。
6.webp

我们之前也对AI应用进行了一种分成,大家可参考食用:
7.webp

8.webp

明浩老师认为,当前我们正处于L2-L3之间,总体来说问题不大。
从个人对AI应用的理解来说,我一直认为L1-L5的定义其实是有点奇怪的,比如L1与L2都可以算作大模型范畴,没什么两样,不能说GPT3.5没有Cot的能力,比如之前我们就使用4o依赖提示词的方式生成过Cot。
而L3的智能体到L5的组织者看起来貌似没什么两样,完全是KnowHow的延伸,端看对模型的使用的目标是什么,任务是什么,他就会有什么样的表现。
以L4创新者来说,现在R1与GPT4.5就完全能辅助我完成AI医生、AI教师的开发,而AI医生和AI教师,历史上是没有的,这个绝对算得上创新。
最重要的是,初步读起来,这里的L3-L5没有代差的感觉,事实上现在L3所需的技术是全部成熟的,只不过有些网站不愿意释放API罢了。
只不过因为L1-L5是权威OpenAI提出,肯定不完全是我能理解的,下面给出完整的解释,大家自己理解吧...
L1级别(聊天机器人)。AI系统能够进行基本的对话和交流,显示出对自然语言的基本理解能力,并能对各种提示和问题作出响应。
L2:推理者(Reasoners)。AI系统能够以人类专家的熟练程度解决复杂问题,标志着其从单纯模仿人类行为升级到展现真实的智能水平。这些AI不仅擅长对话,更具备了解决问题的能力,其推理和决策能力已接近人类水平。
L3:智能体(Agents)。AI系统能够承担复杂的任务、作出决策和适应不断变化的环境,并在无须持续人类监督的情况下自主行动。这一阶段的AI不仅具备推理能力,更能自主执行各类复杂的操作任务。
L4:创新者(Innovators)。AI系统具有创造性和独创性,能够提出突破性的想法和解决方案。它们不仅能模仿人类的创造力,更能突破思维的局限,提出令人耳目一新的创新理念。
L5:组织者(Organizations)。AI系统不仅具备战略思维,还拥有实现组织目标所需的高效率和强适应性,能够管理复杂的系统。它们能够灵活协调多个智能体,合理分配任务,实时监控进度,并依据实际情况作出迅速调整。
聊聊L1到L3

9.webp

这里的几个问题都很经典,比如AI1.0与大模型时代的区别是什么?
这里不同的人理解是不一样的,对于AI应用层的人来说,最大的区别是:首先,大模型应该很好的帮我抽取关键词;其次,大模型能够帮我做更好的效果输出,这里的核心是泛化能力!
很多同学其实并不能理解泛化能力对于AI1.0的重要性,甚至现在很多做AI应用的公司对大模型的能力边界自身应用对大模型的依赖到底是什么根本不清楚。
如果要我说就是:能否有效的抽取我要的关键词,而这也是现有大模型的工程应用瓶颈点!
至于L1的实现,其实没什么好聊的,就是OpenAI大力出奇迹的结果,他们证明了Transformer架构是可行的,与今年DeepSeek证明GEPO很好用是类似的,只不过OpenAI是真的前无古人的。
为什么每次大模型更新都会有一些公司消失,这个我倒是有些理解:
ChatGPT爆火的时候,很多做智能代码的公司要么马上转型、要么死了,其中包括做智能客服的一些公司。
这里举个极端例子:在2年前实现一套知识图谱(比如医疗、教育)成本是千万以上;但今天我只需要1/5甚至1/10的成本
这里的逻辑是什么呢?很可能,数据不值钱了、内容不值钱了,只不过现在还很值钱,这里有个窗口期
以下是我认为接下来AI应用可能的发展趋势:
10.webp

模型or产品

11.webp

12.webp

13.webp

这里明浩老师关于通用模型和垂直模型的说法有点小问题,其实有垂直行业的垂直模型的,以医疗为例:国内暂时有百川大模型、山海大模型、国外有Med-Palm2,如果详细去搜会有很多,只不过想体验就一言难尽了...
至于为什么垂直模型表现不佳,原因很简单:不符合经济学原理,他可能不赚钱
而后面如果产出行业模型,可能会通过微调和强化学习为主,很少有人去预训练了,因为那真的是很烧钱。
但凡是不能绝对,在DeepSeek出来之前,我们做AI应用的绝不会选择去生成数据做微调,最常用的做法还是RAG。
只不过有些场景涉及了大模型的边界,可能只能微调类方式做处理...
然后事实上DeepSeek-V3表现已经不错了,R1确实强调了强化学习,但网上很多用QWen32B模型基于DeepSeek的蒸馏数据做微调,也能获得不错的结果,这里并不能说明强化学习就一定是对的。
大模型当前的很多所谓最佳实践其实都是经济最优,未必是唯一路径,因为很多路径根本没人去试错
最后,aha时刻来说也不太准确,里面有太多国与国的博弈,以及自媒体这群“疯子”在其中扮演了太重要的角色了。
然后,站在工程角度,我们其实是不大爱用R1模型的,因为他真的很“不听话”,并且倾向性很强,很不好哄,但这没办法,设计如此:
14.webp

15.webp

但这张图的问题,貌似我能回答:看到100%准确性!
然后,下面这张图跟我们做工程应用的认知有些不一致,这涉及饭碗之战了:
16.webp

路径之争

总结下来,OpenAI的L1-L5一直在坚定的实施,Deep Research路线,就是其验证的产物:
17.webp

这里需要补充一些信息方便大家认识当前路径的一些问题:
从近期对AI搜索工具的调研来看,AI在实时搜索和信息引用方面存在严重问题,这些问题同样暴露了Deep Research在处理复杂信息时的不可靠性。
研究数据显示,在对20家出版商共1600次提问中,超过60%的回复存在错误,部分工具的错误率甚至高达94%。
这种现象不仅体现在引用新闻文章时,也反映在对原始信息的检索和链接准确性上。
AI搜索工具往往以自信满满的语气输出错误答案,很少使用“似乎”或“可能”等措辞来表达不确定性,甚至在面对明显屏蔽内容时也会错误回应。
举例来说,付费版的工具在回答问题时错误率反而更高,这不仅损害了用户体验,更使得信息的真实性和权威性受到质疑。
至此,第一大段结束,我们进入第二大段。
二、定义Agent

AI搜索

18.webp

这里引用一段:开源的AI搜索方案似乎也有很多,从工程实现的角度来讲,感觉也没有什么难度。同时专门做法律、金融、医疗等垂直方向的一些搜索是否有意义?你听到这些分析的时候,会不会觉得特别的耳熟?这是AI搜索对吧?
暂时看来垂直领域搜索很有意义,原因很简单幻觉与输出增强,这里我不做论证,直接上链接,7500万美金的融资会说明一切:
19.webp

20.webp

21.webp

这段不太有认知了,但程序员是出了名的喜欢作死:GitHub上的代码质量尤其之高,这也是为什么Cursor成为了AI时代打头的爆品
这几页PPT不太重要,核心是下面引出的对Agent的定义。
Agent定义

22.webp

说实话对于Agent的定义,我也觉得很迷,明浩老师这句话说得很好:包括24年agent的行业的发展。但是你会发现大家在这种谈论当中,更多的是一种空对空的谈论
这里没继续展开,然后终于进入了Manus的讨论:
23.webp

24.webp

25.webp

这里明浩老师说明了为什么Manus如此“重要”
L1的看见是什么?是看见吐字。L2的看见是什么?是看见推理。
Agent看见是什么?就是看见agent在工作,一切工作为了让用户看见。那为了让用户看见怎么做到呢?
我们看第三个部分就是Manus的实现原理,副标题叫less structure,更少的控制,更少的限制。
这里我有点不同的理解,看见可能是无奈的结果
以第一性原理的逻辑,我是否看见其实并不重要,只要他能保证100%完成即可,甚至我并不期待AI一个个吐字,我希望他Duang的一下就冒出来了,他之所以一个个吐是因为他慢啊
换个说法:医生的第一性原理不是专业,是对治疗结果负责,他如果能对结果负责,能解决我的问题,我才不管他在没在三甲医院!
三、实现原理

0 workflow ?

26.webp

这里有句话是存疑的:
Manus在发布之前,其实就给一些投资人跟很资深的合作方们看过他们的测试版本。
当时有人就问了一个问题是问这个团队,问Manus团队你们自己写了多少个workflow?大家可以猜一下答案是多少?答案是0。
这句话其实是令人震惊的,如果没写workflow,那么有些网站必须要账号才能访问或者调用服务,他怎么能做到呢?
尽管上述策略理论上可行,但其依赖动态调整或用户协作的模式,可能导致效率低下和体验割裂,例如耗时过长或需频繁人工干预,此外,沙盒环境的算力成本较高,可能限制大规模应用。
当然,没有预先配置必要的账号信息,Computer Use模块在执行任务时确实会遇到问题,但这并不意味着整个流程必须通过工作流来实现。
实际上,Manus 的设计理念是将环境配置(例如网站账号、密码等凭证)与任务编排分离开来,作为系统部署或预设的一部分。

  • 名词解释
Computer Use 可以理解为RPA都是扩展能力,操作电脑的行为,只不过底层是完全不同的逻辑。
Computer Use,是在接受任务后列出行动计划,并根据实时的屏幕变化进行下一步的思考、计划和操作。他可以对未知的工作进行主动探索和试错;
而RPA更多的是流程固定化操作,这是巨大的差异。长时间来看,Computer Use可能会令RPA公司感到绝望...
而这里进一步体现出了大模型的Agent目标:没有工作流,老子自己干。
27.webp

说实话,我们身边做工程的同学对这套类Deep Research想自己干的想法很不满意,毕竟这是我们的工作啊,哈哈!
而后PPT列举了Manus一些与其他Agent平台的案例对比以及成本问题,略去......
至此,虽然明浩老师没有PPT明确说明Agent的定义,其实大概也知道他的倾向性了。
接下来进入具体体验流程:
四、使用体验

28.webp

第一个是希望让Manus给当下的Agent大模型打分,然后产出了一个报表,看上去就像模像样。
以下是一个复杂案例收集图标,完成度不高:
29.webp

这里具体不展开,最终还算给出了不错的反馈(作为第一个版本产品,很不错了):
30.webp

接下来进行最后一个板块,个人认知输出。
五、观点输出

31.webp

额,居然“严厉”起来了,有点否定的意思。
32.webp

但,随后话锋一转,明浩开始强调Manus通用的属性,因为通用所以能够暂时理解,会更有耐心。
33.webp

然后,对于套壳完全呈现无所谓的态度,其实确实应该无所谓,没人傻乎乎去自己训练基座模型。
......
34.webp

后续就基本是夸奖了,总的来说,这份PPT还是值得一读的...

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册