发布时间:2026-02-01
浏览次数:0
热度不断持续升温的是 AI Agent,然而真正意义上的成功并非在于能够被看到的功能,而是隐匿于底层的系统设计以及业务理解之中。本文是从“冰山模型”着手进行出发,对 AI Agent 落地的关键要素予以拆解,从而揭示那些被忽视掉却对成败起着决定性作用的 90%隐性工程。
在和大家谈起 Agent 之前,我打算先引领着各位去瞧瞧一位被称作“圈内大佬”的人的观点。
那个被称作CEO的人,是山姆·奥特曼(Sam)。奥特曼有过这样的行为,即分享了他对于叫作通用人工智能(AGI)的事物进化路径的洞察,而且他还另外实施了一个划分行为,把原本应该被叫做AI事物的发展情形,划分成了五种不同的阶段。
当把通向AGI的途径当作一回升级提升能力应对挑战的过程时,当下我们进展到哪一个阶段了呀?
有关AGI进化路径的洞察,山姆·奥特曼早前就曾在访谈里分享过。那时这些展望还依旧处于理论方面 ,然而当下已经不一样了,他当初的预言正一个一个地变成现实。
没错,我们当前就处在L3,Agent阶段。
Agent是什么?
Agent是一种大模型应用,这种应用能够观察世界,能够调用工具,还能够采取行动,其目的在于实现特定目标,此应用不仅具备自主性,它还能够主动推理下一步策略。
网络之上存在着各式各样的定义,我所认为的在解释方面最为精妙的是,Agent是这样的一个程序,其能促使模型依据环境反馈来运用工具。
说得更通俗易懂一些:像人一样执行任务。
像人一样执行任务,人类和AI的行为模式到底有哪些区别呢?
人类和AI的行为模式区别
第一个区别:交互方式
我们身为人类,属于“视觉动物”,人类之间的交互主要是靠视觉来进行的,所以针对人类设计的产品需要有一个前端界面,然 Agent 能借助文本以及多模态在后端达成交互。
第二,人需要“专注”,AI能“一心多用”
人类没办法在同一时间,既「做事情」,又「学东西」,这是由于这两者关联大脑的不同区域。然而 Agent 却能够借助强化学习,在执行任务之际展开学习。所以,在为 Agent 设计产品之时,极为关键的是设计一套奖励机制。
来举个例子,当你着手运用浏览器之际,系统并不会频繁地弹出窗口用以评判你的操作究竟是否正确。然而要是针对 Agent 所设计的浏览器,那就得时时刻刻去提供 +1 分 ,从而使得它在紧接着进行下一次执行相应任务之际能够表现得更为出色。
第三个区别是单线程 VS 多线程
有一种经典的对比:人开展工作的模式形似“贪婪算法”,始终聚焦于眼前最为有利的局部最优解,一步接着一步去完成任务。上一个任务宣告结束的时候,便是下一个任务开启的时刻,这属于一种单线程的逐个完成模式。
AI 的模式,与「动态规划」极为相似,它能够于多个节点之上,同时并行处理诸多任务,始终不懈地追求全局最优解。
然而,这顺带引出了一个疑问:在 Agent 以并发方式去执行任务之际,究竟应当怎样去维持不同任务各自的状态呢?
就人类而言,上一个任务终结之时,便是下一个任务起始之刻,所以自然不必维持状态。
不过呢,Agent 于一个节点之上,有可能同时去执行 100 个任务,而这些任务的执行速度是各不相同的,存在着有的快,有的慢,甚至有的或许得要人工进行干预的情况,因而就需要去设计出一种全新的机制,以此来保证 Agent 能够高效且稳定地在不同任务之间实现切换以及协调。
第四个区别:人的边界,AI的“安全围栏”
人的话本能够就自己施之行为履行负责之责,然而一旦一个人工智能智能体出现状况生出问题,那么究竟是谁会来承担起这份责任呢? 此责任之归属又该如何判定呢。
举例来说,你手上持有一段代码,要是这段代码是你亲自编写而成的,那么你理所当然能够接纳这段代码于你的电脑上径直运行,缘由在于一旦出现问题你能够承担责任。
可是倘若这一段代码是由AI所生成的情形之又如何呢?要是在运行完毕之后,你的那些文件全部都丢失不见了,会是谁去承担相应责任呢,有负责的人吗?
要解决这个难题,AI Agent执行任务时,最基本要求是有一个如同虚拟保护罩般的“安全围栏”(,沙盒),它能把AI产生的影响控制在安全范围内。
这个安全围栏并非是要以一概全的方式去限制住 Agent 的能力,而是要进行动态判断,判断哪些任务能够交由 Agent 处理,那么哪些又是不能交由其处理的。
AI Agent 技术栈全景
即便我们所目睹的绝大多数“智能”呈现源自上方层级的AI模型,然而,切实支撑Agent运行、令其具备可靠性与强大能力的,是处于水面下方的庞大工程体系。
给所有人举一个能轻易明了的事例:把借助人工智能的智能体比作一部交通工具,大规模的语言模型就是动力产生装置,然而与此同时它还需要掌控方向的部件,安在车体下的圆形滚轴,输送燃油的管道系统,以及电力控制系统等等。
自水面之上的应用层面开端,直至水面之下的技术根基部分,我会逐个地为各位详尽地讲述清楚~。
水平面顶层–AI 应用层
这是冰山顶端,也是咱们用户直接接触到的产品。
市场上比较火的Agent产品有:Manus、、、、等
此刻,一块儿“钻进去”水下瞧瞧,一个究竟是怎样运作的呢。瞅瞅AI Agent为了能切实给人类做事,究竟投入了多少的精力与付出。
中层,AI Agent的核心能力之中是有工程支撑的,规划,它乃是Agent的“大脑管家”。
未曾有规划的AI,恰似一名未准备复习提纲的学生,作答问题或许思绪跳跃不定、欠缺周全。具备规划的AI,方才会迥异于前者,更酷似一位可靠的助手:明晰目标,懂得拆解,能够反思,甚而能够自我改进。
规划的四大能力
1)目标拆解( )
去将一个规模较大的任务,给拆分开来,使之成为能够被执行的、细小的任务,这大致就仿佛于列举待办事项清单那般。
将“策划发布会”予以拆解,使之成为“找场地”、“做PPT”、“写宣传文案”这般的小任务,此环节就是Agent真正拥有强大实力之处,亦是它能够处理复杂问题的关键所在。
2)思维链(Chain of )
一个脑子好使的项目经理,于分配任务以前,会先在脑海中将整个流程“思索”一番。这AI Agent同样如此,它会先在自己名为“大脑”的地方让自己的思维链跑上一阵,此即Chain of (简要称呼为COT)。
给大伙再举个例子用以便利理解,比如说呀,当我让Agent去撰写一篇有关AI Agent的文章之际,它并非会马上就着手动笔,而是会先于其内部开展一场“头脑风暴”。
第一步:需要上网搜集关于Agent的最新论文;
第二步:分析这些论文,找出核心观点;
第三步:根据这些观点,生成文章大纲;
第四步:根据大纲填充内容……
这个,一步一步进行“想”的过程,便是AI领域之中,所谓的“思维链”,即(Chain of)。”。
正是由于存在这个“思维链”,Agent才能够把一件复杂且模糊的任务,转变为一项清晰且可执行的计划,这项计划不仅协助Agent达成任务,而且它也能够在任务失败期间,使Agent明白问题出在何处,进而让其开展自我修正。
故而讲,“思维链”乃是Agent具备强大“任务管理”以及“自我纠错”能力的要点所在。它仿若Agent的“内在独白”,促使其由一介单一的执行者,演变成一个切实会思索的智能体句号。
3)反思()
让 Agent 在完成任务后,回顾自己做得到底对不对。
写完一段代码后,Agent 会检查:
人与写完文章之后会“回头把它通读一番”同理,要去查看是不是存在逻辑方面的差错,字词书写有无错误,标点符号运用是否恰当等等。
4)自我批评(Self-)
让 Agent给自己挑毛病,然后改进。
AI 写了一篇文案,自己会问:
然后再从表达上润色一遍。
自我批评,让 AI 从“只会输出”进化到“会自我迭代”。
这同样是我之所以讲,规划乃是Agent的“大脑管家”的缘由所在,鉴于它不但助力你去执行,而且还会预先开展计划,于过程之中实施监督,在事后进行复盘。
2. 记忆()
记忆()是什么?
于大模型当中,记忆()恰似人之大脑记忆,其助力模型,不仅能够“即时对话”,而且还能够“有前后文”,并且还能够“记住事情”。
要是不存在记忆,模型每一回回答问题之时都好似丧失记忆那般,用户只要一关闭对话窗口,它便记不得先前发生的事情了。
AI当有了记忆之后,才能够变得更像“一个真正的助手”,即懂你,记得你,会总结你的习惯。
1)短期记忆(Short-term )
对应上下文窗口( )。
就像人的“工作记忆”,只能记住你最近聊过的内容。
举例:
你说:“我叫小宋。”
接着问:“我刚刚说我叫什么?”
AI 能回答“小宋”。
但是上下文窗口他是有大小的。比如:
然而要是你交流的时长过久,超出了它所具备的“记忆上限”,以往的内容便会被忘却,如同人们在聊天的时间过长时忘掉了起初所讲述的话语一样。
2)长期记忆(Long-term )
冲着那与之相称的RAG(检索增强生成),再加上知识库,这儿就先不展开来讲了,那些对RAG有兴趣的同学,去瞅一瞅我上一篇哈~。
就像人的“长期记忆”,能保存很久,不会轻易忘掉。
举个例子:
你上传一份金融公司的产品手册,让 AI 记住。
下周再来问:“我们的产品支持哪些功能?”
它可以从知识库里检索出来再回答你。
这就是通过知识库 + 向量数据库 + RAG 技术实现的。
类似人的企业私有知识库问答,AI助手能够记住你的长期偏好,像是你所喜爱的写作风格等等,这便是长期记忆。
那咱们来总结一下:
两者结合,就让 AI 更像一个“会思考、能记忆的人”。
3. 工具调用(Tools)——AI的“手和脚”
要是将记忆,视为大脑的那种“记忆能力”,把规划,当作大脑的那种“思维能力”,那么工具调用(Tools),便是给AI安装好的“外挂超能力”。
没有工具调用的 AI,就像一个只会在脑子里想的学生;
存在了具备工具调用性质的AI,宛如一位携带着计算器、搜索引擎、拥有的Excel、还有画图软件的学霸,能够亲手去解决愈发复杂起来的问题。
举例来说,你安排一名从事设计工作的员工去达成一项复杂的任务,他不但得拥有一个聪慧的头脑,以此来激发灵感,而且还需要各类工具,诸如Figma等设计工具。
和AI Agent情况相同,它所谓的“手和脚”是各类工具(Tools)。
常见的工具包括:
有了这些工具之后,AI并不单单只是“说一说”这般简单,而是实际上能够“动手去做”了。要是没有这些工具的话,不管多么聪明的AI ,都仅仅只能“纸上谈兵”罢了。
4. 可观测性( )
让人变得透明可控的可观测性,指的是AI Agent,它不再是“黑箱”,而是一个系统,这个系统能够随时开展体检,还能够随时明确问题的具体位置,进而辅助定位问题。
1)为什么 AI Agent 特别需要可观测性?
异于平常的软件,AI Agent 的运作进程存在诸多“难以预料”之处:
万一不存在可观测性,那你压根儿没法晓得Agent之差错缘由、何处耗费时间、钱财究竟用在了哪儿,如此一来便极难对问题予以定位。那么,可观测性涵盖哪些维度呢?
日志(Logs)
指标()
追踪()
例如:用户进行提问的举动,然后将其路由至GPT-4这个对象,接着便对相应内容予以调用,最后把相关答案进行全方位整合。
3. 常见工具和框架
在 AI 领域sketch uk,常见的可观测性平台有:
国外:
国内:
5. 认证()
于AI Agent的技术栈当中,认证实属特别基础不过极其关键的一层。好多同学或许会存有疑问:Agent难道不就是用来回答问题的吗,为何还需要要认证呢?
尚未经过认证的AI Agent,宛若一座未曾配备门禁卡的办公楼,任何人都能够随意进入,如此一来既不存在安全性,又失去了可控性。
1)为什么需要认证?保护用户身份
比如呢,存在一个企业内部的 Agent,这个 Agent 只有企业员工才能够使用,而企业外部的人员是不可以随意去调用它的。
保护数据安全
AI Agent常常需要去碰及隐私数据,其中涵盖聊天记录,还有公司资料,以及数据库。
没有认证,就可能被恶意调用,造成数据泄漏。
控制权限和范围
不同的人可以配置不同的功能权限。
比如:员工可以查考勤,管理员才能批量导出报表等
审计与追踪
谁访问了 Agent、做了哪些操作,都能记录下来。
方便日后追溯问题。
2)常见的认证方式
在 AI Agent 系统中,常见的认证方式有以下几种:
账号 + 密码
最传统的方式,适合个人小工具,但安全性一般。
OAuth 2.0 /
比如用微信 / 钉钉 / / 登录第三方网站。
常见于企业级 Agent 系统。
(密钥)
调用 Agent 接口时,必须带上一个“钥匙”。
就像去酒店开门,要插房卡。
多因素认证(MFA)
除了密码,还要短信验证码 / 邮件验证 / 动态口令。
常见于对安全要求极高的 Agent 应用。
基于角色的访问控制(RBAC)
就好比后台交易系统而言,我们会配置“普通用户”,还会设置“管理员”,并且设立“超级管理员”。
不同角色分配不同权限。
于其技术栈当中,认证促使可以使用之人得以明确,能够运用至何种程度变得清晰,所施行的操作具体是什么也拥有了可掌控的态势,进而达成了有迹可循的状况。
6. Agent 协议(Agent )
规定了 Agent 之间进行通信以及协作的规范准则,化解不同 Agent 以及不同模型之间的沟通难题,其作用等同于“翻译官加上调度员”,举例来说,所提出的 A2A(开放协议)、Tidal、SLIM 等等皆是处于发展进程中的相关协议。
7. 模型路由(Model )
Model,也就是模型路由,其作用在于,针对特定任务,判定究竟该选用哪一个底层大模型。
好多初入此领域未带成见的新手在头一回听闻Model(模型路由)之际,都会呈现一脸茫然不知所措的模样:难道其听起来好似是“模型踏上高速公路”这般怪异吗?但实际上没多么玄乎,它不过是于诸多大模型相互之间,凭借智能来协助你选出最为契合与恰当的那一个罢了。
比方说,有一个 Agent,能依据任务的类型,自行挑选调用,Kimi,或者等不同的模型。
再举个通俗易懂的例子:
在你的公司里,有好几个员工,他们有不同的擅长点:
现在你接到一个任务:
这背后“派单”的人,就是 (模型路由器)。
通过我的例子,相信大家可以大致猜出模型路由的优势了。
优势 1:降低成本
简单问题(比如算个加减法),用便宜的小模型就够了。
像撰写一篇篇幅较长的文章这样复杂难度的任务,再启用GPT - 4、Kimi这类具有强大功能大规模的模型。
优势二:提升效果方面,不同模型存在各自擅长的领域,像是有的擅长总结长文,GPT - 4则较为擅长推理、擅长多模态以及进行全球生态整合等,路由器会依据这些情况“对症下药”。优势三:智能分流。
同时接入多个不同的模型供应商,比如、、、、包括kimi等,系统会依据任务类型来自动进行分配,以此避免出现“只用一个模型”这种情况。
底层:硬件与基座——的“地基”
处在最底层的,是对一切运作起到支撑作用的硬件(CPU / GPU)以及基础设施(Infra),这恰似一个公司的办公室与水电网,缺少了这些,无论多么出色的项目经理以及工具,都没办法展开运作。
平日我们所讲的那些大模型,其实不过是处于这个地基之上的一颗具备强大能力的芯片罢了,它能够提供“思考”的能力,然而并非代表全部。
1. 基础大模型( )
在被称作“超级智能城市”的Agent里,我们已谈论了它的“手脚”也就是工具,其“记忆”也就是数据库,以及作为“交通网络”的基础设施。如今sketch uk,最终马上要讲述到这座城市最为核心、最为神秘的部分,即基础大模型,这基础大模型就属于Agent的“中央大脑”。
为什么说它只占10%?
虽然大模型属于Agent的“大脑”,可是为何要说它仅仅占据整个Agent成功比例的10%呢?
倘若存在一个出色的 Agent,那么它恰似一个卓越的团队。它于决策环节得仰仗聪慧的“大脑”(此为基础大模型)。而于执行阶段,又需借助有力的“手脚”(也就是工具)。在提供支持方面,还离不开确切可靠的“记忆”(即数据库)。并且在保障稳定之时,更要有强盛的“基础设施”(涵盖硬件与基座)。
2. 数据处理(ETL)
ETL,是由(提取)、把所提取的进行(转换),以及Load(加载)这三个英文单词的首字母缩写而成,它宛如一个“原料工厂”,能保证送到Agent跟前的全都是具备高质量、能够可直接加以使用的信息。
数据处理,是一个看起来不怎么起眼,然而却有着至关重要意义的环节,它对 Agent 所能获取的知识的质量,以及知识的广度起到了决定作用。
一个极为强大的Agent,其背后必然存在一个具备高效性的ETL系统,该系统能够持续不断地为这个Agent输送具备高质量以及结构化特点的如同能够滋养其成长“数字养料”一般的物质与信息。正因如此,这也再次具体呈现出软件工程于Agent领域所发挥的巨大作用。
3. 数据库 ()
“长期记忆”这项属于Agent的内容,得要有一个地方来进行存储。向量数据库,就像是和这样的,是专门针对它所建造的“图书馆”,其能够快速地进行存取操作以及检索海量的知识与信息,以此确保当Agent有需要的时候,可以迅速地去调取相关的记忆。用于存储Agent的长期记忆以及相关数据。
4. 计算资源提供者(CPU/ )
Agent的全部智能活动,包括思考,规划,调用工具,直至最终生成结果,都必需庞大的计算力,而这些计算力主要是由GPU(图形处理器)以及CPU(中央处理器)予以提供的。
物质基础,是 Agent 存在的计算资源提供者。强大算力,由它们所提供,恰似为 Agent 注入了生命力。缺少它们,Agent 的所有设想,皆不过是空谈罢了。
结尾:AI Agent的终极意义
所以讲,一个达成成功的AI Agent,并非仅仅只是一个具备聪明特质的大模型,反而是一个经由前端、还有记忆、以及工具、另有任务编排等一系列繁杂系统共同组建而成的存在着的“超级工程”。
这为诸多之所以许多科技巨头纷纷往AI Agent的赛道跑去作出了诠释。原因在于这并非简单模式的争斗,而是系统关联整合,技术转化能力与行业领悟的全面较量。
未来
我觉得,随后的日子里,必然会呈现出一种多智能体的形态(Multi-)。究竟为何会这样讲呢?不管是所提及的A2A(开放协议),又或者是红杉所提出的Agent(智能体集群),它们均在表明,Agent与Agent之间的交流沟通,是未来注定要出现的情况。
面向未来,AI Agent的发展方向在于垂直化以及工程化,借助多Agent之间的协同工作,它会逐步渗透到我们工作的诸般角度,以及生活的各个层面,进而实现多领域皆覆盖的影响态势!
将如水电煤那般,成为我们工作以及生活的基础设施的是AI Agent,而真正的赢家是那些能够把“冰山”水下部分做得既深且稳的公司。
你试想,往后的时段里,究竟是哪种范畴的AI Agent第一将会对我们的生活作出改变呢?于评论的区域当中,针对此抒发一下你的见解吧。
上述内容中提到在此处若觉得不错,那就顺手点个赞、进行收藏吧。要是想在第一时间收到推送,那也能够为我设置个星标呢~多谢你的喜爱,我们,下次再会吧~。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码