2025年6月6日 星期五 乙巳(蛇)年 三月初十 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > 人工智能

爆火的AI Agent究竟是啥?一篇文章给你讲透!(内含实例)

时间:03-23来源:作者:点击数:12

一、前言:AI Agent火爆登场!

要说今年上半年科技圈的“网红”,AI Agent(人工智能代理)绝对算一个!笔者最近也紧跟潮流,对这玩意儿进行了深入研究,还用智能体开发平台搞了几个有意思的Agent。今天就来跟大家分享一下,笔者对AI Agent的“独家”理解!

二、揭秘AI Agent:不只是“程序猿”的“新宠”

AI Agent,也就是人工智能体,可不是一般的“机器人”哦!它能感知周围环境,还能自己思考、做决定、采取行动,简直就是个“智能小超人”!简单来说,它就是一个基于大语言模型,能通过独立思考、调用各种工具,一步步完成你给它的任务的计算机程序!

是不是有点懵?AI Agent、LLM、RAG……这些“黑话”到底啥关系?别急,咱们先来对比一下LLM和RAG,保准你一下子就明白AI Agent是啥!

1、LLM:语言界的“推理大师”

LLM(大语言模型)可是个“学霸”,它通过海量文本数据的训练,掌握了自然语言的“独门秘籍”。它不仅能生成流畅的文本,还能深入理解文本含义,处理各种文本任务,比如写摘要、回答问题、翻译等等。简单来说,LLM就是语言逻辑推理的“扛把子”,像ChatGPT、文心一言、通义千问这些“网红”都是LLM的杰出代表!

img

不过,LLM的知识都是提前训练好的,时效性嘛……就有点“落伍”了。而且,它学习的知识大多是公开的、标准化的,难免有些“局限性”。

为了解决LLM知识有限的问题,就需要把外部知识“喂”给它,让它好好学习、天天向上,然后再把学到的东西表达出来。这时候,RAG技术就闪亮登场了!

2、RAG:给LLM“开小灶”的“神器”

RAG(检索增强生成)可不是一般的技术,它能把外部信息检索和大型语言模型的生成能力结合起来,专门处理那些复杂的信息查询和生成任务。在大模型时代,RAG 通过加入外部数据(比如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,让信息查询和生成的结果更准确、更靠谱! 举个例子:文心一言的插件服务,就能把实时或者私有的知识“喂”给LLM。

在这里插入图片描述

总结一下,RAG就是一种技术,作用于LLM,目的是让输出结果更准确。

3、AI Agent、LLM、RAG: “铁三角”关系大揭秘!

如果把AI Agent比作一个“智能小超人”,那么LLM就是它的“超级大脑”

AI Agent 会利用 LLM 的推理能力,把复杂的问题拆解成一个个小问题,然后安排好这些小问题的处理顺序,先解决哪个,再解决哪个。接着,它会按照顺序,调用 LLM、 RAG 或者其他外部工具,来逐个解决这些小问题,直到把最初的大问题搞定!

img

三、AI Agent的“骨架”:四大核心组件

前面说了,LLM是AI Agent的“大脑”,但光有“大脑”可不行,还得有“神经感官系统”和“四肢”才能完成复杂的任务。这就引出了AI Agent的四大核心组件:

img

▲由LLM驱动的智能体系统

如上图所示,Agent由4个关键部分组成,分别是:规划(Planning)、记忆(Memory)、工具使用(Tools)、行动(Action)

1、规划(Planning): “运筹帷幄”的“军师”

“规划”就是AI Agent的“思维模式”,它负责“出谋划策”。如果用人来类比,当接到一个任务时,我们的“思维模式”可能是这样的:

  • 首先,我们会思考怎样才能完成这个任务。
  • 然后,我们会把任务拆解成几个小任务,一步步来完成。
  • 接着,我们会评估一下手头有什么工具,能帮助我们更快更好地完成任务。
  • 在执行任务的过程中,我们会不断反思和改进,调整策略,力求完美。
  • 执行过程中思考任务何时可以叫停。

我们可以通过 LLM 提示工程(Prompt),给AI Agent“植入”这种“思维模式”。比如,在编写Prompt的时候,用上ReAct、CoT这些推理模式,引导LLM把复杂的任务拆解成多个步骤,一步步思考和解决,这样输出的结果就会更准确!

2、记忆(Memory): “过目不忘”的“备忘录”

记忆是啥?当我们思考这个问题的时候,其实我们的大脑已经在“调用”记忆了!记忆就是大脑存储、保留和回忆信息的能力。

AI Agent也模仿了人类的记忆机制,分成了两种:

  • 短期记忆:就像我们平时对话的上下文,这些信息会被暂时储存起来,方便进行多轮对话,任务完成后就会被清空。
  • 长期记忆:那些需要长时间保留的信息,比如用户的个人信息、业务数据等等,通常会用向量数据库来存储和快速检索。

3、工具使用(Tools): “十八般武艺”样样精通

AI Agent能感知环境、做决策、执行任务,都离不开“神经感官系统”的帮助,“工具”就扮演了这个角色。AI Agent通过工具从周围环境获取信息(感知),经过LLM处理后,再使用工具来完成任务(执行)。

所以,我们需要给AI Agent配备各种各样的工具,还要教会它怎么使用这些工具。比如:

  • 通过调用软件系统不同应用模块的API,获取指定的业务信息,以及执行业务操作的权限。
  • 通过调用外部的插件工具,来获得LLM原本不具备的能力,比如:文心的Chat files插件能解析文档,扣子的ByteArtist插件能生成图片等等。

这里就用到了前面提到的RAG技术!

img

▲扣子平台的插件商城

4、行动(Action): “雷厉风行”的“执行者”

AI Agent会根据规划和记忆来执行具体的行动,这可能包括与外部世界互动,或者通过调用工具来完成一个动作。简单来说,行动就是把一个输入(Input)任务变成最终输出(Output)的过程

比如:实体AI机器人完成一个“鼓掌”的动作;或者在软件系统中,AI助手帮你创建一个待办任务。

img

▲Cyberdog2完成“鼓掌”任务

四、AI Agent实战案例: 订餐小助手

为了让大家更好地理解AI Agent,笔者举个生活中的小例子:假设你需要和朋友在附近吃饭,想让AI Agent帮你预订餐厅。

Agent会先把你提出的任务进行拆解,比如:

第1步: “你在哪儿?”(获取当前位置)

  • 推理1: 我现在不知道你在哪儿,也不知道你附近有哪些餐厅。
  • 行动1: 调用地图工具(Tools),获取你当前的位置。
  • 结果1: 得到你附近的餐厅列表。

第2步: “你想吃啥?”(确定餐厅)

  • 推理2: 要确定预订哪家餐厅,我需要知道你喜欢吃什么,以及其他信息(比如吃饭时间、几个人一起吃)。
  • 行动2: 从记忆(Memory)中找到你的饮食偏好、人数、时间等信息。
  • 结果2: 确定最适合你的餐厅。

第3步: “搞定!”(预订餐厅)

  • 推理3: 根据结果2,看看我有没有预订餐厅的工具。
  • 行动3: 使用相关的插件工具,进行餐厅预订(Action)。
  • 结果3: 任务完成!

五、AI Agent赋能To B产品: 场景化应用

了解了AI Agent的基本原理,我们就可以把这套“黑科技”应用到To B产品的功能设计中,让AI来帮你完成搭建报表、创建任务、生成工作报告等等。这里,笔者就以**【生成工作报告】**为例,分享一下自己的思路:

在CRM系统中,写工作报告(周报、月报)可是个“老大难”问题,费时费力。一般来说,这个过程可以分为几个阶段:

1、手动阶段: “人工”智能

刚开始,员工写工作报告得“吭哧吭哧”干好几步:

  • 第一步:通过各种方法整理汇报周期内联系了哪些客户,商机进展如何,哪些客户成交了,成交了多少业绩等等。
  • 第二步:把这些零散的信息整理成汇报格式(比如:内容+当前进度+预期等等)。
  • 第三步:选择汇报人,提交报告。

这个过程中,员工大部分时间都花在了收集和整理信息上,简直是“时间刺客”!

img

▲手动阶段写工作周报

2、Copilot阶段: “智能”助手初现

有了LLM的加持,员工写工作报告就能省去整理信息和撰写报告的步骤了。

这时候,只需要把报告要求告诉LLM,LLM就能根据零散的数据信息自动生成工作报告。如果提问中没有汇报人等信息,LLM还会通过多轮对话来“刨根问底”。

3、Agent阶段: “全自动”智能体

到了Agent阶段,我们就可以基于智能体的基础框架,打造一个 【工作报告智能体】

  • 规划(Planning): 在编写Prompt的时候,让LLM把“生成工作报告”任务拆解成获取基础数据—整理输出报告—选择汇报人—执行提交四步。
  • 工具使用(Tools): 由于LLM无法直接获取私有化的知识,我们可以通过RAG技术,接入数据中心API来获取客户联系、流转、成交等详细数据;还可以接入工作报告应用的API,获得“填写”和“提交”的权限
  • 记忆(Memory): 把员工以往的汇报内容进行分析,提炼出汇报风格、内容格式、汇报周期、汇报人等信息,作为长期记忆存储起来,供撰写报告时使用。
  • 行动(Action): 基于工作报告应用开放的执行权限,等LLM生成工作报告后,自动执行提交操作,完成任务。
img

▲工作报告智能体框架

有了这个“神器”,员工只需要给Agent下达写工作报告的任务(可以设置定时任务或者手动触发),Agent就能自动完成数据采集、报告撰写、选择汇报人、报告提交等一系列操作,简直不要太方便!

img

▲工作报告智能体demo

六、总结: AI Agent,To B软件的“未来之星”

如果把“To B软件的AI化”比作汽车自动驾驶技术的发展,那么2023年LLM的推出,就相当于把To B软件应用的自动化程度从L1阶段提升到了L2阶段;而AI Agent的到来,则让自动化程度更上一层楼,从L2阶段升级到了L4阶段。

img

▲人类与AI协同的三种模式

随着AI Agent自主性的不断增强,它将会逐渐取代越来越多的重复性工作。但从To B软件的角度来看,AI最终要解决的核心问题仍然是 “降本增效”

所以,作为产品经理,在提升自己AI能力的同时,也要不断提高自己对产品所在行业的业务理解能力。毕竟,如果找不到核心应用场景,再先进的工具也只是“摆设”

以上就是笔者近期的学习和思考,希望能给大家带来一些启发!

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门
本栏推荐