爆火的AI Agent究竟是啥？一篇文章给你讲透！（内含实例）

时间：03-23来源：作者：点击数：

一、前言：AI Agent火爆登场！

要说今年上半年科技圈的“网红”，AI Agent（人工智能代理）绝对算一个！笔者最近也紧跟潮流，对这玩意儿进行了深入研究，还用智能体开发平台搞了几个有意思的Agent。今天就来跟大家分享一下，笔者对AI Agent的“独家”理解！

二、揭秘AI Agent：不只是“程序猿”的“新宠”

AI Agent，也就是人工智能体，可不是一般的“机器人”哦！它能感知周围环境，还能自己思考、做决定、采取行动，简直就是个“智能小超人”！简单来说，它就是一个基于大语言模型，能通过独立思考、调用各种工具，一步步完成你给它的任务的计算机程序！

是不是有点懵？AI Agent、LLM、RAG……这些“黑话”到底啥关系？别急，咱们先来对比一下LLM和RAG，保准你一下子就明白AI Agent是啥！

1、LLM：语言界的“推理大师”

LLM（大语言模型）可是个“学霸”，它通过海量文本数据的训练，掌握了自然语言的“独门秘籍”。它不仅能生成流畅的文本，还能深入理解文本含义，处理各种文本任务，比如写摘要、回答问题、翻译等等。简单来说，LLM就是语言逻辑推理的“扛把子”，像ChatGPT、文心一言、通义千问这些“网红”都是LLM的杰出代表！

不过，LLM的知识都是提前训练好的，时效性嘛……就有点“落伍”了。而且，它学习的知识大多是公开的、标准化的，难免有些“局限性”。

为了解决LLM知识有限的问题，就需要把外部知识“喂”给它，让它好好学习、天天向上，然后再把学到的东西表达出来。这时候，RAG技术就闪亮登场了！

2、RAG：给LLM“开小灶”的“神器”

RAG（检索增强生成）可不是一般的技术，它能把外部信息检索和大型语言模型的生成能力结合起来，专门处理那些复杂的信息查询和生成任务。在大模型时代，RAG 通过加入外部数据（比如本地知识库、实时数据等）来增强 AI 模型的检索和生成能力，让信息查询和生成的结果更准确、更靠谱！ 举个例子：文心一言的插件服务，就能把实时或者私有的知识“喂”给LLM。

总结一下，RAG就是一种技术，作用于LLM，目的是让输出结果更准确。

3、AI Agent、LLM、RAG： “铁三角”关系大揭秘！

如果把AI Agent比作一个“智能小超人”，那么LLM就是它的“超级大脑”！

AI Agent 会利用 LLM 的推理能力，把复杂的问题拆解成一个个小问题，然后安排好这些小问题的处理顺序，先解决哪个，再解决哪个。接着，它会按照顺序，调用 LLM、 RAG 或者其他外部工具，来逐个解决这些小问题，直到把最初的大问题搞定！

三、AI Agent的“骨架”：四大核心组件

前面说了，LLM是AI Agent的“大脑”，但光有“大脑”可不行，还得有“神经感官系统”和“四肢”才能完成复杂的任务。这就引出了AI Agent的四大核心组件：

▲由LLM驱动的智能体系统

如上图所示，Agent由4个关键部分组成，分别是：规划（Planning）、记忆（Memory）、工具使用（Tools）、行动（Action）

1、规划（Planning）： “运筹帷幄”的“军师”

“规划”就是AI Agent的“思维模式”，它负责“出谋划策”。如果用人来类比，当接到一个任务时，我们的“思维模式”可能是这样的：

首先，我们会思考怎样才能完成这个任务。
然后，我们会把任务拆解成几个小任务，一步步来完成。
接着，我们会评估一下手头有什么工具，能帮助我们更快更好地完成任务。
在执行任务的过程中，我们会不断反思和改进，调整策略，力求完美。
执行过程中思考任务何时可以叫停。

我们可以通过 LLM 提示工程（Prompt），给AI Agent“植入”这种“思维模式”。比如，在编写Prompt的时候，用上ReAct、CoT这些推理模式，引导LLM把复杂的任务拆解成多个步骤，一步步思考和解决，这样输出的结果就会更准确！

2、记忆（Memory）： “过目不忘”的“备忘录”

记忆是啥？当我们思考这个问题的时候，其实我们的大脑已经在“调用”记忆了！记忆就是大脑存储、保留和回忆信息的能力。

AI Agent也模仿了人类的记忆机制，分成了两种：

短期记忆：就像我们平时对话的上下文，这些信息会被暂时储存起来，方便进行多轮对话，任务完成后就会被清空。
长期记忆：那些需要长时间保留的信息，比如用户的个人信息、业务数据等等，通常会用向量数据库来存储和快速检索。

3、工具使用（Tools）： “十八般武艺”样样精通

AI Agent能感知环境、做决策、执行任务，都离不开“神经感官系统”的帮助，“工具”就扮演了这个角色。AI Agent通过工具从周围环境获取信息（感知），经过LLM处理后，再使用工具来完成任务（执行）。

所以，我们需要给AI Agent配备各种各样的工具，还要教会它怎么使用这些工具。比如：

通过调用软件系统不同应用模块的API，获取指定的业务信息，以及执行业务操作的权限。
通过调用外部的插件工具，来获得LLM原本不具备的能力，比如：文心的Chat files插件能解析文档，扣子的ByteArtist插件能生成图片等等。

这里就用到了前面提到的RAG技术！

▲扣子平台的插件商城

4、行动（Action）： “雷厉风行”的“执行者”

AI Agent会根据规划和记忆来执行具体的行动，这可能包括与外部世界互动，或者通过调用工具来完成一个动作。简单来说，行动就是把一个输入（Input）任务变成最终输出（Output）的过程。

比如：实体AI机器人完成一个“鼓掌”的动作；或者在软件系统中，AI助手帮你创建一个待办任务。

▲Cyberdog2完成“鼓掌”任务

四、AI Agent实战案例：订餐小助手

为了让大家更好地理解AI Agent，笔者举个生活中的小例子：假设你需要和朋友在附近吃饭，想让AI Agent帮你预订餐厅。

Agent会先把你提出的任务进行拆解，比如：

第1步： “你在哪儿？”（获取当前位置）

推理1：我现在不知道你在哪儿，也不知道你附近有哪些餐厅。
行动1：调用地图工具（Tools），获取你当前的位置。
结果1：得到你附近的餐厅列表。

第2步： “你想吃啥？”（确定餐厅）

推理2：要确定预订哪家餐厅，我需要知道你喜欢吃什么，以及其他信息（比如吃饭时间、几个人一起吃）。
行动2：从记忆（Memory）中找到你的饮食偏好、人数、时间等信息。
结果2：确定最适合你的餐厅。

第3步： “搞定！”（预订餐厅）

推理3：根据结果2，看看我有没有预订餐厅的工具。
行动3：使用相关的插件工具，进行餐厅预订（Action）。
结果3：任务完成！

五、AI Agent赋能To B产品：场景化应用

了解了AI Agent的基本原理，我们就可以把这套“黑科技”应用到To B产品的功能设计中，让AI来帮你完成搭建报表、创建任务、生成工作报告等等。这里，笔者就以**【生成工作报告】**为例，分享一下自己的思路：

在CRM系统中，写工作报告（周报、月报）可是个“老大难”问题，费时费力。一般来说，这个过程可以分为几个阶段：

1、手动阶段： “人工”智能

刚开始，员工写工作报告得“吭哧吭哧”干好几步：

第一步：通过各种方法整理汇报周期内联系了哪些客户，商机进展如何，哪些客户成交了，成交了多少业绩等等。
第二步：把这些零散的信息整理成汇报格式（比如：内容+当前进度+预期等等）。
第三步：选择汇报人，提交报告。

这个过程中，员工大部分时间都花在了收集和整理信息上，简直是“时间刺客”！

▲手动阶段写工作周报

2、Copilot阶段： “智能”助手初现

有了LLM的加持，员工写工作报告就能省去整理信息和撰写报告的步骤了。

这时候，只需要把报告要求告诉LLM，LLM就能根据零散的数据信息自动生成工作报告。如果提问中没有汇报人等信息，LLM还会通过多轮对话来“刨根问底”。

3、Agent阶段： “全自动”智能体

到了Agent阶段，我们就可以基于智能体的基础框架，打造一个 【工作报告智能体】：

规划（Planning）：在编写Prompt的时候，让LLM把“生成工作报告”任务拆解成获取基础数据—整理输出报告—选择汇报人—执行提交四步。
工具使用（Tools）：由于LLM无法直接获取私有化的知识，我们可以通过RAG技术，接入数据中心API来获取客户联系、流转、成交等详细数据；还可以接入工作报告应用的API，获得“填写”和“提交”的权限。
记忆（Memory）：把员工以往的汇报内容进行分析，提炼出汇报风格、内容格式、汇报周期、汇报人等信息，作为长期记忆存储起来，供撰写报告时使用。
行动（Action）：基于工作报告应用开放的执行权限，等LLM生成工作报告后，自动执行提交操作，完成任务。