一、前言:AI Agent火爆登场!
要说今年上半年科技圈的“网红”,AI Agent(人工智能代理)绝对算一个!笔者最近也紧跟潮流,对这玩意儿进行了深入研究,还用智能体开发平台搞了几个有意思的Agent。今天就来跟大家分享一下,笔者对AI Agent的“独家”理解!
二、揭秘AI Agent:不只是“程序猿”的“新宠”
AI Agent,也就是人工智能体,可不是一般的“机器人”哦!它能感知周围环境,还能自己思考、做决定、采取行动,简直就是个“智能小超人”!简单来说,它就是一个基于大语言模型,能通过独立思考、调用各种工具,一步步完成你给它的任务的计算机程序!
是不是有点懵?AI Agent、LLM、RAG……这些“黑话”到底啥关系?别急,咱们先来对比一下LLM和RAG,保准你一下子就明白AI Agent是啥!
1、LLM:语言界的“推理大师”
LLM(大语言模型)可是个“学霸”,它通过海量文本数据的训练,掌握了自然语言的“独门秘籍”。它不仅能生成流畅的文本,还能深入理解文本含义,处理各种文本任务,比如写摘要、回答问题、翻译等等。简单来说,LLM就是语言逻辑推理的“扛把子”,像ChatGPT、文心一言、通义千问这些“网红”都是LLM的杰出代表!
不过,LLM的知识都是提前训练好的,时效性嘛……就有点“落伍”了。而且,它学习的知识大多是公开的、标准化的,难免有些“局限性”。
为了解决LLM知识有限的问题,就需要把外部知识“喂”给它,让它好好学习、天天向上,然后再把学到的东西表达出来。这时候,RAG技术就闪亮登场了!
2、RAG:给LLM“开小灶”的“神器”
RAG(检索增强生成)可不是一般的技术,它能把外部信息检索和大型语言模型的生成能力结合起来,专门处理那些复杂的信息查询和生成任务。在大模型时代,RAG 通过加入外部数据(比如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,让信息查询和生成的结果更准确、更靠谱! 举个例子:文心一言的插件服务,就能把实时或者私有的知识“喂”给LLM。
总结一下,RAG就是一种技术,作用于LLM,目的是让输出结果更准确。
3、AI Agent、LLM、RAG: “铁三角”关系大揭秘!
如果把AI Agent比作一个“智能小超人”,那么LLM就是它的“超级大脑”!
AI Agent 会利用 LLM 的推理能力,把复杂的问题拆解成一个个小问题,然后安排好这些小问题的处理顺序,先解决哪个,再解决哪个。接着,它会按照顺序,调用 LLM、 RAG 或者其他外部工具,来逐个解决这些小问题,直到把最初的大问题搞定!
三、AI Agent的“骨架”:四大核心组件
前面说了,LLM是AI Agent的“大脑”,但光有“大脑”可不行,还得有“神经感官系统”和“四肢”才能完成复杂的任务。这就引出了AI Agent的四大核心组件:
▲由LLM驱动的智能体系统
如上图所示,Agent由4个关键部分组成,分别是:规划(Planning)、记忆(Memory)、工具使用(Tools)、行动(Action)
1、规划(Planning): “运筹帷幄”的“军师”
“规划”就是AI Agent的“思维模式”,它负责“出谋划策”。如果用人来类比,当接到一个任务时,我们的“思维模式”可能是这样的:
我们可以通过 LLM 提示工程(Prompt),给AI Agent“植入”这种“思维模式”。比如,在编写Prompt的时候,用上ReAct、CoT这些推理模式,引导LLM把复杂的任务拆解成多个步骤,一步步思考和解决,这样输出的结果就会更准确!
2、记忆(Memory): “过目不忘”的“备忘录”
记忆是啥?当我们思考这个问题的时候,其实我们的大脑已经在“调用”记忆了!记忆就是大脑存储、保留和回忆信息的能力。
AI Agent也模仿了人类的记忆机制,分成了两种:
3、工具使用(Tools): “十八般武艺”样样精通
AI Agent能感知环境、做决策、执行任务,都离不开“神经感官系统”的帮助,“工具”就扮演了这个角色。AI Agent通过工具从周围环境获取信息(感知),经过LLM处理后,再使用工具来完成任务(执行)。
所以,我们需要给AI Agent配备各种各样的工具,还要教会它怎么使用这些工具。比如:
这里就用到了前面提到的RAG技术!
▲扣子平台的插件商城
4、行动(Action): “雷厉风行”的“执行者”
AI Agent会根据规划和记忆来执行具体的行动,这可能包括与外部世界互动,或者通过调用工具来完成一个动作。简单来说,行动就是把一个输入(Input)任务变成最终输出(Output)的过程。
比如:实体AI机器人完成一个“鼓掌”的动作;或者在软件系统中,AI助手帮你创建一个待办任务。
▲Cyberdog2完成“鼓掌”任务
四、AI Agent实战案例: 订餐小助手
为了让大家更好地理解AI Agent,笔者举个生活中的小例子:假设你需要和朋友在附近吃饭,想让AI Agent帮你预订餐厅。
Agent会先把你提出的任务进行拆解,比如:
第1步: “你在哪儿?”(获取当前位置)
第2步: “你想吃啥?”(确定餐厅)
第3步: “搞定!”(预订餐厅)
五、AI Agent赋能To B产品: 场景化应用
了解了AI Agent的基本原理,我们就可以把这套“黑科技”应用到To B产品的功能设计中,让AI来帮你完成搭建报表、创建任务、生成工作报告等等。这里,笔者就以**【生成工作报告】**为例,分享一下自己的思路:
在CRM系统中,写工作报告(周报、月报)可是个“老大难”问题,费时费力。一般来说,这个过程可以分为几个阶段:
1、手动阶段: “人工”智能
刚开始,员工写工作报告得“吭哧吭哧”干好几步:
这个过程中,员工大部分时间都花在了收集和整理信息上,简直是“时间刺客”!
▲手动阶段写工作周报
2、Copilot阶段: “智能”助手初现
有了LLM的加持,员工写工作报告就能省去整理信息和撰写报告的步骤了。
这时候,只需要把报告要求告诉LLM,LLM就能根据零散的数据信息自动生成工作报告。如果提问中没有汇报人等信息,LLM还会通过多轮对话来“刨根问底”。
3、Agent阶段: “全自动”智能体
到了Agent阶段,我们就可以基于智能体的基础框架,打造一个 【工作报告智能体】:
▲工作报告智能体框架
有了这个“神器”,员工只需要给Agent下达写工作报告的任务(可以设置定时任务或者手动触发),Agent就能自动完成数据采集、报告撰写、选择汇报人、报告提交等一系列操作,简直不要太方便!
▲工作报告智能体demo
六、总结: AI Agent,To B软件的“未来之星”
如果把“To B软件的AI化”比作汽车自动驾驶技术的发展,那么2023年LLM的推出,就相当于把To B软件应用的自动化程度从L1阶段提升到了L2阶段;而AI Agent的到来,则让自动化程度更上一层楼,从L2阶段升级到了L4阶段。
▲人类与AI协同的三种模式
随着AI Agent自主性的不断增强,它将会逐渐取代越来越多的重复性工作。但从To B软件的角度来看,AI最终要解决的核心问题仍然是 “降本增效”。
所以,作为产品经理,在提升自己AI能力的同时,也要不断提高自己对产品所在行业的业务理解能力。毕竟,如果找不到核心应用场景,再先进的工具也只是“摆设”。
以上就是笔者近期的学习和思考,希望能给大家带来一些启发!