还没有搞明白数字化审计的SQL语句,用上RPA,写两句Python,大模型就来了,差距越来越大,大到想躺平。
大模型时代,内部审计人员如何迎头赶上?
(图源:网络 侵删)
正如上面这幅图所示,软件并没有吞噬整个世界,而是成为人类的朋友。AI也不会吞噬软件,只是用更高的形态成为人类的助手。
面对AI新浪潮,面对似乎无所不能的大模型,我们需要做的就是理解它、掌握它、应用它、反馈它,一起成长。
伴随着学习的历程,拟通过系列文章分享对大模型在内部审计应用方面的困惑、如何破冰、关键步骤、实操案例、搭建自己的 AI Agent。
启航吧!
从2022年11月ChatGPT发布开始,到现在越来越多提到的大模型,AI智能切切实实有了很强的触达感,仿佛一下子到了身边,不再是远在天边。
和很多人一样,审计人员看到了滚滚而来的浪潮,想去拥抱浪潮,却又不知道从何做起,有着各种各样的困惑:
解决这些困惑,让审计人员能开始学起来、用起来,AI智能审计才能真正启航。
种一棵树最好的时间是十年前,其次是现在
在这个百“模”争流的时代,其实对初学者是友好的:
在生成式AI领域,“幻觉(Hallucination)”指的是GPT倾向于根据提问进行回答,但有些回答可能是无意义的,甚至错误的。
下图是纽约时报刊载的一个名场面:AI根据人类的行为自动生成了结果,但这不是人类想要的。
(图源:网络 侵删)
很多审计人被大模型打败,有对新领域的畏惧感,也有败在浅尝辄止上,或者说存在“幻想”。
数字化审计离不开技术和业务的融合。过去一段时间,在数字化转型的浪潮下,由于从无到有的系统建设、大量业务需求的涌现,技术交付能力越发成为审计数字化转型的瓶颈,也使得大家的注意力集中在技术上。
用过各种大模型测试后,我有种感觉,大模型时代,数字化审计的天平又一次倾斜到业务端。
审计人员的专业框架、判断力,而不是编写代码的能力成为大模型AI智能审计时代的决定性竞争力。
ChatGPT、LLM、Transformer、Prompt、CoT、ARG、Agent ......
先从我们耳熟能详,天天挂在嘴边,好像明白但实际上不明白的概念、术语开始说起。了解了这些术语也有利于我们找到着力的方向。
AI大模型的技术都是公开的,算不上底层技术上的创新,如果你愿意一探究竟的话,可以发现它背后没有任何秘密可言。( 图灵奖获得者 Yann LeCun )
研究学者称之为大模型的是大规模预训练模型(Large pretrained Language Model),通常认为参数量超过10B的模型为大模型。
目前提到的大模型一般是指大语言模型(Large Language Model),是一种由包含数百亿及以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文本进行训练。
语言模型(Language Model) 是处理人类以文字形式记录和传播的用自然语言描述的各种知识的计算机算法,其目标是建模自然语言的概率分布。
语言模型实质就是“我猜、猜、猜”,只不过这种猜不是揣摩人心,而是基于概率论的猜,是科学地猜。
通俗地说就是根据前面的词和概率预测下一个词,一个词、一个词地猜测后补全下去,就生成了我们需要的答案。(严格来说不是直接猜词,而是在向量矩阵中猜概率最大的位置,根据位置找到对应的词)
在ChatGPT横空出世之前,人类已经在语言模型研究道路上走过了很长的路,根据技术路线的不同可以分为:
ChatGPT 可以拆解为“Chat + GPT”,是一种基于GPT的对话生成模型。
GPT ( Generative Pre-trained Transformer )即生成式预训练转换器,是一种基于Transformer架构的先进的自然语言处理模型,具有强大的文本理解和文本生成能力,通过自注意力机制和深度学习技术,能够理解复杂的文本结构和上下文关系,生成自然、连贯的文本输出。
各类大模型都可以追溯到谷歌的一篇学术论文《注意力是你需要的一切》(Attention Is All You Need),其提出了由编码器和解码器组成的Transformer架构和注意力机制(self-attention Mechanism)。
Transformer 是一种基于自注意力机制(self-attention Mechanism)的深度学习模型,最初是为了处理序列到序列(sequence-to-sequence)的任务,比如机器翻译,得益于其优秀的性能和灵活性,它现在被广泛评估各种自然语言处理(NLP)任务。
基于 Transformer 的模型根据技术路线不同,又可以分为如下两类:
不过由于OpenAI大力出奇迹,GPT模型取得了突破性进展,生成式模型一家独大了。
当然,OpenAI也不是盲目使大力,根据 Kaplan 证明的缩放法则(Scaling Laws),模型的性能依赖于模型的规模,包括参数量、数据集大小和计算量,模型的效果会随着三者的指数增加而平稳提高,模型的损失会随着模型规模的指数增加而线性降低。
使用和研究过ChatGPT或者大模型的人都有一个重要感触:“提示语”是使用大模型知识与能力的接口。
提示语Prompt是指在使用各种生成式AI模型时,为了引导它给出理想的回答而给出的引导性表述。
其目的是“调整和优化文章中前m个元素的值,这些元素通常包括任务描述、上下文信息等,使大语言模型能在给定任务的场景下生成概率更高、更符合预期的结果。”(沈国阳)
举个例子,很多团建活动中都玩过一个两人游戏:一个人拿着一张题卡,上面有字词、成语或者物体,通过语言提示,让另外一个人盲猜出来题卡上是什么,提示语不能直接表达题卡上相关的内容,只能间接提示和告诉对方对或者错。
这里另外一个人就是ChatGPT,语言提示就是问正确的问题,直到他回答出正确的答案。
OpenAI 推出了官方的提示工程指南,提出了六大策略:
研究表明,在提示语中增加推理步骤的长度,即使不添加新信息,也能显著提升大模型在多个数据集上的推理能力。思维链(Chain of Thought)在提升大模型推理能力方面极为重要。
思维链CoT是一种用于设计Prompt的方法,即Prompt中除了有任务的输入和输出之外,还包含推理的中间步骤。这个过程包括定义问题、分解问题、逐步解决子问题,最后综合所有的信息得出最终答案。
通俗地说,就是要像数学老师详细板书教学一样,一步步写出答题步骤,最后得出答案,而不是一句话带过“由此可得”,看得大家抓狂。
(一个思维链的示例 图源:网络 侵删)
最原始的思维链是链式结构,并且以自然语言描述中间推理过程。
由于链式结构过于线性,一定程度上限制了它在负责任务上的能力,很多研究对思维链的结构进行了扩展,提出思维树ToT(Tree of Thought)、思维图GoT(Graph of Thought)。
虽然大模型具备了足够的智慧,但想要让它给出高质量的答案,还需要输入足够充分和精确的Prompt,这些精准的Prompt对逻辑的严密性、细节的完整性等要求比较高,一定程度上违背了普通人的正常表述习惯。
本来应该凸显自然语言优势的大模型,反而因为繁杂的Prompt而变得对普通人不友好。从公众号上广告、*东上不断上新的图书也可以看到,为提升Prompt水平的提示语工程(Prompt Engineering)已成为一门大生意。
这种情况下,OpenAI推出GPTs,通过AI Agent 实现基于大模型驱动的对通用问题的自动化处理。
AI Agent 是一种能够感知环境、实现自主理解、长期记忆,并进行决策和执行动作的智能体,能够针对目标独立思考并作出行动,会根据给定任务拆解出每一步的计划步骤,借助于外界的反馈和自主思考,为自己创建Prompt以实现目标。
“LLM+记忆+任务规划+工具使用”构成了AI Agent四件套。
信通院认为:Agent = LLM x(规划+记忆+工具+行动)。
AIAgent是大模型落地业务场景的主流形式。在满足企业智能化需求的过程中,AI Agent作为一种理想的产品化落地形态,正在承接日益复杂的提质增效需求,并强化内外部协同效能,释放组织核心生产力,对抗组织熵增带来的挑战。
从前述介绍的情况看,Transformer是基础架构,LLM是建立在这种架构上的一类复杂模型,而GPT是LLM的一种特定实例,使用了Transformer架构,并通过大量的预训练获得了强大的语言处理能力。
三者之间的关系像是金字塔建筑框架、金字塔建筑群和某个特定法老的金字塔之间的关系。
(图源:数据化审计公众号)
相应地,Prompt 是打开金字塔神秘大门的“咒语”,念对了才能看到真面目。而 Agent 可以理解为基于金字塔的存在而延伸出来的埃及学、金字塔探秘旅游等等。