您当前的位置：首页 > 计算机 > 编程开发 > 人工智能

大模型 | 审计应用：大模型有幻觉，我们有“幻想”

时间：04-06来源：作者：点击数：16

还没有搞明白数字化审计的SQL语句，用上RPA，写两句Python，大模型就来了，差距越来越大，大到想躺平。

大模型时代，内部审计人员如何迎头赶上？

（图源：网络侵删）

正如上面这幅图所示，软件并没有吞噬整个世界，而是成为人类的朋友。AI也不会吞噬软件，只是用更高的形态成为人类的助手。

面对AI新浪潮，面对似乎无所不能的大模型，我们需要做的就是理解它、掌握它、应用它、反馈它，一起成长。

伴随着学习的历程，拟通过系列文章分享对大模型在内部审计应用方面的困惑、如何破冰、关键步骤、实操案例、搭建自己的 AI Agent。

启航吧！

困惑和认知差

从2022年11月ChatGPT发布开始，到现在越来越多提到的大模型，AI智能切切实实有了很强的触达感，仿佛一下子到了身边，不再是远在天边。

和很多人一样，审计人员看到了滚滚而来的浪潮，想去拥抱浪潮，却又不知道从何做起，有着各种各样的困惑：

门槛越来越高。之前做数字化审计，数据分析、数据挖掘也许一台笔记本就可以跑出来体验一下。但大模型的投入鸿沟更宽，大多数人无法克服重重障碍去体验，个人又没有能力私有化部署。数据是否可以出公司投入到大模型中，数据安全让很多人不敢用。
找不到落地场景。大模型可以写报告、解题目、编程序，似乎无所不能，但是却不知道如何结合自己的专业和岗位去用，如何利用大模型拿到自己想要的结果，常常面临着“有脑无手”的困局。
技术能力“清零”。数字化审计时代，具有信息科技背景、能上手数据分析的往往是具有一定技术能力的复合型审计人才。但大模型展现出来的编码能力，让审计人员通过反复记忆、肌肉训练形成的能力有一夜清零的可能。
思维方式面临挑战。面对大模型，审计人员突然发现我们长期习惯于领域问答、搜索引擎思维形成的思维方式，问不出好的问题，始终拿不到自己想要的答案。大模型来临的时候，掌握话语权的数字移民需要再来一次移民，原来的数字原住民可能也要面临一次移民。

解决这些困惑，让审计人员能开始学起来、用起来，AI智能审计才能真正启航。

种一棵树最好的时间是十年前，其次是现在

在这个百“模”争流的时代，其实对初学者是友好的：

大量大公司训练的大模型可以免费使用
大量开源的模型和数据集可以练手
大量研究的文章和合集在涌现
大量的创新应用模式可以尝试

AI的幻觉和我们的“幻想”

在生成式AI领域，“幻觉（Hallucination）”指的是GPT倾向于根据提问进行回答，但有些回答可能是无意义的，甚至错误的。

下图是纽约时报刊载的一个名场面：AI根据人类的行为自动生成了结果，但这不是人类想要的。

(图源：网络侵删)

很多审计人被大模型打败，有对新领域的畏惧感，也有败在浅尝辄止上，或者说存在“幻想”。

幻想着输入”如何查舞弊？“ 立马拿到舞弊检查的万能钥匙。
幻想着扔一张数据表给大模型，立马检测出问题，写出检查底稿。
幻想着提供一些底稿，立马就可以输出一份惊艳的审计报告。
幻想着喂入一堆审计报告，立马可以造就一个专业检查指引。

数字化审计离不开技术和业务的融合。过去一段时间，在数字化转型的浪潮下，由于从无到有的系统建设、大量业务需求的涌现，技术交付能力越发成为审计数字化转型的瓶颈，也使得大家的注意力集中在技术上。

用过各种大模型测试后，我有种感觉，大模型时代，数字化审计的天平又一次倾斜到业务端。

审计人员的专业框架、判断力，而不是编写代码的能力成为大模型AI智能审计时代的决定性竞争力。

认识大模型

ChatGPT、LLM、Transformer、Prompt、CoT、ARG、Agent ......

先从我们耳熟能详，天天挂在嘴边，好像明白但实际上不明白的概念、术语开始说起。了解了这些术语也有利于我们找到着力的方向。

AI大模型的技术都是公开的，算不上底层技术上的创新，如果你愿意一探究竟的话，可以发现它背后没有任何秘密可言。( 图灵奖获得者 Yann LeCun )

什么是大模型LLM

研究学者称之为大模型的是大规模预训练模型（Large pretrained Language Model），通常认为参数量超过10B的模型为大模型。

目前提到的大模型一般是指大语言模型（Large Language Model)，是一种由包含数百亿及以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练。

什么是语言模型LM

语言模型（Language Model) 是处理人类以文字形式记录和传播的用自然语言描述的各种知识的计算机算法，其目标是建模自然语言的概率分布。

语言模型实质就是“我猜、猜、猜”，只不过这种猜不是揣摩人心，而是基于概率论的猜，是科学地猜。

通俗地说就是根据前面的词和概率预测下一个词，一个词、一个词地猜测后补全下去，就生成了我们需要的答案。（严格来说不是直接猜词，而是在向量矩阵中猜概率最大的位置，根据位置找到对应的词）

在ChatGPT横空出世之前，人类已经在语言模型研究道路上走过了很长的路，根据技术路线的不同可以分为：

统计语言模型（SLM：Statistical Language Models）
神经语言模型（NLM：Neural Language Models）
预训练语言模型（PLM：Pre-trained Language Models）

什么是ChatGPT

ChatGPT 可以拆解为“Chat + GPT”，是一种基于GPT的对话生成模型。

GPT ( Generative Pre-trained Transformer )即生成式预训练转换器，是一种基于Transformer架构的先进的自然语言处理模型，具有强大的文本理解和文本生成能力，通过自注意力机制和深度学习技术，能够理解复杂的文本结构和上下文关系，生成自然、连贯的文本输出。

什么是Transformer

各类大模型都可以追溯到谷歌的一篇学术论文《注意力是你需要的一切》(Attention Is All You Need)，其提出了由编码器和解码器组成的Transformer架构和注意力机制（self-attention Mechanism）。

Transformer 是一种基于自注意力机制（self-attention Mechanism）的深度学习模型，最初是为了处理序列到序列（sequence-to-sequence）的任务，比如机器翻译，得益于其优秀的性能和灵活性，它现在被广泛评估各种自然语言处理（NLP）任务。

基于 Transformer 的模型根据技术路线不同，又可以分为如下两类：

生成式（Generative）模型：GPT系列等，偏重 Transformer 中的解码器（Decoder），单向注意力，可以根据上文推荐下文，擅长文本生成任务，比如对话聊天。
判别式（Discriminative）模型：谷歌的BERT系列等，偏重 Transformer 中的编码器（Encoder），双向注意力，上下文理解能力更强，适合嵌入式表达，比如完形填空。

不过由于OpenAI大力出奇迹，GPT模型取得了突破性进展，生成式模型一家独大了。

当然，OpenAI也不是盲目使大力，根据 Kaplan 证明的缩放法则（Scaling Laws），模型的性能依赖于模型的规模，包括参数量、数据集大小和计算量，模型的效果会随着三者的指数增加而平稳提高，模型的损失会随着模型规模的指数增加而线性降低。