人工智能代理审计

Marco Schreyer (a)，Hanchi Gu (b), Kevin Moffitt (c) 和 Miklos A. Vasarhelyi(c)

a 加州大学伯克利分校国际计算机科学研究所，美国加利福尼亚州伯克利市Shattuck Ave 2150号，邮编94704

b 上海财经大学会计与金融学院，中国上海市杨浦区武川路111号，邮编200433

c 新泽西州立大学罗格斯商学院，美国新泽西州纽瓦克市Washington Park 1号，邮编07102

摘要

将人工智能（AI）代理引入财务审计有可能彻底改变审计实践。通过利用大型语言模型（LLMs），这些自主系统可以通过管理复杂且相互依赖的任务来增强审计功能。本研究探讨了从共驾型LLM启用审计到自动驾驶型代理启用审计的进展。我们介绍了一个在财务审计中实现AI代理工作流的框架。通过一个详细的案例研究展示这些系统的实际应用。我们的发现表明，AI代理审计工作流，以其迭代改进和专用工具使用为特征，可以执行高级审计程序。我们设想这项工作是采用代理进行审计的第一步，并倡导探索AI代理在这一领域的应用。

关键词

人工智能，人工智能代理，大型语言模型，财务审计，会计信息系统，分录测试

1. 引言

2022年，人工智能（AI）引起了广泛关注（Hu 2023），随着大型语言模型（LLMs）的出现，它们可以根据文本提示执行翻译、总结和编码等任务（Vasarhelyi, Moffitt, Stewart, 和 Sunderland 2023；Gu, Schreyer, Moffitt, 和 Vasarhelyi 2023；Eulerich 和 Wood 2023）。简单来说，LLMs 是统计模型

预测给定文本中的下一个字符集，称为标记。OpenAI 的 ChatGPT（OpenAI 2022）应用的突破将焦点转向 LLMs，或更通用的基础模型（Bommasani 等 2021, Bommasani 等 2023）作为 AI 应用开发的核心，并引发了对其能力的广泛好奇（Li 和 Vaserhelyi 2023；Dong, Stratopoulos, 和 Wang 2023）。

图 1: 基础模型（中心）在多样数据源（左）上训练并通过微调（右）用于特定任务，展示了其在各领域中的多功能性（改编自 Bommasani 等 2021）。

如图1所示，基础模型是大规模的预训练模型，构成了专门应用的基础（Bommasani 等，2021；Föhr, Schreyer, Moffitt 和 Marten, 2023）。其开发遵循两阶段过程。在第一阶段，即预训练，模型被训练于广泛的通用任务。随后是微调，这是一个适应特定领域应用的过程（Bommasani 等，2021）。由于其灵活性，此类模型可应用于多模态任务，提供有价值的审计应用，以分析各种数据类型（Gu, Schreyer, Moffitt, 和 Vasarhelyi 2024）。

然而，随着越来越多的审计人员开始使用基础模型，其局限性也逐渐显现（Eulerich, Sanatizadeh, Vakilzadeh, 和 Wood 2023, Gu, Schreyer, Moffitt, 和 Vasarhelyi 2024）。例如，这些模型具有固定的知识库，无法访问超出其最后训练更新的新信息，因此容易产生“幻觉”（Vasarhelyi, Moffitt, Stewart, 和 Sunderland 2023）。此外，不经过大量重新训练，很难将它们适应到特定领域。

最近，复合 AI 系统已在许多领域改进了基础模型的结果。特别是，检索增强生成（RAG）（Lewis 等 2020）系统正日益部署以缓解模型幻觉、过时知识和非透明推理问题（Gao 等 2023）。与其依赖单一的单体模型，这些系统表现出模块化结构，通过多个交互组件处理任务，包括多次调用模型、检索器或其他外部工具（Parisi, Zhao, 和 Fiedel 2022），Shen 等 2024, Schick 等 2024）。一个例子是一个结合语言模型与外部数据库和其他AI工具的系统，以实现复杂任务。2024年初，Cognition.AI 推出了 Devin，这是一种AI软件工程师（CognitionAI 2024）。该系统可以像人类工程师一样访问相同的工具，例如浏览器、命令行和代码编辑器，并互换使用它们。因此，复合AI系统克服了单体基础模型的限制。

同样，未来的复合AI系统在审计中可能建立在基础模型之上，生成对模型和其他组件的多次调用。这些包括组件库如LangChain2和LlamaIndex3，开发者可以从传统程序中调用，代理框架如AutoGPT4和BabyAGI5，让LLM驱动应用程序，以及控制LM输出的工具，如Guardrails6、Outlines7、LMQL8和SGLang9。

² 可通过：https://www.langchain.com/

³ 可通过：https://www.llamaindex.ai/

⁴ 可通过：https://github.com/Significant-Gravitas/AutoGPT

⁵ 可通过：https://github.com/yoheinakajima/babyagi

⁶ 可通过：https://github.com/guardrails-ai/guardrails

⁷ 可通过：https://outlines-dev.github.io/outlines/

⁸ 可通过：https://github.com/eth-sri/lmql

⁹ 可通过：https://github.com/sgl-project/sglang

图 2: 从单一（左）大型语言模型到（中间）结合多个AI组件的复合系统，最终演变为（右侧）能够以最少监督追求复杂目标的AI代理。

最近，组织已经开始开发AI 代理，这些系统通过推理适配地追求复杂目标。这些系统设计为通过推理以有限的直接监督追求复杂目标（Kapoor 等 2024）。虽然基础模型是“辅助飞行员”，可以在请求时支持审计师（Gu, Schreyer, Moffitt, 和 Vasarhelyi 2024），AI代理是“自动驾驶仪”，可以独立采取行动代表审计师完成审计程序（Kolt 2024）。特别是，AI代理可以被提示去追求长时间、开放式的目标，产生实现这些目标的计划，访问外部工具，并独立采取行动以实现这些目标（Heikkilä 2024）。图2说明了从基础模型到AI代理的进展。

Zaharia等人认为，这样的系统可能是最大化未来AI能力的最佳方式（Zaharia 等 2024）。在审计中，代理系统有潜力增加审计师在审计中完成更多任务的能力，减少努力（Eulerich, Sanatizadeh, Vakilzadeh, 和 Wood 2023）。这些代理可以自主完成全面的审计程序，涵盖多项任务，例如AI启用的风险评估或财务报表审查。人工智能代理可以通过使审计师部分或完全卸载审计程序而受益。

例如，审计师可以用自然语言指示审计代理识别财务记录中的潜在欺诈行为。AI代理会通过推理任务，分析存储在其记忆中的历史数据和模式，并访问外部数据库以获取额外背景信息作出响应。然后它会通过标记可疑交易并使用外部工具（如数据可视化软件）生成详细报告来采取行动。因此，代理式AI系统执行广泛的动作，并且足够灵活，审计师可以指定多个交互代理承担越来越复杂的任务。这种向代理的趋势展示了大幅增加AI在审计中的实际用途的潜力。然而，它也可能引入一系列新的挑战和相关风险，例如一致性和责任（Shavit 等 2023）。

本工作将主要关注核心为LLM的代理系统（包括多模态模型），这推动了最近的进步（Heikkilä 2024）。简而言之，我们提出了以下主要贡献：

1. 概念介绍: 我们介绍了代理系统、人工智能代理和AI代理工作流在财务审计背景下的不同概念。
1. 框架建议: 在参加流程自动化（Zhang, Thomas, Vasarhelyi 2022）的基础上，我们引入了一个在财务审计中实施AI代理工作流的框架。
1. 案例研究实施: 我们展示了在审计分录（ISA 240）中的案例研究，以处理实际和相互依赖的任务。
1. 收益和挑战: 我们考察了代理AI系统在审计中的潜在收益，并讨论了这些系统引入的技术和社会挑战。

总之，我们旨在提供一个理解这些先进AI系统如何转变审计实践的基础。本文其余部分的结构如下：第2节定义了代理AI系统和参与代理AI生命周期的各方。第3节详细介绍了代理系统在审计中的潜在收益。第4节展示了在审计中实施代理工作流的案例研究。第5节讨论了与代理AI系统在审计中的挑战和局限性。最后，第6节探讨了整合代理AI系统在审计中的影响和未来方向。

鉴于代理及其在审计中的应用尚处于初期阶段，我们视此工作为讨论如何最好地使用代理AI系统进行审计并利用其潜力的起点。我们希望催化这些对话，而不将其过于锚定或偏向任何方向。

2. 代理人工智能系统

根据Russel和Norvig的说法，代理是指通过传感器感知其环境并通过执行器作用于它的任何实体（Russel 和 Norvig 2021）。例如，人类代理利用眼睛、耳朵和其他感官器官，而手、腿和声带则充当执行器。类似地，机器人代理使用摄像头、红外测距仪进行感应，使用各种电机进行执行。在软件系统中，代理接收诸如键盘输入、文件内容和网络包之类的输入，并通过显示信息或发送网络包进行响应（Russel 和 Norvig 2021）。

代理函数或“大脑”（一个广泛使用的拟人化术语（Kolt 2024）），是对代理行为的抽象数学描述（Russel 和 Norvig 2021）。这个函数通过代理程序在物理系统中具体实现。然而，在人工智能时代，传统的代理函数正越来越多地被复杂的AI模型所取代，例如基于深度神经网络的LLMs，如图3所示。LLMs的使用增强了代理的能力，使其能够执行复杂任务并做出明智决策。

图 3: 比较传统软件代理（左），由软件程序控制，和人工智能软件代理（右），由大型语言模型控制（比较 Russel 和 Norvig 2021）。

这样的代理不同于单一的LLMs，如GPT-4（Achiam 等 2023）、Llama（Touvron 2023）或Mistral（Jiang 等 2024）。尽管LLMs令人惊讶地知识渊博，但它们只能完成有限范围的实际任务。相比之下，AI代理的特征在于它们能够在扩展时间内采取行动，以持续实现目标，而无需事先指定必要任务。例如，AI代理完成任意任务以实现审计，例如自主审查公司的分录、核对供应商发票和检测政策违规。

2.1 人工智能代理的能力

AI代理的能力，如图4所示，是通过集成三个关键资源实现的（Weng 2023）：

规划: 代理将大任务分解为较小的子目标（例如，使用思维链（Wei 等 2022）、思维树（Yao 等 2024）或LLM计划者（Liu 等 2023）），从而有效地处理复杂任务（Huang 等 2024）。代理对其过去的行为进行自我批评和反思，学习错误并改进未来的步骤（例如，使用ReAct（Yao 等 2022）、反思（Shinn 等 2024）或后见之明链（Liu, Sferrazza, 和 Abbeel 2023）），从而提高最终结果的质量。
记忆: 代理利用上下文学习技术（短期记忆），如提示工程，以适应交互期间的新信息（Wei 等 2021）。此外，它可以保留和回忆长期信息（长期记忆）在延长期内。这种检索通常通过对外部向量数据库的最大内积搜索（MIPS）实现，利用方法（例如，局部敏感哈希（Data, Immorlica, Indyk, 和 Mirrokni 2004）或可扩展最近邻（Guo 等 2020）进行高效检索。
工具: 代理学习调用外部API以获取模型权重中不存在的附加信息，包括实时数据、代码执行能力和访问专有信息来源（例如，PALM（Gao 等 2023）、TALM（Parisi, Zhao, 和 Fiedel 2022）、HuggingGPT（Shen 等 2024）和Toolformer（Schick 等 2024）。工具使用允许

LLMs 利用外部功能，例如网页搜索、代码执行或数据操作，增强其超出文本生成的能力。HuggingGPT 使用 ChatGPT 来选择 HuggingFace 仓库中可用的 AI 模型以完成给定任务。

图 4: 人工智能（AI）代理的概述。每个代理包含 (1) 工具、(2) 记忆和 (3) 规划（参考 Weng 2023）。

然而，考虑到 (i) 规划、(ii) 记忆和 (iii) 工具资源，智能恒温器也可以算作一个代理。与其说是明确的二元区别，AI 代理和当前的 AI 系统如 GPT-4 或 Llama 存在一个连续谱系，通常被称为“代理性”（Ng 2024）。代理性涉及多个维度，反映了 AI 系统在自主性和能力方面的不同程度。Shavit 等人定义系统中的“代理性”程度为“系统在复杂环境中实现复杂目标的能力，同时接受有限的直接监督”（Shavit 等 2023）。系统的“代理性”程度可以通过以下三个因素来表征（Kapoor 等 2024）：

1. 环境和目标: 环境越复杂，例如任务和领域的范围、多利益相关者、长期视野和意外变化（Shavit 等 2023；Gabriel 等 2024）。在这些环境中追求目标而无需明确指示的系统被认为更具代理性（Chan 等 2023）。 ¹⁰ HuggingFace. (n.d.). Hugging Face - The AI community building the future. Retrieved July 24, 2024, from https://huggingface.co/

示例：一个AI系统为跨国公司进行审计，必须导航不同的监管环境并同步来自不同司法管辖区的财务记录。由于其复杂性，此任务需要高代理性。

1. 用户界面和监督: 能够用自然语言指令并在用户代表下自主行动的AI系统更具代理性。特别是，需要较少人工监督的系统被视为更具代理性。示例：一个AI系统进行审计，允许审计员用自然语言输入命令并自主生成详细的审计报告，减少了对持续人为干预的需求，展示了高代理能力。
1. 系统设计: 使用工具并通过反思、自我批评和子目标分解进行规划的系统更具代理性（Weng 2023；Ng 2024）。控制流由AI模型动态驱动的系统被认为更具代理性（Chase 2024）。示例：一个AI系统进行审计，使用网络搜索来获取最新的法规更新。它通过子目标分解来拆解复杂的审计任务，通过其适应性展示了高代理性。

2.2 人工智能代理工作流设计模式

与代理工作流相关的通用设计模式包括以下核心组件，11,12 每个都对增强审计过程有所贡献。

规划: 代理自主设计和执行步骤以实现特定的审计目标，确保对复杂审计任务的结构化和系统化方法。这可以与人类 ¹² Ng, A. (2023, April 20). What's next for AI agentic workflows [Video]. YouTube. https://www.youtube.com/watch?v=sal78ACtGTc 11 Ng, A. (2023, June 15). AI Agentic Workflows And Their Potential For Driving AI Progress [Video]. YouTube. https://www.youtube.com/watch?v=q1XFm21I-VQ

审计员有条理地组织和规划审计程序相比较，以全面覆盖所有必要的方面。例如，代理可能会将审计财务报表的任务分解为子任务，如验证交易记录、检查合规性法规和编制最终报告。

工具使用: 代理利用外部工具来增强LLMs超出文本生成的能力，如使用网络搜索获取法规信息或Python解释器进行复杂财务计算。这类似于人类审计员利用专业软件和资源更有效地收集和分析数据。例如，代理可能会使用网络搜索工具获取最新的财务法规或使用Python解释器计算复杂的财务指标，确保审计过程准确且最新。
反思: 代理对其输出进行自我检查，识别改进区域，并通过迭代细化其响应，从而确保最终输出的高质量。此过程可与审计员回顾和批评他们的工作以增强全面性、准确性和完整性相比较。例如，代理可能会生成初始文本并批评其工作以识别低效之处，提出后续迭代中的改进建议。
协作: 代理涉及多个LLMs协同工作，每个专注于审计的不同方面，类似于拥有不同角色和专业知识的审计员团队。这类似于一支人类审计员团队合作，每个人带来他们专门的知识以实现全面的审计。例如，一个代理可能专注于识别财务数据中的差异，另一个审查合规性标准，第三个确保最终报告的准确性。

示例: 在代理审计工作流中，LLM首先规划审计，收集附加法规信息，并起草初步报告。然后它通过迭代审查和修订报告，纳入反馈并解决差距。此迭代过程确保审计报告全面且可靠。

与当代AI系统相比，AI代理在处理更具挑战性、现实性的任务时表现更好，这些任务往往没有单一正确解决方案。因此，AI代理提供了更高的现实世界审计实用性。

3. 人工智能代理审计

在传统的AI系统审计工作流中，例如使用LLM，AI模型仅作为工具，例如提示模型完成狭窄的审计任务（Emett, Eulerich, Lipinski, Prien, 和 Wood 2023；Gu, Schreyer, Moffitt, 和 Vasarhelyi 2024）。审计员负责决定是否使用特定模型、选择适当的模型，并部署它来执行狭义定义的任务（Kolt 2024）。在AI代理审计工作流中，代理作为参与者，例如自主实体进行综合审计程序。审计员负责监督和协调整个过程，并验证AI代理产生的结果（Zaharia 等 2024）。

2.1 人工智能代理工作流设计模式

我们设想 人工智能代理审计 作为一种审计方法论转变，其中人工智能系统作为能够独立规划、执行和改进审计程序的自主代理。人工智能代理审计系统具有以下核心特征：

自主操作: AI代理独立将复杂的审计目标分解为子目标，规划审计程序并执行它们，而不需要持续的人类干预。
迭代改进: 这些代理评估自己的输出，识别潜在的差距或不准确性，并通过迭代改进其结果，以确保可靠性和全面性。
工具集成: AI代理动态集成和利用外部工具，例如法规数据库或计算引擎，以增强其分析能力。
协作智能: 多个代理协作，每个专注于不同的审计方面，类似于拥有多样专业知识的审计员团队。

鉴于此定义，审计员承担监督角色，监督代理的活动，验证其输出，并确保与审计目标保持一致。将AI代理工作流集成到财务审计中推进了传统的AI系统审计工作流。通过利用（i）反思的迭代改进过程、（ii）工具使用的增强能力、（iii）规划的结构化方法和（iv）多代理协作的协同效应，代理工作流为利用人工智能进一步转换财务审计提供了有前途的途径。接下来，我们创建了一个实施AI代理审计工作流的方法论框架，该框架利用LLMs和其他工具自主执行复杂的审计任务。

图 5: AI-Agent 审计工作流框架概述了一个七步过程，从设定目标到评估结果，整合自动化、协调和人类监督以实现高效的代理审计。

3.3 人工智能代理审计工作流（AAAW）框架

Agentic 审计工作流（AAAW）框架，改编自 Zhang, Thomas, 和 Vasarhelyi （2022）在出席流程自动化背景下最初开发的工作，指导了AI代理审计工作流的实施。该框架包括七个步骤（如图5所示）：目标设定、流程理解、活动识别、重新设计、活动自动化、协调和评估。

步骤 1: 目标设定。 过程从为AI代理审计工作流设定具体目标开始，例如节省时间、最小化错误和流程改进。这些目标有助于在项目结束时评估成功。
步骤 2: 流程理解。 此步骤涉及全面了解审计流程，包括活动、任务和资源。对每一层的详细了解使审计员能够识别哪些活动可以通过AI代理自动完成。
步骤 3: 活动识别。 审计活动分为适合AI代理的活动和需要人类干预的活动。自动化适用于范围广泛的任务，包括复杂程度不同的任务，以及人类和机器可读的输入。 13
步骤 4: 活动重新设计。 此步骤集中于修改资源、活动、任务和流程以促进代理自动化。它包括标准化审计数据并通过编程逻辑将人类执行的流程转换为自动化的流程。
步骤 5: 活动自动化。 选择适当的工具和AI代理来自动完成已识别的活动。此迭代步骤确保重新设计的流程能有效通过AI代理自动化。
步骤 6: 活动协调。 使用诸如网络搜索、便签板等工具将自动化和手动任务整合到AI代理审计工作流中，以协调AI代理和审计员之间的互动。

¹³ 这代表了原始APA框架（Zhang et al. 2022）的一个重大差异，该框架专注于自动化“基于规则”的任务。AI代理的增强能力允许更大灵活性地自动化更多样化和复杂的活动，超越严格基于规则的过程范围。

步骤 7: 评估。 最后一步是根据初始目标评估AI代理审计工作流的有效性，确保达到自动化项目的既定目标。

3.3 对比RPA、AI共驾审计和AI代理审计

从支持RPA的审计（Zhang, Thomas, 和 Vasarhelyi, 2022）到共驾审计（Gu, Schreyer, Moffitt, 和 Vasarhelyi 2023），再到代理审计的发展反映了审计工作流中灵活性、自主性和复杂处理能力的不断提高。这种进展在AAAW框架的以下四个关键步骤中尤为明显（也在Tab. 1中呈现）：

步骤 3: 活动识别 - RPA系统受限于识别重复的、基于规则的任务以供自动化，而共驾审计使审计员能够识别更广泛的适合通过人机协作部分自动化的活动。相反，代理审计自主识别任务，动态分类基于复杂性和适合AI驱动执行的活动。

步骤 4: 活动重新设计 - 在RPA中，重新设计需要大量的手动重新工程以使工作流与预定义的自动化规则对齐。共驾审计减轻了这一负担，允许工作流灵活适应，最大限度减少人为干预。代理审计进一步通过自主重新设计流程、标准化数据和优化工作流以无缝集成到代理操作中。

步骤 5: 活动自动化 - RPA集中在具有预定义参数的静态、重复任务上。共驾审计将自动化扩展到更复杂的任务，有人工监督的情境。代理审计则通过迭代和自主自动化多样化和复杂的活动，利用先进的工具和动态改进技术。

步骤 6: 活动协调 - RPA中的协调限于静态工作流，自动化和手动任务之间的集成最少。共驾审计引入了适应性协调，实时集成自动化和人工流程。代理审计实现了完全自主的协调，动态管理代理、工具和人类审计员之间的互动，以创建高效和连贯的工作流。

	RPA	Al	Al
	支持	共驾	代理
	审计	审计	审计
	基于规则，	多样化	多样化
3. 活动	结构化	和一般	和复杂
ldentification	活动	活动	活动
	需要	灵活适应	灵活适应
4. 活动	刚性工作流	最小重工程
Redesign	变化
	重复	情境	情境
5. 活动	任务	人类	代理
Automation		细调	细调
	静态	自适应	自主
6. 活动协调	工作流	工作流	工作流
		支持	支持

表 1: RPA支持审计、AI共驾审计和AI代理审计的简要对比，突出其关键差异。

这条连续线突显了代理审计在实现适应性强、自主和高效审计过程方面的转型潜力。为了通过提出的AAW框架在财务审计中实施代理AI工作流，我们采用了Peffers等人（2007）提出的DSR方法论，该方法论涉及六个步骤：问题识别和动机、解决方案目标定义、设计和开发、演示、评估和沟通。

通过一个关于代理分录测试的案例研究展示了这种方法论，说明了其在真实世界审计场景中的实际好处。案例研究评估了所提出方法论的有效性，突出了其相对于传统方法的优势和挑战。本文传达了问题、开发的框架和示范及评估的发现，为未来关于在审计中整合代理AI系统的研究奠定了基础。

4. 案例研究：分录测试（ISA 240）

以下案例研究展示了在分录测试背景下应用AI代理审计工作流，遵守《国际审计准则》（ISA）240（国际会计师联合会 2009）。该研究旨在通过利用专门的AI代理从分析组织指南到生成全面的审计报告来简化关键审计任务。这种方法强调了AI代理在提高审计效率、准确性和全面性方面的转型潜力。案例研究采用了开源CrewAI库（CrewAI 2024），14 展示了如何整合AI代理以提高审计质量、确保合规并减少真实世界审计场景中的手动努力。分录测试代理工作流的概述见图6。15

4.1 目标设定

代理AI审计工作流的第一步是为审计自动化项目设定清晰和具体的目标。对于本案例研究中的分录测试，主要目标是提高审计效率并确保符合《国际审计准则》（ISA）240。

本案例研究的具体目标包括：

效率： 利用AI代理执行重复和劳动密集型任务，使审计员能够专注于复杂方面。
准确性： 确保AI代理生成指南提取、SQL查询和审计报告时几乎没有差异或错误。
合规性： 确保所有审计活动符合ISA 240标准，增强过程的可靠性和可信度。

通过在一开始明确定义这些目标，为衡量代理AI实施的成功与否建立了基准。这些目标引导框架的后续步骤，确保

¹⁴ 可通过：https://github.com/crewAIInc/crewAI

¹⁵ 我们提供了一个完整的参考实现的代理分录测试工作流，可在Binder Notebook和Google Colab中使用，并使用LangChain和CrewAI开发，通过：https://github.com/GitiHubi/AgenticAuditing

每个阶段的审计自动化项目都与提高效率和合规性的总体目标保持一致。

图 6: 三名协作AI代理实现ISA 240规定的分录测试的代理审计工作流概览。

4.2 流程理解

代理AI审计工作流的第二步涉及深入了解分录测试过程，涵盖活动、任务和资源。这一步确保了对有效自动化的全面理解。

分录测试过程被分解为具体的活动，如指南分析、SQL查询公式化和报告生成。每个任务内的这些活动都被识别，必要的资源，包括软件和数据，也被列出。这种详细的分解允许精确识别自动化机会，并确保AI代理能够有效地执行分配的任务。

该过程设计了三个主要代理，每个代理负责审计过程中的特定任务：

[代理 1]: 高级审计师

第一个代理担任 高级审计师 并被提示分析全面和复杂的组织指南并提取其要点。高级审计师将复杂的指南提炼成清晰、简洁、可操作的见解。该代理擅长将复杂的规定转化为其他审计团队成员易于理解的摘要。

[代理 2]: 高级IT审计师

第二个代理担任 高级IT审计师 并被提示将组织指南摘要转换为SQL查询。此查询确定支付记录数据库中的指南违规情况。该代理擅长分析复杂的IT系统并提供增强安全性和效率的可行建议。

[代理 3]: 审计经理

第三个代理担任 审计经理 并被提示基于高级IT审计师提供的查询结果创建引人注目的审计报告。该代理模仿一位著名的专业人士，因其产生深刻且有影响力的审计报告而受到赞誉。精心制作的报告将复杂的审计发现提炼成清晰、易懂且可操作的见解，供利益相关者使用。

这三个代理在结构化的分录测试工作流中协作，每个代理都以前一个任务的输出为基础。这确保了连贯和高效的过程，提高了整体审计质量。

4.3 活动识别

代理AI审计工作流的第三步涉及将审计活动分类为适合自动化和需要人工干预的活动。这种分类对于识别哪些任务可以由AI代理高效处理以及哪些任务需要人类判断和专业知识至关重要。

诸如提取指南、制定SQL查询和生成报告等任务被识别为可自动化的任务。这些任务是重复性的并且涉及结构化数据，使其成为代理活动的理想候选。相反，需要高水平判断和复杂决策的任务仍然是手动的。

审计过程被结构化为特定任务，以简化工作流并确保每阶段都有明确、可操作的输出。这些任务是具体的指派，提供所有必要的细节以供执行，促进广泛的操作复杂性。

任务的分解如下：

[任务 1]: 分析支付政策

高级审计师的初步任务是在审计中分析给定的指南。目标是从指南中提取要点，并提供专门为IT审计师定制的简洁摘要。此任务的输出是一个简洁且清晰的指南摘要。此摘要必须包括特定的标准，以便IT审计师过滤支付，帮助识别潜在的指南违规情况。

该任务分配给 高级审计师 代理。

[任务 2]: 查询支付数据库

第二个任务要求高级IT审计师使用高级审计师提供的过滤标准执行SQL查询。目标是审计相关数据库并识别符合指定标准的支付。预期输出是一个表格，包含所有相关字段（id, text, amount, date）的支付，符合高级审计师提供的过滤标准。此表格将帮助识别任何高价值支付，这可能表明潜在问题。

该任务分配给 高级IT审计师 代理。

[任务 3]: 撰写审计报告

最后一个任务涉及审计经理基于高级IT审计师提供的查询结果起草一份全面的审计报告。这份报告应清楚有效地传达审计发现给利益相关者。预期输出是一份完整且清晰易懂的审计报告。该报告应有效地传达审计发现、程序和建议，为利益相关者提供宝贵的见解。

该任务分配给 审计经理 代理。

通过识别和构建这些任务，工作流确保每个活动由最合适的实体执行，无论是AI代理还是人类审计员。这种方法最大限度地提高了效率、准确性和整体审计过程的有效性。

4.4 重新设计

代理AI审计工作流的第四步涉及重新设计活动和任务，以增强人类审计员和AI代理之间的协同作用。此步骤侧重于修改流程，以促进自动化和手动任务之间的无缝互动和协作，确保两者之间的有效合作。

组织政策目录： 第一个重新设计活动涉及授予高级审计师代理对组织政策目录的只读访问权限。这使得AI代理能够自主检索、分析和总结复杂指南。
分录数据库： 第二个重新设计活动授予高级IT审计师代理对分录数据库的只读访问权限。这种访问使AI代理能够自主制定和执行SQL查询以识别指南违规情况。
审计报告目录： 第三个重新设计活动涉及授予审计经理代理对草稿审计报告目录的写入访问权限。这使得AI代理能够基于SQL查询结果起草全面的审计报告，简化报告过程。

通过重新设计这些活动并授予适当的访问权限，审计过程得到了优化以实现自动化。这些更改确保了AI代理和人类审计员能够有效协作，最大限度地提高效率、准确性和整体审计过程的成功。

4.5 活动自动化

代理AI审计工作流的第五步涉及选择和实施适当的工具以自动完成已识别的任务。此步骤包括对AI代理进行编程以执行特定任务，确保它们能够处理审计过程的复杂性。

高级审计师代理工具： 高级审计师可用的工具包括大型语言模型（LLM）用于解释和总结复杂指南，以及读取策略工具用于访问和审阅组织指南。
高级IT审计师代理工具： 高级IT审计师可用的工具包括LLM用于理解指南摘要并制定SQL查询，以及查询数据库工具用于执行SQL查询。
审计经理代理工具： 审计经理可用的工具包括LLM用于起草和完善全面的审计报告。

每个代理都配备了MetaAI公开的LLaMA 3 LLM，该模型包含700亿个参数（MetaAI 2024），并使用Ollama库（Ollama 2024）运行。支付数据库使用SQLite实现。这些专门工具使代理能够以高效率和准确性执行任务，提高了整体审计效果。

通过利用这些先进工具，AI代理可以自动完成复杂的审计任务，确保审计过程彻底、高效且准确。

4.6 协调

第六步是在代理型AI审计工作流中建立一个顺序工作流程，确保每个任务都以前一个任务为基础。此过程确保每个代理的输出成为下一个任务的基础，从而在整个审计过程中保持彻底性和准确性。

工作流步骤 1: 高级审计师 [代理 1] 审查组织指南并总结主要要点。如 [任务 1] 所述，总结清晰简洁，避免复杂术语以确保易于理解。它包括IT审计员在分析付款时使用的明确过滤标准。该总结为后续任务奠定了基础。
工作流步骤 2: 高级IT审计师 [代理 2] 将从指南总结中提取的过滤标准转化为精确的SQL查询。如 [任务 2] 所述，查询检索符合标准的所有相关字段。任务涉及执行SQL查询并将结果以结构化格式返回，便于解释和分析。
工作流步骤 3: 审计经理 [代理 3] 编写一份引人入胜且全面的审计报告。如 [任务 3] 所述，报告信息丰富且非技术受众易于理解，避免复杂术语。它包括简要介绍提供审计背景、详细描述已执行的审计程序、对发现的详尽展示（包括付款细节）、建议以及结论概括关键影响。

通过按结构化顺序协调这些步骤，工作流确保每个步骤在进入下一步之前均得到彻底完成，从而最大化审计过程的效率和准确性。

4.7 评估

代理型AI审计工作流的最后一步是对实施的工作流相对于初始目标的有效性进行评估。此评估考虑了效率、准确性和合规性的改进，提供了关于使用代理型AI系统进行审计的好处和挑战的宝贵见解。

来自每个代理的输出如下评估：

最终高级审计师 [代理 1] 和 [任务 1] 输出： 组织指南的总结，包括IT审计员使用的过滤标准。

"主要方针 是 任何超过1000美元的付款不得被处理或批准。为了识别潜在违规行为，IT审计员应根据交易金额筛选付款，查找所有超过1000美元的交易。"

最终高级 IT 审计师 [代理 2] 和 [任务 2] 输出： SQL查询结果以结构化格式呈现，显示政策违规情况。

审计经理 [代理 3] 和 [任务 3] 输出： 全面的审计报告详细说明了发现、程序和建议。

审计报告

本次审计的目的 是 审查组织的付款处理程序。 [... ]

审计程序：

审计包括 审查交易记录、供应商报表和付款报告。[...* ]

审计发现：

付款准确性：3,122笔付款中有三笔违反了组织政策。
[... ]

建议：

实施额外控制措施 来 防止日期和金额错误，例如双重录入验证。[... ]

结论：

审计发现了机会 [...]

评估标准用于衡量代理工作流的有效性，涵盖以下内容：

效率： 代理工作流减少了分析指南、制定SQL查询和生成审计报告所需的时间，与传统方法相比更为高效。
准确性： AI代理生成了精确的指南摘要、准确的SQL查询和全面的审计报告，误差或错误最少。
合规性： AI代理始终遵守ISA 240标准，确保所有审计活动均符合监管要求。

总之，这个案例研究展示了代理型工作流在审计中的成功实施。高级审计师提供的简明摘要使高级IT审计员能够高效地推导和执行必要的SQL查询。审计经理可以根据结构化和格式化的查询结果起草全面报告。该项目展示了代理型工作流如何增强审计过程，减少手动工作量并提高审计结果的可靠性。

尽管该案例研究实施了一个相对简单的AI代理审计工作流，但它展示了专用代理在处理复杂和相互依赖任务方面的优势。

5. 代理型AI系统在审计中的好处

本节探讨代理型AI系统如何可能受益于审计领域。代理型AI系统可以在审计中实现频繁且显著的好处，更早、更有效地达成影响。我们探讨了更代理型版本的特定AI系统相较于较少代理型版本可能更具优势的情况。16 当适当的最佳实践应用于安全性和问责制时，“代理性”可以多种方式增强审计：

质量： 能够自主浏览互联网并修订其查询的AI代理可以提供更准确的答案，特别是对于动态主题或近期事件。这种特性在审计中至关重要。类似于其他技术（Mock, Ragothaman 和 Srivastava 2018; Appelbaum, Kogan 和 Vasarhelyi 2017）
效率： 审计师通过向AI代理提供高层次指令而获益，该代理可自主执行多个步骤。例如，能够将指令翻译成审计程序、执行它们、显示结果并优化其方法的AI代理可以显著节省时间和精力（Saenz 等 2023）。
灵活性： 能够以自然语言交互式发送消息给审计客户的AI代理可以提供更好的审计信息收集体验，而不是仅接受固定输入格式的常规软件应用。这对于灵活收集详细的审计证据非常有用。
可扩展性： 具有代理能力的AI系统可以通过独立执行多项任务来提升审计师的生产力。这种自动化审计流程解放了审计师，使其免于重复性和低判断力的任务（Huang 和 Vasarhelyi 2019）。

代理性通常在关于AI能力的讨论中被假设。例如，OpenAI的章程17定义AGI为“高度自治系统，能够超越人类在大多数经济上有价值的工作。” Russell 和 Norvig 的《人工智能：现代方法》强调“代理性”在其AI概念中（Russel 和 Norvig 2021）。这些假设突显了代理型AI在审计中的潜力，展示了其如何转变传统的审计工作流程和程序。

即使没有进一步的代理性进步，AI也可能已经成为一种通用技术。18 历史上，此类技术（如蒸汽机、电力）极大地提高了全球生活水平。类似地，有能力的代理型AI系统在审计中可以改善生产力，可能改变审计的本质。此外，AI在审计中的生产力收益很可能随着代理系统的存在而更大，提高审计质量并为社会带来更广泛的益处（Eloundou, Manning, Mishkin 和 Rock 2023），例如金融市场的诚信和财务报表的可靠性。

6. 代理型AI系统在审计中的局限性

本节讨论了代理型AI系统在审计中可能引入的局限性和挑战。利用AI代理进行实际审计提出了具有挑战性的权衡（Kolt 2024）。虽然代理型AI系统提供了许多好处，但其使用可能导致意外后果，并需要谨慎考虑（Emett, Eulerich, Pikoos 和 Wood 2024）。我们概述了一些相关挑战及所需措施。

可靠性： 代理型AI系统的错误或故障可能会导致审计过程中的错误。功能失调的AI代理可能会误解数据或产生不准确的报告。必须在部署前严格评估代理系统的可靠性并在运行中进行监控。
监督： 尽管实现了自动化，但人类审计师仍需审查由代理系统生成的结果。这与标准审计程序一致，其中审计师的判断至关重要。完全依赖AI代理而不进行监督可能会导致未被发现的差异。

¹⁸ 参见 Madiega, T., (2023年3月)。通用目的人工智能。欧洲议会研究服务。PE 745.708.

https://www.europarl.europa.eu/EPRS/General-purpose_artificial_intelligence.pdf.

合规性： 审计中的代理型AI系统必须遵守当前的审计标准和法规。确保合规性具有挑战性，因为法规会随着技术的进步而演变。需要持续研究以使代理工作流与标准保持一致。
治理： 监控代理型AI系统对于满足管理层和监管机构的质量和可靠性要求至关重要。相应文档应包括AI代理的性质和功能，以及其合规性和性能。

尽管存在这些挑战，代理型AI系统在审计中的整合仍充满希望。通过严格的测试、调整、红队演练、持续监督、全面文档编制以及遵守监管标准，可以最大化其好处。未来的研究应专注于改进这些方法并探索解决方案，以进一步增强代理型AI系统在审计领域的可靠性和有效性。

7. 结论

生成式AI通过自然语言提示解锁了广泛的功能，激发了审计师的兴趣。随着审计师力求超越演示并最大化其LLM辅助审计的质量，他们越来越转向复合AI系统作为增强LLM能力的自然方式。确定开发复合AI系统的最佳实践仍然是一个开放的问题，但仍有一些令人兴奋的方法可以辅助设计、端到端优化和操作。

代理型AI系统即将到来，审计师可能很快需要采取重大措施以确保其安全可靠地工作，从而缓解与采用代理相关的重大间接风险。然而，代理的出现为审计提供了更大的潜力（Eulerich, Sanatizadeh, Vakilzadeh 和 Wood 2023）。这些能够自主决策和执行任务的系统承诺通过处理复杂和相互依赖的任务来推动审计的发展。

学者、从业者和行业利益相关者之间的合作将是开发和改进这些系统的关键。建立稳健的最佳实践并确保代理型AI的道德部署对于最大化其效益至关重要。AI辅助审计的未来是光明的，代理型审计正为更有效和可靠的审计铺平道路。

参考文献

Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., & McGrew, B. (2023). GPT-4 技术报告。arXiv预印本 arXiv:2303.08774。
Appelbaum, D., Kogan, A., & Vasarhelyi, M. A. (2017). 大数据和分析在现代审计中的应用：研究需求。审计: 一篇 实践与理论 的文章，36(4)，1-27。
Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., ... & Liang, P. (2021). 关于基础模型的机会与风险。arXiv预印本 arXiv:2108.07258。
Bommasani, R., Klyman, K., Longpre, S., Kapoor, S., Maslej, N., Xiong, B., ... & Liang, P. (2023). 基础模型透明度指数。arXiv预印本 arXiv:2310.12941。
Chan, A., Salganik, R., Markelius, A., Pang, C., Rajkumar, N., Krasheninnikov, D., & Maharaj, T. (2023). 来自日益代理算法系统的危害。2023 ACM公平、责任和透明会议论文集，651–666。
Chase, H. (2024年6月29日)。什么是代理？LangChain 博客。https://blog.langchain.dev/what-is-an-agent/
CognitionAI. (2024年3月22日)。Cognition。推出Devin，第一位AI软件工程师。https://www.cognition.ai/blog/introducing-devin
crewAI Inc. (n.d.)。AI代理适用于真实用例。crewAI平台用于多AI代理系统。检索于2024年7月24日，来自 https://www.crewai.com/
Datar, M., Immorlica, N., Indyk, P., & Mirrokni, V. (2004). 基于p稳定分布的局部敏感哈希方案。第20届年度计算几何研讨会论文集，253–262。
Dong, M. (Michael), Stratopoulos, T. C., & Wang, V. X. (2024). ChatGPT研究在会计和金融中的综述。SSRN电子期刊。https://doi.org/10.2139/ssrn.4680203
Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023). GPTs是GPTs：大型语言模型对劳动力市场影响潜力的早期观察。arXiv预印本 arXiv:2303.10130。
Emett, S. A., Eulerich, M., Lipinski, E., Prien, N., & Wood, D. A. (2023). 利用ChatGPT增强内部审计过程——来自一家大型跨国公司的实际案例。可在SSRN 4514238获取。
Emett, S. A., Eulerich, M., Pikoos, J., & Wood, D. A. (2024). 安全集成AI。AI治理框架。https://www.genai.global/solutions/framework
Eulerich, M., Sanatizadeh, A., Vakilzadeh, H., & Wood, D. A. (2024). 这都是炒作吗？ChatGPT在会计和审计行业的表现和破坏潜力。会计研究评论。https://doi.org/10.1007/s11142-024-09833-9
Eulerich, M., & Wood, D. A. (2023). 展示如何在内部审计过程中使用ChatGPT。SSRN电子期刊。 https://doi.org/10.2139/ssrn.4519583
Föhr, T. L., Schreyer, M., Moffitt, K., & Marten, K. U. (2023). 深度学习与基于风险的审计结合：利用基础和任务特定模型的审计程序的整体框架。SSRN 4488271可用。
Gabriel, I., Manzini, A., Keeling, G., Hendricks, L. A., Rieser, V., Iqbal, H., & Manyika, J. (2024). 高级AI助手的伦理。arXiv预印本 arXiv:2404.16244。
Gao, L., Madaan, A., Zhou, S., Alon, U., Liu, P., Yang, Y., & Neubig, G. (2023). PAL: 程序辅助语言模型。国际机器学习会议，10764–10799。
Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., & Wang, H. (2023). 增强型检索生成大语言模型：调查。arXiv预印本 arXiv:2312.10997。
Gu, H., Schreyer, M., Moffitt, K., & Vasarhelyi, M. (2024a). 人工智慧辅助审计。国际会计信息系统杂志，54, 100698. https://doi.org/10.1016/j.accinf.2024.100698
Gu, H., Schreyer, M., Moffitt, K., & Vasarhelyi, M. A. (2024b). 在审计实践中实施多模态基础模型：设计与多模态AI辅助审计案例研究。Elsevier BV。http://dx.doi.org/10.2139/ssrn.4881256
Guo, R., Sun, P., Lindgren, E., Geng, Q., Simcha, D., Chern, F., & Kumar, S. (2020). 加速大规模推理的各向异性矢量量化。国际机器学习会议，3887–3896。
Heikkilä, M. (2024年7月5日)。什么是AI代理？MIT科技评论。https://www.technologyreview.com/2024/07/05/1094711/什么是-ai-代理/
Hu, K. (2023年2月2日)。ChatGPT创下了最快用户增长记录分析师笔记。路透社。

https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-userbase-analyst-note-2023-02-01/

Huang, F., & Vasarhelyi, M. A. (2019). 在审计中应用机器人流程自动化（RPA）：一个框架。国际会计信息系统杂志, 35, 100433。
Huang, X., Liu, W., Chen, X., Wang, X., Wang, H., Lian, D., & Chen, E. (2024). 理解LLM代理的规划：一项调查。arXiv预印本 arXiv:2402.02716。
International Federation of Accountants (IFAC). (2009). 国际审计准则240：审计财务报表时审计师与欺诈相关的责任。IFAC。
Jiang, A. Q., Sablayrolles, A., Roux, A., Mensch, A., Savary, B., Bamford, C., & Sayed, W. E. (2024). Mixtral of Experts。arXiv预印本 arXiv:2401.04088。
Kapoor, S., Stroebl, B., Siegel, Z. S., Nadgir, N., & Narayanan, A. (2024). 重要的AI代理。arXiv预印本 arXiv:2407.01502。
Kiros, R., Salakhutdinov, R., & Zemel, R. (2014年6月)。多模态神经语言模型。机器学习国际会议论文集 (pp. 595-603)。PMLR。
Kolt, N. (2024). 治理AI代理。SSRN。

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4772956

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). 知识密集型NLP任务的检索增强生成。神经信息处理系统进展，33, 9459–9474。
Li, H., & Vasarhelyi, M. A. (2024). 在会计中应用大型语言模型：不同方法和现成示例的比较分析。SSRN电子期刊。https://doi.org/10.2139/ssrn.4650476
Liu, B., Jiang, Y., Zhang, X., Liu, Q., Zhang, S., Biswas, J., & Stone, P. (2023). LLM+P：赋能大型语言模型的最佳规划能力。arXiv预印本 arXiv:2304.11477。
Liu, H., Sferrazza, C., & Abbeel, P. (2023). Chain of Hindsight Aligns Language Models with Feedback。arXiv预印本 arXiv:2302.02676。
MetaAI. (2024年4月18日)。推出Meta Llama 3：迄今为止最强大的公开可用LLM。https://ai.meta.com/blog/meta-llama-3
Mock, T. J., Ragothaman, S. C., & Srivastava, R. P. (2018). 使用实证推理技术增强审计质量保证检查过程。新兴技术期刊 in 会计, 15(1), 29-43。
Ng, A. (2024年6月12日)。欢迎多样化方法保持机器学习强大。欢迎多样化方法保持机器学习强大。https://www.deeplearning.ai/the-batch/welcoming-diverse-approaches-keepsmachine-learning-strong/
Ollama Inc. (n.d.)。Ollama。Ollama Get up and Running with Large Language Models。检索于2024年7月24日，来自 https://ollama.com/
OpenAI. (2022年11月30日)。Introducing ChatGPT。OpenAI。https://openai.com/index/chatgpt/
Parisi, A., Zhao, Y., & Fiedel, N. (2022). TALM：工具增强语言模型。arXiv预印本 arXiv:2205.12255。
Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, S. (2007). 信息系统研究的设计科学研究方法。管理信息系统杂志，24(3)，45–77。https://doi.org/10.2753/mis0742-1222240302
Russell, S., & Norvig, P. (2021). 人工智能：现代方法，全球版。Pearson Higher Ed.
Saenz, A. D., Harned, Z., Banerjee, O., Abràmoff, M. D., & Rajpurkar, P. (2023). 自主AI系统面对责任、法规和成本。NPJ数字医学，6(1), 185。
Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M. N., Hambro, E., & Scialom, T. (2024). Toolformer：语言模型可以自学使用工具。神经信息处理系统进展，36。
Shavit, Y., Agarwal, S., Brundage, M., Adler, S., O'Keefe, C., Campbell, R., & Robinson, D. G. (2023). 治理代理AI系统的实践。研究论文，OpenAI。
Shen, Y., Song, K., Tan, X., Li, D., Lu, W., & Zhuang, Y. (2024). HuggingGPT：使用ChatGPT及其朋友在Hugging Face解决AI任务。神经信息处理系统进展，36。
Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. (2024). Reflexion：具有语言强化学习的代理。神经信息处理系统进展，36。
Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., & Lample, G. (2023). Llama：开放且高效的基语言模型。arXiv预印本 arXiv:2302.13971。
Vasarhelyi, M. A., Moffitt, K. C., Stewart, T., & Sunderland, D. (2023). 大型语言模型：会计领域的一项新兴技术。新兴技术期刊在会计，20(2), 1–10. https://doi.org/10.2308/jeta-2023-047
Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., & Le, Q. V. (2021). Fine-tuned语言模型是零样本学习者。arXiv预印本 arXiv:2109.01652。
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E. H., & Zhou, D. (2022). 链式思维提示法促使大型语言模型产生推理。神经信息处理系统进展，35, 24824–24837。
Weng, L. (2023年6月23日)。LLM驱动的自主代理。Lil'Log。https://lilianweng.github.io/posts/2023-06-23-agent/
Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., & Narasimhan, K. (2024). 思维树：大型语言模型的深思熟虑问题解决。神经信息处理系统进展，36。
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct：语言模型中推理和行动的协同作用。arXiv预印本 arXiv:2210.03629。
Zaharia, M. (2024年2月18日)。从模型到复合AI系统的变化。伯克利人工智能研究博客。

https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/

Zhang, C. (Abigail), Thomas, C., & Vasarhelyi, M. A. (2022). 审计中的参与式流程自动化：一个框架和示范。信息系统期刊，36(2), 101–124. https://doi.org/10.2308/isys-2020-073

A. 附录

案例研究利用开源CrewAI库（CrewAI 2024）19 来展示如何通过整合AI代理增强审计质量、确保合规性并减少实际审计场景中的手动工作量。CrewAI促进了自主AI代理的创建和编排，这些代理能够承担特定角色、共享目标并作为一个协作团队运作。我们的实验使用了CrewAI框架版本0.41.1和Python版本3.12。下面提供了有关审计代理和技术规范的详细信息，以确保结果的可重现性。

我们还提供了一个完整的参考实现，即代理型日记账测试工作流，可通过Binder Notebook和Google Colab访问，并使用LangChain和CrewAI开发，代码存储库公开在GitHub上：https://github.com/GitiHubi/AgenticAuditing。

A1. 技术审计代理规格

目标：	“分析全面和复杂的组织政策并提取其主要要点。”
背景故事：	“您是一位技术娴熟的高级审计师，以其分析组织指南的能力而闻名。您的分析报告将复杂的指南提炼为清晰、简洁且可操作的见解。您擅长将复杂的规定转化为易于其他审计团队成员使用的简洁总结。”
LLM：	Meta-Llama-3-70B20
其他工具：	读取文本文件工具。
委托：	否。

[代理 1]: 高级审计师

[代理 2]: 高级 IT 审计师

¹⁹ 可用地址：https://github.com/crewAIInc/crewAI

²⁰ 可用地址：https://huggingface.co/meta-llama/Meta-Llama-3-70B

目标：	“将组织指南摘要转换为	sql 查询
以	确定数据库记录中的指导原则违规情况。”	付款
背景故事：您	是一位在领先金融机构工作的高技能IT审计师。您的专长包括识别系统漏洞、确保法规遵从性以及优化付款流程。您擅长分析复杂的IT系统并提供可行的建议以提高安全性和效率。”	审计和和
LLM：	Meta-Llama-3-70B
其他工具：	数据库查询工具。
委托：否。

[代理 3]: 审计经理

目标：	“创建全面且引人入胜的审计报告	提供
	清晰的见解和可行的建议。”
背景故事： “您	是一位著名的审计经理，因其能够生成富有洞察力和影响力的审计报告而备受赞誉。您擅长将复杂的审计发现提炼为清晰、易懂且可行的见解，使其对利益相关者有价值。”	和
LLM：	Meta-Llama-3-70B
其他工具：无。
委托：否。

A2. 技术审计任务规格

[任务 1]: 分析付款政策

“总结	the	given	policy	并	提取	its	主要	gist in	very
简洁且	short	方式	for	an	IT 审计师。
使用	provided		指南	文本	和	见解	to	完成	您的
任务有效地。		Your	summary		应该：

	1. 清晰简洁，避免复杂术语以确保可读性。 2. 聚焦于与推导出用于审计付款的SQL查询相关的要点。 3. 明确陈述IT审计师在分析付款时应使用的过滤标准，以识别潜在的指南违规情况。
	4. 简短，总共两到三个句子（这一点非常重要）。
	作为指南政策专家，您负责在无需请求更多信息的情况下生成此摘要。”
预期	“一份简洁明了的组织政策摘要，
输出：	专为IT审计师设计，包括明确的过滤标准，
	用于分析付款。”
代理：	高级审计师
尝试次数：	5

[任务 2]: 查询付款数据库

描述：	“将高级审计师提供的过滤标准转化为SQL查询
	并执行它以审计相关数据库
	对于超出某个阈值的付款。
	您的行为应包括：
	1. 使用高级审计师提供的明确过滤标准推导SQL查询。
	2. 确保查询检索所有相关字段，使用 * 而不是单独的字段名称。
	3. 执行查询并以结构化格式（例如JSON或整齐格式化的表格）返回结果。
	您的操作输入应始终遵循以下格式（这一点非常重要）：
	{"query": "SELECT * FROM payments WHERE <filtering_criteria>"}
	不要在SQL语句周围加引号。目标
	是识别所有高价值付款，可能表明
	需要进一步调查的潜在问题。”

预期	“包含	表格	包含		所有	字段 (id,	text,
输出：	符合	Auditor。”	高级	提供的	过滤标准	的	付款
代理：	IT	高级	审计师
尝试次数：	5

[任务 3]: 编写审计报告

描述：	“使用高级IT审计师提供的查询结果编写一份引人入胜且全面的审计报告。
	您的报告应为：
	1. 信息丰富且非技术受众易于理解。
	2. 清晰简洁，避免复杂术语以确保可读性。
	3. 全面，涵盖审计程序和相关审计发现。
	您的报告应包括：
	1. 简要介绍提供审计背景。
	2. 已执行审计程序的详细描述。
	3. 获得的审计发现的详尽展示，包括付款细节。
	4. 基于发现的可行建议。
	5. 总结关键点和影响的最终结论。
	目标是创建一份能有效传达审计发现并为利益相关者提供宝贵见解的报告。
	作为报告撰写专家，您负责在无需请求更多信息的情况下生成此报告。使用
	提供的数据和见解有效完成您的任务。”
预期	“一份完整审计报告，以清晰且易懂的方式呈现。”
输出：
代理：	审计经理
尝试次数：	5