24年9月来自西安交大的论文“Large Model Agents: State-of-the-Art, Cooperation Paradigms, Security and Privacy, and Future Trends”。
大模型 (LM) 智体由 GPT-4 和 DALL-E 2 等大型基础模型提供支持,代表着朝着实现通用人工智能 (AGI) 迈出了重要一步。LM 智体表现出自主性、具身化和连接性的关键特征,使它们能够在物理世界、虚拟和混合现实环境中运行,同时与人类、其他智体及其周围环境无缝交互。本文全面概述了 LM 智体的最新进展,重点关注架构、合作范式、安全性、隐私和未来前景。具体来说,首先探索 LM 智体的基本原理,包括通用架构、关键组件、支持技术和现代应用程序。然后,从数据、计算和知识的角度讨论面向 LM 智体的连接智能实用协作范式。此外,系统地分析与 LM 智体相关的安全漏洞和隐私泄露,特别是在多智体设置中。还探索它们的底层机制,并回顾现有和潜在的对策。最后,概述构建强大且安全的 LM智体生态系统的未来研究方向。
如图所示人工智能智体的演进历史。1)初始阶段:早期人工智能研究主要集中于逻辑推理和基于规则的人工智能智体。2)机器学习(ML)智体阶段:包括监督学习和无监督学习在内的机器学习推动了人工智能智体的发展。1997 年,IBM 的 Deep Blue 击败了国际象棋世界冠军。3)深度学习(DL)智体阶段:DL 与大数据的结合显著提高了人工智能的性能。2016 年,Deepmind 的 AlphaGo 击败了围棋世界冠军李世石。4)大模型(LM)智体时代:OpenAI 的 ChatGPT 和 GPT-4 等基于 Transformer 的 LM,彻底改变了人工智能智体,开启了 LM 智体时代,更接近通用人工智能。
随着大模型(LM,又称大型基础模型)的兴起,例如 OpenAI GPT-4o、Google PaLM 2 和 Microsoft Copilot,LM 为全面增强 AI 智体的固有能力开辟了新的可能性 [6],[7]。如图所示,LM 智体(无论是软件形式 a 还是具身形式 b)通常由四个关键组件组成:规划、动作、记忆和交互。这些智体可以在物理、虚拟或混合现实环境中无缝运行 [1],[8]–[10]。具体来说,LM 是 AI 智体的“大脑”,赋予它们强大的人机交互 (HMI)、复杂模式识别、知识保留、推理、长期规划、泛化和适应性能力 [9]。此外,通过先进的推理和少样本/零样本规划技术,如思维链 (CoT) [11]、思维树 (ToT) [12] 和反思 [13],LM 智体可以形成复杂的逻辑连接,使它们能够有效地解决复杂、多方面的任务。例如,AutoGPT [14] 是一个有前途的 LLM 智体原型,它可以将复杂任务分解为几个可管理的子任务,从而促进结构化和高效的问题解决。将 LM 与检索增强生成 (RAG) 技术 [15] 相结合,进一步允许智体访问外部知识源并提高其基于检索信息的响应准确性。此外,LM 智体可以灵活地集成一系列 LM,包括大语言模型 (LLM) 和大型视觉模型 (LVM),以实现多方面的能力。
如图 (a) 所示,LM 智体可以维护内部记忆,随着时间的推移积累知识以指导未来的决策和行动,从而能够在动态环境中持续学习和适应 [25]。如图 (b) 所示,LM 智体主动与环境交互并根据实时反馈调整动作。
LM 智体被认为是实现通用人工智能 (AGI) 的重要一步,并已广泛应用于网络搜索 [16]、推荐系统 [17]、虚拟助手 [18]、[19]、元宇宙游戏 [20]、机器人 [21]、自动驾驶汽车 [22] 和电子设计自动化 (EDA) [23] 等领域。据 MarketsandMarkets [24] 报道,2023 年全球自主人工智能和自主智体市场价值为 480 亿美元,预计年复合增长率(CAGR)为 43%,到 2028 年达到 285 亿美元。LM 智体引起了全球的关注,包括谷歌、OpenAI、微软、IBM、AWS、甲骨文、NVIDIA 和百度在内的领先科技巨头都在进军 LM 智体行业。
如图展示 LM 智体的未来愿景,其特点是三个关键属性:自主、具身和连接,为 AGI 铺平了道路。每个 LM 智体包括两部分:(i) 位于网络空间的数字大脑,由 GPT-4o、PaLM 2 和 Copilot 等 LM 驱动;(ii) 物理身体,如自动驾驶汽车、机器狗和无人机。在每个 LM 智体中,数字大脑通过智体内通信与其物理身体同步。LM 智体在云中相互通信,通过智体之间通信共享信息和知识,建立互联智能网络。每个 LM 智体都可以与其他智体、虚拟/现实环境和人类动态交互。每个 LM 智体的大脑可以作为独立实体部署,也可以以分层方式跨各种平台(如云服务器、边缘设备或终端设备)部署。
如上图所示,通过将众多 LM 智体互连到 LM 智体互联网中,连接的 LM 智体可以自由共享传感数据和面向任务的知识。通过充分利用各种专门 LM 的计算能力,它促进了合作决策和集体智慧。
尽管语言模型智体前景光明,但安全和隐私问题仍然是其广泛应用的重大障碍。在语言模型智体的整个生命周期中,可能会出现许多漏洞,包括对抗样本 [31]、智体中毒 [32]、语言模型幻觉 [33],以及普遍的数据收集和记忆 [34]。
两个大模型智体的标准:IEEE SA-P3394 和 IEEE SA-P3428。
1)2023 年推出的 IEEE SA - P3394 标准。定义了自然语言接口,以促进 LLM 应用程序、智体和人类用户之间的通信。该标准建立一套协议和指南,使应用程序和智体能够与启用 LLM 的智体进行有效通信。这些协议和指南包括但不限于 API 语法和语义、语音和文本格式、对话流、提示工程集成、LLM 思维链集成,以及 LLM 插件的 API 端点配置、身份验证和授权。该标准有望提高技术互操作性,促进人工智能行业发展,提高 LM 的实用性和效率,并改善人工智能智体功能和用户体验。
2)2023 年推出的 IEEE SA - P3428 标准。旨在为教育应用中的 LLM 智体制定标准。主要目标是确保 LLM 智体在开源和专有系统中的互操作性。重点关注领域包括 LLM 与现有教育系统的集成以及解决技术和道德挑战。这包括确保 LLM 可以与其他 AI 组件(例如自适应教学系统 (AIS))无缝交互,同时解决教育环境中的偏见、透明度和问责制问题。该标准旨在支持 LLM 在教育领域的广泛有效应用,从而实现更加个性化、高效和合乎道德的 AI 驱动教育体验。
连接LM智体的架构:
1)LM 智体的操作系统 (OS):根据 [45]、[46],LM 智体的操作系统架构由三层组成:应用程序、内核和硬件。
• 应用程序层托管智体应用程序(例如,旅行、编码和机器人智体),并提供抽象系统调用的 SDK,从而简化智体开发。
• 内核层包括普通操作系统内核和附加的 LM 智体内核,重点是在不改变原始操作系统结构的情况下。LM 智体内核 [45]、[46] 中的关键模块包括用于任务规划和优先级排序的智体调度程序、用于 LM 状态管理的上下文管理器、用于短期数据的内存管理器、用于长期数据保留的存储管理器、用于外部 API 交互的工具管理器以及用于隐私控制的访问管理器。
• 硬件层包括物理资源(CPU、GPU、内存等),这些资源通过操作系统系统调用间接管理,因为 LM 内核不直接与硬件交互。
OS架构如图所示:
2)语言模型智体的构建模块:根据[1]、[8]-[10],语言模型智体通常有五个构建模块:规划、行动、记忆、交互和安全模块。这些模块共同使语言模型智体能够在复杂和动态的环境中感知、规划、行动、学习和高效、安全地交互。
• 在语言模型的支持下,规划模块在记忆模块的帮助下制定策略和动作规划,从而实现明智的决策[7]、[10]。
• 动作模块执行这些具体行动,根据实时环境反馈调整动作,以确保根据情境做出适当的响应[9]、[42]。
• 记忆模块充当积累知识(例如过去的经验和外部知识)的存储库,促进持续学习和改进[10]。
• 交互模块实现与人类、其他智体和环境的有效沟通和协作。
• 安全模块集成于 LM 智体的整个操作中,确保主动防御威胁并维护数据和流程的完整性和机密性。
- LM 智体引擎:LM 智体引擎由多种尖端技术组合驱动,包括大型基础模型、知识相关技术、交互、数字孪生和多智体协作。 GPT-4 和 DALL-E 2 等大型基础模型充当 LM 智体的大脑,可实现高级模式识别、高级推理和智能决策,提供 LM 智体的认知能力 [6],[7]。
知识相关技术通过结合知识图谱 (KG)、知识库和 RAG 系统增强 LM 智体,允许智体访问、利用和管理大量外部知识源,确保知情和上下文相关的操作 [47]。
HMI 技术通过 NLP、多模态界面和增强/虚拟/混合现实 (AR/VR/MR) 实现人与智体之间的无缝交互,促进动态和自适应交互 [48]。
数字孪生技术允许通过智体内部通信,高效无缝地同步 LM 智体的身体和数字大脑之间的数据和状态 [49]。
多智体协作技术使 LM 智体能够高效协作,通过智体间通信制定合作、竞争和竞合策略,共享数据、资源和任务,以解决复杂问题 [28]。
4) LM 智体的通信模式:每个 LM 智体都由两部分组成:(i)位于云端、边缘服务器或终端设备中的 LM 赋能大脑;(ii)相应的物理实体,如自动驾驶汽车。每个 LM智体都可以与其他 LM 智体、虚拟/现实环境和人类进行主动交互。对于连接的 LM智体,存在两种典型的通信模式:智体内通信,用于 LM 智体内大脑和物理实体之间的无缝数据/知识同步;智体间通信,用于 LM 智体之间的有效协调。
• 智体内通信是指单个 LM 智体内的内部数据/知识交换。这种类型的通信可确保 LM 智体的不同组件(包括规划、动作、记忆、交互和安全模块)协调工作。例如,LM 智体通过其物理实体收集多模态感官数据,然后将解释后的信息传达给 LM 赋能大脑。大脑中的规划模块制定响应或动作规划,然后由动作模块执行。这种无缝的信息流对于在实时和动态场景中维持 LM 智体的功能、连贯性和响应性至关重要。
• 智体间通信涉及多个 LM 智体之间的信息和知识交换。它支持智体之间的协作任务分配、资源共享和协调行动,以促进集体智能。例如,在智能城市应用中,管理交通信号灯、公共交通和紧急服务的各种 LM 智体共享实时数据,以优化城市交通和安全。有效的智体间通信依赖于标准化协议来确保兼容性和互操作性,从而促进整个 LM 智体网络的高效和同步操作。
- 人类世界与 LM 智体之间的信息流: 人类通过自然语言、移动智能设备和可穿戴技术与 LM 智体进行交互,使 LM 智体能够理解人类的指令并有效地解决现实世界的问题。反过来,LM 智体从人类的输入中获取新知识和数据,这有助于他们不断改进和学习。这种不断更新和优化模型的过程使 LM 智体能够提供越来越准确和有用的信息。在 AR 和 VR 环境中,LM 智体可以在虚拟环境(例如建筑设计)中与人类用户协同工作,以提高整体效率和创造力 [50]。
- 物理世界与 LM 智体之间的信息流: 借助数字孪生技术,LM 智体可以在其物理身体和数字大脑之间同步数据和状态,从而创建无缝交互循环。LM 智体还可以监控并根据来自其环境的实时输入采取行动。这种双向同步使 LM 智体能够以高精度和高响应度感知和响应周围环境(无论是虚拟的还是真实的),从而弥合数字领域和物理领域之间的差距。通过不断地从环境反馈中学习,LM 智体可以积累知识并加深对物理定律的理解,从而使它们能够解决复杂的现实世界问题。这种迭代学习过程确保 LM 智体不仅对即时激励做出反应,而且随时间的推移不断改进其具体动作,从而实现更复杂、更有效的解决方案。
7)网络世界与 LM 智体之间的信息流:在网络世界中,LM 智体通过高效的云端网络互连到 LM 智体互联网中,促进无缝数据和知识共享,促进多智体协作。通过在云端和边缘基础设施上部署 LM,它允许 LM 智体利用云端和边缘计算的优势来优化性能和响应能力 [51]。云提供了强大的计算能力和存储能力,可以处理大量数据并训练复杂的模型。同时,边缘提供更接近源头的实时数据处理能力,从而减少延迟并确保及时做出决策。在 LM 智体互联网中,LM 智体可以实时与其他人协作共享数据、知识和学习经验,从而创建一个跨多个领域强大且自适应的智能网络。例如,在智慧城市中,不同地点的实体 LM 智体可以通过共享实时数据和协调行动来协同工作,以优化交通流量、管理能源资源并增强公共安全。
如图所示,LM 智体的互联网总体架构,其桥接人类、物理和网络世界:
如图所示,构建连通的 LM 智体通常包含五个关键模块 [1]、[8]–[10]:规划、动作、记忆、交互和安全。
1)规划模块:规划模块是 LM 智体的核心 [7]、[10]。它利用先进的推理技术使 LM 智体能够设计出解决复杂问题的有效解决方案。规划模块的工作模式包括以下几种。
• 无反馈规划:规划模块使 LM 智体能够理解复杂问题,将问题分解为必要的步骤或可管理的子任务,找到可靠的解决方案 [7]、[14]。例如,CoT [11] 是一种流行的顺序推理方法,其中每个想法都直接建立在前一个想法之上。它代表了循序渐进的逻辑思维,可以增强连贯和上下文相关响应的生成。ToT [12] 将推理组织成树状结构,同时探索多条路径。在 ToT 中,每个节点代表一个部分解决方案,允许模型分支和回溯以找到最佳答案。思维图 (GoT) [52] 使用任意图形结构对推理进行建模,从而允许更灵活的信息流。GoT 捕获思想之间的复杂关系,从而增强模型的解决问题的能力。AVIS [53] 使用人为定义的转换图进一步完善了视觉问答任务的树搜索过程,并通过动态提示管理器增强了决策能力。
• 反馈增强规划:为了在复杂任务中制定有效的长期规划,有必要根据过去的行动和观察 [39] 反复反思和完善执行规划。目标是纠正过去的错误并改善最终结果。例如,ReAct [54] 通过提示 LLM 同时生成推理轨迹和动作,将推理和动作结合起来。这种双重方法允许 LLM 创建、监控和调整行动规划,而特定于任务的行动则增强了与外部来源的交互,从而提高了响应的准确性和可靠性。 Reflexion [55] 将环境反馈转化为自我反思,使 LLM 智体能够从过去的错误中学习,并迭代优化行为增强 ReAct。Reflexion 的特点是,一个通过记忆增强的模型(例如,CoT 和 ReAct)产生动作和文本的actor,一个使用特定于任务的奖励函数对输出进行评分的evaluator,以及一个产生口头反馈以改进actor的自我反思。
• 多角色自我规划:受到假装游戏的启发,Wang [56] 开发了一种认知增效剂(cognitive synergist),使单个 LLM 能够分裂成多个角色,促进自我协作以解决复杂任务。他们提出了 Solo Performance Prompting (SPP),其中 LLM 无需外部检索系统即可识别、模拟和与不同的角色(例如领域专家或目标受众)协作。SPP 通过允许 LLM 从各个角度进行多轮自我修整和反馈来增强解决问题的能力。
• 落地的规划:在现实环境(例如 Minecraft)中执行规划需要精确的多步骤推理。VOYAGER [50] 是 Minecraft 中第一个由 LLM 驱动的智体,它利用上下文终身学习来适应和推广技能以适应新任务和新世界。VOYAGER 包括用于探索的自动课程、用于复杂行为的可执行代码技能库,以及基于反馈改进程序的迭代提示机制。Wang [57] 进一步提出一种交互式描述-解释-规划-选择 (DEPS) 的规划方法,整合执行描述、自我解释和对子目标进行排序以改进规划的目标选择器,改进 LLM 生成的规划。此外,Song [7] 提出一种落地重规划算法,该算法根据环境感知在任务执行过程中动态更新高级规划,并在操作失败或在指定时间之后触发重规划。
2)记忆模块:记忆模块是 LM 智体随时间学习和适应能力不可或缺的部分 [39]。它维护内部记忆,从过去与用户、其他智体和环境的交互、想法、行动、观察和经验中积累知识。存储的信息指导未来的决策和行动,使智体能够不断完善其知识和技能。该模块确保智体能够记住过去的经验教训并将其应用于新情况,从而提高其长期性能和适应性 [10]。记忆格式多种多样,例如自然语言、嵌入式向量、数据库和结构化列表。此外,RAG 技术 [15] 可用于访问外部知识源,进一步增强 LM 智体规划能力的准确性和相关性。在文献 [10]、[39] 中,记忆可分为以下三种类型。
• 短期记忆侧重于当前情况的背景信息。它是临时的和有限的,通常通过上下文窗口进行管理,该窗口限制了 LM 智体一次可以学习的信息量。
• 长期记忆存储 LM 智体的历史行为和想法。这是通过外部向量存储实现的,它允许快速检索重要信息,确保智体可以访问相关的过去经验来为当前决策提供信息 [58]。
• 混合记忆结合短期和长期记忆,以增强智体对当前上下文的理解,并利用过去的经验进行更好的长期推理。Liu [59] 提出 RAISE 架构,通过集成双-组件记忆系统来增强对话式 AI 智体的 ReAct,其中 Scratchpad 将最近的交互捕获为短期记忆;而检索模块充当长期记忆以访问相关示例。HIAGENT [60] 采用跨试验和试验内的记忆,其中跨试验记忆存储历史轨迹,试验内记忆捕获当前试验。 HIAGENT 不会保留所有动作-观察对,而是使用子目标作为记忆块来节省记忆,每个子目标都包含总结的观察。LLM 生成子目标,执行操作以实现这些目标,并通过总结和用相关信息替换已完成的子目标来更新工作记忆。
- 动作模块:动作模块使 LM 智体能够在各种环境中执行和调整动作 [9]、[42]。该模块旨在处理具身化动作和工具使用能力,使智体能够自适应且有效地与其物理环境交互。此外,工具大大拓宽了智体的动作空间。
• 具身化动作。动作模块使 LM 智体能够执行适合上下文的具身化动作并适应环境变化,促进与物理环境的交互和调整 [21]、[25]。由于 LLM 生成的动作规划通常不能在交互式环境中直接执行,Huang [25] 建议,以演示为条件并将其在语义上转换为可接受的动作,改进 LLM 为具身化智体生成的规划。VirtualHome 环境中的评估显示可执行性有显著提高,比基线 LLM 提高了 18% 到 79%。此外,SayCan [21] 通过在基于物理的任务中利用 LLM 知识,使机器人等具身智体能够遵循高级指令,其中 LLM(即 Say)建议有用的操作;而学习的affordance函数(即 Can)评估 affordance。SayCan 的有效性通过厨房环境中的 101 个零样本真实世界机器人任务得到证明。PaLM-E [61] 是一种多功能多模态语言模型,用于具身推理、视觉语言和语言任务。它将连续传感器输入(例如图像和状态估计)集成到与语言tokens相同的嵌入空间中,从而允许在现实世界的顺序决策中进行有根据的推理。
• 学习使用和制作工具。利用各种工具(例如搜索引擎和外部 API)[62],LM 智体可以收集有价值的信息来处理分配的复杂任务。例如,AutoGPT 将 LLM 与预定工具(如 Web 和文件浏览)集成在一起。InteRecAgent [63] 将 LLM 作为大脑,将推荐模型作为工具,使用查询、检索和排名工具来处理复杂的用户查询。除了使用现有工具外,LM 智体还可以开发新工具来提高任务效率 [9]。为了使用大型工具集优化工具选择,ReInvoke [64] 引入了一种无监督工具检索方法,该方法具有查询生成器,丰富离线索引中的工具文档,以及意图提取器,从在线推理中的用户查询中识别与工具相关的意图,然后采用多视图相似性排名策略,识别最相关的工具。
- 交互模块:交互模块使 LM 智体能够与人类、其他智体和环境进行交互 [41]。通过这些多样化的交互,智体可以收集多样化的经验和知识,这对于全面理解和适应至关重要。
• 智体-智体交互。交互模块允许 LM 智体与其他智体进行通信和协作,从而形成一个共享信息和资源的合作网络 [62]。这种交互可以包括协调共享任务的努力、交换知识以解决问题以及在多智体场景中协商角色。
• 智体-人交互。LM 智体可以与人类交互,包括理解和响应自然语言命令、识别和解释人类的情感和表情,以及在各种任务中提供帮助 [20]。据观察,诸如 GPT-4 之类的 LLM 往往会忘记多轮对话中的角色设置,并且由于上下文窗口限制而难以进行详细的角色分配。为了解决这个问题,[65] 引入了一个树结构的角色模型,用于角色分配、检测和维护,增强了智体交互。
• 智体-环境交互。LM 智体可以直接与物理或虚拟环境互动。通过促进在物理、虚拟或混合现实环境中的参与 [1]、[21],交互模块确保 LM 智体可以在不同环境中有效运行。Lai 开发了 AutoWebGLM 智体 [66],它通过课程学习、自采样强化学习和拒绝采样的微调方法在网页浏览任务中表现出色。基于 AutoWebGLM 的 Chrome 扩展程序,验证了其在现实世界服务中跨各种网站的有效推理和操作能力。
5)安全模块:安全模块对于确保 LM 智体的安全、可靠、合乎道德和隐私保护操作至关重要 [42]。它旨在监控和规范 LM 智体的行为、交互和决策,以防止伤害并确保遵守法律和道德标准。该模块采用幻觉缓解、异常检测和访问控制等技术来识别和缓解潜在的安全/隐私威胁。它还结合了道德准则和偏见缓解技术,以确保公平和负责任的行为。安全模块可以通过从新的安全/隐私事件中学习并集成安全/隐私数据库和策略的更新,动态适应新出现的威胁。
模块之间的连接:LM 智体的关键组件相互连接,创建一个有凝聚力和智能的系统。特别是,规划模块依靠记忆模块来访问过去的经验和外部知识,确保做出明智的决策。行动模块执行由规划模块生成的规划,根据实时反馈和记忆调整动作。交互模块通过促进沟通和协作来增强这些过程,从而为规划和记忆模块提供额外的数据和背景。此外,安全考虑无缝集成到 LM 智体操作的每个方面,以确保稳健和值得信赖的性能。
如图所示:连接的LM智体具备的能力有5个,即大基础模型、知识相关、交互、数字孪生和多智体协同。
如图显示这5个能力的角色和主要组件:
大基础模型:多模态、高级推理、零/少样本泛化和适配。
知识相关:知识融合、RAG和知识同步。
交互:HMI/人-机器人交互、3D数字人、AR/VR/MR和多模态界面。
数字孪生:虚拟-物理同步、虚拟-物理反馈和预测分析。
多智体协同:数据协同、知识协同和计算协同。
最近,各种 LM 智体的工业项目,例如 AutoGPT、AutoGen、BabyAGI、ChatDev 和 MetaGPT,展示了它们在协助网络、生活和商业场景方面的多样化潜力,例如规划个性化旅行、自动生成创意内容和增强软件开发工作流程。例如,AutoGPT 是一个开源自主智体,它利用 GPT-3.5 或 GPT-4 API 通过将复杂任务分解为多个子任务并链接 LLM 输出来独立执行复杂任务,展示了高级推理能力 [14]。微软开发的 AutoGen 提供了一个开源多智体对话框架,支持 API 作为改进 LLM 推理的工具,并强调 AI 模型的自动生成和微调 [89]。BabyAGI 通过 OpenAI 平台和矢量数据库集成任务管理,通过基于高级目标自主创建和执行任务来模拟简化的 AGI。 ChatDev 专注于增强对话式 AI,提供复杂的对话管理、编码、调试和项目管理,以简化软件开发流程 [90]。MetaGPT 探索了元学习范式,其中模型通过利用相关任务中的知识进行训练以快速适应新任务,从而提高不同应用程序的效率和性能 [91]。
1)移动通信:LM 智体通过实现低成本和情境感知的决策 [92]、个性化的用户体验 [87] 以及用于无线资源分配的自动优化问题公式 [93],为移动通信提供了显著的优势。NetLLM [92] 、NetGPT [87] 、ChatNet [94] 、MobileAgent v2[18]、AppAgent。
2)智能机器人:LM 智体在推进智能工业和服务机器人方面发挥着至关重要的作用 [21]。这些机器人可以通过感知周围环境并通过深度学习模型学习必要的技能,执行产品组装、环境清洁和客户服务等复杂任务。Figure 02、Optimus。
3)自动驾驶:LM 智体正在通过增强车辆智能、提高安全性和优化驾驶体验(例如,提供个性化的车内体验)来改变自动驾驶 [22]。
4)自主攻防对抗:LM 智体可以看作是自主智能的网络安全决策者,能够在无人干预的情况下做出安全决策并采取威胁处理行动。PentestGPT、AutoAttacker。
如图是LM智体的交互类型:协同、部分协同(竞争)和竞争。
如图所示LM智体的协作模式:数据、计算和知识协作。
用于促进 LM 智体之间合作的方法包括角色扮演 [90]、[103]、多目标优化、合作博弈论 [104]、纳什的讨价还价解决方案、拍卖机制 [88]、多智体强化学习 (MARL) [98]、群体智能算法、联邦学习 (FL) [86] 和心智理论(theory of mind)[105]。
• 角色扮演。Li [30] 提出一个合作智体框架,该框架采用角色扮演和初始提示来引导智体自主完成任务。该系统从人类提供的想法和角色分配开始,由任务指定智体进行细化。然后,AI 用户和 AI 助手通过多轮对话进行协作,AI 用户进行指导,助手进行响应,直到任务完成。 ChatDev [90] 、MetaGPT [91] 和 GA [103] 。
• 心智理论。它指的是了解他人隐藏心理状态的能力,这对于社交互动至关重要。随着 LLM 更多地参与人际交往,提高他们的社交智力至关重要。Li [105] 确定了 LLM 协作的局限性,并提出了一种提示工程方法来整合明确的信念状态表示。他们还介绍了一种在团队合作场景中对 LLM 高阶心智理论的新评估,强调动态信念状态演变和智体之间的意图交流。
其他部分(略)。
版权归原作者 硅谷秋水 所有, 如有侵权,请联系我们删除。