24年1月论文“Agent AI: surveying the horizons of multimodal interaction“,来自斯坦福、微软、UCLA和华盛顿大学。
如图是可以在不同领域和应用程序中感知和行动的智体AI系统概述。智体AI正在成为通用人工智能(AGI)的一个有前途的途径。人工智能训练已经证明了在物理世界中进行多模态理解的能力。它通过利用生成式人工智能和多个独立的数据源,为现实不可知的训练提供了一个框架。当在跨现实数据上进行训练时,为智体和动作相关任务训练的大型基础模型可以应用于物理和虚拟世界。本文介绍智体AI系统的总体概况,该系统可以在许多不同的领域和应用中感知和行动,可能是智体范式实现AGI的一条途径。
多模态人工智能系统更具交互性的一种方法是作为环境中的智体。目前,系利用现有的基础模型作为创建具身智体的基本构建块。具身智体有助于模型处理和解释视觉和上下文数据的能力,这对于创建更复杂和上下文-觉察的人工智能系统至关重要。例如,感知用户动作、人类行为、环境目标、音频表达和对场景共同看法的系统,可以用于通知和指导给定环境内的智体响应。为了加快对基于智体的多模态智能研究,将“智体AI”定义为一类交互系统,它可以感知视觉刺激、语言输入和其他基于环境的数据,并可以与无限智体一起产生有意义的具体行动。特别是,探索旨在通过结合外部知识、多感官输入和人类反馈,基于下一个具身动作预测来改进智体的系统。通过在基础环境中开发智体AI系统,还可以减轻大基础模型的幻觉及其产生环境错误输出的趋势。人工智能的新兴领域包含了多模态交互更广泛的具身和智体方面。除了智体在物理世界中的行为和交互之外,还设想一个未来,其中人们可以轻松地创建任何虚拟现实或模拟场景,并与虚拟环境中的智体进行交互。
MAA=多模态智体AI
GA=多面手智体
智体AI集成
如先前研究中所提出的,基于LLM和VLM的基础模型在具身AI领域仍然表现出有限的性能,特别是在未见的环境或场景中理解、生成、编辑和交互方面(Huang 2023a;Zeng2023)。因此,这些限制导致了人工智能智体的次优输出。当前以智体为中心的人工智能建模方法侧重于直接访问和明确定义的数据(例如世界状态的文本或字符串表示),通常使用从大规模预训练中学习到的领域和环境不相关模式来预测每个环境的行动输出(Xi2023;Wang2023c;Gong2023a;Wu2022)。在(Huang 2023a)中,结合大型基础模型,研究知识引导的协同和交互式场景生成任务,并显示出有希望的结果,表明基于知识的LLM智体可以提高2D和3D场景理解、生成和编辑的性能,以及其他人-智体交互(Huang,2023a)。通过集成智体AI框架,大基础模型能够更深入地理解用户输入,从而形成一个复杂且自适应的HCI系统。LLM和VLM的涌现能力在生成式人工智能、具身智能、多模型学习的知识扩充、混合现实生成、文本到视觉编辑、游戏或机器人任务中的2D/3D模拟的人机交互中是不可见的。智体AI在基础模型方面的最新进展为释放具身智体的通用智能提供了一个将出现的催化剂。大型动作模型或智体-视觉语言模型为复杂环境中的规划、解决问题和学习等通用具身系统开辟了新的可能性。智体 AI测试在元宇宙中迈出了新的一步,并推出了早期版本的AGI。
人工智能智体系统通常具有以下能力:1)预测建模:人工智能智体可以根据历史数据和趋势预测可能的结果或建议下一步行动。例如,可能会预测文本的延续、问题的答案、机器人的下一步行动或场景的解决方案。2) 决策:在某些应用程序中,人工智能智体可以根据其推断做出决策。通常,智体会根据最有可能实现特定目标的内容做出决定。对于推荐系统等人工智能应用程序,智体可以根据其对用户偏好的推断来决定推荐什么产品或内容。3) 处理多义性:人工智能智体通常可以通过基于上下文和训练推断最可能的解释来处理歧义输入。然而,这样做的能力受训练数据和算法范围的限制。4) 持续改进:虽然一些人工智能智体有能力从新的数据和交互中学习,但许多大语言模型在训练后不会继续更新其知识库或内部表示。其推断通常仅基于截至上次训练更新时可用的数据。
如图展示了用于多模态和跨现实不可知集成的增强交互智体,该集成具有涌现机制。人工智能智体需要为每个新任务收集大量的训练数据,这对许多领域来说可能是昂贵的或不可能的。在这项研究中,作者开发了一种无限智体,它可以学习将内存信息从通用基础模型(如GPT-X、DALL-e)转移到新领域或场景,用于物理或虚拟世界中的场景理解、生成和交互式编辑。
这种无限智体在机器人技术中的一个应用是RoboGen(Wang,2023d)。在这项研究中,原作者提出了一种自主运行任务命题、环境生成和技能学习循环的流水线。RoboGen致力于将具身在大模型的知识迁移到机器人技术中。
泛化解释了如何从更简单的组件或规则中产生涌现属性或行为。关键思想在于识别控制系统行为的基本元素或规则,例如单个神经元或基本算法。因此,通过观察这些简单的组件或规则如何相互作用。这些组件的这些相互作用往往会导致复杂行为的出现,而这些行为是无法通过单独检查单个组件来预测的。跨不同复杂度级别的泛化允许系统学习适用于这些级别的一般原理,从而产生涌现的属性。这使系统能够适应新的情况,表明从更简单的规则中出现了更复杂的行为。此外,跨不同复杂程度进行泛化的能力有助于知识从一个领域迁移到另一个领域,这有助于随系统的适应在新的环境中复杂行为的涌现。如图是涌现交互机制的例子,其使用智体从候选中识别与图像相关的文本。该任务涉及用网络中的多模态人工智能智体和人类注释的知识交互样本来整合外部世界信息。
智体AI范式
作者试图实现几个目标:
•利用现有的预训练模型和预训练策略,有效地引导智体理解重要模态,如文本或视觉输入。
•支持足够的长期任务规划能力。
•结合一个记忆框架,允许以后对所学知识进行编码和检索。
•允许使用环境反馈来有效地训练智体,使其了解应采取的行动。
为此作者提出一种多模态多面手智体范式。如图所示,主要有5个模块:1)环境与感知,包括任务规划和技能观察;2) 智体学习;3) 记忆;4) 智体行为;5) 认知。
其中用LLM或VLM模型来引导智体的组件。特别是,LLM已被证明在任务规划方面表现良好(Gong,2023a),包含重要的世界知识(Yu,2023b),并显示出不错的逻辑推理能力(Creswell,2022)。此外,诸如CLIP(Radford,2021)的VLM提供了一种通用的语言对齐视觉编码器,并提供了零样本视觉识别能力。例如,最先进的开源多模态模型,如LLaVA(Liu,2023c)和InstructBLIP(Dai,2023),依赖冻结的CLIP模型作为视觉编码器。如图展示将大语言模型(LLM)与大视觉模型(LVM)相结合来创建多模态人工智能智体的当前范式。通常,这些模型采用视觉或语言输入,并使用预训练和冻结的视觉和语言模型,学习连接和搭桥模态的较小子网络。实例包括Flamingo(Alayrac,2022)、BLIP-2(Li,2023c)、InstructBLIP(Dai,2023)和LLaVA(Liu,2023c)。
与Gato(Reed,2022)类似,也可以使用以视觉tokens和语言 tokens为输入的单智体Transformer模型,而不是对AI智体使用冻结的LLM和VLM。除了视觉和语言,还添加第三种通用类型的输入,将其表示为智体tokens。从概念上讲,智体tokens用于为智体行为保留一个模型输入和输出空间的特定子空间。对于机器人或游戏来说,这可以表示为控制器的输入动作空间。当训练智体使用特定工具时,例如图像生成或图像编辑模型,或者对于其他API调用,也可以使用智体tokens。如图所示,可以将智体token与视觉和语言token相结合,生成一个统一的界面来训练多模态智体AI。作者提出了一种统一的、端到端的智体系统训练范式,而不是连接冻结的子模块并使用现有的基础模型作为构建块。仍然可以使用LLM和LVM初始化子模块,如上图所示;但也可以使用智体tokens,即用于训练模型在特定领域(例如,机器人)中执行智体行为的专用tokens。
智体Transformer的优势在于以下几点:首先,可以很容易地将模型定制为非常具体的智体任务,这些任务可能难以用自然语言表示(例如,控制器输入或其他特定动作)。因此,智体可以从环境交互和领域特定数据中学习,以提高性能。其次,通过访问智体tokens的概率,可以更容易地理解模型为什么采取或不采取特定动作。第三,某些领域,如医疗保健和法律,对数据隐私有严格的要求。最后,相对较小的智体Transformer,可能要比那些较大的专有语言模型便宜得多。
智体AI学习
在不同领域的交互式人工智能策略,扩展了训练的智体调用大型基础模型的范式,该智体积极寻求收集用户反馈、行动信息、有用知识以进行生成和交互。有时,LLM/VLM模型不需要再次训练,通过在测试时为智体提供改进的上下文提示来提高它们的性能。另一方面,它总是涉及三个系统组合进行的知识/推理/常识/推断等交互建模——第一个系统从多模型查询中执行知识检索,第二个系统从相关智体中执行交互生成,最后一个系统是有信息量的自监督训练或用强化学习或模仿学习的预训练。
多年来,利用图像输入学习智体行为一直备受关注(Mnih,2015)。使用RGB输入的固有挑战是维度的诅咒。为了解决这个问题,研究人员要么使用更多的数据(Jang,2022;Ha,2023),要么在模型设计中引入归纳偏差,以提高样本效率。特别是,作者将3D结构纳入模型架构中进行操作(Zeng,2021;Shridhar,2023;Goyal,2022;James&Davison,2022)。对于机器人导航,作者(Chaplot,2020a,b)利用地图作为表示。地图可以从聚合所有先前RGB输入的神经网络中学习,也可以通过3D重建方法(如神经辐射场NeRF)学习(Rosinol,2022)。
为了获得更多的数据,研究人员使用图形学模拟器合成合成数据(Mu,2021;Gong,2023b),并试图缩小模拟-真实的差距(Tobin,2017;Sadeghi&Levine,2016;Peng,2018)。最近,人们共同努力策划大规模数据集,旨在解决数据稀缺问题(Padalkar,2023;Brohan,2021)。另一方面,为了提高样本复杂性,数据增强技术也得到了广泛研究(Zeng,2021;Rao,2020;Haarnoja,2023;Lifshitz,2022)。
对智体范式的尝试涉及到使用LLM或VLM为交互式多模态智体开发智体AI“模块”。最初的智体模块有助于训练或上下文学习,并采用最低限度的设计,以展示智体有效安排和协调的能力。还探索最初的基于提示的记忆技术,这些技术有助于更好地规划并为该领域内的未来行动方法提供信息。举例来说,“MindAgent”基础设施包括5个主要模块:1)具有任务规划的环境感知,2)智体学习,3)记忆,4)通用智体动作预测,和5)认知。
使用预训练的基础模型在不同的用例中具有广泛的适用性,这是一个显著的优势。这些模型的集成能够为各种应用程序开发定制的解决方案,从而避免了对每个特定任务进行大量标记数据集的需求。
导航领域的一个显著例子是LM Nav系统(Shah,2023a),它将GPT-3和CLIP结合在一种新方法。它有效地使用语言模型生成的文本地标,将它们锚定在机器人获取的图像中进行导航。该方法展示文本和视觉数据的无缝融合,显著增强了机器人导航的能力,同时保持了广泛的适用性。
在机器人操作中,一些研究提出在使用开放词汇目标检测器的同时使用现成的LLM(例如,ChatGPT)。LLM和高级目标检测器,例如,Detic(Zhou,2022),进行结合促进了对人类指令的理解,同时将文本信息建立在场景信息中(Parakh,2023)。此外,最新进展展示了将提示工程与先进的多模态模型如GPT-4V(vision)结合使用的潜力(Wake,2023b)。这项技术为多模态任务规划开辟了途径,强调了预训练模型在各种环境中的多功能性和适应性。
智体AI分类
基于计算机的行动和多面手智体(GA)对许多任务都很有用。大型基础模型和交互式人工智能领域的最新进展为GA提供了新功能。然而,要使GA对其用户真正有价值,必须自然地交互并推广到这些上下文和模态。
本文覆盖的题目包括也不限于以下:
- 主要题目:多模态智体人工智能、通用人工智能
- 次要题目:具身智体、动作智体、基于语言的智体、视觉和语言智体、知识和推理智体、游戏智体、机器人智体、医疗保健智体等。
- 扩展题目:视觉导航、模拟环境、重排、智体基础模型、VR/AR/MR、具身视觉和语言。
思想活在身体中,身体在一个不断变化的世界中移动。具身人工智能的目标是创建智体,如机器人,学习创造性地解决需要与环境交互的具有挑战性的任务。虽然这是一个重大挑战,但深度学习的重要进展和ImageNet等大型数据集的日益可用性,使人们能够在以前认为棘手的各种人工智能任务上实现超人的性能。计算机视觉、语音识别和自然语言处理在语言翻译和图像分类等被动输入输出任务方面经历了变革性的革命,强化学习在游戏等互动任务方面也取得了世界级的成绩。这些进步推动了具身人工智能的发展,使越来越多的用户能够在智体与机器交互方面取得快速进展。
大型生成人工智能模型领域的最新进展有可能大大降低大型游戏工作室当前交互式内容所需的高成本和时间,并使较小的独立工作室能够创造出超出其当前能力的高质量体验。此外,在沙盘环境中具身大型人工智能模型将允许用户创作自己的体验,并以目前无法实现的方式表达自己的创造力。
- 该智体的目标不仅仅是向场景中添加交互式三维内容,还包括: 向目标添加任意行为和交互规则,允许用户在最少的提示下创建自己的VR规则。
- 通过使用多模态GPT4-v模型以及涉及视觉AI模型的其他模型链,从一张纸上的草图生成整个几何图 使用扩散模型重新构建场景中的内
- 通过简单的用户提示创建自定义渲染器和视觉特效
短期内的一个潜在应用是故事板/原型工具的VR创建,允许单个用户以比目前快一个数量级的速度创建体验/游戏的粗略(但功能性)草图。这样的原型可以使用这些工具进行扩展和润色。
推断和应用知识的能力是人类认知的一个决定性特征,在逻辑推理和理解心理理论等复杂任务中尤为明显。对知识进行推断可以确保人工智能的反应和行动与已知事实和逻辑原则一致。这种一致性是保持人工智能系统信任和可靠性的关键机制,尤其是在医疗诊断或法律分析等关键应用中。
许多工作利用LLM作为智体来执行任务规划(Huang,2022a;Wang,2023b;Yao,2023a;Li,2023a),并利用LLM的大型互联网领域知识和零样本规划能力来执行智体任务,如规划和推理。最近的机器人研究还利用LLM来执行任务规划(Ahn,2022a;Huang,2022b;Liang,2022),方法是将自然语言指令分解为一系列子任务,以自然语言形式或Python代码,然后使用低级控制器来执行这些子任务。此外,(Huang,2022b)、(Liang,2022)和(Wang,2023a)也结合环境反馈来提高任务绩效。也有许多工作证明在大规模文本、图像和视频数据上训练的、通用视觉对齐大语言模型的能力,该模型可以作为创建在各种环境中体现和发挥作用的多模态智体基础(Baker,2022;Dries,2023;Brohan,2021)。
待续。。。
版权归原作者 硅谷秋水 所有, 如有侵权,请联系我们删除。