智能体AI（Agent AI），多模态交互（MultiModal Interaction），现阶段综述及未来展望

本文覆盖了在不同领域和应用程序中的，可进行感知和对应行动的Agent AI系统概述。

Agent AI正在成为通用人工智能（AGI）的一个有前途的路径。

人工智能训练已经证明了在物理世界中进行多模态理解的能力。它通过利用生成人工智能和多个独立的数据源，为现实不可知的训练提供了一个框架。当在跨现实数据上进行训练时，为Agent和动作相关任务训练的大模型可以应用于物理和虚拟世界。

多模态人工智能系统很可能会在我们的日常生活中无处不在。

使这些系统更具交互性的一种有前途的方法是将它们作为Agent 体现在物理和虚拟环境中。

目前，系统利用现有的基础模型作为创建具体Agent的基本构建块。

在这样的环境中嵌入Agent有助于模型处理和解释视觉和上下文数据的能力，这对于创建更复杂和上下文感知的人工智能系统至关重要。

例如，可以感知用户动作、人类行为、环境对象、音频表达和场景的集体情绪的系统可以用于通知和指导给定环境内的Agent 响应。

为了加快对基于智能体的多模态智能的研究，我们将“智能体AI”定义为一类交互式系统，它可以感知视觉刺激、语言输入和其他基于环境的数据，并可以产生有意义的具体行动。

特别是，我们探索了旨在通过结合外部知识、多感官输入和人类反馈，基于下一个具体动作预测来改进Agent的系统。我们认为，通过在基础环境中开发智能体人工智能系统，还可以减轻大型基础模型的幻觉及其产生环境错误输出的趋势。

人工智能的新兴领域包含了多模态交互的更广泛的体现和代理方面。除了代理在Agent世界中的行为和交互之外，我们还设想了一个未来，人们可以轻松地创建任何虚拟现实或模拟场景，并与虚拟环境中的Agent进行交互。

介绍

动机

从历史上看，人工智能系统在1956年达特茅斯会议上被定义为可以从环境中收集信息并以有用的方式与之交互的人工生命形式。受这一定义的启发，明斯基的麻省理工学院团队于1970年建立了一个名为“复制演示”的机器人系统，该系统可以观察“区块世界”场景，并成功重建观察到的多面体区块结构。该系统由观察、规划和操作模块组成，表明这些子问题中的每一个都极具挑战性，需要进一步研究。人工智能领域被细分为专门的子领域，这些子领域在很大程度上独立地在解决这些问题和其他问题方面取得了巨大进展，但过于简化论模糊了人工智能研究的总体目标。

为了超越现状，有必要回到亚里士多德整体主义推动的人工智能基础。幸运的是，最近大型语言模型（LLM）和视觉语言模型（VLM）的革命使创建符合整体理想的新型人工智能代理成为可能。抓住这个机会，本文探索了整合语言能力、视觉认知、上下文记忆、直觉推理和适应性的模型。它探索了使用LLM和VLM完成这一整体综合的可能性。在我们的探索中，我们还重新审视了基于亚里士多德的《最终原因》的系统设计，即目的论的“系统为什么存在”，这在前几轮人工智能开发中可能被忽视了。

随着强大的预训练LLM和VLM的出现，自然语言处理和计算机视觉的复兴得到了催化。LLM现在展示了一种令人印象深刻的破译现实世界语言数据细微差别的能力，通常实现了与人类专业知识相媲美甚至超过人类专业知识的能力（OpenAI，2023）。最近，研究人员表明，LLM可以扩展为在各种环境中充当代理，在与特定领域的知识和模块配对时执行复杂的动作和任务（Xi等人，2023）。这些场景以复杂的推理、对智能体角色及其环境的理解以及多步骤规划为特征，测试了智能体在其环境约束下做出高度细致和复杂决策的能力（Wu et al.，2023；Meta Fundamental AI Research（FAIR）Diplomacy Team et al.，2022）。

在这些初步努力的基础上，人工智能社区正处于一个重大的范式转变的风口浪尖，从为被动的结构化任务创建人工智能模型过渡到能够在多样化和复杂的环境中承担动态代理角色的模型。在这种背景下，本文研究了使用LLM和VLM作为代理的巨大潜力，强调了具有语言能力、视觉认知、上下文记忆、直觉推理和适应性的模型。利用LLM和VLM作为代理，特别是在游戏、机器人和医疗保健等领域，不仅有望为最先进的人工智能系统提供一个严格的评估平台，还预示着以代理为中心的人工智能将对整个社会和行业产生变革性影响。当充分利用时，代理模型可以重新定义人类体验并提高操作标准。这些模式带来的全面自动化的潜力预示着行业和社会经济动态的巨大转变。正如我们将在第11节中详细阐述的那样，这些进步将与多方面的领导层交织在一起，不仅是技术上的，而且是道德上的。我们深入研究了Agent AI的这些子领域的重叠区域，并在图1中说明了它们的相互关联性。

背景

我们现在将介绍支持Agent AI的概念、理论背景和现代实现的相关研究论文。

大型基础模型：LLM和VLM一直在推动开发通用智能机器的努力（Bubeck et al.，2023；Mirchandani等人，2023）。尽管他们使用大型文本语料库进行训练，但他们卓越的解决问题能力并不局限于规范语言处理领域。LLM可以潜在地处理以前被认为是人类专家或特定领域算法独有的复杂任务，从数学推理（Imani等人，2023；Wei等人，2022；Zhu等人，2022）到回答专业法律问题（Blair Stanek等人，2023.Choi等人，2023.Nay，2022）。最近的研究表明，使用LLM为机器人和游戏人工智能生成复杂计划的可能性（Liang et al.，2022；王等人，2023a，b；姚等人，2023a；黄等人，2023），标志着LLM作为通用智能体的一个重要里程碑。

具身化AI：许多工作利用LLM来执行任务规划（Huang et al.，2022a；Wang et al.，202 3b；Yao et al.，2021 3a；Li et al.，2020 3a），特别是LLM的WWW级领域知识和突发的零样本具体化能力来执行复杂任务规划和推理。最近的机器人研究还利用LLM来执行任务规划（Ahn等人，2022a；Huang等人，2022b；Liang等人，2022），方法是将自然语言指令分解为一系列子任务，以自然语言形式或Python代码，然后使用低级控制器来执行这些子任务。此外，它们结合了环境反馈来提高任务绩效（Huang等人，2022b）、（Liang等人，2022）、（Wang等人，2023a）和（Ikeuchi等人，2023）。

交互式学习：设计用于交互式学习的人工智能代理使用机器学习技术和用户交互的组合进行操作。最初，人工智能代理是在大型数据集上进行训练的。该数据集包括各种类型的信息，具体取决于代理的预期功能。例如，为语言任务设计的人工智能将在大量文本数据的语料库上进行训练。训练包括使用机器学习算法，其中可能包括神经网络等深度学习模型。这些训练模型使人工智能能够识别模式，做出预测，并根据训练数据产生反应。人工智能代理还可以从与用户的实时交互中学习。这种交互式学习可以通过多种方式发生：1）基于反馈的学习：人工智能根据直接的用户反馈调整其响应（Li et al.，2023b；Yu et al.，2021年3月；Parakh等人，2023年；Zha et al.，2022年3；Wake等人，2023a，b，c）。例如，如果用户纠正了人工智能的反应，人工智能可以使用这些信息来改善未来的反应（Zha等人，2023；刘等人，2023a）。2）观察式学习：人工智能观察用户互动并进行隐性学习。例如，如果用户经常提出类似的问题或以特定的方式与人工智能互动，人工智能可能会调整其回答，以更好地适应这些模式。它允许人工智能代理理解和处理人类语言、多模型设置、解释跨现实环境，并生成人类用户的反应。随着时间的推移，随着更多的用户交互和反馈，人工智能代理的性能通常会不断提高。这一过程通常由人工操作员或开发人员监督，他们确保人工智能正确学习，不会产生偏见或错误模式。

概述

多模态人工智能（MAA）是一个基于对多模式感觉输入的理解，在给定环境中产生有效动作的系统家族。随着大型语言模型（LLM）和视觉语言模型（VLM）的出现，从基础研究到应用，已经提出了许多MAA系统。虽然这些研究领域通过与每个领域的传统技术（如视觉问答和视觉语言导航）的集成而迅速发展，但它们有着共同的兴趣，如数据收集、基准测试和伦理观点。在本文中，我们专注于MAA的一些代表性研究领域，即多模态、游戏（VR/AR/MR）、机器人和医疗保健，我们旨在提供关于这些领域中讨论的共同问题的全面知识。因此，我们希望了解MAA的基本原理，并获得见解，以进一步推进他们的研究。具体的学习成果包括：

MAA概述：深入研究其在当代应用中的原理和作用，使研究人员全面了解其重要性和用途。
方法论：LLM和VLM如何增强MAA的详细示例，通过游戏、机器人和医疗保健领域的案例研究进行说明。
性能评估：使用相关数据集评估MAA的指导意见，重点关注其有效性和通用性。
伦理考虑：关于部署人工智能代理的社会影响和伦理领导委员会的讨论，强调负责任的开发实践。
新兴趋势和性能榜单：对每个领域的最新发展进行分类，并讨论未来的方向。

基于计算机的行动和通用智能体（GA）对许多任务都很有用。一个GA对其用户来说真正有价值，它可以自然地与广泛的上下文和模式进行交互，并推广到广泛的环境和模式中。我们的目标是培养一个充满活力的研究生态系统，并在Agent AI社区中创造一种共同的认同感和目标感。MAA有可能广泛应用于各种环境和模式，包括人类的输入。因此，我们相信这个人工智能领域可以吸引各种各样的研究人员，培养一个动态的人工智能社区和共同的目标。在学术界和工业界备受尊敬的专家的带领下，我们希望这篇论文将是一次互动和丰富的体验，包括代理指导、案例研究、任务会议和实验讨论，确保所有研究人员都能获得全面而引人入胜的学习体验。

本文旨在为当前Agent AI领域的研究提供一般而全面的知识。为此，本文的其余部分组织如下。第2节概述了Agent AI如何从与相关新兴技术，特别是大型基础模型的集成中获益。第3节描述了我们提出的训练Agent AI的新范式和框架。第4节概述了在Agent AI训练中广泛使用的方法。第5节对各种类型的Agent进行了分类和讨论。第6节介绍Agent AI在游戏、机器人和医疗保健中的应用。第7节探讨了研究界开发多功能智能体的努力，该智能体能够应用于各种模式、领域，并弥合模拟与现实的差距。第8节讨论了Agent AI的潜力，它不仅依赖于预先训练的基础模型，而且通过利用与环境和用户的互动不断学习和自我改进。第9节介绍了我们为训练多模式Agent AI而设计的新数据集。第11节讨论了我们论文中AI Agent的伦理考虑、局限性和社会影响的热门话题。

Agent AI Integration

如先前研究中所提出的，基于LLM和VLM的基础模型在具体人工智能领域仍然表现出有限的性能，特别是在看不见的环境或场景中的理解、生成、编辑和交互方面（Huang et al.，2023a；曾等人，2023）。因此，这些限制导致了人工智能代理的次优输出。当前以主体为中心的人工智能建模方法侧重于直接访问和明确定义的数据（例如世界状态的文本或字符串表示），通常使用从大规模预训练中学习到的领域和环境相关模式来预测每个环境的行动输出（Xi等人，2023；王等人，2023c；龚等人，2023a；吴等人

标签：人工智能

本文转载自: https://blog.csdn.net/sudun_03/article/details/136908027
版权归原作者 sudun_03 所有，如有侵权，请联系我们删除。

智能体AI（Agent AI），多模态交互（MultiModal Interaction），现阶段综述及未来展望

介绍

动机

背景

概述

Agent AI Integration

发表评论