Emu3：北京智源推出AI多模态世界模型，超越DeepMind和微软，刷新了8项性能指标

Emu3是北京智源人工智能研究院推出的一款原生多模态世界模型，采用智源自研的多模态自回归技术路径，在图像、视频、文字上联合训练，使模型具备原生多模态能力，实现图像、视频、文字的统一输入和输出。Emu3将各种内容转换为离散符号，基于单一的Transformer模型来预测下一个符号，简化了模型架构。

在性能评估方面，Emu3在多个基准测试中超越了其他多模态模型，包括DeepMind的Flamingo和微软的Kosmos，刷新了8项性能指标。Emu3在图像描述COCO Caption的CIDEr得分为112.4，展现了其在图像描述方面的卓越性能

统一的多模态处理：Emu3通过将图像、文本和视频数据统一到一个离散的token空间中，使用单一的Transformer模型来预测下一个符号，简化了模型架构并提高了效率。
自回归生成：Emu3在生成任务中，通过自回归方式，一个接一个地预测序列中的token，从而生成图像或视频，而不是依赖复杂的视频扩散技术。
图文理解：Emu3能够将图像编码为token，然后生成描述图像内容的文本，而无需依赖CLIP或预训练的语言模型。
视频预测：Emu3能够自然地延续现有视频内容，预测接下来会发生什么，模拟物理世界中的环境、人物和动物。
大规模视频数据训练：Emu3首次采用了海量视频作为图文交错序列数据，这使得它在视频理解和生成方面表现出色。

Emu3在图像生成、视频生成、视频预测和图文理解等多个方面展现出强大的能力，超越了多个领域的专用模型，如图像生成模型SDXL和多模态大模型Flamingo。此外，Emu3的模型能力覆盖图像与文本的生成及视频理解，能完成任意图生文以及文生图的多模态任务，展现了其通用性和强大的多模态处理能力。

使用Emu3的过程相当简便。只需克隆代码库，安装必要的包，就能通过Transformers库轻松运行Emu3-Gen进行图像生成，或使用Emu3-Chat进行图文交互。

标签：人工智能 ai 图像处理

本文转载自: https://blog.csdn.net/qq_26303031/article/details/142847513
版权归原作者 MeoAI 所有，如有侵权，请联系我们删除。