0


AI最新进展介绍——大世界模型Large World Model (LWM)

大世界模型Large World Model (LWM)

UC Berkeley
大世界模型(LWM)是一种通用的大型上下文多模态自回归模型。它使用 RingAttention 在一个包含各种长视频和书籍的大型数据集上进行训练,可以进行语言、图像和视频的理解和生成。

  目前的语言模型在理解“世界上难以用言语描述的方面”存在不足,而且在复杂的长篇任务中也很吃力。视频序列提供了语言和静态图像所不具备的宝贵的时间信息,因此非常适合与语言联合建模。这种模型可以发展出对人类文字知识和物理世界的理解,从而实现更广泛的人工智能辅助人类的能力。然而,由于内存限制、计算复杂性和数据集有限等原因,从数以百万计的标记视频和语言序列中进行学习是一项挑战。为了应对这些挑战,我们策划了一个包含各种视频和书籍的大型数据集,利用 RingAttention 技术对长序列进行可扩展的训练,并逐步将上下文大小从 4K 增加到 100万 标记。本文的贡献如下:

(a)最大上下文大小的神经网络: 我们在长视频和语言序列上训练了一个最大的上下文大小转换器,为困难的检索任务和长视频理解设定了新的基准。

(b)克服视觉-语言训练挑战的解决方案,包括使用掩码序列打包混合不同的序列长度、损失加权以平衡语言和视觉,以及模型生成的长序列聊天 QA 数据集。

(c)采用 RingAttention、屏蔽序列打包和其他关键功能的高度优化实现,用于数百万长度的多模态序列训练。

(d) 完全开源的 70亿 参数模型系列,能够处理超过 100万 标记的长文本文档(LWM-Text、LWM-Text-Chat)和视频( LWM、 LWM-Chat)。

这项工作为在海量长视频和语言数据集上进行训练铺平了道路,从而开发出对人类知识和多模态世界的理解以及更广泛的能力。

超过 1 小时的视频答疑

在这里插入图片描述
理解长视频。LWM 可以回答有关 1 小时以上 YouTube 视频的问题。

超过 100 万个上下文的事实检索

在这里插入图片描述
针头检索任务。LWM 在 1M 上下文窗口中实现了较高的精确度,其性能优于 GPT-4V 和 Gemini Pro。

长序列任意对任意(Any-to-Any) AR 预测

在这里插入图片描述
任意长序列预测。RingAttention 可以使用超大的上下文窗口进行各种格式的训练,如视频-文本、文本-视频、图像-文本、文本-图像、纯视频、纯图像和纯文本。请参阅 LWM 论文,了解包括屏蔽序列打包和损失加权在内的主要功能,这些功能可实现有效的视频语言训练。

用 RingAttention 制作多样化的视频和书籍模型

在这里插入图片描述
语境扩展和视觉语言训练。使用 RingAttention 将图书的上下文大小从 4K 扩展到 1M,然后对长度为 32K 至 1M 的各种形式的视觉内容进行视觉语言训练。下图显示了理解和响应复杂多模态世界查询的交互能力。

文本-图像生成

在这里插入图片描述
文本到图像。LWM 可根据文本提示自动生成图像。

文本-视频生成

在这里插入图片描述

文本到视频。LWM 可根据文本提示自动生成视频。

超过 1 小时的 YouTube 视频聊天

在这里插入图片描述
在这里插入图片描述
即使最先进的商用型号 GPT-4V 和 Gemini Pro 均出现故障,LWM 仍能回答有关 1 小时长 YouTube 视频的问题。每个示例的相关片段时间戳分别为 9:56(上)和 6:49(下)。

基于图像的对话

在这里插入图片描述
图像理解。LWM 可以回答有关图像的问题

论文

World Model on Million-Length Video and Language with Ring Attention

github:

https://github.com/LargeWorldModel/LWM

模型

https://huggingface.co/LargeWorldModel

标签: 人工智能

本文转载自: https://blog.csdn.net/weixin_45583967/article/details/136241169
版权归原作者 凭良心做事,不误导,不坑人 所有, 如有侵权,请联系我们删除。

“AI最新进展介绍——大世界模型Large World Model (LWM)”的评论:

还没有评论