0


arXiv2024.8.6 | LLaVA-OneVision:Easy Visual Task Transfer

Comment: Project Homepage: https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

论文标题:LLaVA-OneVision:Easy Visual Task Transfer

论文地址:https://arxiv.org/abs/2408.03326

GitHub:https://llava-vl.github.io/blog/llava-onevision

一、模型架构

目标:

其中Xv是视觉特征,Xq<i, Xa<i是前面对话中的指令和答案token

Visual Representations

对于高分辨率的图像,采用Higher AnyRes with Biliear Interpolation,高分辨率会带来性能提升,但是也会导致模型的token数激增,因此做了一个取舍:To strike a balance of performance and cost, we observe that the **scaling of resolution is more effective than that of token numbers, and recommend an AnyRes strategy with pooling. **

AnyRes策略:将图像切分为ab个crop,每个crop大小一致,假设每个crop有T个token,视觉token数为L=(ab+1)*T,其中的+1是原始图像resize后的整体image图。为缩减token数,设置一个阈值t,超过阈值使用双线性插值进行缩减:

不同策略:

单图:使用较大的spatila configuration (a,b) ,使用长序列表示高清晰度的图像,促进图像到视频理解更平滑的能力转移(因为视频是帧,需要处理长序列)

多图:考虑基本分辨率,消减高分辨率图对其多次裁剪。

视频:每帧采用基本分辨率,并采用双线性插值减少token数量,从而允许通过减少每帧的token考虑加入更多的帧。

二、数据

1、High-Quality Knowledge

通过优先考虑数据质量,可以最大限度地提高计算效率。从三个方面考虑:

“Re-Captioned Detailed Description Data”:使用LaVA-NeXT-34B为COCO118K,BLIP558K,CC3M,一共3.5M,

“Document / OCR Data” :利用了 UReader 数据集中的文本阅读子集,总计 100K。使用SynDOG EN/CN 。总共1.1M。

“Chinese and Language Data.” :使用原始的ShareGPT4V图像,并利用GPT-4V API生成92K image caption数据,并从 Evo-Instruct 数据集中收集了 143K。

几乎所有(占99.8%)的高质量知识数据都是合成的。

2、Visual Instruction Tuning Data

Data Collection and Curation. 从三个角度考虑:vision, instruction, and response.

Vision input:single-image,mutil-image,video

Language Instruction: 通用QA、通用OCR,文档/图表/屏幕,数学推理,语言。

Language Response: 分为free-form和fixed-form,free-form是使用gemini/GPT4V-o生成(同时保留原始答案,怎么组织?),fixed-form是收集的数据集(并手动更正)。将指令分为两类:单图场景 + 所有视觉场景,

单图数据:

视觉场景数据:

三、训练策略

三个阶段:“Language-Image Alignment” 、“High-Quality Knowledge Learning” 、“Visual Instruction Tuning” 。

四、实验

1、Single-Image Benchmarks

Chart, Diagram, and Document Understanding:AI2D, ChartQA , DocVQA , and InfoVQA

Perception and Multi-discipline Reasoning:MME, MMBench, and MMVet, MathVerse, MathVista , and MMM

Real-world Understanding and Visual Chat:RealworldQA , Vibe-Eval , MM-LiveBench, and LLaVA-Bench-Wilder

2、Multi-Image Benchmarks

域内与域外的评估

五、任务迁移涌现能力

1、Joint understanding of diagram and chart (Transfer from single-image to multi-image)

2、GUI for multi-modal agent (Transfer from single-image and multi-image)

**3、Set-of-mark Prompting (Transfer from single-image task composition). **

set-of-marks (SoM) reasoning

4、Image-to-Video Editing Instruction (Transfer from single-image and video)

5、Video-to-Video Difference (Transfer from multi-image and video)

6、Multi-camera Video Understanding in Self-driving (Transfer from single-image and multiimage to video)

7、Composed Sub-video Understanding (Transfer from multi-image to video)

8、Visual prompting in video (Task transfer from single-image to video).

9、Visual Referring in Image in Video Understanding.

llava系列依旧是简单、高效。

标签: 人工智能

本文转载自: https://blog.csdn.net/justBeHerHero/article/details/141034354
版权归原作者 羊飘 所有, 如有侵权,请联系我们删除。

“arXiv2024.8.6 | LLaVA-OneVision:Easy Visual Task Transfer”的评论:

还没有评论