文章目录~
1.LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression
标题:LLaVolta:通过阶段性视觉语境压缩建立高效的多模态模型
author:Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi, Alan Yuille
publish:Code is available at https://github.com/Beckschen/LLaVolta
date Time:2024-06-28
paper pdf:http://arxiv.org/pdf/2406.20092v1
摘要:
虽然大型语言模型(LLM)中文本嵌入的压缩表示取得了重大进展,但大型多模态模型(LMM)中视觉标记的压缩在很大程度上仍是一个被忽视的领域。在这项工作中,我们介绍了有关视觉标记冗余分析和这些模型中高效训练的研究。我们的初步实验表明,在测试阶段通过简单的平均池化消除多达 70% 的视觉标记,只会导致在 GQA 基准上视觉问题解答准确率最低降低 3%,这表明视觉语境中存在大量冗余。为了解决这个问题,我们引入了视觉语境压缩器(Visual Context Compressor),它可以在训练过程中减少视觉标记的数量,从而在不影响性能的情况下提高训练效率。为了在保持训练效率的同时尽量减少压缩视觉标记所造成的信息损失,我们开发了 LLaVolta 作为一种精简训练方案。LLaVolta 采用阶段性视觉上下文压缩技术,对视觉标记进行从重到轻的逐步压缩,最后在训练结束时不进行压缩,从而在测试时不会造成信息损失。大量实验证明,我们的方法提高了 MLLMs 在图像语言和视频语言理解方面的性能,同时还大大降低了训练成本。代码见 https://github.com/Beckschen/LLaVolta
2.EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model
标题:EVF-SAM:针对文本提示语段的早期视觉语言融合模型
author:Yuxuan Zhang, Tianheng Cheng, Rui Hu, ei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
publish:Preprint
date Time:2024-06-28
paper pdf:http://arxiv.org/pdf/2406.20076v1
摘要:
Segment Anything Model(SAM)因其卓越的视觉提示交互式分割能力而受到广泛关注,但对文本提示却缺乏进一步的探索。在本文中,我们对哪些文本提示编码器(如 CLIP 或 LLM)适合将 SAM 用于指代表达分割进行了实证研究,并介绍了基于早期视觉语言融合的 SAM(EVF-SAM)。EVF-SAM 是一种简单而有效的指代分割方法,它利用多模态提示(即图像和文本),由一个用于生成指代提示的预训练视觉语言模型和一个用于分割的 SAM 模型组成。令人惊讶的是,我们发现(1) 多模态提示;(2) 早期融合的视觉语言模型(如 BEIT-3)有利于提示 SAM 进行准确的指代分割。我们的实验表明,基于 BEIT-3 提出的 EVF-SAM 可以在 RefCOCO/+/g 上获得最先进的指代表达分割性能,并证明了通过早期视觉语言融合提示 SAM 的优越性。此外,与之前基于大型多模态模型的 SAM 方法相比,参数为 1.32B 的 EVF-SAM 性能显著提高,同时减少了近 82% 的参数。
3.STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical
标题:STLLaVA-Med:用于医疗的自我训练大语言和视觉助手
author:Guohao Sun, Can Qin, Huazhu Fu, Linwei Wang, Zhiqiang Tao
publish:10 pages, 6 figures
date Time:2024-06-28
paper pdf:http://arxiv.org/pdf/2406.19973v1
摘要:
大型视觉语言模型(LVLM)通过利用广泛的生物医学数据集,在辅助医疗诊断方面显示出巨大的潜力。然而,医学图像理解和推理的进步关键取决于建立高质量的视觉指令数据,而获得这些数据需要花费大量的成本和人力,尤其是在医学领域。为了缓解这一数据匮乏问题,我们推出了用于医疗的自训练大型语言和视觉助手(Self-Training Large Language and Vision Assistant for Medical,简称 STLLaVA-Med)。所提出的方法旨在训练一个策略模型(LVLM),该模型能够在直接偏好优化(DPO)的指导下自动生成医疗视觉指令数据,从而提高数据效率。具体来说,一个功能更强大、规模更大的 LVLM(如 GPT-4o)将作为生物医学专家参与其中,监督自动生成数据的 DPO 微调过程,鼓励策略模型有效地与人类偏好保持一致。我们在三个主要的医疗可视化问题解答(VQA)基准中验证了 STLLaVA-Med 的功效和数据效率,仅使用了 9% 的医疗数据就展示了极具竞争力的零镜头性能。
4.SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs
标题:SK-VQA:规模化合成知识生成,用于训练情境增强型多模态 LLM
author:Xin Su, Man Luo, Kris W Pan, Tien Pei Chou, Vasudev Lal, Phillip Howard
date Time:2024-06-28
paper pdf:http://arxiv.org/pdf/2406.19593v1
摘要:
最近,合成数据生成因其在训练大型视觉和语言模型方面的实用性而备受关注。然而,合成数据在多模态情境增强生成系统训练中的应用却相对较少。现有工作中的这一空白非常重要,因为现有的视觉和语言模型(VLM)并不是专门为语境增强生成而训练的。因此,在检索增强生成(RAG)环境中,使用检索器收集相关信息,然后通过上下文增强提供给生成模型,用于调整这些模型的资源至关重要。为了解决这个具有挑战性的问题,我们生成了 SK-VQA:一个大型合成多模态数据集,其中包含 200 多万个需要外部知识才能确定最终答案的问答对。与现有的同类资源相比,我们的数据集规模更大、种类更多,比以前提出的数据集多出 11 倍以上的独特问题,包含的图像来源也更加广泛。通过广泛的实验,我们证明了我们的合成数据集不仅可以作为一个具有挑战性的基准,而且对于调整现有的生成式多模态模型以进行上下文增强生成非常有效。
5.PathAlign: A vision-language model for whole slide images in histopathology
标题:PathAlign:组织病理学整张切片图像的视觉语言模型
author:Faruk Ahmed, Andrew Sellergren, Lin Yang, Shawn Xu, Boris Babenko, Abbi Ward, Niels Olson, Arash Mohtashamian, Yossi Matias, Greg S. Corrado, Quang Duong, Dale R. Webster, Shravya Shetty, Daniel Golden, Yun Liu, David F. Steiner, Ellery Wulczyn
publish:9 main pages and 19 pages of supplemental material; 3 main tables, 3
main figures and 11 supplemental tables, 7 supplemental figures
date Time:2024-06-27
paper pdf:http://arxiv.org/pdf/2406.19578v1
摘要:
组织病理学图像的显微解读是许多重要诊断和治疗决策的基础。虽然视觉语言建模技术的进步为此类图像的分析带来了新的机遇,但整张切片图像(WSI)的千兆像素尺寸也带来了独特的挑战。此外,病理报告既要突出小区域的关键发现,又要汇总多张切片上的解释,因此往往难以创建强大的图像-文本对。因此,病理报告在很大程度上仍是计算病理学中尚未开发的监督来源,大多数工作都依赖于兴趣区域注释或斑块级的自我监督。在这项工作中,我们在 BLIP-2 框架的基础上开发了一种视觉语言模型,使用 WSI 与病理报告中的编辑文本配对。这样就能利用共享的图像-文本嵌入空间(如用于查找感兴趣病例的文本或图像检索),以及将 WSI 编码器与冷冻大语言模型 (LLM) 集成,以实现基于 WSI 的文本生成功能(如报告生成或人工智能在环互动)。我们使用的是一个去标识化数据集,其中包含 350,000 多个 WSI 和诊断文本对,涵盖各种诊断、手术类型和组织类型。我们介绍了病理学家对使用 WSI 嵌入生成文本和文本检索的评估,以及 WSI 分类和工作流程优先级排序(幻灯片级分流)的结果。病理学家认为模型生成的 WSI 文本准确无误,平均 78% 的 WSI 文本无临床重大错误或遗漏。这项工作展示了语言对齐的 WSI 嵌入的潜在能力,令人振奋。
6.Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation
标题:用感知模态的特征蒸馏法加强视觉问题解答中的持续学习
author:Malvina Nikandrou, Georgios Pantazopoulos, Ioannis Konstas, Alessandro Suglia
date Time:2024-06-27
paper pdf:http://arxiv.org/pdf/2406.19297v1
摘要:
持续学习的重点是在一系列任务中逐步训练一个模型,目的是在学习新任务的同时尽量减少之前任务的性能下降。持续学习和视觉问题解答(VQA)交叉领域的现有方法并未研究输入的多模态性质如何影响模型的学习动态。在本文中,我们证明了在一系列任务中,每种模态都以不同的速度发展,而且这种行为既出现在已有的纯编码器模型中,也出现在开发视觉与语言(VL)模型的现代方法中。受此启发,我们提出了一种模态感知特征提炼(MAFED)方法,在三种多模态持续学习设置中,该方法在不同规模的模型中表现优于现有基线。此外,我们还提供了消融案例,展示了模式感知蒸馏与经验重放的互补性。总之,我们的研究结果强调了在多模态持续学习中解决特定模态动态问题以防止遗忘的重要性。
7.HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
标题:HuatuoGPT-Vision,为大规模多模态 LLM 注入医学视觉知识
author:Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
date Time:2024-06-27
paper pdf:http://arxiv.org/pdf/2406.19280v1
摘要:
多模态大语言模型(MLLM)(如 GPT-4V)的快速发展带来了重大进步。然而,由于数据隐私问题和高昂的注释成本,这些模型在医疗多模态能力方面仍面临着数量和质量上的限制。虽然先驱方法利用 PubMed 的大规模、去标识化医学图像-文本对来解决这些限制,但由于固有的数据噪声,这些方法仍有不足之处。为了解决这个问题,我们从 PubMed 中提炼了医学影像文本对,并使用 MLLMs(GPT-4V)以 "非盲目 "的方式对数据进行去噪和重新格式化,最终创建了包含 130 万个医学 VQA 样本的 PubMedVision 数据集。我们的验证表明(1) PubMedVision 可以显著增强当前 MLLM 的医学多模态能力,在包括 MMMU 健康与医学轨道在内的基准测试中表现出明显的改进;(2) 医学专家的人工检查和经验结果验证了与其他数据构建方法相比,我们的数据集具有更高的数据质量。利用 PubMedVision,我们训练了一个 34B 的医学 MLLM HuatuoGPT-Vision,它在医学多模态场景中表现出了开源 MLLM 的优越性能。
8.Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment
标题:利用结构时空对齐增强视频语言表征
author:Hao Fei, Shengqiong Wu, Meishan Zhang, Min Zhang, Tat-Seng Chua, Shuicheng Yan
publish:Accepted by IEEE TPAMI 2024
date Time:2024-06-27
paper pdf:http://arxiv.org/pdf/2406.19255v1
摘要:
虽然预训练大规模视频语言模型(VLMs)已在各种下游视频语言任务中显示出显著的潜力,但现有的 VLMs 仍然存在一些常见的局限性,如粗粒度跨模态配准、对时间动态建模不足、脱离视频语言视图等。在这项工作中,我们采用细粒度结构时空配准学习方法(即 Finsta)来增强 VLM。首先,我们用细粒度场景图(SG)结构来表示输入文本和视频,并将两者进一步统一为整体场景图(HSG),以实现两种模态的衔接。然后,我们建立了一个基于 SG 的框架,其中文本 SG(TSG)由图变换器编码,而视频动态 SG(DSG)和 HSG 则由用于空间和时间特征传播的新型递归图变换器建模。此外,还进一步设计了时空高斯差分图变换器,以加强物体在时空维度上的变化感。接下来,基于 TSG 和 DSG 的细粒度结构特征,我们分别执行了以对象为中心的空间配准和以谓词为中心的时间配准,从而增强了视频语言在空间性和时间性两方面的基础。我们将我们的方法设计为即插即用系统,可集成到现有训练有素的 VLM 中以进一步增强表征,而无需从头开始训练或依赖下游应用中的 SG 注释。在标准视频和长视频场景中的 12 个数据集的 6 个代表性 VL 建模任务中,Finsta 持续改进了现有的 13 个性能优异的 VLM,并在微调和零镜头设置中显著刷新了当前最先进的终端任务性能。
9.RAVEN: Multitask Retrieval Augmented Vision-Language Learning
标题:RAVEN:多任务检索增强视觉语言学习
author:Varun Nagaraj Rao, Siddharth Choudhary, Aditya Deshpande, Ravi Kumar Satzoda, Srikar Appalaraju
date Time:2024-06-27
paper pdf:http://arxiv.org/pdf/2406.19150v1
摘要:
用模型参数编码世界上所有知识的大型语言模型的规模是不可持续的,而且加剧了资源障碍。检索增强生成(RAG)是一种潜在的解决方案,但其在视觉语言模型(VLMs)中的应用仍有待探索。现有的方法侧重于为单一任务设计的模型。此外,这些方法还受到资源密集型预训练需求、额外参数要求、未解决模式优先级问题以及与非检索基线相比缺乏明显优势等因素的限制。本文介绍的 RAVEN 是一种多任务检索增强 VLM 框架,它通过高效的特定任务微调来增强基础 VLM。通过整合检索增强样本而无需额外的检索特定参数,我们证明该模型可以获得在多个任务中都有效的检索特性。我们的结果和对图像字幕和 VQA 任务检索模式的广泛消减表明,与未检索基线相比,MSCOCO 的性能有了显著提高:+1 CIDEr;NoCaps 的性能提高了 +4 CIDEr;特定 VQA 问题类型的准确率提高了近 +3%。这强调了将 RAG 方法应用于 VLM 的有效性,标志着向更高效、更易用的多模态学习迈出了一大步。
10.CLIP3D-AD: Extending CLIP for 3D Few-Shot Anomaly Detection with Multi-View Images Generation
标题:CLIP3D-AD:利用多视图图像生成功能扩展 CLIP 的三维少镜头异常检测功能
author:Zuo Zuo, Jiahao Dong, Yao Wu, Yanyun Qu, Zongze Wu
publish:10 pages, 7 figures
date Time:2024-06-27
paper pdf:http://arxiv.org/pdf/2406.18941v1
摘要:
少镜头异常检测方法可有效解决工业场景中的数据收集难题。与二维微点异常检测(2D-FSAD)相比,三维微点异常检测(3D-FSAD)仍是一项尚未探索但又必不可少的任务。本文提出了一种基于 CLIP 扩展的高效 3D-FSAD 方法–CLIP3D-AD。我们成功地将 CLIP 强大的泛化能力应用到 3D-FSAD 中。具体来说,我们在给定的正常图像上合成异常图像作为样本对,使 CLIP 适用于 3D 异常分类和分割。在分类方面,我们引入了图像适配器和文本适配器来微调全局视觉特征和文本特征。同时,我们提出了一种从粗到细的解码器,以融合和促进 CLIP 的中间多层视觉表示。为了利用点云的几何信息,消除 CLIP 处理时的模态和数据差异,我们将点云投影并渲染为多视角正常和异常图像。然后,我们设计了多视角融合模块,将 CLIP 提取的多视角图像特征进行融合,用于促进视觉表征,进一步增强视觉语言相关性。大量实验证明,我们的方法在 MVTec-3D AD 数据集上的三维少镜头异常分类和分割方面具有很强的竞争力。
11.Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs
标题:考虑到查询-目标关系、利用屏蔽图像-文本对的零镜头合成图像检索
author:Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
publish:Accepted as a conference paper in IEEE ICIP 2024
date Time:2024-06-27
paper pdf:http://arxiv.org/pdf/2406.18836v1
摘要:
本文提出了一种新颖的零镜头合成图像检索(CIR)方法,该方法考虑了屏蔽图像-文本对的查询-目标关系。CIR 的目标是利用查询图像和查询文本检索目标图像。现有方法使用文本反转网络将查询图像转换为伪词来组成图像和文本,并使用预先训练的视觉语言模型来实现检索。但是,这些方法在训练文本反转网络以获取检索信息时没有考虑查询与目标的关系。在本文中,我们提出了一种新颖的零镜头 CIR 方法,该方法使用屏蔽图像-文本对进行端到端训练。通过利用丰富的图像-文本对,可以方便地利用屏蔽策略来学习查询-目标关系,从而有望利用以检索为重点的文本反转网络实现精确的零次 CIR。实验结果表明了所提方法的有效性。
12.MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
标题:MUMU:从文本到图像数据引导多模态图像生成
author:William Berman, Alexander Peysakhovich
date Time:2024-06-26
paper pdf:http://arxiv.org/pdf/2406.18790v1
摘要:
我们训练了一个模型,以根据文本和图片交错的多模态提示生成图片,例如 “一个<人的图片>人和他的<狗的图片>狗在一个<卡通的图片>动画风格中”。我们通过提取与合成生成的公开文本图像数据的图像标题中的词语相对应的有语义意义的图像作物,来引导多模态数据集。我们的模型 MUMU 由视觉语言模型编码器和扩散解码器组成,在单个 8xH100 GPU 节点上进行训练。尽管 MUMU 只对来自同一图像的作物进行训练,但它能学会将来自不同图像的输入合成为一致的输出。例如,输入一个逼真的人和一幅卡通画,就会输出卡通风格的同一个人;输入一个站立的人和一辆踏板车,就会输出骑着踏板车的人。因此,我们的模型适用于风格转换和角色一致性等任务。我们的研究结果表明,使用多模态模型作为图像生成的通用控制器大有可为。
13.Human-free Prompted Based Anomaly Detection: prompt optimization with Meta-guiding prompt scheme
标题:基于异常检测的免人工提示:元引导提示方案的提示优化
author:Pi-Wei Chen, Jerry Chun-Wei Lin, Jia Ji, Feng-Hao Yeh, Chao-Chun Chen
date Time:2024-06-26
paper pdf:http://arxiv.org/pdf/2406.18197v1
摘要:
预先训练好的视觉语言模型(VLM)通过少量学习就能很好地适应各种下游任务,这使得基于提示的异常检测成为一种很有前景的方法。传统方法依赖于人工制作的提示语,需要事先了解特定的异常类型。我们的目标是开发一种无需人工的基于提示的异常检测框架,该框架通过数据驱动方法优化提示学习,无需人工干预。这种方法面临的主要挑战是在训练阶段缺乏异常样本。此外,VLMs 中基于视觉变换器(ViT)的图像编码器并不适合像素级异常分割,因为原始图像和输出特征图之间存在定位特征不匹配。为了应对第一个挑战,我们开发了物体注意力异常生成模块(OAGM),以合成异常样本用于训练。此外,我们的元引导提示调整方案(MPTS)会迭代调整可学习提示的梯度优化方向,以避免对合成异常样本的过度拟合。针对第二项挑战,我们提出了 “位置感知关注”(Locality-Aware Attention),它确保每个局部补丁特征只关注附近的补丁特征,同时保留与其原始位置相对应的位置特征。这一框架通过反向传播在连续的潜空间中进行搜索,从而获得最佳的提示嵌入,不受人类语义限制。此外,修改后的局部感知注意力提高了像素级异常分割的精度。
14.MammothModa: Multi-Modal Large Language Model
标题:MammothModa:多模态大语言模型
author:Qi She, Junwen Pan, Xin Wan, Rui Zhang, Dawei Lu, Kai Huang
publish:Technical report
date Time:2024-06-26
paper pdf:http://arxiv.org/pdf/2406.18193v1
摘要:
在本报告中,我们介绍了 MammothModa,这是另一种多模态大型语言模型(MLLM),旨在从基本基线开始实现最先进的性能。我们将重点放在三个关键的设计见解上:(i) 在保持复杂语言理解的同时整合视觉能力:除视觉编码器外,我们还将视觉注意力专家(Visual Attention Experts)纳入 LLM,以增强其视觉能力。(ii) 为高分辨率和长时间视觉特征扩展上下文窗口:我们探索了视觉合并模块,以有效减少高分辨率图像的标记数,并纳入帧位置 ID 以避免位置插值。(iii) 高质量双语数据集:我们精心策划并过滤了高质量的双语多模态数据集,以减少视觉幻觉。通过上述方法,我们建立的 MammothModa 在主要的真实世界视觉语言基准测试中始终优于最先进的模型,如 LLaVA 系列,而无需任何附加功能。
15.A Refer-and-Ground Multimodal Large Language Model for Biomedicine
标题:用于生物医学的 "参考-地面 "多模态大语言模型
author:Xiaoshuang Huang, Haifeng Huang, Lingdong Shen, Yehui Yang, Fangxin Shang, Junwei Liu, Jia Liu
publish:Accepted by MICCAI2024
date Time:2024-06-26
paper pdf:http://arxiv.org/pdf/2406.18146v2
摘要:
随着多模态大型语言模型(MLLMs)的快速发展,尤其是通过参考和地面功能实现的视觉聊天功能,其重要性日益得到认可。然而,生物医学领域目前在这一领域还存在很大差距,主要原因是缺乏专门的生物医学图像参考和地面数据集。为了应对这一挑战,我们设计了 Med-GRIT-270k 数据集。该数据集由 270k 个问答对组成,涵盖八种不同的医学影像模式。最重要的是,它是首个专门用于生物医学领域并整合参考和地面对话的数据集。其主要思路是从医疗分割数据集中抽取大规模生物医学图像-掩码对样本,并使用 chatGPT 从文本中生成指令数据集。此外,我们还利用该数据集和多任务指令学习引入了用于生物医学的 “参考-地面多模态大语言模型”(BiRD)。广泛的实验证实了 Med-GRIT-270k 数据集的有效性以及 BiRD 模型的多模态、细粒度交互能力。这对于探索和开发智能生物医学助手具有重要的参考价值。
16.The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval
标题:多模态大语言模型在视频瞬间检索中的惊人效果
author:Meinardus Boris, Batra Anil, Rohrbach Anna, Rohrbach Marcus
publish:16 pages, 3 figures
date Time:2024-06-26
paper pdf:http://arxiv.org/pdf/2406.18113v1
摘要:
最近的研究表明,在物体检测和语义分割等计算机视觉任务中利用多模态大语言模型(MLLM)取得了可喜的成果。然而,许多具有挑战性的视频任务仍未得到充分探索。视频语言任务需要空间和时间理解,并需要大量计算。因此,先前的工作已经开发出复杂、高度专业化的架构,或利用额外的输入信号(如视频转录本)对上下文和时间信息进行最佳编码,这限制了它们的通用性,而且可能不切实际。视频时刻检索是一项特别具有挑战性的任务,它需要精确的时间和上下文基础。这项工作展示了利用图像-文本预训练 MLLMs 进行时刻检索的惊人效果。我们介绍了 BLIP 先生(Mr. as in Moment Retrieval),它是一种多模态、单阶段模型,无需昂贵的视频语言预训练,无需额外的输入信号(例如,无需文本或音频),而且与之前的先进方法相比,设计更简单、功能更全面。我们在广泛使用的基准(Charades-STA、QVHighlights 和 ActivityNet Captions)上实现了最新的时刻检索,并通过在 ActivityNet 上实现最新的时间动作定位来说明我们方法的多功能性。值得注意的是,在具有挑战性的长视频多时刻 QVHighlights 基准上,我们的 Recall(绝对值)提高了 9% 以上(0.5 和 0.7 IoU 时)。我们的代码已公开发布。
17.Few-Shot Medical Image Segmentation with High-Fidelity Prototypes
标题:利用高保真原型进行少镜头医学图像分割
author:Song Tang, Shaxu Yan, Xiaozhi Qi, Jianxin Gao, Mao Ye, Jianwei Zhang, Xiatian Zhu
date Time:2024-06-26
paper pdf:http://arxiv.org/pdf/2406.18074v1
摘要:
少镜头语义分割(FSS)旨在将预先训练好的模型应用到新的类别中,每个类别只需一个标注过的训练样本。尽管基于原型的方法已经取得了巨大成功,但现有模型仅限于对象非常明显而背景并不复杂的成像场景,例如自然图像。这就使得这些模型在这两种情况都无效的医学成像中不是最佳选择。为了解决这个问题,我们提出了一种新颖的细节自精炼原型网络(DSPNet)来构建高保真原型,更全面地表现物体的前景和背景。具体来说,为了在构建全局语义的同时保持捕捉到的细节语义,我们通过对多模态结构进行聚类建模来学习前景原型,然后以通道方式对每种结构进行融合。考虑到背景在空间维度上往往没有明显的语义关系,我们在稀疏通道感知调节下整合了特定通道的结构信息。在三个具有挑战性的医学图像基准上进行的广泛实验表明,DSPNet 优于以前的先进方法。
18.MolFusion: Multimodal Fusion Learning for Molecular Representations via Multi-granularity Views
标题:MolFusion:通过多粒度视图进行分子表征的多模态融合学习
author:Muzhen Cai, Sendong Zhao, Haochun Wang, Yanrui Du, Zewen Qiang, Bing Qin, Ting Liu
publish:8 pages, 5 figures
date Time:2024-06-26
paper pdf:http://arxiv.org/pdf/2406.18020v1
摘要:
人工智能通过对药物分子进行编码来预测药物特性,从而帮助快速筛选候选药物。不同的分子表征,如 SMILES 和分子图,包含分子编码的互补信息。因此,利用不同分子表征的互补信息是分子编码的研究重点之一。现有的分子多模态组合方法大多只使用分子级信息,难以编码不同模态之间的分子内配准信息。针对这一问题,我们提出了一种多粒度融合方法,即 MolFusion。所提出的 MolFusion 由两个关键部分组成:(1) MolSim,一个分子级编码组件,用于实现不同分子表征之间的分子级配准;以及 (2) AtomAlign,一个原子级编码组件,用于实现不同分子表征之间的原子级配准。实验结果表明,MolFusion 能有效利用互补的多模态信息,从而显著提高各种分类和回归任务的性能。
版权归原作者 小小帅AIGC 所有, 如有侵权,请联系我们删除。