0


【AI视野·今日CV 计算机视觉论文速览 第292期】Thu, 18 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 18 Jan 2024
Totally 102 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

GARField: Group Anything with Radiance Fields
Authors Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
分组本质上是不明确的,因为如果挖掘机的轮子被认为是独立的或整体的一部分,则可以分解场景的多个粒度级别我们提出了用辐射场对任何东西进行分组 GARField ,这是一种将 3D 场景分解为层次结构的方法来自姿势图像输入的语义上有意义的组。为此,我们通过优化尺度条件 3D 亲和力特征场,通过物理尺度拥抱群体模糊性,世界上的一个点可以属于不同大小的不同群体。我们从 Segment Anything SAM 提供的一组 2D 掩码中优化该字段,以尊重从粗到细的层次结构的方式,使用比例来一致地融合来自不同视点的冲突掩码。从这个字段中,我们可以通过自动树构建或用户交互导出可能分组的层次结构。我们在各种野外场景中评估了 GARField,发现它可以有效地提取多个级别的对象集群、对象和各种子部分的组。 GARField 本质上代表多视图一致分组,并产生比输入 SAM 掩模更高保真度的组。 GARField 的分层分组可能具有令人兴奋的下游应用,例如 3D 资产提取或动态场景理解。Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
Authors Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang
最近,具有高效硬件感知设计的状态空间模型 SSM(即 Mamba)在长序列建模方面表现出了巨大的潜力。纯粹基于 SSM 构建高效且通用的视觉主干是一个有吸引力的方向。然而,由于视觉数据的位置敏感性以及视觉理解的全局上下文的要求,表示视觉数据对于 SSM 来说是一个挑战。在本文中,我们证明视觉表示学习对自注意力的依赖是不必要的,并提出了一种具有双向 Mamba 块 Vim 的新通用视觉主干,它用位置嵌入标记图像序列并用双向状态空间模型压缩视觉表示。在 ImageNet 分类、​​COCO 对象检测和 ADE20k 语义分割任务上,与 DeiT 等成熟的视觉转换器相比,Vim 实现了更高的性能,同时还证明了计算内存效率的显着提高。例如,在执行批量推理以提取分辨率为 1248 乘 1248 的图像上的特征时,Vim 比 DeiT 快 2.8 倍,并节省 86.8 GPU 内存。结果表明,Vim 能够克服执行 Transformer 风格理解时的计算内存限制对于高分辨率图像,它具有成为视觉基础模型的下一代骨干的巨大潜力。Vlogger: Make Your Dream A Vlog
Authors Shaobin Zhuang, Kunchang Li, Xinyuan Chen, Yaohui Wang, Ziwei Liu, Yu Qiao, Yali Wang
在这项工作中,我们提出了 Vlogger,这是一种通用人工智能系统,用于生成分钟级视频博客,即用户描述的视频博客。与几秒钟的短视频不同,vlog往往包含复杂的故事情节和多样化的场景,这对大多数现有的视频生成方法来说是一个挑战。为了突破这个瓶颈,我们的Vlogger巧妙地利用大语言模型LLM作为Director,将vlog的长视频生成任务分解为四个关键阶段,我们调用各种基础模型来扮演vlog专业人员的关键角色,包括1脚本,2演员、3 名节目制作人和 4 名配音员。通过这样模仿人类的设计,我们的Vlogger可以通过自上而下的规划和自下而上的拍摄的可解释的配合来生成视频博客。此外,我们引入了一种新颖的视频传播模型 ShowMaker,它在我们的 Vlogger 中充当摄像师,用于生成每个拍摄场景的视频片段。通过精心地将Script和Actor作为文本和视觉提示结合起来,可以有效增强片段中的时空连贯性。此外,我们为 ShowMaker 设计了一个简洁的混合训练范例,提高了其 T2V 生成和预测的能力。最后,大量实验表明,我们的方法在零样本 T2V 生成和预测任务上实现了最先进的性能。更重要的是,Vlogger 可以根据开放世界的描述生成超过 5 分钟的视频博客,而不会损失脚本和演员的视频连贯性。POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images
Authors Antonin Vobecky, Oriane Sim oni, David Hurych, Spyros Gidaris, Andrei Bursuc, Patrick P rez, Josef Sivic
我们描述了一种从输入 2D 图像预测开放词汇 3D 语义体素占用图的方法,其目标是实现自由形式语言查询的 3D 基础、分割和检索。这是一个具有挑战性的问题,因为目标任务具有 2D 3D 模糊性和开放词汇性质,而在 3D 中获取带注释的训练数据很困难。这项工作的贡献有三个方面。首先,我们设计了一种用于开放词汇 3D 语义占用预测的新模型架构。该架构由 2D 3D 编码器以及占用预测和 3D 语言头组成。输出是 3D 基础语言嵌入的密集体素图,可实现一系列开放词汇任务。其次,我们开发了一种三模态自监督学习算法,该算法利用三种模态:图像、语言和激光雷达点云,并能够使用强大的预训练视觉语言模型来训练所提出的架构,而无需任何 3D 手动语言注释。最后,我们定量地展示了所提出的模型在几个开放词汇任务上的优势:使用现有数据集的零样本 3D 语义分割、3D 基础和自由形式语言查询的检索,使用我们建议作为 nuScenes 扩展的小数据集。Tri$^{2}$-plane: Volumetric Avatar Reconstruction with Feature Pyramid
Authors Luchuan Song, Pinxin Liu, Lele Chen, Celong Liu, Chenliang Xu
近年来,利用神经体积渲染进行面部头像重建取得了相当大的成就。尽管取得了显着的进步,但从单眼视频重建复杂和动态的头部运动仍然受到捕捉和恢复细粒度细节的困扰。在这项工作中,我们提出了一种名为 Tri 2 平面的新颖方法,用于单眼照片逼真的体积头部头像重建。与依赖单个三平面变形场进行动态面部建模的现有作品不同,所提出的Tri 2平面利用特征金字塔的原理和三个自上而下的横向连接三平面来进行细节改进。它以多个尺度采样和渲染面部细节,从整个面部过渡到特定的局部区域,然后过渡到更精细的子区域。此外,我们将基于相机的几何感知滑动窗口方法作为训练的增强,提高了规范空间之外的鲁棒性,特别改进了交叉身份生成能力。SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
Authors Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
3D 视觉语言基础侧重于使语言与 3D 物理环境保持一致,是实体代理开发的基石。与 2D 领域的最新进展相比,3D 场景中的基础语言面临着几个重大挑战:由于不同的对象配置、丰富的属性和复杂的关系,3D 场景固有的复杂性;配对 3D 视觉语言数据的稀缺性支持扎根学习,以及 iii 缺乏统一的学习框架来从扎根 3D 数据中提取知识。在这项工作中,我们的目标是通过研究在室内环境中系统升级 3D 视觉语言学习的潜力来解决 3D 视觉语言的三大挑战。我们推出了第一个百万级 3D 视觉语言数据集 SceneVerse,包含约 68K 3D 室内场景,并包含源自人类注释和我们基于可扩展场景图的生成方法的 250 万个视觉语言对。我们证明,这种缩放可以为 3D 视觉语言学习提供统一的预训练框架,即场景 GPS 的接地预训练。通过大量实验,我们在所有现有 3D 视觉接地基准上实现了最先进的性能,展示了 GPS 的有效性。通过在具有挑战性的 3D 视觉语言任务中进行零镜头传输实验,SceneVerse 和 GPS 的巨大潜力得以展现。Event-Based Visual Odometry on Non-Holonomic Ground Vehicles
Authors Wanting Xu, Si ao Zhang, Li Cui, Xin Peng, Laurent Kneip
尽管在具有挑战性的条件下承诺提供卓越的性能,但由于从事件流中提取和跟踪稳定特征的困难,基于事件的运动估计仍然是一个难题。为了增强估计,通常认为需要与其他传感器融合。在这项工作中,我们通过采用阿克曼转向平台的约束非完整运动模型,在平面地面车辆上展示了可靠的、纯粹基于事件的视觉里程计。我们将基于常规帧的相机的单特征 n 线性扩展到准时间连续事件轨迹的情况,并通过变阶泰勒展开实现多项式形式。通过直方图投票即可轻松实现多个事件轨迹的稳健平均。正如模拟数据和实际数据所证明的那样,我们的算法实现了对车辆瞬时旋转速度的准确且稳健的估计,因此结果与正常条件下基于框架的传感器获得的增量旋转相当。此外,在具有挑战性的照明场景中,我们的表现明显优于更传统的替代方案。Online Stability Improvement of Groebner Basis Solvers using Deep Learning
Authors Wanting Xu, Lan Hu, Manolis C. Tsakiris, Laurent Kneip
在过去的十年中,Gr bner 基础理论和自动求解器生成带来了大量几何视觉问题的解决方案。在几乎所有情况下,导出的求解器都会应用固定的消除模板来计算 Gr bner 基,从而识别原始多项式约束的零维变化。然而,很明显,不同的变量或单项式排序会导致不同的消除模板,并且我们表明,对于问题的特定实例,它们可能会带来很大的准确性变化。本文有两个贡献。我们首先表明,对于几何视觉中的一类常见问题,变量重新排序简单地转化为初始系数矩阵的列的排列,并且结果是一个和相同的消除模板可以以不同的方式重用,每一个导致潜在的不同的准确性。然后,我们证明原始系数集可能包含足够的信息来训练分类器以在线选择良好的求解器,最显着的是,只需少量的计算开销。Siamese Meets Diffusion Network: SMDNet for Enhanced Change Detection in High-Resolution RS Imagery
Authors Jia Jia, Geunho Lee, Zhibo Wang, Lyu Zhi, Yuchu He
近年来,深度学习在遥感图像变化检测CD中的应用取得了显着进展。近年来,CD任务大多使用CNN和Transformer等架构来识别这些变化。然而,这些架构在表示边界细节方面存在缺陷,并且在复杂的光照和天气条件下容易出现误报和漏检。为此,我们提出了一个新的网络,Siamese Meets Diffusion Network SMDNet。该网络结合了Siam U2Net特征差分编码器SU FDE和去噪扩散隐式模型,提高了图像边缘变化检测的准确性,增强了模型在环境变化下的鲁棒性。首先,我们提出了一种创新的 SU FDE 模块,该模块利用共享权重特征来捕获时间序列图像之间的差异并识别特征之间的相似性以增强边缘细节检测。此外,我们添加了注意力机制来识别关键的粗略特征,以提高模型的灵敏度和准确性。最后利用渐进采样的扩散模型融合关键粗特征,利用扩散模型的降噪能力和捕捉图像数据概率分布的优势,增强模型在不同环境下的适应性。我们的方法结合了特征提取和扩散模型,证明了遥感图像变化检测的有效性。 SMDNet 在 LEVIR CD、DSIFN CD 和 CDD 数据集上的性能评估得出的经过验证的 F1 分数分别为 90.99、88.40 和 88.47。Tight Fusion of Events and Inertial Measurements for Direct Velocity Estimation
Authors Wanting Xu, Xin Peng, Laurent Kneip
传统的视觉惯性状态估计目标是绝对相机位姿和空间地标位置,而一阶运动学通常被解析为隐式估计的子状态。然而,这在基于速度的控制场景中带来了风险,因为运动学估计的质量取决于绝对相机和地标坐标估计的稳定性。为了解决这个问题,我们提出了一种新颖的解决方案,通过使用动态视觉传感器而不是普通相机,直接在一阶运动学水平上进行紧密视觉惯性融合。更具体地说,我们利用三焦点张量几何来建立直接取决于事件和相机速度的重合关系,并演示如何在短时间间隔内获得高度动态情况下的速度估计。使用嵌套两层 RANSAC 方案处理噪声和异常值。此外,使用滑动窗口优化器通过与预积分惯性信号的紧密融合获得平滑的速度信号。模拟和真实数据的实验表明,所提出的紧密事件惯性融合可以在独立于绝对坐标的高度动态场景中实现连续可靠的速度估计。PixelDINO: Semi-Supervised Semantic Segmentation for Detecting Permafrost Disturbances
Authors Konrad Heidler, Ingmar Nitze, Guido Grosse, Xiao Xiang Zhu
由于全球气候变化,北极永久冻土层正面临重大变化。由于这些地区基本上交通不便,遥感在更好地了解当地乃至整个北极的潜在过程方面发挥着至关重要的作用。在这项研究中,我们重点关注逆向解冻滑坡 RTS 的远程检测,这是一种与解冻引起的山体滑坡相当的永久冻土扰动。对于此类来自太空的分析,深度学习已成为不可或缺的工具,但有限的标记训练数据仍然是训练准确模型的挑战。为了在不需要额外标记数据的情况下提高整个北极地区的模型泛化能力,我们提出了一种半监督学习方法来训练语义分割模型来检测 RTS。我们名为 PixelDINO 的框架在标记数据和未标记数据上进行并行训练。对于未标记的数据,模型将图像分割成自学的伪类,并且训练过程确保这些伪类在输入数据的强增强中的一致性。我们的实验结果表明,PixelDINO 可以比监督基线方法以及现有的半监督语义分割方法提高模型性能,突显其训练鲁棒模型的潜力,这些模型可以很好地推广到训练数据中未包含的区域。P$^2$OT: Progressive Partial Optimal Transport for Deep Imbalanced Clustering
Authors Chuyu Zhang, Hui Ren, Xuming He
深度聚类无需标签信息即可学习表示和语义聚类,这对基于深度学习的方法提出了巨大的挑战。尽管近年来取得了重大进展,但大多数现有方法都专注于均匀分布的数据集,这极大地限制了其方法的实际适用性。在本文中,我们首先介绍一个更实际的问题设置,称为深度不平衡聚类,其中底层类表现出不平衡分布。为了解决这个问题,我们提出了一种新颖的基于伪标签的学习框架。我们的框架将伪标签生成制定为渐进的部分最优传输问题,在先验分布约束下逐步将每个样本传输到不平衡的集群,从而生成不平衡感知的伪标签并从高置信度样本中学习。此外,我们将初始公式转化为具有增强约束的不平衡最优传输问题,可以通过快速矩阵缩放算法有效地解决。3D Scene Geometry Estimation from 360$^\circ$ Imagery: A Survey
Authors Thiago Lopes Trugillo da Silveira, Paulo Gamarra Lessa Pinto, Jeffri Erwin Murrugarra Llerena, Claudio Rosito Jung
本文对基于全向光学器件捕获的单个、两个或多个图像的先驱和最先进的 3D 场景几何估计方法进行了全面的调查。我们首先回顾球形相机模型的基本概念,并回顾最常见的采集技术和适用于全向(也称为 360 circ)、球形或全景图像和视频的表示格式。然后,我们调查单目布局和深度推理方法,重点介绍适合球形数据的基于学习的解决方案的最新进展。然后,经典的立体匹配在球形域上进行了修改,其中检测和描述稀疏和密集特征的方法变得至关重要。然后将立体匹配概念推断为多视图相机设置,将它们分类为光场、多视图立体以及来自运动或视觉同步定位和映射的结构。我们还编译和讨论了为每个目的指定的常用数据集和品质因数,并列出了最新结果以确保完整性。Uncertainty estimates for semantic segmentation: providing enhanced reliability for automated motor claims handling
Authors Jan K chler 1 , Daniel Kr ll 1 , Sebastian Schoenen 1 , Andreas Witte 1 1 ControlExpert GmbH, Langenfeld, Germany
用于图像分割的深度神经网络模型可以成为保险行业汽车索赔处理流程自动化的强大工具。一个关键的方面是模型输出在面临不利条件时的可靠性,例如索赔人为记录损失而拍摄的低质量照片。我们探索使用元分类模型来评估为车身部件语义分割训练的模型所预测的分段的精度。比较与片段质量相关的不同特征集,区分高质量片段和低质量片段的 AUROC 得分为 0.915。DaFoEs: Mixing Datasets towards the generalization of vision-state deep-learning Force Estimation in Minimally Invasive Robotic Surgery
Authors Mikel De Iturrate Reyzabal, Mingcong Chen, Wei Huang, Sebastien Ourselin, Hongbin Liu
在微创机器人手术 MIRS 中精确确定安全交互过程中的接触力仍然是一个开放的研究挑战。受手术视频术后定性分析的启发,使用跨模态数据驱动的深度神经网络模型已成为预测无传感器力趋势的最新方法之一。然而,这些方法需要当前不可用的大型且可变的数据集。在本文中,我们提出了一个新的视觉触觉数据集 DaFoEs,具有可变的软环境,用于训练深度神经模型。为了减少单个数据集的偏差,我们提出了一个管道,使用先前经过验证的具有不同设置的数据集来概括混合数据集训练的不同视觉和状态数据输入。最后,我们提出了一种可变编码器解码器架构,以使用单个输入或输入序列来预测腹腔镜工具所产生的力。对于输入序列,我们使用一个以前缀 R 命名的循环解码器,以及一个新的时间采样来表示工具的加速度。在我们的训练过程中,我们证明单个数据集训练往往会过度拟合训练数据域,但在跨新域转换结果时遇到困难。然而,数据集混合提供了良好的转换,循环模型和非循环模型的平均相对估计力误差分别为 5 和 12。随着可用数据量增加 150 ,我们的方法还略微将力估计变压器的有效性提高到最大值 15 。Training-Free Semantic Video Composition via Pre-trained Diffusion Model
Authors Jiaqi Guo, Sitong Su, Junchen Zhu, Lianli Gao, Jingkuan Song
视频合成任务旨在将不同视频中指定的前景和背景整合成一个和谐的组合。目前的方法主要是在调整了前景颜色和照明的视频上进行训练,很难解决除表面调整之外的深层语义差异,例如域间隙。因此,我们提出了一种免训练管道,采用预训练的扩散模型,该模型充满语义先验知识,可以处理具有更广泛语义差异的复合视频。具体来说,我们以级联方式处理视频帧,并使用扩散模型在两个进程中处理每个帧。在反演过程中,我们提出平衡部分反演以获得平衡可逆性和可修改性的生成初始点。然后,在生成过程中,我们进一步提出帧间增强注意力以增强跨帧的前景连续性。Exploring the Role of Convolutional Neural Networks (CNN) in Dental Radiography Segmentation: A Comprehensive Systematic Literature Review
Authors Walid Brahmi, Imen Jdey, Fadoua Drira
在牙科领域,对提高诊断工具精度的需求不断增长,特别关注先进的成像技术,例如计算机断层扫描、锥形束计算机断层扫描、磁共振成像、超声波和传统的口腔内根尖周 X 射线。深度学习已成为这种背景下的关键工具,能够实现对于提取基本诊断数据至关重要的自动分割技术。这种尖端技术的整合解决了有效管理牙科疾病的迫切需求,如果不及时发现,可能会对人类健康产生重大影响。深度学习在包括牙科在内的各个领域的令人印象深刻的记录强调了其彻底改变口腔健康问题的早期检测和治疗的潜力。目的 深度卷积神经网络 CNN 在诊断和预测方面取得了显着的成果,代表了多学科研究的新兴领域。这项研究的目标是提供最新技术的简明概述,标准化当前的争论,并为未来的研究建立基线。方法在本研究中,采用系统文献综述作为方法来识别和选择专门研究牙科成像分析深度学习技术的相关研究。这项研究阐明了方法论,包括系统地收集数据、统计分析和随后的结果传播。结论 这项工作展示了如何使用卷积神经网络 CNN 来分析图像,作为检测牙科病理的有效工具。Continuous Piecewise-Affine Based Motion Model for Image Animation
Authors Hexiang Wang, Fengqi Liu, Qianyu Zhou, Ran Yi, Xin Tan, Lizhuang Ma
图像动画旨在根据驾驶视频将静态图像变为现实,并创建可用于动画、娱乐和教育等各种目的的引人入胜的视觉内容。最近的无监督方法利用基于关键点的仿射和薄板样条变换将驱动帧中的运动转移到源图像。然而,受限于所使用的变换的表达能力,当驱动帧中的运动与源图像之间的差距较大时,这些方法总是产生较差的结果。为了解决这个问题,我们建议在高度表达的微分同胚空间中对从源图像到驱动框架的运动进行建模。首先,我们引入基于连续分段仿射的 CPAB 变换来对运动进行建模,并提出一种精心设计的推理算法来从控制关键点生成 CPAB 变换。其次,我们提出了 SAM 引导的关键点语义损失,以进一步约束关键点提取过程并提高源图像和驱动图像上相应关键点之间的语义一致性。最后,我们设计了结构对齐损失来对齐从驾驶图像和生成图像中提取的结构相关特征,从而帮助生成器生成与驾驶动作更加一致的结果。对四个数据集的广泛实验在数量和质量上证明了我们的方法相对于最先进的竞争对手的有效性。SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects
Authors Haowen Wang, Zhen Zhao, Zhao Jin, Zhengping Che, Liang Qiao, Yakun Huang, Zhipeng Fan, Xiuquan Qiao, Jian Tang
重建现实世界的物体并估计其可移动关节结构是机器人领域的关键技术。以前的研究主要集中在监督方法上,依靠广泛注释的数据集来对有限类别内的铰接对象进行建模。然而,这种方法无法有效解决现实世界中存在的多样性。为了解决这个问题,我们提出了一种自监督交互感知方法,称为 SM 3 ,它利用交互前后捕获的多视图 RGB 图像来建模关节对象,识别可移动部件,并推断其旋转关节的参数。通过从捕获的 2D 图像构建 3D 几何形状和纹理,SM 3 在重建过程中实现了可移动部件和关节参数的集成优化,从而无需注释。此外,我们还介绍了 MMArt 数据集,它是 PartNet Mobility 的扩展,包含跨越不同类别的铰接对象的多视图和多模态数据。Objects With Lighting: A Real-World Dataset for Evaluating Reconstruction and Rendering for Object Relighting
Authors Benjamin Ummenhofer, Sanskar Agrawal, Rene Sepulveda, Yixing Lao, Kai Zhang, Tianhang Cheng, Stephan Richter, Shenlong Wang, German Ros
从照片重建对象并将其虚拟地放置在新环境中超出了标准的新颖视图合成任务,因为对象的外观不仅必须适应新颖的视点,而且还必须适应新的照明条件以及逆渲染方法的评估依靠新颖的视图合成数据或简单的合成数据集进行定量分析。这项工作提供了一个真实世界的数据集,用于测量重新照明对象的重建和渲染。为此,我们在多个环境中捕获相同对象的环境照明和地面实况图像,从而可以根据在一个环境中拍摄的图像重建对象,并量化不可见照明环境的渲染视图的质量。此外,我们引入了由现成方法组成的简单基线,并在重新照明任务上测试了几种最先进的方法,并表明新颖的视图合成并不是衡量性能的可靠指标。Stream Query Denoising for Vectorized HD Map Construction
Authors Shuo Wang, Fan Jia, Yingfei Liu, Yucheng Zhao, Zehui Chen, Tiancai Wang, Chi Zhang, Xiangyu Zhang, Feng Zhao
为了提高自动驾驶领域复杂而广泛的场景中的感知性能,时间建模受到了值得注意的关注,特别是流方法。流模型的流行趋势涉及利用流查询来传播时间信息。尽管这种方法很流行,但将流范式直接应用于构建矢量化高清地图高清地图未能充分利用时间信息的固有潜力。本文介绍了流查询去噪 SQD 策略作为高清地图构建中时间建模的一种新方法。 SQD 旨在促进流模型内地图元素之间时间一致性的学习。该方法涉及对因前一帧的地面实况信息添加噪声而受到干扰的查询进行去噪。该去噪过程旨在重建当前帧的地面实况信息,从而模拟流查询中固有的预测过程。 SQD 策略可以应用于那些流方法,例如 StreamMapNet,以增强时间建模。所提出的SQD MapNet是配备了SQD的StreamMapNet。 nuScenes 和 Argoverse2 上的大量实验表明,我们的方法在近距离和远距离的所有设置上都明显优于其他现有方法。Trapped in texture bias? A large scale comparison of deep instance segmentation
Authors Johannes Theodoridis, Jessica Hofmann, Johannes Maucher, Andreas Schilling
用于实例分割的深度学习模型是否能够以系统的方式推广到新对象 对于分类,这种行为受到了质疑。在本研究中,我们的目的是了解框架、架构或预训练等某些设计决策是否有助于实例分割的语义理解。为了回答这个问题,我们考虑了鲁棒性的特殊情况,并在以对象为中心的分布纹理的挑战性基准上比较预先训练的模型。我们在这项工作中不介绍另一种方法。相反,我们退一步并评估广泛的现有文献。这包括 Cascade 和 Mask R CNN、Swin Transformer、BMask、YOLACT、DETR、BCNet、SOTR 和 SOLOv2。我们发现 YOLACT、SOTR 和 SOLOv2 对于分布纹理之外的鲁棒性明显高于其他框架。此外,我们还表明,更深层次的动态架构可以提高鲁棒性,而训练计划、数据增强和预训练的影响很小。UniVG: Towards UNIfied-modal Video Generation
Authors Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
基于扩散的视频生成受到了广泛的关注,并在学术界和工业界取得了相当大的成功。然而,当前的工作主要集中在单目标或单任务视频生成,例如由文本、图像或文本和图像的组合驱动的生成。这不能完全满足现实应用场景的需求,因为用户可能以灵活的方式单独或组合输入图像和文本条件。为了解决这个问题,我们提出了一种统一模态视频生成系统,该系统能够处理跨文本和图像模态的多个视频生成任务。为此,我们从生成自由度的角度重新审视系统内的各种视频生成任务,并将它们分为高自由度和低自由度视频生成类别。对于高自由度视频生成,我们采用多条件交叉注意力来生成与输入图像或文本的语义一致的视频。对于低自由度视频生成,我们引入偏置高斯噪声来代替纯随机高斯噪声,这有助于更好地保留输入条件的内容。我们的方法在公共学术基准MSR VTT上实现了最低的Fr chet Video Distance FVD,在人类评估中超越了当前的开源方法,并且与当前的闭源方法Gen2相当。Remote Sensing ChatGPT: Solving Remote Sensing Tasks with ChatGPT and Visual Models
Authors Haonan Guo, Xin Su, Chen Wu, Bo Du, Liangpei Zhang, Deren Li
近年来,蓬勃发展的大型语言模型LLM,特别是ChatGPT,在语言理解、推理和交互方面表现出了卓越的性能,吸引了来自多个领域和领域的用户和研究人员。尽管法学硕士在自然语言和自然图像方面表现出了类似于人类的任务完成能力,但其在处理遥感解释任务方面的潜力尚未得到充分开发。此外,遥感任务规划缺乏自动化阻碍了遥感解译技术的可及性,特别是对于来自多个研究领域的非遥感专家而言。为此,我们推出了遥感 ChatGPT,这是一种法学硕士驱动的代理,利用 ChatGPT 连接各种基于人工智能的遥感模型来解决复杂的解释任务。更具体地说,给定用户请求和遥感图像,我们利用 ChatGPT 来理解用户请求,根据任务功能进行任务规划,迭代执行每个子任务,并根据每个子任务的输出生成最终响应。考虑到 LLM 是用自然语言训练的,无法直接感知遥感图像中包含的视觉概念,我们设计了视觉线索,将视觉信息注入 ChatGPT。通过遥感ChatGPT,用户只需发送带有相应请求的遥感图像,即可从遥感ChatGPT获得解译结果以及语言反馈。实验和示例表明,遥感ChatGPT可以处理广泛的遥感任务,并且可以通过更复杂的模型(例如遥感基础模型)扩展到更多任务。CrossVideo: Self-supervised Cross-modal Contrastive Learning for Point Cloud Video Understanding
Authors Yunze Liu, Changxi Chen, Zifan Wang, Li Yi
本文介绍了一种名为 CrossVideo 的新方法,旨在增强点云视频理解领域的自监督跨模态对比学习。传统的监督学习方法由于数据稀缺和标签获取的挑战而受到限制。为了解决这些问题,我们提出了一种自监督学习方法,利用点云视频和图像视频之间的跨模态关系来获取有意义的特征表示。采用模内和跨模态对比学习技术来促进点云视频的有效理解。我们还为这两种模式提出了一种多层次对比方法。Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior
Authors Zike Wu, Pan Zhou, Xuanyu Yi, Xiaoding Yuan, Hanwang Zhang
分数蒸馏采样 SDS 及其变体极大地促进了文本到 3D 生成的发展,但仍然容易受到几何崩溃和不良纹理的影响。为了解决这个问题,我们首先对SDS进行深入分析,发现它的蒸馏采样过程确实对应于随机微分方程SDE的轨迹采样,SDS沿着SDE轨迹采样,得到噪声较小的样本,从而指导优化3D 模型。然而,SDE 采样的随机性通常会导致样本多样化且不可预测,该样本并不总是噪音较小,因此并不是始终正确的指导,这解释了 SDS 的脆弱性。由于对于任何 SDE,总是存在一个常微分方程 ODE,其轨迹采样可以像 SDE 一样确定性地、一致地收敛到所需的目标点,因此我们提出了一种新颖且有效的 Consistency3D 方法,该方法探索文本到 3D 生成之前的 ODE 确定性采样。具体来说,在每次训练迭代中,给定 3D 模型渲染的图像,我们首先通过预训练的 2D 扩散模型估计其所需的 3D 得分函数,并构建用于轨迹采样的 ODE。接下来,我们设计了一种一致性蒸馏采样损失,它沿着 ODE 轨迹采样以生成两个相邻样本,并使用噪声较小的样本引导另一个噪声较大的样本,将确定性先验提取到 3D 模型中。Enhancing Lidar-based Object Detection in Adverse Weather using Offset Sequences in Time
Authors Raphael van Kempen, Tim Rehbronn, Abin Jose, Johannes Stegmaier, Bastian Lampe, Timo Woopen, Lutz Eckstein
自动驾驶车辆需要准确感知周围环境,以实现安全高效的驾驶。基于激光雷达的物体检测是一种广泛使用的环境感知方法,但其性能受到雨、雾等恶劣天气条件的显着影响。在这项工作中,我们研究了通过处理激光雷达传感器生成的顺序数据样本来增强基于激光雷达的物体检测的鲁棒性的各种策略。我们的方法利用时间信息来改进激光雷达目标检测模型,而不需要额外的过滤或预处理步骤。我们比较了处理点云序列的 10 种不同的神经网络架构,包括一种新颖的增强策略,在训练期间引入序列帧之间的时间偏移,并通过实验评估所有策略在恶劣天气条件下对激光雷达点云的有效性。我们的研究对有效方法进行了全面研究,以减轻恶劣天气对基于激光雷达的物体检测可靠性的影响,这些方法使用使用 nuScenes、Dense 和加拿大不良驾驶条件数据集等公共数据集进行评估的序列数据。Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis
Authors Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong
为了解决文本作为文本条件扩散模型中准确布局表示的来源的局限性,许多工作结合了附加信号来调节生成图像中的某些属性。尽管取得了成功,但以前的工作并没有考虑到扩展到三维平面的所述属性的具体定位。在这种情况下,我们提出了一种条件扩散模型,它将对三维对象放置的控制与来自多个示例图像的全局风格语义的解开表示相结合。具体来说,我们首先引入 textit 深度解缠训练,利用对象的相对深度作为估计器,允许模型通过使用合成图像三元组来识别看不见的对象的绝对位置。我们还引入了textit软引导,这是一种无需使用任何额外的本地化提示即可将全局语义强加到目标区域的方法。我们的集成框架 textsc Compose 和 Conquer CnC 统一了这些技术,以一种解开的方式定位多个条件。我们证明,我们的方法允许感知不同深度的对象,同时提供一个通用框架来组合具有不同全局语义的本地对象。VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models
Authors Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan
文本到视频生成旨在根据给定的提示生成视频。最近,一些商业视频模型已经能够生成具有最小噪声、出色细节和高审美分数的可信视频。然而,这些模型依赖于社区无法访问的大规模、过滤良好的高质量视频。许多现有的研究工作使用低质量的 WebVid 10M 数据集训练模型,但很难生成高质量的视频,因为模型经过优化以适应 WebVid 10M。在这项工作中,我们探索了从稳定扩散扩展的视频模型的训练方案,并研究了利用低质量视频和合成高质量图像来获得高质量视频模型的可行性。我们首先分析视频模型的空间和时间模块之间的联系以及向低质量视频的分布转移。我们观察到,与仅训练时间模块相比,对所有模块进行全面训练会导致空间和时间模块之间的耦合更强。基于这种更强的耦合,我们通过使用高质量图像微调空间模块,将分布转移到更高的质量,而不会导致运动退化,从而产生通用的高质量视频模型。Cross-modality Guidance-aided Multi-modal Learning with Dual Attention for MRI Brain Tumor Grading
Authors Dunyuan Xu, Xi Wang, Jinyue Cai, Pheng Ann Heng
脑肿瘤是世界上最致命的癌症之一,在儿童和老年人中非常常见。早期准确识别肿瘤的类型和分级对于选择精准的治疗方案具有重要作用。不同序列的磁共振成像MRI方案为临床医生提供重要的矛盾信息来识别肿瘤区域。然而,由于数据量大且脑肿瘤类型多样,人工评估耗时且容易出错。因此,MRI 自动脑肿瘤诊断的需求尚未得到满足。我们观察到单模态模型的预测能力有限,并且其性能在不同模态之间差异很大,并且常用的模态融合方法会引入潜在的噪声,从而导致性能显着下降。为了克服这些挑战,我们提出了一种新颖的跨模态指导辅助多模态学习,具有双重关注,以解决 MRI 脑肿瘤分级的任务。为了平衡模型效率和功效之间的权衡,我们采用 ResNet Mix Convolution 作为特征提取的骨干网络。此外,应用双重注意力来分别捕获空间和切片维度上的语义相互依赖性。为了促进模态之间的信息交互,我们设计了一个跨模态引导辅助模块,其中主要模态在训练过程中指导其他次要模态,可以有效地利用不同MRI模态的互补信息,同时减轻可能的噪声的影响Hybrid of DiffStride and Spectral Pooling in Convolutional Neural Networks
Authors Sulthan Rafif, Mochamad Arfan Ravy Wahyu Pratama, Mohammad Faris Azhar, Ahmad Mustafidul Ibad, Lailil Muflikhah, Novanto Yudistira
步幅确定滤波器在输入上移动时相邻滤波器位置之间的距离。固定步长导致图像中包含的重要信息无法被捕获,从而导致重要信息无法分类。因此,在之前的研究中,采用了DiffStride Method,即Strided Convolution Method,通过它可以学习自己的步幅值。最大池下采样方法会产生严重的量化和保留信息的约束下限。频谱池通过切断频域中的表示来减少保留信息的约束下限。在本研究中,提出了一种 CNN 模型,该模型采用反向传播结合频谱池技术执行的下采样可学习跨步技术。 Diffstride 和 Spectral Pooling 技术有望保留图像中包含的大部分信息。在本研究中,我们将混合方法(光谱池和 DiffStride 的组合实现)与基线方法(ResNet 18 上的 DiffStride 实现)进行比较。DiffStride 与光谱池组合的准确度结果比基线 DiffStride 有所提高。方法通过0.0094。Generalized Face Liveness Detection via De-spoofing Face Generator
Authors Xingming Long, Shiguang Shan, Jie Zhang
先前的人脸反欺骗 FAS 工作面临着在未知领域进行推广的挑战。主要问题之一是大多数现有 FAS 数据集相对较小且缺乏数据多样性。然而,我们发现有许多在各种条件下都可以轻松实现的真实面孔,而这些都是以前的FAS作品所忽略的。在本文中,我们采用了一种异常提示引导 FAS AG FAS 方法,该方法通过 De spoofing Face Generator DFG 利用真实面孔来改进模型泛化。具体来说,仅在真实面部上训练的 DFG 可以获得真实面部应该是什么样子的知识,并且可以生成与任何给定输入面部相对应的真实面部版本。生成的真实人脸和输入人脸之间的差异可以为下游 FAS 任务提供异常线索。然后,我们提出了一种异常线索引导 FAS 特征提取网络 AG Net,以通过交叉注意变压器进一步提高 FAS 特征泛化。OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality
Authors Aditya Sharma, Luke Yoffe, Tobias H llerer
增强现实的一项关键挑战是将虚拟内容放置在自然位置。大多数现有的自动化技术只能处理封闭的词汇、固定的对象集。在本文中,我们使用开放词汇视觉语言模型的最新进展介绍并评估了几种自动对象放置的方法。通过多方面的评估,我们确定了一种新的最先进的方法,OCTO。我们还引入了一个基准,用于自动评估增强现实中虚拟对象的放置,从而减轻了昂贵的用户研究的需要。Hearing Loss Detection from Facial Expressions in One-on-one Conversations
Authors Yufeng Yin, Ishwarya Ananthabhotla, Vamsi Krishna Ithapu, Stavros Petridis, Yu Hsiang Wu, Christi Miller
听力受损的人在交谈时会遇到困难,尤其是在嘈杂的环境中。这种困难通常表现为行为的改变,并且可以通过面部表情来捕捉,例如不适或疲劳的表情。在这项工作中,我们基于这个想法,引入了通过对话期间个人的面部表情来检测听力损失的问题。构建能够代表与听力相关的面部表情变化的机器学习模型是一项挑战。此外,模型需要从听觉驱动的表达中分离出虚假的年龄相关性。为此,我们提出了一种针对表达变化建模的自监督预训练策略。我们还使用对抗性表示学习来减轻年龄偏见。COCO is "ALL'' You Need for Visual Instruction Fine-tuning
Authors Xiaotian Han, Yiqi Wang, Bohan Zhai, Quanzeng You, Hongxia Yang
多模态大型语言模型 MLLM 在人工智能领域日益突出。视觉指令微调 IFT 是将 MLLM 输出与用户意图保持一致的重要过程。高质量和多样化的指令跟踪数据是这一微调过程的关键。最近的研究提出通过多方面的方法构建视觉 IFT 数据集,使用基于规则的模板转换现有数据集,采用 GPT 4 重写注释,并利用 GPT 4V 进行视觉数据集伪标记。 LLaVA 1.5采用了类似的方法并构建了LLaVA mix 665k,这是当今最简单、使用最广泛但最有效的IFT数据集之一。值得注意的是,当使用该数据集进行适当微调时,MLLM 可以在多个基准测试中实现最先进的性能。然而,我们注意到使用该数据集训练的模型通常很难在多轮对话中正确遵循用户指令。此外,传统的标题和 VQA 评估基准及其封闭式评估结构并不完全适合评估现代开放式生成 MLLM 的能力。此问题并非 LLaVA mix 665k 数据集独有,但可能是从图像字幕或 VQA 源构建的所有 IFT 数据集中的潜在问题,尽管此问题的程度可能有所不同。我们认为,具有多样化且高质量的详细说明(遵循注释)的数据集对于 MLLM IFT 来说是必要且充分的。在这项工作中,我们建立了一个新的 IFT 数据集,其中包含来自 COCO 数据集的图像以及更多样化的指令。Dynamic DNNs and Runtime Management for Efficient Inference on Mobile/Embedded Devices
Authors Lei Xun, Jonathon Hare, Geoff V. Merrett
由于延迟、隐私和始终可用性方面的几个关键优势,深度神经网络 DNN 推理越来越多地在移动和嵌入式平台上执行。然而,由于计算资源有限,在移动和嵌入式平台上高效部署 DNN 具有挑战性。尽管之前的工作提出了许多硬件加速器和静态模型压缩方法,但在系统运行时,多个应用程序通常同时执行并竞争硬件资源。这提出了两个主要挑战:运行时硬件可用性和运行时应用程序可变性。以前的工作通过包含具有不同性能权衡的子网络的动态神经网络或运行时硬件资源管理来解决这些挑战。在本文中,我们提出了一种组合方法,开发了一个用于 DNN 性能权衡管理的系统,结合算法和硬件中的运行时权衡机会,以满足实时动态变化的应用程序性能目标和硬件约束。我们共同设计了新颖的动态超级网络,以最大限度地提高异构硬件平台上的运行时系统级性能和能源效率。与 SOTA 相比,我们在 Jetson Xavier NX 的 GPU 上使用 ImageNet 的实验结果表明,在类似的 ImageNet Top 1 精度下,我们的模型速度提高了 2.4 倍,在类似的延迟下,精度提高了 5.1 倍。我们还设计了一个分层运行时资源管理器,可以在运行时调整动态神经网络和 DVFS。Fluid Dynamic DNNs for Reliable and Adaptive Distributed Inference on Edge Devices
Authors Lei Xun, Mingyu Hu, Hengrui Zhao, Amit Kumar Singh, Jonathon Hare, Geoff V. Merrett
分布式推理是一种在边缘进行高效 DNN 推理的流行方法。然而,传统的静态和动态 DNN 不适合分布,导致系统可靠性和适应性问题。在本文中,我们介绍了专为分布式推理量身定制的流体动态 DNN(Fluid Dynamic DNN)。与静态和动态 DNN 不同,Fluid DyDNN 采用新颖的嵌套增量训练算法来实现其子网络的独立和组合操作,从而增强系统的可靠性和适应性。对具有 DNN 模型和 MNIST 数据集的嵌入式 Arm CPU 的评估表明,在单个设备发生故障的情况下,Fluid DyDNN 可确保持续推理,而静态和动态 DNN 则会失败。ICON: Incremental CONfidence for Joint Pose and Radiance Field Optimization
Authors Weiyao Wang, Pierre Gleize, Hao Tang, Xingyu Chen, Kevin J Liang, Matt Feiszli
神经辐射场 NeRF 在给定一组 2D 图像的情况下,在新颖视图合成 NVS 方面表现出卓越的性能。然而,NeRF 训练需要每个输入视图的准确相机姿态,通常通过 Motion SfM 管道的结构获得。最近的作品试图放松这一限制,但它们仍然经常依赖于可以改进的合适的初始姿势。这里我们的目标是消除姿势初始化的要求。我们提出了增量置信度 ICON,这是一种用于从 2D 视频帧训练 NeRF 的优化程序。 ICON 仅假设平滑的相机运动来估计姿势的初始猜测。此外,ICON 引入了置信度,这是一种模型质量的自适应度量,用于动态重新加权梯度。 ICON 依靠高置信度姿势来学习 NeRF,并依靠 NeRF 编码的高置信度 3D 结构来学习姿势。Learning to detect cloud and snow in remote sensing images from noisy labels
Authors Zili Liu, Hao Chen, Wenyuan Li, Keyan Chen, Zipeng Qi, Chenyang Liu, Zhengxia Zou, Zhenwei Shi
检测遥感图像中的云和雪是遥感图像的一项重要预处理任务。之前的工作从计算机视觉中的语义分割模型中汲取灵感,大多数研究都集中在改进模型架构以增强检测性能。然而,与自然图像不同,遥感图像中场景的复杂性和云类型的多样性导致云和雪检测数据集中存在许多不准确的标签,从而在训练和测试过程中引入不必要的噪声。通过构建新的数据集并利用课程学习范式提出新颖的训练策略,我们指导模型减少对噪声标签的过度拟合。此外,我们设计了更合适的模型性能评估方法,减轻了噪声标签引起的性能评估偏差。通过使用 UNet 和 Segformer 对模型进行实验,我们验证了所提出方法的有效性。3D Human Pose Analysis via Diffusion Synthesis
Authors Haorui Ji, Hongdong Li
扩散模型在生成建模中取得了显着的成功。在本文中,我们提出了 PADS Pose Analysis by Diffusion Synthesis,这是一种新颖的框架,旨在通过统一的管道解决 3D 人体姿势分析中的各种挑战。 PADS 的核心是两个独特的策略:i 使用扩散合成过程先学习与任务无关的姿势,以有效捕获人体姿势数据中的运动学约束;ii 将估计、完成、去噪等多个姿势分析任务统一为逆实例问题。学习到的姿势先验将被视为对任务特定约束施加的正则化,通过一系列条件去噪步骤指导优化过程。 PADS 代表了第一个基于扩散的框架,用于在逆问题框架内处理一般 3D 人体姿势分析。Uncertainty-aware No-Reference Point Cloud Quality Assessment
Authors Songlin Fan, Zixuan Guo, Wei Gao, Ge Li
压缩和增强算法的发展需要对点云进行准确的质量评估。以前的工作一致将点云质量评估 PCQA 视为 MOS 回归问题,并设计确定性映射,忽略了从主观测试生成 MOS 的随机性。此外,与传统图像相比,主观测试中3D点云的视点切换增强了不同主体的判断随机性。这项工作提出了第一个无参考 PCQA 的概率架构,其动机是现有数据集的标记过程。该方法可以通过定制的条件变分自动编码器 CVAE 对受试者的质量判断随机性进行建模,并产生多个中间质量评级。这些中间评级模拟了不同主体的判断,然后集成到准确的质量预测中,模仿了真实 MOS 的生成过程。具体来说,我们的方法包含先验模块、后验模块和质量评级生成器,其中引入前两个模块来对主观测试中的判断随机性进行建模,而后者则用于生成不同的质量评级。Efficient Image Super-Resolution via Symmetric Visual Attention Network
Authors Chengxu Wu, Qinrui Fan, Shu Hu, Xi Wu, Xin Wang, Jing Hu
单图像超分辨率SISR算法的一个重要发展方向是提高算法的效率。最近,高效的超分辨率 SR 研究重点是通过改进深度小核卷积来降低模型复杂性并提高效率,从而形成较小的感受野。大核卷积获得的大感受野可以显着提高图像质量,但计算成本太高。为了改善高效超分辨率重建的重建细节,我们通过应用大感受野提出了对称视觉注意网络 SVAN。 SVAN将大核卷积分解为三种不同的卷积运算组合,并将它们与注意力机制结合起来,形成对称大核注意力块SLKAB,该块通过中感受野的大小形成具有瓶颈结构的对称注意力块卷积组合有效提取深度特征作为SVAN的基本组成部分。我们的网络获得了较大的感受野,同时最大限度地减少了参数数量并提高了模型的感知能力。PPR: Enhancing Dodging Attacks while Maintaining Impersonation Attacks on Face Recognition Systems
Authors Fengfan Zhou, Heifei Ling
人脸识别FR的对抗性攻击包括模仿攻击和逃避攻击两种类型。我们观察到,成功地对 FR 进行模拟攻击并不一定能确保在黑盒设置中成功躲避对 FR 的攻击。引入一种名为预训练剪枝恢复攻击 PPR 的新颖攻击方法,我们的目标是增强躲避攻击的性能,同时避免模拟攻击的退化。我们的方法采用对抗性示例剪枝,使一部分对抗性扰动设置为零,同时倾向于保持攻击性能。通过利用对抗性样本修剪,我们可以修剪预先训练的对抗性样本,并选择性地释放某些对抗性扰动。此后,我们在修剪区域中嵌入对抗性扰动,这增强了对抗性面部示例的躲避性能。B-Cos Aligned Transformers Learn Human-Interpretable Features
Authors Manuel Tran, Amal Lahiani, Yashin Dicente Cid, Melanie Boxberg, Peter Lienemann, Christian Matek, Sophia J. Wagner, Fabian J. Theis, Eldad Klaiman, Tingying Peng
Vision Transformers ViTs 和 Swin Transformers Swin 目前是计算病理学领域的最先进技术。然而,由于缺乏可解释性,领域专家仍然不愿意使用这些模型。这并不奇怪,因为关键决策需要透明且易于理解。理解 Transformer 最常见的方法是可视化他们的注意力。然而,ViT 的注意力图往往是支离破碎的,导致解释不令人满意。在这里,我们介绍了一种名为 B cos Vision Transformer BvT 的新颖架构,其设计更具可解释性。它将所有线性变换替换为 B cos 变换,以促进权重输入对齐。在一项盲法研究中,医学专家明确将 BvT 置于 ViT 之上,这表明我们的网络更擅长捕获生物医学相关结构。 B cos Swin 变压器 Bwin 也是如此。The Effect of Intrinsic Dataset Properties on Generalization: Unraveling Learning Differences Between Natural and Medical Images
Authors Nicholas Konz, Maciej A. Mazurowski
本文研究了神经网络如何从不同成像领域学习的差异,当将计算机视觉技术从自然图像领域应用于其他专业领域(例如医学图像)时,这些差异通常被忽视。最近的工作发现,经过训练的网络的泛化误差通常会随着其训练集的内在维度 d 数据的增加而增加。然而,这种关系的陡度在医学放射学和自然成像领域之间存在显着差异,并且没有现有的理论解释。我们通过建立并凭经验验证关于 d 数据的泛化标度律来解决这一知识差距,并提出两个考虑的领域之间的实质性标度差异可能至少部分归因于医学成像数据集较高的内在标签清晰度 K F ,我们提出的一个指标。接下来,我们展示了测量训练集标签清晰度的另一个好处,它与训练模型的对抗鲁棒性负相关,这显着导致医学图像模型更容易受到对抗攻击。最后,我们将 d 数据形式主义扩展到学习表示内在维度 d repr 的相关度量,导出关于 d repr 的泛化缩放定律,并表明 d 数据作为 d repr 的上限。我们的理论结果得到了对六个模型和十一个自然和医学成像数据集在一系列训练集大小上的彻底实验的支持。Cross-Level Multi-Instance Distillation for Self-Supervised Fine-Grained Visual Categorization
Authors Qi Bi, Wei Ji, Jingjun Yi, Haolan Zhan, Gui Song Xia
细粒度视觉类别的高质量注释需要大量的专业知识,这既费力又耗时。或者,通过自监督学习从大量未标记图像(例如物种、品牌)中学习细粒度的视觉表示成为一种可行的解决方案。然而,最近的研究发现现有的自监督学习方法不太适合表示细粒度的类别。瓶颈在于,预文本表示是根据每个补丁嵌入构建的,而细粒度类别仅由图像的几个关键补丁确定。在本文中,我们提出了一个跨级多实例蒸馏 CMD 框架来应对这一挑战。我们的关键思想是考虑每个图像块在通过多实例学习确定细粒度前置文本表示时的重要性。为了全面学习信息块和细粒度语义之间的关系,对来自教师和学生网络的区域图像裁剪对以及教师学生网络内部的区域图像裁剪(我们将其称为帧内)进行多实例知识蒸馏。级多实例蒸馏和级间多实例蒸馏。Efficient Neural Representation of Volumetric Data using Coordinate-Based Networks
Authors Sudarshan Devkota, Sumanta Pattanaik
在本文中,我们提出了一种利用基于坐标的网络和多分辨率哈希编码来压缩和表示体数据的有效方法。体积数据的有效压缩对于医学成像和科学模拟等各种应用至关重要。我们的方法通过学习空间坐标和强度值之间的映射来实现有效的压缩。我们比较了不同的编码方案,并证明了多分辨率哈希编码在压缩质量和训练效率方面的优越性。此外,我们利用基于优化的元学习,特别是使用 Reptile 算法,来学习针对体积数据定制的神经表示的权重初始化,从而在优化过程中实现更快的收敛。此外,我们将我们的方法与最先进的方法进行比较,以展示改进的图像质量和压缩比。Image Fusion in Remote Sensing: An Overview and Meta Analysis
Authors Hessah Albanwan, Rongjun Qin, Yang Tang
遥感遥感中的图像融合一直是一个持续的需求,因为它能够将不同分辨率、来源和模式的原始图像转换为准确、完整和时空相干的图像。它极大地促进了下游应用,例如全色锐化、变化检测、土地覆盖分类等。然而,图像融合解决方案与各种遥感问题截然不同,因此在现有评论中通常被狭义地定义为主题应用,例如全色锐化、和时空图像融合。考虑到图像融合理论上可以通过像素级操作应用于任何网格数据,在本文中,我们通过简单的分类1多对一图像融合2多对多图像融合全面调查相关工作来扩展其范围。这个简单的分类法将图像融合定义为一个映射问题,根据所需的一致性,例如光谱、空间分辨率一致性等,将单个或一组图像转换为另一个图像或一组图像。我们证明了这个简单的分类法尽管它涵盖了显着的模态差异,但可以通过概念上简单的框架来呈现。此外,我们还提供荟萃分析来回顾从 20 世纪 80 年代至今研究各种类型图像融合及其应用的主要论文,涵盖 5,926 篇同行评审论文。Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive
Authors Yumeng Li, Margret Keuper, Dan Zhang, Anna Khoreva
尽管最近在大规模扩散模型方面取得了进展,但在图像 L2I 合成任务的布局方面进展甚微。当前的 L2I 模型要么通过文本进行可编辑性较差,要么生成的图像与输入布局之间的对齐较弱。这限制了它们在实践中的可用性。为了缓解这一问题,我们建议将对抗性监督集成到 L2I 扩散模型 ALDM 的传统训练流程中。具体来说,我们采用基于分割的鉴别器,它向扩散生成器提供关于去噪图像和输入布局之间的像素级对齐的明确反馈。为了鼓励在采样步骤中一致地遵守输入布局,我们进一步引入了多步骤展开策略。我们不是查看单个时间步,而是递归地展开几个步骤来模拟推理过程,并要求鉴别器评估去噪图像与特定时间窗口内布局的对齐情况。我们的实验表明,ALDM 可以实现生成图像的布局忠实性,同时允许通过文本提示进行广泛的可编辑性。Learning Implicit Representation for Reconstructing Articulated Objects
Authors Hao Zhang, Fang Li, Samyak Rawlekar, Narendra Ahuja
在没有有关对象结构的附加信息的情况下对移动铰接对象进行 3D 重建是一个具有挑战性的问题。当前的方法通过采用特定类别的骨架模型来克服这些挑战。因此,它们不能很好地推广到野外的铰接物体。我们将铰接物体视为未知的半刚性骨骼结构,周围环绕着非刚性材料(例如皮肤)。我们的方法在没有 3D 监督的情况下,根据对象视频中的运动线索,同时估计可见的显式表示 3D 形状、颜色、相机参数和隐式骨骼表示。我们的隐式表示由四个部分组成。 1 骨架,指定半刚性零件的连接方式。 2 textcolor black Skinning Weights ,将每个表面顶点与半刚性部件以概率关联。 3 刚度系数,指定局部表面的关节。 4 个时变变换,指定骨骼运动和表面变形参数。我们引入了一种算法,该算法使用物理约束作为正则化项,并迭代估计隐式和显式表示。Segment Anything Model Can Not Segment Anything: Assessing AI Foundation Model's Generalizability in Permafrost Mapping
Authors Wenwen Li, Chia Yu Hsu, Sizhe Wang, Yezhou Yang, Hyunho Lee, Anna Liljedahl, Chandi Witharana, Yili Yang, Brendan M. Rogers, Samantha T. Arundel, Matthew B. Jones, Kenton McHenry, Patricia Solis
本文评估了趋势人工智能基础模型,特别是新兴的计算机视觉基础模型及其在自然景观特征分割中的表现。虽然基础模型一词很快引起了地理空间领域的兴趣,但其定义仍然模糊。因此,本文将首先介绍人工智能基础模型及其定义特征。基于大型语言模型法学硕士作为语言任务的基础模型所取得的巨大成功,本文讨论了为地理空间人工智能 GeoAI 视觉任务构建基础模型所面临的挑战。为了评估大型 AI 视觉模型(尤其是 Meta s Segment Anything Model SAM)的性能,我们实施了不同的实例分割管道,最大限度地减少对 SAM 的更改,以利用其作为基础模型的强大功能。开发了一系列即时策略来测试 SAM 的性能,包括预测精度的理论上限、零射击性能以及通过微调的域适应性。该分析使用了两个永久冻土特征数据集:冰楔多边形和倒退融雪塌陷,因为 1 这些地貌特征由于其复杂的形成机制、多样的形式和模糊的边界,比人造特征更难以分割 2 它们的存在和变化是重要的指标北极变暖和气候变化。结果表明,尽管 SAM 前景广阔,但在支持 AI 增强地形测绘方面仍有改进空间。使用更通用的农业田地测绘数据集 EuroCrop 进一步验证了这一发现的空间和领域普遍性。Fast Dynamic 3D Object Generation from a Single-view Video
Authors Zijie Pan, Zeyu Yang, Xiatian Zhu, Li Zhang
由于缺乏 4D 标记数据,从单视图视频生成动态三维 3D 对象具有挑战性。现有方法通过转移现成的图像生成模型(例如分数蒸馏采样)将文本扩展到 3D 管道,但它们的扩展速度缓慢且昂贵,例如,由于需要通过大范围反向传播信息有限的监督信号,每个对象需要 150 分钟。预训练模型。为了解决这个限制,我们提出了一种高效的视频到 4D 对象生成框架,称为 Efficient4D。它在不同摄像机视图下生成高质量的时空一致图像,然后将其用作标记数据,直接训练具有显式点云几何形状的新型4D高斯溅射模型,从而实现连续摄像机轨迹下的实时渲染。对合成视频和真实视频的大量实验表明,与现有技术替代方案相比,Efficient4D 的速度显着提高了 10 倍,同时保持了相同水平的创新视图合成质量。Fixed Point Diffusion Models
Authors Xingjian Bai, Luke Melas Kyriazi
我们介绍了定点扩散模型 FPDM,这是一种新颖的图像生成方法,它将定点求解的概念集成到基于扩散的生成建模框架中。我们的方法将隐式定点求解层嵌入到扩散模型的去噪网络中,将扩散过程转换为一系列密切相关的定点问题。结合新的随机训练方法,该方法显着减小了模型大小、减少了内存使用并加速了训练。此外,它还支持开发两种新技术来提高采样效率,即跨时间步重新分配计算并在时间步之间重用定点解。我们在 ImageNet、FFHQ、CelebA HQ 和 LSUN Church 上使用最先进的模型进行了广泛的实验,证明了性能和效率的显着改进。与最先进的 DiT 模型相比,FPDM 减少了 87 个参数,训练期间消耗的内存减少了 60 个,并且在采样计算或时间有限的情况下提高了图像生成质量。SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers
Authors Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden Eijnden, Saining Xie
我们提出了可扩展插值变压器 SiT,这是一个建立在扩散变压器 DiT 基础上的生成模型系列。插值框架允许以比标准扩散模型更灵活的方式连接两个分布,使得使用离散与连续时间学习对影响基于动态传输的生成模型的各种设计选择进行模块化研究成为可能,从而决定模型的目标学习,选择连接分布的插值,并部署确定性或随机采样器。通过仔细介绍上述要素,SiT 在使用完全相同的主干网、参数数量和 GFLOP 的条件 ImageNet 256x256 基准上在模型大小上均匀地超越了 DiT。EgoGen: An Egocentric Synthetic Data Generator
Authors Gen Li, Kaifeng Zhao, Siwei Zhang, Xiaozhong Lyu, Mihai Dusmanu, Yan Zhang, Marc Pollefeys, Siyu Tang
以第一人称视角理解世界是增强现实 AR 的基础。与第三人称视角相比,这种身临其境的视角带来了巨大的视觉变化和独特的挑战。合成数据增强了第三人称视觉模型的能力,但其在以自我为中心的感知任务中的应用在很大程度上仍未得到探索。一个关键的挑战在于模拟自然的人类运动和行为,从而有效地引导实体相机捕捉 3D 世界的忠实的以自我为中心的表现。为了应对这一挑战,我们引入了 EgoGen,这是一种新的合成数据生成器,可以为以自我为中心的感知任务生成准确且丰富的地面实况训练数据。 EgoGen 的核心是一种新颖的人体运动合成模型,它直接利用虚拟人的以自我为中心的视觉输入来感知 3D 环境。结合避免碰撞的运动原语和两阶段强化学习方法,我们的运动合成模型提供了一个闭环解决方案,其中虚拟人的具体感知和运动无缝耦合。与以前的工作相比,我们的模型消除了对预定义全局路径的需要,并且直接适用于动态环境。结合我们易于使用且可扩展的数据生成管道,我们展示了 EgoGen 在头戴式摄像头映射和定位、以自我为中心的摄像头跟踪以及从以自我为中心的视图中恢复人体网格等三个任务方面的功效。 EgoGen 将完全开源,为创建现实的以自我为中心的训练数据提供实用的解决方案,并旨在成为以自我为中心的计算机视觉研究的有用工具。Bag of Tricks to Boost Adversarial Transferability
Authors Zeliang Zhang, Rongyi Zhu, Wei Yao, Xiaosen Wang, Chenliang Xu
众所周知,深度神经网络容易受到对抗性例子的影响。然而,在白盒设置下生成的普通对抗性示例通常在不同模型之间表现出较低的可移植性。由于对抗性可转移性对实际应用构成更严重的威胁,人们提出了各种方法来实现更好的可转移性,包括基于梯度、基于输入变换和模型相关的攻击等。在这项工作中,我们发现现有的对抗性攻击有一些微小的变化可以显着影响攻击性能,例如迭代次数和步长。基于对现有对抗性攻击的仔细研究,我们提出了一系列增强对抗性可转移性的技巧,包括动量初始化、预定步长、对偶示例、基于谱的输入变换和几种集成策略。在 ImageNet 数据集上进行的大量实验验证了我们提出的技巧的高效性,并表明将它们结合起来可以进一步提高对抗性可迁移性。Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks
Authors Chenyu Zhang, Lanjun Wang, Anan Liu
文本到图像模型的最新发展,特别是稳定扩散,在各种应用中取得了重大成就。随着这些进步,人们越来越担心恶意实体利用模型的漏洞来生成有针对性的有害图像。然而,模型漏洞的现有方法主要评估提示图像和生成图像之间的对齐情况,但不足以揭示与目标图像生成相关的漏洞。在这项研究中,我们提出了对稳定扩散进行有针对性的对抗性攻击的问题,并提出了一个生成对抗性提示的框架。具体来说,我们设计了一种基于梯度的嵌入优化方法来制作可靠的对抗性提示,引导稳定扩散生成特定图像。此外,在获得成功的对抗提示后,我们揭示了导致模型漏洞的机制。对两个定向攻击任务的大量实验证明了我们的方法在定向攻击中的有效性。Unsupervised Pre-Training for 3D Leaf Instance Segmentation
Authors Gianmarco Roggiolani, Federico Magistri, Tiziano Guadagnino, Jens Behley, Cyrill Stachniss
食品、饲料、纤维和燃料作物是我们社会的重要自然资源。监测植物并测量其性状是农业中的一项重要任务,通常称为植物表型分析。传统上,这项任务是手动完成的,既费时又费力。机器人可以自动进行表型分析,提供可重复的高频测量。当今的感知系统使用深度学习来解释这些测量结果,但需要大量带注释的数据才能正常工作。获得此类标签具有挑战性,因为它通常需要贴标机方面的背景知识。本文解决了减少在 3D 点云上执行叶子实例分割所需的标记工作的问题,这是迈向 3D 表型分析的第一步。分离所有叶子可以让我们对它们进行计数并计算相关特征,如它们的面积、长度和宽度。我们提出了一种新颖的自监督任务特定预训练方法来初始化用于叶实例分割的网络主干。我们还引入了一种新颖的自动后处理,该处理考虑了正确分割靠近茎的点的难度,其中所有叶子叶柄都重叠。本文中提出的实验表明,我们的方法提高了所有研究场景的性能。NODI: Out-Of-Distribution Detection with Noise from Diffusion
Authors Jingqiu Zhou, Aojun Zou, Hongshen Li
分发外 OOD 检测是安全部署机器学习模型的关键部分。人们已经通过文献中开发的大量方法对其进行了广泛的研究。这个问题可以通过 OOD 分数计算来解决,但是,以前的方法在计算 OOD 分数时对分布数据集的使用有限。例如,OOD 分数是使用来自分布数据的一小部分的信息来计算的。此外,这些方法使用神经图像编码器对图像进行编码。很少针对不同训练方法和架构的图像编码器检查这些方法的鲁棒性。在这项工作中,我们将扩散过程引入到 OOD 任务中。扩散模型将整个训练集的信息集成到预测的噪声向量中。更重要的是,我们推导了噪声向量稳定点 的闭式解。然后将噪声向量转换为我们的 OOD 分数,我们在引用 openood 的 OOD 基准测试上测试深度模型预测的噪声向量和封闭形式的噪声向量。我们的方法在所有类型的图像编码器中都优于以前的 OOD 方法。参考主要。基于 MAE 的图像编码器实现了 3.5 倍的性能增益。此外,我们通过应用不同类型的图像编码器研究了 OOD 方法的鲁棒性。DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception
Authors Kai Jiang, Jiaxing Huang, Weiying Xie, Yunsong Li, Ling Shao, Shijian Lu
仅摄像头鸟瞰 BEV 在 3D 空间环境感知方面展示了巨大潜力。然而,大多数现有研究都是在监督设置下进行的,在处理各种新数据时无法很好地扩展。无监督域自适应 BEV 可以有效地从各种未标记的目标数据中学习,但目前尚未得到探索。在这项工作中,我们设计了 DA BEV,这是第一个仅域自适应相机的 BEV 框架,它通过利用图像视图功能和 BEV 功能的互补性质来解决域自适应 BEV 挑战。 DA BEV 将查询的思想引入域适应框架中,以从图像视图和 BEV 特征中获取有用的信息。它由两种基于查询的设计组成,即基于查询的对抗性学习 QAL 和基于查询的自训练 QST,它利用图像视图特征或 BEV 特征来规范另一个的适应。Attention Modules Improve Modern Image-Level Anomaly Detection: A DifferNet Case Study
Authors Andr Luiz B. Vieira e Silva, Francisco Sim es, Danny Kowerko, Tobias Schlosser, Felipe Battisti, Veronica Teichrieb
在半自动视觉检测中,基于学习的视觉缺陷评估方法(包括深度神经网络)能够处理高分辨率图像上像素大小的小缺陷图案。这些通常很少出现的缺陷模式的出现解释了对标记数据语料库的普遍需求。为了不仅缓解这个问题,而且进一步推进无监督视觉检测的最新技术水平,本文提出了一种基于 DifferNet 的解决方案,该解决方案通过利用 SENet 和 CBAM 作为骨干 AttentDifferNet 的注意力模块进行增强,以提高三种不同视觉的检测和分类能力检查和异常检测数据集 MVTec AD、InsPLAD 故障和半导体晶圆。与当前的最新技术相比,AttentDifferNet 取得了改进的结果,这反过来又在我们的定量和定性评估中得到了强调,AUC 总体改善为 94.34 vs. 92.46、96.67 vs. . 94.69 和 90.20 对比 88.74SAiD: Speech-driven Blendshape Facial Animation with Diffusion
Authors Inkyu Park, Jaewoong Cho
尽管进行了广泛的研究,但由于大规模视觉音频数据集的稀缺,语音驱动的 3D 面部动画仍然具有挑战性。大多数先前的工作通常侧重于使用最小二乘法在小数据集上学习回归模型,在从语音生成不同的嘴唇运动时遇到困难,并且需要付出大量努力来细化生成的输出。为了解决这些问题,我们提出了一种带有扩散模型 SAiD 的语音驱动 3D 面部动画,SAiD 是一种基于 Transformer 的轻量级 U Net,具有音频和视觉之间的跨模态对齐偏差,以增强唇形同步。此外,我们引入了 BlendVOCA,这是一个由语音音频对和 Blendshape 面部模型参数组成的基准数据集,以解决公共资源的稀缺问题。One-Step Diffusion Distillation via Deep Equilibrium Models
Authors Zhengyang Geng, Ashwini Pokle, J. Zico Kolter
扩散模型擅长生成高质量样本,但天真地需要数百次迭代,促使多次尝试将生成过程提炼成更快的网络。然而,许多现有方法面临着各种挑战,蒸馏训练的过程可能很复杂,通常需要多个训练阶段,并且所得模型在单步生成应用中使用时表现不佳。在本文中,我们介绍了一种简单而有效的方法,可以直接从初始噪声中提取扩散模型到结果图像。我们的方法特别重要的是利用新的深度均衡 DEQ 模型作为生成均衡变压器 GET 的蒸馏架构。我们的方法可以仅使用扩散模型中的噪声图像对进行完全离线训练,同时与现有的一步方法相比,在可比较的训练预算上实现了卓越的性能。我们证明了 DEQ 架构对于此功能至关重要,因为 GET 在 FID 分数方面与大 5 倍的 ViT 相匹配,同时在计算成本和图像质量之间取得了关键平衡。Creating Visual Effects with Neural Radiance Fields
Authors Cyrus Vachha
我们提出了一个使用 Nerfstudio 将 NeRF 集成到传统合成 VFX 管道中的管道,Nerfstudio 是一个用于训练和渲染 NeRF 的开源框架。我们的方法涉及使用 Blender(一种广泛使用的开源 3D 创建软件)来对齐摄像机路径并将 NeRF 渲染与网格和其他 NeRF 进行合成,从而将 NeRF 无缝集成到传统 VFX 管道中。我们的 NeRF Blender 插件允许更受控的逼真场景相机轨迹,使用 NeRF 合成网格和其他环境效果,以及在单个场景中合成多个 NeRF。这种生成 NeRF 对齐相机路径的方法可以适应其他 3D 工具集和工作流程,使 NeRF 能够更加无缝地集成到视觉效果和电影制作中。Immature Green Apple Detection and Sizing in Commercial Orchards using YOLOv8 and Shape Fitting Techniques
Authors Ranjan Sapkota, Dawood Ahmed, Martin Churuvija, Manoj Karkee
在生长的早期阶段检测和估计苹果的大小对于预测产量、害虫管理以及做出与作物负荷管理、收获和收获后物流以及营销相关的明智决策至关重要。传统的水果尺寸测量方法既费力又费时。本研究采用最先进的 YOLOv8 对象检测和实例分割算法,结合 3D 点云数据的几何形状拟合技术,准确确定商业果园环境中未成熟青苹果或果实的大小。该方法利用了两个 RGB D 传感器:Intel RealSense D435i 和 Microsoft Azure Kinect DK。值得注意的是,YOLOv8 实例分割模型在未成熟青苹果检测方面表现出了出色的能力,其中 YOLOv8m seg 模型获得了最高的 AP 0.5 和 AP 0.75 分数,分别为 0.94 和 0.91。利用 Azure Kinect 图像上的椭球拟合技术,我们观察到了显着的指标,包括 RMSE 为 2.35、MAE 为 1.66、MAPE 为 6.15 以及 R 平方值为 0.9。人们认识到了部分遮挡等挑战,其中 YOLOv8 有时会误解未成熟的青苹果簇。在对 102 个户外样本的比较中,Microsoft Azure Kinect 显示出比 Intel Realsense D435i 更好的性能,这一点得到了 MAE 数据的支持。Online Anomaly Detection over Live Social Video Streaming
Authors Chengkun He, Xiangmin Zhou, Chen Wang, Iqbal Gondal, Jie Shao, Xun Yi
社交视频异常是视频流中的观察结果,不符合数据集行为的常见模式。社交视频异常检测在从电子商务到电子学习的应用中发挥着至关重要的作用。传统上,异常检测技术用于发现视频广播中的异常。然而,他们忽视了实时社交视频流,其中包含与观众的互动谈话、演讲或讲座。在本文中,我们提出了一个通用框架,用于有效地在线检测社交视频实时流 AOVLIS 上的异常。具体来说,我们提出了一种称为耦合长短期记忆 CLSTM 的新型深度神经网络模型,它自适应地捕获演示者和观众的历史行为以及他们的相互交互,以预测他们在流中下一个时间点的行为。然后我们将 CLSTM 与解码器层很好地集成,并提出了一种新的基于重建误差的评分函数 RE IA 来计算每个视频片段的异常分数以进行异常检测。之后,我们提出了一种新颖的模型更新方案,增量维护 CLSTM 和解码器。此外,我们设计了一种新颖的上限和自适应优化策略 ADOS,以提高我们解决方案的效率。F4D: Factorized 4D Convolutional Neural Network for Efficient Video-level Representation Learning
Authors Mohammad Al Saad, Lakshmish Ramaswamy, Suchendra Bhandarkar
最近的研究表明,视频级表示学习对于捕获和理解视频动作识别的长范围时间结构至关重要。大多数现有的基于 3D 卷积神经网络 CNN 的视频级表示学习方法都是基于剪辑的,并且仅关注短期运动和外观。这些基于 CNN 的方法缺乏对底层视频的长距离时空表示进行合并和建模的能力,并且在训练期间忽略了长距离视频级别的上下文。在这项研究中,我们提出了一种具有注意力 F4D 的分解 4D CNN 架构,能够学习更有效、更细粒度的长期时空视频表示。我们证明,与文献中提出的传统 2D 和 3D CNN 架构相比,所提出的 F4D 架构具有显着的性能改进。SAM4UDASS: When SAM Meets Unsupervised Domain Adaptive Semantic Segmentation in Intelligent Vehicles
Authors Weihao Yan, Yeqiang Qian, Xingyuan Chen, Hanyang Zhuang, Chunxiang Wang, Ming Yang
语义分割在使智能车辆理解周围环境方面发挥着至关重要的作用。然而,由于缺乏用于训练的标记数据,基于深度学习的方法通常在域转移场景中表现不佳。无监督域适应 UDA 技术的出现可以弥补不同驾驶场景之间的差距,并增强模型在未标记目标环境中的性能。尽管自训练 UDA 方法已经取得了最先进的结果,但生成精确伪标签的挑战仍然存在。这些伪标签倾向于支持大多数类别,从而牺牲了稀有类别或交通灯和标志等小对象的性能。为了应对这一挑战,我们引入了 SAM4UDASS,这是一种新颖的方法,它将分段任何模型 SAM 纳入自训练 UDA 方法中,以精炼伪标签。它涉及语义引导掩码标签,它使用 UDA 伪标签将语义标签分配给未标记的 SAM 掩码。此外,我们设计了融合策略,旨在减轻 SAM 掩码和目标域之间的语义粒度不一致。 SAM4UDASS 创新地将 SAM 与 UDA 集成,用于驾驶场景中的语义分割,并无缝补充现有的自训练 UDA 方法。对合成到真实以及正常到不良驾驶数据集的广泛实验证明了其有效性。使用 DAFormer 时,它为 GTA5 到 Cityscapes、SYNTHIA 到 Cityscapes 以及 Cityscapes 到 ACDC 带来了超过 3 mIoU 的增益,并在使用 MIC 时实现了 SOTA。An annotated grain kernel image database for visual quality inspection
Authors Lei Fan, Yiwen Ding, Dongdong Fan, Yong Wu, Hongxia Chu, Maurice Pagnucco, Yang Song
我们提出了一个名为 GrainSet 的基于机器视觉的数据库,用于谷物籽粒的视觉质量检查。该数据库包含超过 350K 个带有专家注释的单核图像。研究中使用的谷物颗粒由小麦、玉米、高粱和大米四种谷物组成,采集自 5 个国家的 20 多个地区。每个谷粒的表面信息由我们定制的配备高分辨率光学传感器单元的设备捕获,相应的采样信息和注释包括由高级检验员提供的收集位置和时间、形态、物理尺寸、重量和损坏不健全谷物类别。此外,我们采用了常用的深度学习模型来提供分类结果作为基准。NutritionVerse-Real: An Open Access Manually Collected 2D Food Scene Dataset for Dietary Intake Estimation
Authors Chi en Amy Tai, Saeejith Nair, Olivia Markham, Matthew Keller, Yifan Wu, Yuhao Chen, Alexander Wong
膳食摄入量估算在了解个人和人群的营养习惯方面发挥着至关重要的作用,有助于预防和管理与饮食相关的健康问题。准确的估计需要全面的食物场景数据集,包括图像、分割掩模和随附的饮食摄入元数据。在本文中,我们介绍了 NutritionVerse Real,这是一个开放获取的手动收集的 2D 食物场景数据集,用于估计饮食摄入量,其中包含 251 种不同菜肴和 45 种独特食物类型的 889 张图像。 NutritionVerse Real 数据集是通过手动收集现实生活中食物场景的图像、测量每种成分的重量并使用食品包装或加拿大营养文件中的成分重量和营养信息计算每道菜的相关膳食含量来创建的。然后通过对图像进行人工标记来生成分割掩模。我们对数据多样性进行进一步分析,以突出使用这些数据开发膳食摄入量估计模型时的潜在偏差。 Automatic measurement of coverage area of water-based pesticides-surfactant formulation on plant leaves using deep learning tools
Authors Fabio Grazioso, Anzhelika A. Atsapina, Gardoon L. O. Obaeed, Natalia A. Ivanova
提出了一种有效、定量地研究农药表面活性剂制剂在水溶液中在植物叶子上的传递的方法。不是测量接触角,而是使用叶子湿润面积的表面作为关键参数。为了实现这一目标,我们对深度学习模型进行了训练和测试,以自动测量黄瓜叶子上被水溶液湿润的区域的表面,并处理视频片段的帧。我们已经将现有的深度学习模型个性化,并在其他应用的文献中进行了报道,并将其应用于这项不同的任务。我们介绍了测量技术、深度学习模型的一些细节、训练过程及其图像分割性能。Improved Pothole Detection Using YOLOv7 and ESRGAN
Authors Nirmal Kumar Rout, Gyanateet Dutta, Varun Sinha, Arghadeep Dey, Subhrangshu Mukherjee, Gopal Gupta
坑洼是常见的道路危险,会造成车辆损坏并给驾驶员带来安全风险。卷积神经网络的引入CNN在业界广泛应用于基于深度学习方法的目标检测,并在硬件改进和软件实现方面取得了重大进展。在本文中,提出了一种独特的更好算法,以保证使用低分辨率相机或低分辨率图像和视频源,通过超分辨率生成对抗网络 SRGAN 使用超分辨率 SR 进行自动坑洞检测。然后,我们继续使用 You Only Look Once YOLO 网络(即 YOLOv7 网络)在低质量和高质量行车记录仪图像上建立基线坑洞检测性能。Automatic extraction and 3D reconstruction of split wire from point cloud data based on improved DPC algorithm
Authors Jia Cheng
为了解决DPC算法改进的点云数据分割问题,提出了点云数据分割线自动分离与3D重建的研究。首先计算浊点中各点的相对坐标。其次,计划开发一种基于相对集成的DPC群算法,用于分析分隔线的数量以确定云内容中的所有部分。最后,使用最小二乘法拟合每个分隔符。铁。Nahid: AI-based Algorithm for operating fully-automatic surgery
Authors Sina Saadati
在本文中,首次提出了一种基于软件和计算机视觉技术提供全自动手术的方法。然后,研究了医疗手术计算机化的优势和挑战。最后,对与孤立性卵巢子宫内膜异位症相关的手术进行了检查,并基于所提出的方法,提出了一种更详细的算法,能够在手术期间自动诊断和治疗这种疾病,作为我们提出的方法的证明,其中 U 网为Temporal Embeddings: Scalable Self-Supervised Temporal Representation Learning from Spatiotemporal Data for Multimodal Computer Vision
Authors Yi Cao, Swetava Ganguli, Vipul Pandey
地理空间活动时间模式与土地利用类型之间存在相关性。提出了一种新颖的自监督方法,根据移动活动时间序列对景观进行分层。首先,时间序列信号被变换到频域,然后通过收缩自动编码器压缩为与任务无关的时间嵌入,这保留了时间序列中观察到的循环时间模式。像素级嵌入被转换为类似图像的通道,可用于使用深度语义分割对下游地理空间任务进行基于任务的多模态建模。实验表明,时间嵌入是时间序列数据的语义上有意义的表示,并且在不同的任务(例如对住宅区和商业区进行分类)中有效。时间嵌入将顺序的时空运动轨迹数据转换为语义上有意义的图像(如张量表示),可以将多模态融合与其他数据模态相结合,这些数据模态是或可以被动地转换为图像张量表示,例如 RBG 图像、道路网络的图嵌入收集 SAR 等图像,以促进地理空间计算机视觉中的多模态学习。Curve-based Neural Style Transfer
Authors Yu hsuan Chen, Levent Burak Kara, Jonathan Cagan
这项研究提出了一种新的参数化风格转换框架,专门为基于曲线的设计草图而设计。在本研究中,通过利用参数化形状编辑规则、高效的曲线到像素转换技术以及 ImageNet Sketch 上的 VGG19 微调,有效解决了神经风格迁移方法在处理二进制草图变换时面临的传统挑战,增强了其作为用于精确风格提取的特征金字塔网络。Diverse Part Synthesis for 3D Shape Creation
Authors Yanran Guan, Oliver van Kaick
使用神经网络以基于零件的表示形式合成 3D 形状的方法在过去几年中已被引入。这些方法将形状表示为图形或零件层次结构,并支持各种应用,例如形状采样和重建。然而,当前的方法不允许根据用户偏好轻松地重新生成各个形状部分。在本文中,我们研究了允许用户为各个部件生成多个不同建议的技术。具体来说,我们试验了多模态深度生成模型,该模型允许对形状零件的不同建议进行采样,并重点关注先前形状合成工作中未考虑的模型。为了对这些技术进行比较研究,我们引入了一种在基于零件的表示中合成 3D 形状的方法,并评估了该合成方法中的所有零件建议技术。在我们的方法中,受到之前工作的启发,形状被表示为一组隐式函数形式的部件,然后将它们放置在空间中以形成最终的形状。这种表示形式的综合是通过基于隐式解码器和空间变换器的神经网络架构实现的。我们通过评估各种多模态生成模型在生成零件建议方面的性能来比较它们。我们的贡献是通过定性和定量评估来展示哪些多模态零件生成新技术表现最好,并且基于顶级性能技术的合成方法允许用户更精细地控制以 3D 形状生成的零件,同时To deform or not: treatment-aware longitudinal registration for breast DCE-MRI during neoadjuvant chemotherapy via unsupervised keypoints detection
Authors Luyi Han, Tao Tan, Tianyu Zhang, Yuan Gao, Xin Wang, Valentina Longo, Sof a Ventura D az, Anna D Angelo, Jonas Teuwen, Ritse Mann
临床医生将新辅助化疗 NAC 后的乳腺 DCE MRI 与治疗前扫描进行比较,以评估对 NAC 的反应。临床证据支持,在不使治疗的肿瘤区域变形的情况下准确的纵向可变形配准是量化肿瘤变化的关键。我们提出了一种基于无监督关键点检测和选择性体积保留的条件金字塔配准网络,以量化随时间的变化。在该方法中,我们从DCE MRI中提取结构和异常关键点,将结构关键点应用于配准算法以限制大变形,并基于异常关键点采用体积保持损失以保持配准后肿瘤体积不变。我们使用的临床数据集包含 314 名接受 NAC 治疗的患者的 1630 次 MRI 扫描。结果表明,我们的方法具有更好的性能和更好的肿瘤体积保存。此外,基于该方法的局部全局组合生物标志物在病理完全缓解 pCR 预测中实现了高精度,表明预测信息存在于肿瘤区域之外。这些生物标志物有可能用于避免某些患者不必要的手术。对于临床医生和/或计算机系统对通过我们的方法注册的图像进行后续肿瘤分割和反应预测可能是有价值的。A gradient-based approach to fast and accurate head motion compensation in cone-beam CT
Authors Mareike Thies, Fabian Wagner, Noah Maul, Haijun Yu, Manuela Meier, Linda Sophie Schneider, Mingxuan Gu, Siyuan Mei, Lukas Folle, Andreas Maier
锥形束计算机断层扫描 CBCT 系统凭借其便携性,为直接护理点医学成像提供了一条有前途的途径,特别是在急性中风评估等关键情况下。然而,将 CBCT 集成到临床工作流程中面临挑战,主要与长扫描持续时间有关,导致扫描期间患者运动并导致重建体积中的图像质量下降。本文介绍了一种使用基于梯度的优化算法进行 CBCT 运动估计的新方法,该算法利用锥束 CT 几何形状的反投影算子的广义导数。在此基础上,制定了一个完全可微的目标函数,该函数对重建空间中当前运动估计的质量进行分级。我们极大地加速了运动估计,与现有方法相比,速度提高了 19 倍。此外,我们研究了用于质量度量回归的网络体系结构,并提出预测体素质量图,支持像自动编码器这样的体系结构而不是收缩体系结构。此修改改进了梯度流,从而实现更准确的运动估计。通过头部解剖学的真实实验来评估所提出的方法。运动补偿后,它可将重投影误差从最初的平均 3 毫米减少到 0.61 毫米,并始终表现出比现有方法更优越的性能。作为所提出方法的核心的反投影运算的解析雅可比行列式是公开的。An Efficient Generalizable Framework for Visuomotor Policies via Control-aware Augmentation and Privilege-guided Distillation
Authors Yinuo Zhao, Kun Wu, Tianjiao Yi, Zhiyuan Xu, Xiaozhu Ju, Zhengping Che, Qinru Qiu, Chi Harold Liu, Jian Tang
视觉运动策略直接从高维视觉观察中学习控制机制,在适应具有复杂视觉变化的新环境方面面临着挑战。数据增强成为一种通过丰富数据多样性来弥合这些泛化差距的有前途的方法。然而,直接增强整个观察结果会给政策学习带来过多的负担,甚至可能导致性能下降。在本文中,我们建议从两个方面提高视觉运动策略的泛化能力并保持训练稳定性1我们通过具有三个辅助损失的自监督重建任务学习控制感知掩模,然后仅对那些不相关的控制应用强增强基于掩模的区域以减少泛化差距。 2 为了解决视觉强化学习 RL 中普遍存在的训练不稳定问题,我们将处理低级环境状态的预训练 RL 专家的知识提炼为学生视觉运动策略。该策略随后被部署到未见过的环境中,无需任何进一步的微调。我们对各种基准进行了比较和消融研究,包括 DMControl 泛化基准 DMC GB、增强型机器人操作分心基准 RMDB 以及专门的长水平抽屉打开机器人任务。Unsupervised Multiple Domain Translation through Controlled Disentanglement in Variational Autoencoder
Authors Almud var Antonio, Mariotte Th o, Ortega Alfonso, Tahon Marie
无监督多域翻译是一种将数据从一个域转换到其他域的任务,无需配对数据来训练系统。通常,基于生成对抗网络 GAN 的方法用于解决此任务。然而,我们的建议完全依赖于变分自动编码器的修改版本。这种修改包括使用通过设计以受控方式解开的两个潜在变量。这些潜在变量之一被强加为完全依赖于域,而另一个必须依赖于数据的其余可变性因素。此外,对域潜在变量施加的条件可以更好地控制和理解潜在空间。我们凭经验证明我们的方法适用于不同的视觉数据集,提高了其他众所周知方法的性能。DK-SLAM: Monocular Visual SLAM with Deep Keypoints Adaptive Learning, Tracking and Loop-Closing
Authors Hao Qu, Lilian Zhang, Jun Mao, Junbo Tie, Xiaofeng He, Xiaoping Hu, Yifei Shi, Changhao Chen
手工特征中不可靠的特征提取和匹配削弱了视觉 SLAM 在复杂现实场景中的性能。虽然利用 CNN 学习局部特征,表现出捕获高级信息的能力并擅长匹配基准,但它们在连续运动场景中遇到挑战,导致泛化能力较差并影响循环检测准确性。为了解决这些问题,我们提出了 DK SLAM,一种具有自适应深度局部特征的单目视觉 SLAM 系统。 MAML 优化了这些特征的训练,我们引入了从粗到细的特征跟踪方法。最初,直接方法近似连续帧之间的相对姿势,然后采用特征匹配方法进行精细姿势估计。为了对抗累积定位误差,一种新颖的基于在线学习二进制特征的在线闭环模块识别序列内的循环节点。Relative Pose for Nonrigid Multi-Perspective Cameras: The Static Case
Authors Min Li, Jiaqi Yang, Laurent Kneip
具有潜在不重叠视场的多视角相机已成为智能车辆、无人机和混合现实耳机等许多应用中重要的外感受传感方式。在这项工作中,我们挑战了在这些场景中做出的基本假设之一,即多摄像头装备是刚性的。更具体地说,我们正在考虑估计不同空间方向的静态非刚性装备之间的相对位姿的问题,同时考虑重力对系统的影响。每个相机和身体中心之间的可变形物理连接通过简单的悬臂模型来近似,并插入广义极线约束中。我们的结果使我们得出重要的见解,即变形模型的潜在参数(即两个视图中的重力矢量)变得可观察到。我们根据两种不同算法的噪声、异常值和钻机刚性,对所有变量的可观测性进行了简明分析。第一个是仅视觉替代方案,而第二个则利用额外的重力测量。PIN-SLAM: LiDAR SLAM Using a Point-Based Implicit Neural Representation for Achieving Global Map Consistency
Authors Yue Pan, Xingguang Zhong, Louis Wiesmann, Thorbj rn Posewsky, Jens Behley, Cyrill Stachniss
准确而强大的定位和地图绘制是大多数自主机器人的重要组成部分。在本文中,我们提出了一种用于构建全局一致地图的 SLAM 系统,称为 PIN SLAM,该系统基于弹性且紧凑的点隐式神经地图表示。以范围测量作为输入,我们的方法在局部隐式带符号距离场的增量学习和使用无对应的点到隐式模型注册给定当前局部地图的姿态估计之间交替。我们的隐式地图基于稀疏可优化神经点,这些神经点本质上是弹性的,并且在闭环时可随着全局姿态调整而变形。还使用神经点特征来检测循环。大量实验验证了 PIN SLAM 对于各种环境都具有鲁棒性,并且适用于不同范围的传感器,例如 LiDAR 和 RGB D 相机。 PIN SLAM 可以更好地实现姿态估计精度,或者与最先进的 LiDAR 里程计或 SLAM 系统相当,并且优于最近的神经隐式 SLAM 方法,同时保持更一致、高度紧凑的隐式地图,可以将其重建为准确和完整的网格。最后,得益于用于高效神经点索引的体素散列和基于隐式地图的快速配准(无需最近点关联),PIN SLAM 可以在中等 GPU 上以传感器帧速率运行。Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding
Authors Depeng Li, Tianqi Wang, Junwei Chen, Qining Ren, Kenji Kawaguchi, Zhigang Zeng
当深度神经网络接受顺序任务训练时,很容易出现灾难性遗忘。各种持续学习 CL 方法通常依赖于样本缓冲区或网络扩展来平衡模型稳定性和可塑性,然而,由于隐私和内存问题,这损害了它们的实用价值。相反,本文考虑了严格而现实的设置,其中先前任务的训练数据不可用,并且模型大小在顺序训练期间保持相对恒定。为了实现这种愿望,我们提出了一种概念上简单但有效的方法,将遗忘归因于逐层参数覆盖和由此产生的决策边界失真。这是通过两个关键组件之间的协同作用实现的:HSIC 瓶颈正交化 HBO 在正交空间中实现由 Hilbert Schmidt 独立准则介导的非重写参数更新,而 EquiAngular Embedding EAE 通过预定义的基础向量增强了新旧任务之间的决策边界适应。Autonomous Catheterization with Open-source Simulator and Expert Trajectory
Authors Tudor Jianu, Baoru Huang, Tuan Vo, Minh Nhat Vu, Jingxuan Kang, Hoan Nguyen, Olatunji Omisore, Pierre Berthet Rayne, Sebastiano Fichera, Anh Nguyen
血管内机器人在学术界和工业界都得到了积极的发展。然而,自主导管插入术的进展常常受到闭源模拟器和物理模型的广泛使用的阻碍。此外,由于昂贵的医疗程序,获取大规模数据集以使用血管内机器人训练机器学习算法通常是不可行的。在本章中,我们介绍 CathSim,这是第一个用于血管内介入的开源模拟器,旨在解决这些局限性。 CathSim 强调实时性能,以实现学习算法的快速开发和测试。我们针对真实机器人验证了 CathSim,并表明我们的模拟器可以成功模仿真实机器人的行为。基于CathSim,我们开发了多模态专家导航网络,并证明了其在下游血管内导航任务中的有效性。密集的实验结果表明,CathSim 有潜力显着加速自主导管插入领域的研究。Change Detection Between Optical Remote Sensing Imagery and Map Data via Segment Anything Model (SAM)
Authors Hongruixuan Chen, Jian Song, Naoto Yokoya
无监督多模式变化检测对于时间敏感任务和全面的多时态地球监测至关重要。在本研究中,我们探索了两个关键遥感数据源光学高分辨率图像和 OpenStreetMap OSM 数据之间的无监督多模态变化检测。具体来说,我们建议利用视觉基础模型 Segmentation Anything Model SAM 来解决我们的任务。利用 SAM 卓越的零镜头传输能力,可以获得高质量的光学图像分割图。因此,我们可以在所谓的分段域中直接比较这两种异构数据形式。然后我们介绍两种指导 SAM 分割过程的策略:无提示和框掩模提示方法。这两种策略旨在分别检测一般场景中的土地覆盖变化并识别现有背景下的新土地覆盖对象。Attack and Reset for Unlearning: Exploiting Adversarial Noise toward Machine Unlearning through Parameter Re-initialization
Authors Yoonhwa Jung, Ikhyun Cho, Shun Hsiang Hsu, Julia Hockenmaier
随着人们对隐私和监管合规性的担忧日益增加,机器遗忘的概念越来越受到重视,旨在有选择地忘记或删除训练模型中特定的学习信息。为了满足这一关键需求,我们引入了一种名为 Attack and Reset for Unlearning ARU 的新颖方法。该算法利用精心设计的对抗性噪声来生成参数掩码,有效地重置某些参数并使它们无法学习。 ARU 在两个面部机器学习基准数据集 MUFAC 和 MUCAC 上的表现优于当前最先进的结果。特别是,我们提出了攻击和屏蔽所涉及的步骤,这些步骤战略性地过滤和重新初始化偏向于遗忘集的网络参数。Subwavelength Imaging using a Solid-Immersion Diffractive Optical Processor
Authors Jingtian Hu, Kun Liao, Niyazi Ulas Dinc, Carlo Gigli, Bijie Bai, Tianyi Gan, Xurong Li, Hanlong Chen, Xilin Yang, Yuhang Li, Cagatay Isil, Md Sadman Sakib Rahman, Jingxi Li, Xiaoyong Hu, Mona Jarrahi, Demetri Psaltis, Aydogan Ozcan
相位成像广泛应用于生物医学成像、传感和材料表征等领域。然而,具有亚波长分辨率的相位物体的直接成像仍然是一个挑战。在这里,我们演示了基于全光学衍射编码和解码的相位和幅度物体的亚波长成像。为了解析物体的亚波长特征,衍射成像仪使用薄的高折射率固体浸没层将物体的高频信息传输到空间优化的衍射编码器,该编码器将输入的高频信息编码转换为低频空间模式通过空气传播。随后的空气中的衍射解码器层使用基于深度学习的优化与编码器联合设计,并与编码器层通信以在其输出处创建输入对象的放大图像,揭示亚波长特征,否则这些特征将因衍射极限而被冲走。我们证明,衍射固体浸没编码器和空气中的后续解码器层之间的这种全光学协作可以在高度紧凑的设计中解析输入对象的亚波长相位和幅度特征。为了通过实验证明其概念证明,我们使用太赫兹辐射并开发了一种用于创建单片多层衍射处理器的制造方法。通过这些单片制造的衍射编码器解码器对,我们通过直接将输入对象的相位特征转换为放大的强度特征来演示输入对象的相位到强度变换和所有光学重建的亚波长相位特征。Idempotence and Perceptual Image Compression
Authors Tongda Xu, Ziran Zhu, Dailan He, Yanghao Li, Lina Guo, Yuanyuan Wang, Zhe Wang, Hongwei Qin, Yan Wang, Jingjing Liu, Ya Qin Zhang
幂等性是图像编解码器重新压缩的稳定性。乍一看,它与感知图像压缩无关。然而,我们发现理论上 1 基于条件生成模型的感知编解码器满足幂等性 2 带幂等约束的无条件生成模型等效于条件生成编解码器。基于这种新发现的等价性,我们通过反转具有幂等约束的无条件生成模型,提出了一种新的感知图像编解码器范式。我们的编解码器理论上相当于条件生成编解码器,并且不需要训练新模型。相反,它只需要预先训练的均方误差编解码器和无条件生成模型。根据经验,我们表明,就 Fr chet Inception Distance FID 而言,我们提出的方法优于 HiFiC 和 ILLM 等最先进的方法。Evaluating the Utility of Conformal Prediction Sets for AI-Advised Image Labeling
Authors Dongping Zhang, Angelos Chatzimparmpas, Negar Kamali, Jessica Hullman
由于深度神经网络更普遍地部署在高风险领域,它们缺乏可解释性使得不确定性量化变得具有挑战性。我们研究了提出保形预测集 unicode x2013 的效果,该方法用于在无分布不确定性量化 unicode x2013 中生成有效置信集,以表达人工智能建议决策中的不确定性。通过大型预注册实验,我们比较了保形预测集与 AI 建议图像标记的 Top 1 和 Top k 预测的显示的实用性。我们发现,预测集的准确性随任务难度的不同而变化,而对于简单图像来说,它们的准确性相当于或低于 Top 1 和 Top k 显示,预测集擅长帮助人类标记分布外的 OOD图像,尤其是当设置尺寸较小时。RIDGE: Reproducibility, Integrity, Dependability, Generalizability, and Efficiency Assessment of Medical Image Segmentation Models
Authors Farhad Maleki, Linda Moy, Reza Forghani, Tapotosh Ghosh, Katie Ovens, Steve Langer, Pouria Rouzrokh, Bardia Khosravi, Ali Ganjizadeh, Daniel Warren, Roxana Daneshjou, Mana Moassefi, Atlas Haddadi Avval, Susan Sotardi, Neil Tenenholtz, Felipe Kitamura, Timothy Kline
深度学习技术尽管具有潜力,但往往缺乏可重复性和普遍性,阻碍了其临床应用。图像分割是医学图像分析中的关键任务之一,其中应注释一个或多个感兴趣的区域体积。本文介绍了 RIDGE 检查表,这是一个用于评估基于深度学习的医学图像分割模型的可重复性、完整性、可靠性、通用性和效率的框架。AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media
Authors Alessandro Gambetti, Qiwei Han
用户生成内容 UGC 形式的在线评论显着影响消费者的决策。然而,普遍存在的人类虚假内容和机器生成内容的问题都对 UGC 的可靠性提出了挑战。大型语言模型法学硕士的最新进展可能为以低得多的成本制造难以区分的虚假生成内容铺平道路。利用 OpenAI 的 GPT 4 Turbo 和 DALL E 2 模型,我们制作了 AiGen FoodReview,这是一个包含 20,144 个餐厅评论图像对的多模态数据集,分为真实的和机器生成的。我们探索单模态和多模态检测模型,利用 FLAVA 实现了 99.80 的多模态准确率。我们使用可读性和摄影理论的属性分别对评论和图像进行评分,证明它们在可扩展和可解释的检测模型中作为手工制作的特征的实用性,并且具有可比的性能。MMToM-QA: Multimodal Theory of Mind Question Answering
Authors Chuanyang Jin, Yutong Wu, Jing Cao, Jiannan Xiang, Yen Ling Kuo, Zhiting Hu, Tomer Ullman, Antonio Torralba, Joshua B. Tenenbaum, Tianmin Shu
心智理论 ToM,即理解人们思想的能力,是开发具有人类水平社交智能的机器的重要组成部分。最近的机器学习模型,特别是大型语言模型,似乎显示了 ToM 理解的某些方面。然而,现有的 ToM 基准使用视频或文本的单峰数据集。另一方面,人类 ToM 不仅仅是视频或文本理解。人们可以根据概念表征灵活地推断他人的想法,例如从任何可用数据中提取的目标、信念、计划,其中可以包括视觉线索、语言叙述或两者兼而有之。为了解决这个问题,我们引入了多模态心理理论问答 MMToM QA 基准。 MMToM QA 根据多模态数据和有关家庭环境中个人活动的不同类型的单模态数据来全面评估机器 ToM。为了设计多模态 ToM 能力,我们提出了一种新方法,即由语言模型加速的 BIP ALM 贝叶斯逆向规划。 BIP ALM 从多模态数据中提取统一表示,并利用语言模型进行可扩展的贝叶斯逆向规划。我们对人类表现、BIP ALM 和最先进的模型(包括 GPT 4)进行了系统比较。实验表明,大型语言模型和大型多模态模型仍然缺乏强大的 ToM 能力。Bayes Conditional Distribution Estimation for Knowledge Distillation Based on Conditional Mutual Information
Authors Linfeng Ye, Shayan Mohajer Hamidi, Renhao Tan, En Hui Yang
人们认为,在知识蒸馏 KD 中,教师的作用是提供未知贝叶斯条件概率分布 BCPD 的估计,以用于学生训练过程。传统上,该估计是通过使用最大对数似然 MLL 方法训练教师来获得的。为了改进 KD 的估计,本文将条件互信息 CMI 的概念引入到 BCPD 的估计中,并提出了一种称为最大 CMI MCMI 方法的新型估计器。具体来说,在MCMI估计中,当教师接受训练时,教师的对数似然和CMI同时最大化。通过 Eigen CAM,进一步表明,最大化教师的 CMI 值可以让教师在图像簇中捕获更多的上下文信息。通过进行一系列彻底的实验,我们表明,在各种最先进的 KD 框架中,通过使用通过 MCMI 估计训练的教师而不是通过 MLL 估计训练的教师,学生的分类准确率持续提高,增益高达 3.32 。这表明MCMI方法提供的教师BCPD估计比MLL方法提供的更准确。此外,我们还表明,在零射击和少量射击设置下,学生准确性的提高更为显着。值得注意的是,当 5 个训练样本可供学生少数镜头使用时,学生的准确率增益高达 5.72,并且对于省略的零类镜头,学生的准确率从 0 增加到高达 84。HierSFL: Local Differential Privacy-aided Split Federated Learning in Mobile Edge Computing
Authors Minh K. Quan, Dinh C. Nguyen, Van Dinh Nguyen, Mayuri Wijayasundara, Sujeeva Setunge, Pubudu N. Pathirana
联合学习是一种在保护数据隐私的同时从用户数据中学习的有前景的方法。然而,模型训练过程的高要求使得内存或带宽有限的客户端难以参与。为了解决这个问题,采用了分割联邦学习,客户端将其中间模型训练结果上传到云服务器,以进行协作服务器客户端模型训练。这种方法有利于资源有限的客户参与模型培训,但也增加了培训时间和通信开销。为了克服这些限制,我们提出了一种名为“分层分割联邦学习 HierSFL”的新颖算法,该算法合并边缘和云阶段的模型,为确定最佳聚合时间范围提供定性指令,以减少计算和通信费用。通过在客户端和边缘服务器级别实现本地差分隐私,我们增强了本地模型参数更新期间的隐私。我们使用 CIFAR 10 和 MNIST 数据集进行的实验表明,HierSFL 的性能优于标准 FL 方法,具有更好的训练精度、训练时间和通信计算权衡。 Training program on sign language: social inclusion through Virtual Reality in ISENSE project
Authors Alessia Bisio, Enrique Yeguas Bol var, Pilar Aparicio Mart nez, Mar a Dolores Redel Mac as, Sara Pinzi, Stefano Rossi, Juri Taborri
手语中使用包含视觉动作和符号的结构化手势。对于聋哑人或有言语障碍的人来说,手语是一种很有价值的日常交流方式,但在听力正常的人中,手语仍然很少,能够理解手语的人也更少。在学术背景下,家长和老师在帮助聋哑学生学习手语方面发挥着至关重要的作用。近年来,在所有可用于学习手语的教学工具中,虚拟现实 VR 的使用有所增加,因为它已被证明可以提高学习过程中的记忆力、记忆力和注意力。 ISENSE 项目旨在通过提出不同的技术工具,在学术背景下向听力正常的群体教授手语,从而在学术生活中为耳聋学生提供帮助。作为 ISENSE 项目的一部分,这项工作旨在开发一种西班牙语和意大利语手语识别应用程序,该应用程序利用 VR 环境快速轻松地创建全面的手语数据库和基于人工智能的软件,以准确分类和识别静态和手语。On Image Search in Histopathology
Authors H.R. Tizhoosh, Liron Pantanowitz
组织病理学的病理图像可以从安装有摄像头的显微镜或整个载玻片扫描仪获取。利用相似性计算根据这些图像来匹配患者在研究和临床环境中具有巨大的潜力。搜索技术的最新进展允许对不同组织类型的细胞结构进行细致入微的量化,与诊断和治疗病例的精选数据库进行比较,从而促进对新患者的诊断、预后和预测进行比较和推断。Enabling Collaborative Clinical Diagnosis of Infectious Keratitis by Integrating Expert Knowledge and Interpretable Data-driven Intelligence
Authors Zhengqing Fang, Shuowen Zhou, Zhouhang Yuan, Yuxuan Si, Mengze Li, Jinxu Li, Yesheng Xu, Wenjia Xie, Kun Kuang, Yingming Li, Fei Wu, Yu Feng Yao
尽管数据驱动的人工智能在医学图像诊断中已在计算机中显示出令人印象深刻的性能,但缺乏可解释性使得黑匣子很难融入临床医生的工作流程。为了使临床医生能够理解从数据中学习到的诊断模式,我们开发了一种可解释的模型,即知识引导诊断模型 KGDM,它提供了包含基于人工智能的生物标志物的可视化推理过程,并检索具有相同诊断模式的病例。它通过人类人工智能交互,让临床医生提示进行解释推理,从而潜在地提高安全性和更准确的预测。本研究调查了 KGDM 在诊断感染性角膜炎 IK 中的性能、可解释性和临床实用性,感染性角膜炎是导致角膜失明的主要原因。 KGDM 的分类性能是在预期验证数据集、外部测试数据集和公开可用的测试数据集上进行评估的。基于 AI 的生物标记物的诊断比值比 DOR 是有效的,范围为 3.011 至 35.233,并且表现出与临床经验一致的诊断模式。此外,还进行了人类人工智能协作诊断测试,协作的参与者取得了超越人类和人工智能的性能。通过协同整合可解释性和交互性,这项研究促进了临床医生专业知识和数据驱动情报的融合。借助基于人工智能的生物标志物来提升缺乏经验的眼科医生,以及通过有经验的眼科医生的干预来增加人工智能预测,证明了使用 KGDM 的传染性角膜炎的一种有前途的诊断范式,它具有扩展到经验丰富的医疗从业者所擅长的其他疾病的潜力。Wake-Sleep Consolidated Learning
Authors Amelia Sorrenti, Giovanni Bellitto, Federica Proietto Salanitri, Matteo Pennisi, Simone Palazzo, Concetto Spampinato
我们提出了唤醒睡眠巩固学习 WSCL,这是一种利用补充学习系统理论和人脑的唤醒睡眠阶段的学习策略,以提高深度神经网络在持续学习环境中执行视觉分类任务的性能。我们的方法通过不同的唤醒和睡眠阶段之间的同步来不断学习。在唤醒阶段,模型接受感觉输入并调整其表示,通过动态参数冻结机制确保稳定性,并将情景记忆存储在短期临时记忆中,类似于海马体中发生的情况。在睡眠阶段,训练过程分为 NREM 和 REM 阶段。在 NREM 阶段,使用短期和长期记忆的重放样本来巩固模型的突触权重,并激活突触可塑性机制,加强重要的连接并削弱不重要的连接。在快速眼动阶段,模型接触到以前未曾见过的真实视觉感官体验,并激活做梦过程,这使得模型能够探索潜在的特征空间,从而为未来的知识准备突触。我们在三个基准数据集 CIFAR 10、Tiny ImageNet 和 FG ImageNet 上评估了我们方法的有效性。在所有情况下,我们的方法都优于基​​线和之前的工作,在连续视觉分类任务上产生了显着的性能提升。 Chinese Abs From Machine Translation
Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com


本文转载自: https://blog.csdn.net/u014636245/article/details/136116054
版权归原作者 hitrjj 所有, 如有侵权,请联系我们删除。

“【AI视野·今日CV 计算机视觉论文速览 第292期】Thu, 18 Jan 2024”的评论:

还没有评论