发布Meta Segment Anything Model 2 (SAM 2)：开启图像和视频分割的新时代

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

继Meta Segment Anything Model (SAM) 在图像分割领域取得成功之后，Meta发布了SAM 2，这是一款用于图像和视频的实时可提示对象分割的统一模型，达到了业界最先进的性能。为了促进开放科学，Meta分享了SAM 2的代码和模型权重，并采用了宽松的Apache 2.0许可证。此外，Meta还发布了SA-V数据集，该数据集包含大约51,000个真实世界的视频和超过600,000个空间时间掩码。

SAM 2具备在任何视频或图像中分割任何对象的能力，即使是以前未见过的对象和视觉域，这使得其能够应用于各种无需定制适应的用例。SAM 2在图像分割精度上超过了之前的能力，并在视频分割性能上优于现有的工作，同时需要的交互时间减少了三倍。SAM 2的多种潜在应用包括与生成视频模型结合以创建新的视频效果，帮助建立更好的计算机视觉系统的快速注释工具，以及在科学研究中追踪显微镜拍摄的视频中的移动细胞。

为了保持开放科学的理念，Meta将SAM 2的研究与社区分享，使他们能够探索新的能力和用例。Meta分享的资源包括采用Apache 2.0许可证开源的SAM 2代码和权重，采用BSD-3许可证开源的SAM 2评估代码，以及SA-V数据集。SA-V数据集比现有最大的在线视频分割数据集大4.5倍，包含约51,000个真实世界视频和超过600,000个掩码。Meta还发布了一个基于网页的演示，允许实时交互分割短视频并应用视频效果。

在视频分割任务中，SAM 2能够在视频的任何帧中选择和细化对象。SAM 2的架构可以看作是SAM从图像领域到视频领域的推广，通过存储和使用以前处理过的视频信息，实现对对象的准确分割。SAM 2的流式架构使其能够实时处理任意长度的视频，对于数据注释和实际应用如机器人技术具有重要意义。

Meta通过SAM 2在循环中的交互式模型设置与人类注释员合作，收集了一个大而多样的视频分割数据集。注释员使用SAM 2互动注释视频中的掩码，然后用新注释的数据更新SAM 2。这个循环反复进行，多次迭代后，模型和数据集都得到了改进。与SAM相比，使用SAM 2进行注释的速度快了8.4倍，并显著快于将SAM与现成的跟踪器结合使用。

在研究中，SAM 2在17个零样本视频数据集上的互动视频分割表现显著优于以前的方法，同时需要的人工交互减少了约三倍。SAM 2在其23个数据集的零样本基准套件上优于SAM，同时速度快了六倍。在现有视频对象分割基准（如DAVIS、MOSE、LVOS、YouTube-VOS）上，SAM 2相较于之前的最先进模型表现更佳。SAM 2在循环中的视频分割注释速度比使用SAM逐帧注释快了8.4倍。

尽管SAM 2在分割图像和短视频中的对象表现出色，但在一些挑战性场景下仍有改进空间。比如，在剧烈的相机视角变化、长时间遮挡、拥挤场景或长视频中，SAM 2可能会失去对对象的跟踪。Meta通过设计交互式模型并允许在任何帧上进行手动干预，部分缓解了这一问题。

总之，Meta希望通过发布SAM 2和相关资源，推动开放科学的发展，促使AI社区共同探索新能力和应用场景，从而创造更多有益于社会和人类的技术。

标签：人工智能计算机视觉

本文转载自: https://blog.csdn.net/2301_79342058/article/details/140834299
版权归原作者 新加坡内哥谈技术 所有，如有侵权，请联系我们删除。

发布Meta Segment Anything Model 2 (SAM 2)：开启图像和视频分割的新时代

发表评论

“发布Meta Segment Anything Model 2 (SAM 2)：开启图像和视频分割的新时代”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航