YOLO-World:实时开放词汇对象检测
在计算机视觉领域,传统的对象检测方法,如YOLO系列,尽管在固定词汇检测上取得了显著成果,但它们的能力受限于预定义的对象类别。这种局限性在开放词汇检测(OVD)任务中尤为明显,该任务要求模型能够识别训练阶段未出现过的新对象类别。YOLO-World通过视觉-语言建模和大规模数据集上的预训练,提出了一种创新的方法,以增强YOLO检测器的开放词汇检测能力。
模型简介
YOLO-World模型引入了基于开放词汇检测任务的先进实时方法,同时采用了视觉语言建模和在大量数据集上进行预训练的方法,能够以无与伦比的效率在零样本场景中出色地识别大量物体。这项创新可根据描述性文本检测图像中的任何物体。YOLO-World可大幅降低计算要求,同时保持极具竞争力的性能,是众多视觉应用的多功能工具。
模型结构与创新点
与传统的YOLO检测器相比,YOLO-World作为一个开放词汇表检测器,可采用文本作为输入,文本编码器首先编码输入的文本。然后将输入图像编码成多尺度图像特征,RepVL-PAN算法利用图像和文本特征的多级交叉模态融合。最后,YOLO-World预测了回归边界框和对象编码,以匹配输入文本中出现的类别或名词。
核心创新点
- 实时解决方案:利用CNN的计算速度,YOLO-World可提供快速的开放词汇检测解决方案,满足各行业对即时结果的需求。
- 效率和性能:YOLO-World可在不牺牲性能的前提下降低计算和资源需求,提供了一种可替代SAM等模型的强大功能,但计算成本仅为它们的一小部分,从而支持实时应用。
- 利用离线词汇进行推理:YOLO-World引入了“先提示后检测”的策略,利用离线词汇进一步提高效率。这种方法可以使用预先计算的自定义提示,包括标题或类别,并将其编码和存储为离线词汇嵌入,从而简化检测过程。
- 由YOLOv8支持:基于Ultralytics YOLOv8的YOLO-World利用实时对象检测方面的最新进展,以无与伦比的准确性和速度促进开放词汇检测。
- 卓越的基准测试:YOLO在标准基准测试中,World的速度和效率超过了现有的开放词汇检测器,包括MDETR和GLIP系列,展示了YOLOv8在单个NVIDIA V100 GPU上的卓越性能。
使用方法
YOLO-World提供了灵活的使用方式,包括使用模型推理预测、自定义词汇推理以及自定义词汇类别保存模型。以下是使用YOLO-World进行自定义词汇推理预测的一个简单示例:
from ultralytics import YOLO
# Initialize a YOLO-World model
model = YOLO("yolov8s-world.pt")# or choose yolov8m/l-world.pt# Define custom classes
model.set_classes(["person","bus"])# Execute prediction for specified categories on an image
results = model.predict("path/to/image.jpg")# Show results
results[0].show()
结论
YOLO-World通过结合视觉和语言信息,为实时开放词汇对象检测提供了一个强大的解决方案。它不仅提高了检测效率,还扩展了检测器的能力,使其能够识别训练阶段未见过的新对象类别。YOLO-World的创新点和卓越性能使其成为实时应用的理想选择。
版权归原作者 ai产品老杨 所有, 如有侵权,请联系我们删除。