视觉语言编码器

SigLIP 2 是一个新型多语言视觉-语言编码器系列，通过整合基于字幕的预训练、自监督学习机制（包括自蒸馏和掩码预测）以及在线数据管理策略，对原始 SigLIP 模型进行了显著改进。

Deephub 2025-03-12 09:58:54 0 收藏

登录可以使用的更多功能哦！登录

资讯同步

文章同步

公众号：deephub-imba

公众号：奕凯的技术栈