图像块嵌入 - overfit.cn

在 Vision Transformer 中，图像首先被分解为正方形图像块，然后将这些图像块展平为单个向量嵌入。这些嵌入可以被视为与文本嵌入（或任何其他嵌入）完全相同，甚至可以与其他数据类型进行连接。

Deephub 2025-02-20 10:43:03 0 收藏

登录可以使用的更多功能哦！登录

资讯同步

文章同步

公众号：deephub-imba

公众号：奕凯的技术栈