MTEB排行榜上AI Embedding模型大盘点

大家好，今天我们来聊聊AI领域中一个非常核心的技术——embedding模型。在人工智能的世界里，embedding模型就像是给文本穿上了一件“数字化”的外衣，让机器能够更好地理解和处理语言。无论是搜索引擎、推荐系统还是自然语言处理的各种应用，embedding模型都扮演着至关重要的角色。下面，我将为大家整合目前市面上一些优秀的embedding模型，以及它们的相关信息和链接，希望能帮助到对这一领域感兴趣的朋友。

市面上优秀的embedding模型

Massive Text Embedding Benchmark (MTEB) 2024-05-06

img

1. Voyage

Voyage团队认为业界对嵌入模型的重视程度远远不够，因此他们投入了5年时间，收集了海量的训练数据和预/后处理方法，打造出了SOTA的嵌入模型。Voyage的特点在于高检索精度，在HuggingFace提出的MTEB数据集上的评分超过了OpenAI，成为新的SOTA。Voyage的学术顾问团队也是星光熠熠，包括斯坦福人工智能实验室主任Christopher Manning和AI领域著名华人学者李飞飞等。

img

img

2. Mistral

微软最近发布的text embedding模型E5-mistral-7b-instruct在MTEB数据集上取得了优异的成绩。该模型利用LLM生成了接近100种语言的高质量且多样化的训练数据，并通过纯decoder的LLM在合成数据上进一步finetune。Mistral-7b-instruct展示了即使仅使用合成数据，也能训练出媲美主流SOTA模型的text embedding。

img

3. Qwen

Qwen模型采用了GTE统一文本表示，基于预训练的文本表示模型，通过双塔结构（Dual Encoder）训练。在Dual Encoder框架中，Query和Document文本通过预训练语言模型编码后，通常采用预训练语言模型[CLS]位置的向量作为最终的文本向量表示。

img

img

img

img

img

4. BGE-M3

智源发布的BGE-M3模型支持超过100种语言，具备领先的多语言、跨语言检索能力。BGE-M3模型一站式集成了稠密检索、稀疏检索、多向量检索三种检索功能，在多个评测基准中达到最优水平。

img

5. BCEmbedding

网易有道开源的BCEmbedding模型，具备中英双语和跨语种能力，覆盖多领域，设计了标签分配方法，使得Embedding模型可以尽可能召回，而Reranker模型则负责精排和低质量过滤。

img

6. Cohere

Cohere提供了闭源的embedding服务，通过API收费的方式提供服务。

img

7. Jina

Jina.ai提供的embedding服务也是闭源的，同样通过API收费。

img

8. GritLM-7B

GritLM是一种生成表示指令调整语言模型，它将文本表示（嵌入）和文本生成统一到一个模型中，在这两类任务中都取得了最先进的性能。

以上便是目前市面上一些较为优秀的embedding模型的概览。每个模型都有其独特的优势和应用场景，无论是学术研究还是商业应用，它们都提供了强大的支持。如果你对这些模型感兴趣，可以通过提供的链接进一步了解它们的详细信息和使用方式。记住，embedding模型是RAG（Retrieval-Augmented Generation）技术的核心，对于希望深入AI领域的你来说，了解这些模型将大有裨益。

本文由 mdnice 多平台发布

标签：程序人生

本文转载自: https://blog.csdn.net/dinnnng/article/details/138547150
版权归原作者 dinnnng 所有，如有侵权，请联系我们删除。

MTEB排行榜上AI Embedding模型大盘点

1. Voyage

2. Mistral

3. Qwen

4. BGE-M3

5. BCEmbedding

6. Cohere

7. Jina

8. GritLM-7B

发表评论

“MTEB排行榜上AI Embedding模型大盘点”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航