大规模向量检索优化:Binary Quantization 让 RAG 系统内存占用降低 32 倍
本文会逐步展示如何搭建一个能在 30ms 内查询 3600 万+向量的 RAG 系统,用的就是二值化 embedding。
HNSW算法实战:用分层图索引替换k-NN暴力搜索
**HNSW图**的出现改变了搜索的方式。它能在数十亿向量上实现对数复杂度的实时检索。
本文会逐步展示如何搭建一个能在 30ms 内查询 3600 万+向量的 RAG 系统,用的就是二值化 embedding。
**HNSW图**的出现改变了搜索的方式。它能在数十亿向量上实现对数复杂度的实时检索。