用 LangGraph 改造单一 RAG 架构:让 Agent 决定调用向量、图遍历还是网络搜索
向量搜索、图遍历还是网络搜索 -- 本文介绍如何用 LangGraph 让智能体为每个问题选择合适的工具。
Flash-KMeans:快速且内存高效的精确 K-Means,可在单张 GPU 进行亿级数据的聚类
本文介绍 Flash-KMeans是一个近期提出的框架,它受 Flash(最小化数据移动)的启发,论文给出了一种执行精确 K-Means 的方案,速度更快内存效率也远优于 FAISS 等行业标准实现
视频 RAG 中分块策略:基于停顿、滑动窗口与基于 LLM 的方法
文本的RAG我们都已经很熟悉了,但是如果数据以原始视频转录文本的形式存储,没有合适的时间结构,那么相比标准的 PDF 或文本文档,如何检索视频里面的内容呢?
四种无向量RAG 方案实测:BM25、GraphRAG、Tree Search、Agent
四种方法都查这一份数据集,但每种方法分别使用刻意挑选、能发挥其长处的查询。得到的结果是:没有任何一种方法是通用的。
HyDE :让 RAG 检索从"匹配关键词"升级到"理解意图"
**Hypothetical Document Embeddings(HyDE)** 不是"搜索文档",而是让系统在检索开始之前,先想清楚理想答案应该长什么样。
2026 RAG 选型指南:Vector、Graph、Vectorless 该怎么挑
这篇文章将介绍它们之间的差异,让你不必花三周读论文也能为自己的系统做出正确选择。
BM25 + Vectors:为什么真实 RAG 系统通常两者都需要
RAG 是一个先选内容再做生成的系统;retriever 不搜索文档,它搜索 chunks。
Graphify:为代码库构建知识图谱,以图遍历替代向量检索
Graphify 是一个 Python 工具,同时也是一个 Claude Code skill。它把分析工作一次性做完,把所有内容压缩成一张可查询的知识图谱,放到磁盘上。
无 Embedding、无向量数据库的 RAG 方法:PageIndex 技术解析
传统 RAG 的假设:相关性等于语义相似度。PageIndex 的假设:相关性等于结构化推理。
从检索到回答:RAG 流水线中三个被忽视的故障点
RAG 的搭建门槛不高,但要让一个 RAG 系统在生产环境中达到可信赖的程度,所需时间远不止于此。
Karpathy的LLM Wiki:一种将RAG从解释器模式升级为编译器模式的架构
Karpathy没有发明新技术,他在清晰阐述一个工作流模式,让LLM天生擅长的事——快速阅读、综合、交叉引用、一致地遵循约定——去接替人类一直需要但从未能持续做好的工作。
RouteRAG:用特殊 Token 和强化学习构建可学习的 RAG 检索策略
RouteRAG 把多轮 RAG 重新建模为序列决策过程。
CRAG 架构解析:如何在生成器前修正错误检索结果
绝大多数 RAG 系统把检索当作不会出错的环节,无论拿到的文档是否真正切题,都会径直送入生成器。
高级 RAG 技术:查询转换与查询分解
基础 RAG 的准确性受制于查询质量,查询模糊、表述不当,或者用户对问题的抽象层次把握不准,检索结果就会出偏差,LLM 拿到的上下文也跟着失真。
BookRAG:面向层级文档的树-图融合RAG框架
本文介绍的BookRAG或许能提供一个有用的视角。
更大的上下文窗口为什么让RAG变得更重要而非更多余
在不少实际系统中,更大的上下文窗口反而拖累了模型表现。
从提示工程转向 上下文工程,6种让LLM在生产环境中稳定输出的技术
提示工程告诉模型怎么说话;context engineering 控制模型说话时看到什么。以下是把生产系统和Demo区分开的6种上下文工程技术。
向量搜索系统的三个核心优化维度:速度、精度与规模
向量搜索把信息检索从字面匹配带进了语义理解的时代。但光有 Embedding 还不够,真正让系统在生产环境中跑起来的是背后的工程优化
手把手搭建 Adaptive RAG 系统:从向量检索到 Streamlit 前端全流程
本文会带你从零搭建一个完整的概念验证项目(POC),技术栈涵盖 Adaptive RAG、LangGraph、FastAPI 和 Streamlit 四个核心组件。
RAG 中分块重叠的 8 个隐性开销与权衡策略
本文将总结的八项 RAG 分块重叠隐藏的成本,以及如何判断什么时候重叠真正有用,什么时候只是花钱买心安。