CRAG 架构解析:如何在生成器前修正错误检索结果
绝大多数 RAG 系统把检索当作不会出错的环节,无论拿到的文档是否真正切题,都会径直送入生成器。
高级 RAG 技术:查询转换与查询分解
基础 RAG 的准确性受制于查询质量,查询模糊、表述不当,或者用户对问题的抽象层次把握不准,检索结果就会出偏差,LLM 拿到的上下文也跟着失真。
构建生产级 AI Agent 系统的4大主流技术:反思、工具、规划与多智能体协作
本文拆解当下重塑AI系统构建方式的4种核心 Agentic 模式,分析每种模式的工作机制、适用场景,以及如何将它们组合出真正可用的系统。
BookRAG:面向层级文档的树-图融合RAG框架
本文介绍的BookRAG或许能提供一个有用的视角。
多智能体系统的三种编排模式:Supervisor、Pipeline 与 Swarm
当单个智能体确实力的确无法解决,任务需要多种能力、独立验证或动态路由,精心编排的智能体团队是目前见过的最可靠的解法。
更大的上下文窗口为什么让RAG变得更重要而非更多余
在不少实际系统中,更大的上下文窗口反而拖累了模型表现。
LangGraph vs Semantic Kernel:状态图与内核插件的两条技术路线对比
本文依据 LangGraph 官方文档、Semantic Kernel 官方文档以及两个框架的变更日志写成。
LangGraph RemoteGraph:本地图与远程图的组合机制解析
本地编排器负责流程控制,远程图服务器承担具体计算,状态管理和控制流的职责边界清晰。
MIT论文解读:LLM 会被自身历史回复拖累 ,上下文污染会导致多轮对话质量衰减
和 AI 对话超过 20 轮之后,看着它慢慢开始胡说八道,如果有过这种经历,那么你就应该看看这篇论文
大模型训练的硬件基础:GPU内存层级、分块与并行策略
这篇文章从 GPU 架构讲到并行策略,涉及的是把模型从玩具规模拉到生产规模所必须面对的工程问题。
KV Cache管理架构演进:从连续分配到统一混合内存架构
本文梳理KV cache管理经历的5个时代,从它根本不存在的阶段,到今天正在成型的统一内存架构。文中会结合多个模型的部署经验,对比vLLM、SGLang和TensorRT-LLM在各阶段的应对思路。
基于能量的模型(EBM):用能量函数替代概率分布的建模框架
Yann LeCun 反复强调过一个观点:当前LLM基于概率、逐 Token 预测的设计路线,很可能走不到人类水平的AI。他的团队更看好另一条路,基于能量的模型(EBM)。
从提示工程转向 上下文工程,6种让LLM在生产环境中稳定输出的技术
提示工程告诉模型怎么说话;context engineering 控制模型说话时看到什么。以下是把生产系统和Demo区分开的6种上下文工程技术。
手把手搭建 Adaptive RAG 系统:从向量检索到 Streamlit 前端全流程
本文会带你从零搭建一个完整的概念验证项目(POC),技术栈涵盖 Adaptive RAG、LangGraph、FastAPI 和 Streamlit 四个核心组件。
深入理解三种PEFT方法:LoRA的低秩更新、QLoRA的4位量化与DoRA的幅度-方向分解
三种方法各有分工,互为补充,你唯一需要考虑的是哪种 PEFT 方案最贴合自己的硬件条件和精度要求。
并行多智能体系统的协调测试实战:从轨迹捕获到CI/CD的六个步骤
传统软件里bug 是逻辑错误。代码做了不该做的事;并行智能体系统里的 bug 往往以另一种形态出现:协调漂移。
RAG 中分块重叠的 8 个隐性开销与权衡策略
本文将总结的八项 RAG 分块重叠隐藏的成本,以及如何判断什么时候重叠真正有用,什么时候只是花钱买心安。
深入RAG架构:分块策略、混合检索与重排序的工程实现
从 Level 1 开始。记录并监控系统在哪翻车,搞清楚原因之后再往上走。 这才是构建一个真正能用的RAG系统的路径。
AI Agent技术栈:10个构建生产级Agent的核心概念
本文就总结了构建AI系统时真正绕不开的10个基础概念