从检索到回答:RAG 流水线中三个被忽视的故障点
RAG 的搭建门槛不高,但要让一个 RAG 系统在生产环境中达到可信赖的程度,所需时间远不止于此。
Karpathy的LLM Wiki:一种将RAG从解释器模式升级为编译器模式的架构
Karpathy没有发明新技术,他在清晰阐述一个工作流模式,让LLM天生擅长的事——快速阅读、综合、交叉引用、一致地遵循约定——去接替人类一直需要但从未能持续做好的工作。
Prompt、Context、Harness:AI Agent 工程的三层架构解析
三者不是竞争关系而是分层。Prompt 关注如何表达任务;Context 关注模型在执行任务时看到什么;Harness 关注模型运行其中的系统。
instinct:一个基于置信度的 AI Agent 自学习记忆系统
记忆应当是 Agent 在反复实践中习得的,而非人工分配的。
ADK 多智能体编排:SequentialAgent、ParallelAgent 与 LoopAgent 解析
本文讲介绍每种模式的适用场景、状态的流转机制,以及如何在不编写编排逻辑的前提下搭建一条完整的从订单到交付的流水线。
从零构建 Mini-vLLM:KV-Cache、动态批处理与分布式推理全流程
Mini-vLLM是一个从零开始写的推理引擎,我们的目标不是为了造轮子,而是要知道轮子是如何工作的。
多 Aspect Embedding:将上下文信号编入向量相似性计算的检索架构
本文分析传统向量数据库架构的过滤与检索机制,并介绍 Aspected 的 Aspect Database:一个面向 AI 系统的上下文感知检索引擎
投机解码原理详解:小模型打草稿,大模型一次验证
投机解码的出发点很简单:用一个小而快的模型去猜测大模型接下来要输出什么,而大多数时候它能猜对。
不依赖对话日志检测Prompt注入,一套隐私优先的实现方案
本文就是做一个受约束的实验,用于测试这种架构边界是否可行。
多 Agent 验证架构实战:从输出评分到过程验证
正确构建验证层需要理解四种不同的架构模式、各自的失效边界,以及一个被多数团队忽视的规律。
多智能体系统的核心设计:从任务分解到依赖图驱动的编排循环
多智能体系统将复杂任务分配给各自拥有独立角色、工具和评估标准的专门智能体。
AI Agent 架构详解:Chain-of-Thought、ReAct 与工具调用的协作机制
这篇文章填的就是这个空白。从用户输入"帮我订机票"到 AI 点击"确认",每一步都用架构图拆开来看。
RouteRAG:用特殊 Token 和强化学习构建可学习的 RAG 检索策略
RouteRAG 把多轮 RAG 重新建模为序列决策过程。
信息访问 vs. 推理能力:LLM Agent 性能归因的实验分析
LLM agent 看起来越来越智能了。但实际上它们可能只是拿到了更多信息。
Claude Code 命令体系解析:三种类型、七大分类、50+ 命令
这篇文章覆盖每一个斜杠命令、每一个 CLI 标志、每一个键盘快捷键,以及开发团队从未正式宣布就悄悄上线的隐藏功能
理解 Agent 记忆:从无状态模型到持久化记忆架构
Agent 记忆并非单一概念,它是一个四层体系,各层服务于不同目的。
CRAG 架构解析:如何在生成器前修正错误检索结果
绝大多数 RAG 系统把检索当作不会出错的环节,无论拿到的文档是否真正切题,都会径直送入生成器。
高级 RAG 技术:查询转换与查询分解
基础 RAG 的准确性受制于查询质量,查询模糊、表述不当,或者用户对问题的抽象层次把握不准,检索结果就会出偏差,LLM 拿到的上下文也跟着失真。
构建生产级 AI Agent 系统的4大主流技术:反思、工具、规划与多智能体协作
本文拆解当下重塑AI系统构建方式的4种核心 Agentic 模式,分析每种模式的工作机制、适用场景,以及如何将它们组合出真正可用的系统。
BookRAG:面向层级文档的树-图融合RAG框架
本文介绍的BookRAG或许能提供一个有用的视角。