无 Embedding、无向量数据库的 RAG 方法:PageIndex 技术解析
传统 RAG 的假设:相关性等于语义相似度。PageIndex 的假设:相关性等于结构化推理。
从检索到回答:RAG 流水线中三个被忽视的故障点
RAG 的搭建门槛不高,但要让一个 RAG 系统在生产环境中达到可信赖的程度,所需时间远不止于此。
Karpathy的LLM Wiki:一种将RAG从解释器模式升级为编译器模式的架构
Karpathy没有发明新技术,他在清晰阐述一个工作流模式,让LLM天生擅长的事——快速阅读、综合、交叉引用、一致地遵循约定——去接替人类一直需要但从未能持续做好的工作。
向量相似性搜索详解:Flat Index、IVF 与 HNSW
Flat Index、IVF 和 HNSW:你需要了解的向量搜索算法
拆解推荐系统:候选生成、过滤、排序、多样性的分层设计
本文梳理一条可以实际构建并持续扩展的端到端推荐 Pipeline。
Prompt、Context、Harness:AI Agent 工程的三层架构解析
三者不是竞争关系而是分层。Prompt 关注如何表达任务;Context 关注模型在执行任务时看到什么;Harness 关注模型运行其中的系统。
向量数据库对比:Pinecone、Chroma、Weaviate 的架构与适用场景
本文对比三个主流方案,每个都附有 Python 代码,均来自实际在生产环境中使用三者的经验。
instinct:一个基于置信度的 AI Agent 自学习记忆系统
记忆应当是 Agent 在反复实践中习得的,而非人工分配的。
机器学习特征工程:缩放、编码、聚合、嵌入与自动化
好模型的秘诀不在于更花哨的算法,而在于更好的特征。
ADK 多智能体编排:SequentialAgent、ParallelAgent 与 LoopAgent 解析
本文讲介绍每种模式的适用场景、状态的流转机制,以及如何在不编写编排逻辑的前提下搭建一条完整的从订单到交付的流水线。
从零构建 Mini-vLLM:KV-Cache、动态批处理与分布式推理全流程
Mini-vLLM是一个从零开始写的推理引擎,我们的目标不是为了造轮子,而是要知道轮子是如何工作的。
多 Aspect Embedding:将上下文信号编入向量相似性计算的检索架构
本文分析传统向量数据库架构的过滤与检索机制,并介绍 Aspected 的 Aspect Database:一个面向 AI 系统的上下文感知检索引擎
投机解码原理详解:小模型打草稿,大模型一次验证
投机解码的出发点很简单:用一个小而快的模型去猜测大模型接下来要输出什么,而大多数时候它能猜对。
10个内置在 Pandas 中却常被忽略的向量化操作
本文整理了10个这样的写法,每个都附带常见的冗长版本作为对照。
10个内置在 Pandas 中却常被忽略的向量化操作
本文整理了10个这样的写法,每个都附带常见的冗长版本作为对照。
不依赖对话日志检测Prompt注入,一套隐私优先的实现方案
本文就是做一个受约束的实验,用于测试这种架构边界是否可行。
多 Agent 验证架构实战:从输出评分到过程验证
正确构建验证层需要理解四种不同的架构模式、各自的失效边界,以及一个被多数团队忽视的规律。
多智能体系统的核心设计:从任务分解到依赖图驱动的编排循环
多智能体系统将复杂任务分配给各自拥有独立角色、工具和评估标准的专门智能体。
AI Agent 架构详解:Chain-of-Thought、ReAct 与工具调用的协作机制
这篇文章填的就是这个空白。从用户输入"帮我订机票"到 AI 点击"确认",每一步都用架构图拆开来看。
RouteRAG:用特殊 Token 和强化学习构建可学习的 RAG 检索策略
RouteRAG 把多轮 RAG 重新建模为序列决策过程。