无 Embedding、无向量数据库的 RAG 方法:PageIndex 技术解析
传统 RAG 的假设:相关性等于语义相似度。PageIndex 的假设:相关性等于结构化推理。
Karpathy的LLM Wiki:一种将RAG从解释器模式升级为编译器模式的架构
Karpathy没有发明新技术,他在清晰阐述一个工作流模式,让LLM天生擅长的事——快速阅读、综合、交叉引用、一致地遵循约定——去接替人类一直需要但从未能持续做好的工作。
向量相似性搜索详解:Flat Index、IVF 与 HNSW
Flat Index、IVF 和 HNSW:你需要了解的向量搜索算法
拆解推荐系统:候选生成、过滤、排序、多样性的分层设计
本文梳理一条可以实际构建并持续扩展的端到端推荐 Pipeline。
向量数据库对比:Pinecone、Chroma、Weaviate 的架构与适用场景
本文对比三个主流方案,每个都附有 Python 代码,均来自实际在生产环境中使用三者的经验。
instinct:一个基于置信度的 AI Agent 自学习记忆系统
记忆应当是 Agent 在反复实践中习得的,而非人工分配的。
投机解码原理详解:小模型打草稿,大模型一次验证
投机解码的出发点很简单:用一个小而快的模型去猜测大模型接下来要输出什么,而大多数时候它能猜对。
TPU 架构与 Pallas Kernel 编程入门:从内存层次结构到 FlashAttention
本文通过四个复杂度递增的 kernel 展示了 Pallas 的核心编程模式
知识引导上下文优化(KgCoOp):一种解决灾难性遗忘的 Prompt Tuning 机制
如何使用知识引导损失对可学习 Prompt 进行正则化以保持泛化能力。
Claude Code 命令体系解析:三种类型、七大分类、50+ 命令
这篇文章覆盖每一个斜杠命令、每一个 CLI 标志、每一个键盘快捷键,以及开发团队从未正式宣布就悄悄上线的隐藏功能
理解 Agent 记忆:从无状态模型到持久化记忆架构
Agent 记忆并非单一概念,它是一个四层体系,各层服务于不同目的。
CRAG 架构解析:如何在生成器前修正错误检索结果
绝大多数 RAG 系统把检索当作不会出错的环节,无论拿到的文档是否真正切题,都会径直送入生成器。
构建生产级 AI Agent 系统的4大主流技术:反思、工具、规划与多智能体协作
本文拆解当下重塑AI系统构建方式的4种核心 Agentic 模式,分析每种模式的工作机制、适用场景,以及如何将它们组合出真正可用的系统。
KV Cache管理架构演进:从连续分配到统一混合内存架构
本文梳理KV cache管理经历的5个时代,从它根本不存在的阶段,到今天正在成型的统一内存架构。文中会结合多个模型的部署经验,对比vLLM、SGLang和TensorRT-LLM在各阶段的应对思路。
PhysioDSP:一个面向可穿戴设备的 Python 信号处理库
PhysioDSP 是一个开源 Python 库,它给出了一套统一、可扩展的框架来处理和分析生理传感器数据
VAE 原理拆解:从概率编码到潜在空间正则化
这篇文章从基本原理出发完整拆解变分自编码器(VAE)的构建过程。
基于能量的模型(EBM):用能量函数替代概率分布的建模框架
Yann LeCun 反复强调过一个观点:当前LLM基于概率、逐 Token 预测的设计路线,很可能走不到人类水平的AI。他的团队更看好另一条路,基于能量的模型(EBM)。
向量搜索系统的三个核心优化维度:速度、精度与规模
向量搜索把信息检索从字面匹配带进了语义理解的时代。但光有 Embedding 还不够,真正让系统在生产环境中跑起来的是背后的工程优化
RAG 文本分块:七种主流策略的原理与适用场景
分块就是在生成 Embedding 之前,把大段文本拆成更小语义单元的过程。检索器真正搜索的对象而不是整篇文档就是这些分块。
从零开始用自定义 Triton 内核编写 FlashAttention-2
本文只实现了前向传播。扩展到完整的训练级 FlashAttention(反向传播、dropout、各种 mask 变体)留待后续工作。