Claude Code 命令体系解析:三种类型、七大分类、50+ 命令
这篇文章覆盖每一个斜杠命令、每一个 CLI 标志、每一个键盘快捷键,以及开发团队从未正式宣布就悄悄上线的隐藏功能
理解 Agent 记忆:从无状态模型到持久化记忆架构
Agent 记忆并非单一概念,它是一个四层体系,各层服务于不同目的。
CRAG 架构解析:如何在生成器前修正错误检索结果
绝大多数 RAG 系统把检索当作不会出错的环节,无论拿到的文档是否真正切题,都会径直送入生成器。
高级 RAG 技术:查询转换与查询分解
基础 RAG 的准确性受制于查询质量,查询模糊、表述不当,或者用户对问题的抽象层次把握不准,检索结果就会出偏差,LLM 拿到的上下文也跟着失真。
构建生产级 AI Agent 系统的4大主流技术:反思、工具、规划与多智能体协作
本文拆解当下重塑AI系统构建方式的4种核心 Agentic 模式,分析每种模式的工作机制、适用场景,以及如何将它们组合出真正可用的系统。
BookRAG:面向层级文档的树-图融合RAG框架
本文介绍的BookRAG或许能提供一个有用的视角。
多智能体系统的三种编排模式:Supervisor、Pipeline 与 Swarm
当单个智能体确实力的确无法解决,任务需要多种能力、独立验证或动态路由,精心编排的智能体团队是目前见过的最可靠的解法。
更大的上下文窗口为什么让RAG变得更重要而非更多余
在不少实际系统中,更大的上下文窗口反而拖累了模型表现。
LangGraph vs Semantic Kernel:状态图与内核插件的两条技术路线对比
本文依据 LangGraph 官方文档、Semantic Kernel 官方文档以及两个框架的变更日志写成。
LangGraph RemoteGraph:本地图与远程图的组合机制解析
本地编排器负责流程控制,远程图服务器承担具体计算,状态管理和控制流的职责边界清晰。
MIT论文解读:LLM 会被自身历史回复拖累 ,上下文污染会导致多轮对话质量衰减
和 AI 对话超过 20 轮之后,看着它慢慢开始胡说八道,如果有过这种经历,那么你就应该看看这篇论文
大模型训练的硬件基础:GPU内存层级、分块与并行策略
这篇文章从 GPU 架构讲到并行策略,涉及的是把模型从玩具规模拉到生产规模所必须面对的工程问题。
KV Cache管理架构演进:从连续分配到统一混合内存架构
本文梳理KV cache管理经历的5个时代,从它根本不存在的阶段,到今天正在成型的统一内存架构。文中会结合多个模型的部署经验,对比vLLM、SGLang和TensorRT-LLM在各阶段的应对思路。
基于能量的模型(EBM):用能量函数替代概率分布的建模框架
Yann LeCun 反复强调过一个观点:当前LLM基于概率、逐 Token 预测的设计路线,很可能走不到人类水平的AI。他的团队更看好另一条路,基于能量的模型(EBM)。
从提示工程转向 上下文工程,6种让LLM在生产环境中稳定输出的技术
提示工程告诉模型怎么说话;context engineering 控制模型说话时看到什么。以下是把生产系统和Demo区分开的6种上下文工程技术。
手把手搭建 Adaptive RAG 系统:从向量检索到 Streamlit 前端全流程
本文会带你从零搭建一个完整的概念验证项目(POC),技术栈涵盖 Adaptive RAG、LangGraph、FastAPI 和 Streamlit 四个核心组件。
深入理解三种PEFT方法:LoRA的低秩更新、QLoRA的4位量化与DoRA的幅度-方向分解
三种方法各有分工,互为补充,你唯一需要考虑的是哪种 PEFT 方案最贴合自己的硬件条件和精度要求。
并行多智能体系统的协调测试实战:从轨迹捕获到CI/CD的六个步骤
传统软件里bug 是逻辑错误。代码做了不该做的事;并行智能体系统里的 bug 往往以另一种形态出现:协调漂移。
RAG 中分块重叠的 8 个隐性开销与权衡策略
本文将总结的八项 RAG 分块重叠隐藏的成本,以及如何判断什么时候重叠真正有用,什么时候只是花钱买心安。