长上下文"记忆"的舒适陷阱:为什么更多记忆不等于更可靠
人们喜欢长上下文,智能体记得你的项目、你的偏好、你说话的方式,连你那些反复冒出来的琐碎任务都帮你记着,所以用起来当然顺手。但顺手归顺手,顺手不等于靠谱,把这两件事搞混后面的麻烦就来了。
超越上下文窗口:CodeAct与RLM,两种代码驱动的LLM扩展方案
与其一味地扩大上下文窗口,不如去重构计算本身。无论是 CodeAct 的执行循环还是 RLM 的递归分解,LLM 系统的未来不在于能吃下多少 Token,而在于如何更聪明地控制推理和动作。
15 分钟用 FastMCP 搭建你的第一个 MCP Server(附完整代码)
Model Context Protocol 是一个开放标准,它的目标是给 LLM 一种干净、统一的方式去发现和调用外部工具。
Prompt 缓存的四种策略:从精确匹配到语义检索
在 LLM 系统的各种优化手段中,Prompt 缓存的投入产出比可能是最高的。入手门槛低,可以渐进式迭代,而且到了一定规模之后几乎是刚需。
RAG 文本分块:七种主流策略的原理与适用场景
分块就是在生成 Embedding 之前,把大段文本拆成更小语义单元的过程。检索器真正搜索的对象而不是整篇文档就是这些分块。
LLM创造力可以被度量吗?一个基于提示词变更的探索性实验
提示词工程在今天基本还是被当作一种"艺术"。这篇文章要讨论的就是为什么这是个问题,以及怎么把它变成一门可度量的工程学科。
软件工程原则在多智能体系统中的应用:分层与解耦
本文的出发点是想验证一件事:智能体系统到底能不能像其他严肃软件一样做架构。
LLM推理时计算技术详解:四种提升大模型推理能力的方法
本文要讲四种主流的推理时计算技术:深度方向的Chain-of-Thought,宽度方向的Self-Consistency,搜索方向的Tree-of-Thoughts,以及迭代方向的Reflexion/Self-Refine。
LangGraph 入门:用图结构构建你的第一个多智能体工作流
LangGraph 里每个工作流都是一个 StateGraph——本质上是有向图。节点就是智能体,或者说处理状态的函数;边是智能体之间的转换;状态则是在整个图中流动的共享数据结构。
让 AI 智能体学会自我进化:Agent Lightning 实战入门
本文将介绍 Agent Lightning 的核心架构和使用方法,并通过一个开源的"自修复 SQL 智能体"项目演示完整的训练流程。
用 PyTorch 实现 LLM-JEPA:不预测 token,预测嵌入
这篇文章从头实现 LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures。
大模型如何训练百万 Token 上下文:上下文并行与 Ring Attention
上下文并行本质上是拿通信开销换内存空间,把输入序列切到多张 GPU 上,突破训练时的内存限制
Claude Code子代理实战:10个即用模板分享
简单的说子代理就是给AI指定一个专门的角色。
用 PydanticAI 让 LLM 输出变成可信赖的 Python 对象
本文会介绍 PydanticAI 的核心概念,解释为什么类型化响应对 agent 系统如此重要并给出与 CrewAI 集成的实际代码示例。
知识图谱的可验证性:断言图谱的设计原理
本文会介绍自动化知识图谱生成的核心难题:生成式模型为什么搞不定结构化提取,判别式方案能提供什么样的替代选择,生产级知识图谱的质量标准又是什么。
OPIK:一个开源的自动提示词优化框架
本文介绍如何用OPIK的MetaPromptOptimizer实现自动提示词优化,通过几轮迭代将大模型在复杂推理任务上的准确率从34%提升至97%。详解环境搭建、代码实现及优缺点,展示如何让LLM自我改进提示词,大幅提升效率与性能,推动提示工程迈向自动化。
用提示工程让大模型自己检查自己:CoVe方法有效减少幻觉
Chain-of-Verification(CoVe)的思路是既然模型会在生成时犯错,那就让它生成完之后再检查一遍自己的输出,把能发现的错误纠正掉,然后再给用户看。
为什么所有主流LLM都使用SwiGLU?
本文的目标是解释为什么现代LLM架构在前馈部分使用 ``` SwiGLU ``` 作为激活函数并且已经放弃了 ``` ReLU ```
LLM多跳推理深度测试:四项指标精准定位模型的推理极限
本文介绍推理深度的核心机制,然后用四项压力测试指标对 Llama 3.2 和 Qwen 3 做个横向对比看看它们的逻辑极限在哪里。