百亿参数模型的并行训练:节点内张量并行、节点间数据并行
瓶颈不在于数据移动的速度,而在于内存里能存多少、以及在移动数据的同时能让 GPU 保持多忙
DiffusionGemma:用离散文本扩散和双向注意力,把推理瓶颈从内存带宽转移到算力
DiffusionGemma 则是离散文本扩散(discrete text diffusion)的实验性模型,可以同时生成并精炼整个文本块,绕过了历史上制约本地 AI 性能的主要硬件瓶颈。
微调LocateAnything-3B 实现超高密度的目标检测
微调LocateAnything-3B,实现当图像中有 300+ 个密集重叠目标、人工标注不可行时的实用方案。
10 个 AI 工程师必须掌握的 LangChain & LangGraph 概念
但是应用需要检索文档、调用工具、处理故障、路由请求、记住历史操作,还要在关键决策节点引入人工审核。这时这个聊天机器人已经变成了一套工作流。
Flash-KMeans:快速且内存高效的精确 K-Means,可在单张 GPU 进行亿级数据的聚类
本文介绍 Flash-KMeans是一个近期提出的框架,它受 Flash(最小化数据移动)的启发,论文给出了一种执行精确 K-Means 的方案,速度更快内存效率也远优于 FAISS 等行业标准实现
AI Agent的三重记忆机制:打造高可用的多维记忆系统
本文是一份实用指南,帮助你选择合适的记忆层。
相关性与因果性:识别伪相关以提升模型在真实环境的可用性
相关性表示两个指标存在同步变动趋势,因果性则代表一件事直接促成了另一件事。两者之间有着一道需要用严谨论证来填补的鸿沟。测算相关性毫无门槛但是证明因果关系却极度困难。
2026 年开源 Agent 工具包选型指南:延迟、审计、可移植性与语言栈
2026 年用于构建 agent 的开源工具包已经已经得到了巨大的发展,所以本篇文章将从以下角度来帮助你如何选择最适合你的工具:延迟预算、审计追踪、模型可移植性、还是语言栈。
Pydantic v2 入门教程:模型、字段、验证器
本问将覆盖 API 的每个核心部分:定义模型、约束字段、写验证器、组合嵌套结构、控制序列化。所有示例基于 **Pydantic v2** 和 **Python 3.10+**,每个清单完整可运行。
Orchestrator 为什么比 Agentic Loop 快:LLM 决策与执行分离的架构解析
Agentic loop 适合前期的探索工作,而Orchestrator 适合生产。
手写 Triton Softmax Kernel:程序实例、块大小、mask 与指针算术
以官方 Triton 教程为基础,深入代码背后的原理并配上手绘图解。如果你觉得 GPU 编程教程总是太晦涩,这篇文章正好可以用来入门。
Prompt Engineering 的本质:角色、任务、上下文、格式、约束
Prompt engineering 就是用来填这个坑的,它是一种和 AI 系统沟通的方法——表达得足够清晰、足够精确,让模型的第一反应就了解你的真实意图。
视频 RAG 中分块策略:基于停顿、滑动窗口与基于 LLM 的方法
文本的RAG我们都已经很熟悉了,但是如果数据以原始视频转录文本的形式存储,没有合适的时间结构,那么相比标准的 PDF 或文本文档,如何检索视频里面的内容呢?
lat.md:将任意项目代码转换为可查询的知识图谱
lat.md让我们不再停留在“搜索”信息,而是面向一张组织有序、经过校验的项目地图。把笔记直接挂到代码上,再让它们的一致性接受自动校验,AI 工具因此变得更聪明、更可靠。
四种无向量RAG 方案实测:BM25、GraphRAG、Tree Search、Agent
四种方法都查这一份数据集,但每种方法分别使用刻意挑选、能发挥其长处的查询。得到的结果是:没有任何一种方法是通用的。
Agentic 设计模式拆解:6 种结构的优缺点与应用场景
所以这篇文章总结一些常见的设计模式,这些模式归纳了在大量已验证实现中反复出现的共性,可以视为一组结构化的骨架,用来理解智能体(Agent)、用户、模型和工具之间的核心交互。
从零搭建 Harness Engineering 框架 :Rule、Skill、Sub-Agent等工程落完整路径
Harness 这个词听起来宽泛而且像一种抽象的方法论。如果它没法落到具体的目录结构、文档、脚本和工作流上,那就只是一句漂亮口号。
推理 → 行动 → 观察:用 LangChain + Python 实现一个智能体循环
下面这篇介绍会说明它是什么、如何工作,以及如何把它实现出来。
TraceML:用三行代码为训练循环加入 step 级诊断
TraceML 是开源的目前支持单 GPU 以及单节点 DDP/FSDP;多节点支持很快会推出。