Energy Distance:度量两个多元分布差异的统计方法

Energy Distance 是一种基于度量的统计工具,适用于衡量两个多元分布的差异程度。

大模型训练的硬件基础:GPU内存层级、分块与并行策略

这篇文章从 GPU 架构讲到并行策略,涉及的是把模型从玩具规模拉到生产规模所必须面对的工程问题。

贝叶斯公式推导:从联合概率的对称性看条件反转

本文从简单概率的概念出发,逐步过渡到条件概率,最后介绍贝叶斯定理。整个过程会尽量保持直观,不涉及复杂的数学形式。

KV Cache管理架构演进:从连续分配到统一混合内存架构

本文梳理KV cache管理经历的5个时代,从它根本不存在的阶段,到今天正在成型的统一内存架构。文中会结合多个模型的部署经验,对比vLLM、SGLang和TensorRT-LLM在各阶段的应对思路。

PhysioDSP:一个面向可穿戴设备的 Python 信号处理库

PhysioDSP 是一个开源 Python 库,它给出了一套统一、可扩展的框架来处理和分析生理传感器数据

VAE 原理拆解:从概率编码到潜在空间正则化

这篇文章从基本原理出发完整拆解变分自编码器(VAE)的构建过程。

基于能量的模型(EBM):用能量函数替代概率分布的建模框架

Yann LeCun 反复强调过一个观点:当前LLM基于概率、逐 Token 预测的设计路线,很可能走不到人类水平的AI。他的团队更看好另一条路,基于能量的模型(EBM)。

时间序列异常检测的5种方法:从统计阈值到深度学习

异常检测的核心不在于找出"奇怪的数字",而在于理解每个时间点上什么才算正常。

从提示工程转向 上下文工程,6种让LLM在生产环境中稳定输出的技术

提示工程告诉模型怎么说话;context engineering 控制模型说话时看到什么。以下是把生产系统和Demo区分开的6种上下文工程技术。

向量搜索系统的三个核心优化维度:速度、精度与规模

向量搜索把信息检索从字面匹配带进了语义理解的时代。但光有 Embedding 还不够,真正让系统在生产环境中跑起来的是背后的工程优化

手把手搭建 Adaptive RAG 系统:从向量检索到 Streamlit 前端全流程

本文会带你从零搭建一个完整的概念验证项目(POC),技术栈涵盖 Adaptive RAG、LangGraph、FastAPI 和 Streamlit 四个核心组件。

深入理解三种PEFT方法:LoRA的低秩更新、QLoRA的4位量化与DoRA的幅度-方向分解

三种方法各有分工,互为补充,你唯一需要考虑的是哪种 PEFT 方案最贴合自己的硬件条件和精度要求。

并行多智能体系统的协调测试实战:从轨迹捕获到CI/CD的六个步骤

传统软件里bug 是逻辑错误。代码做了不该做的事;并行智能体系统里的 bug 往往以另一种形态出现:协调漂移。

RAG 中分块重叠的 8 个隐性开销与权衡策略

本文将总结的八项 RAG 分块重叠隐藏的成本,以及如何判断什么时候重叠真正有用,什么时候只是花钱买心安。

深入RAG架构:分块策略、混合检索与重排序的工程实现

从 Level 1 开始。记录并监控系统在哪翻车,搞清楚原因之后再往上走。 这才是构建一个真正能用的RAG系统的路径。

AI Agent技术栈:10个构建生产级Agent的核心概念

本文就总结了构建AI系统时真正绕不开的10个基础概念

长上下文"记忆"的舒适陷阱:为什么更多记忆不等于更可靠

人们喜欢长上下文,智能体记得你的项目、你的偏好、你说话的方式,连你那些反复冒出来的琐碎任务都帮你记着,所以用起来当然顺手。但顺手归顺手,顺手不等于靠谱,把这两件事搞混后面的麻烦就来了。

超越上下文窗口:CodeAct与RLM,两种代码驱动的LLM扩展方案

与其一味地扩大上下文窗口,不如去重构计算本身。无论是 CodeAct 的执行循环还是 RLM 的递归分解,LLM 系统的未来不在于能吃下多少 Token,而在于如何更聪明地控制推理和动作。

15 分钟用 FastMCP 搭建你的第一个 MCP Server(附完整代码)

Model Context Protocol 是一个开放标准,它的目标是给 LLM 一种干净、统一的方式去发现和调用外部工具。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈