为什么所有主流LLM都使用SwiGLU?

本文的目标是解释为什么现代LLM架构在前馈部分使用 ``` SwiGLU ``` 作为激活函数并且已经放弃了 ``` ReLU ```

LLM多跳推理深度测试:四项指标精准定位模型的推理极限

本文介绍推理深度的核心机制,然后用四项压力测试指标对 Llama 3.2 和 Qwen 3 做个横向对比看看它们的逻辑极限在哪里。

Agentic Memory 实践:用 agents.md 实现 LLM 持续学习

本文会概述如何通过持续更新 agents.md 文件来实现 LLM 的持续学习。

CALM模型的黑盒采样:用碰撞方法实现温度调节

本文要解决的就是这个问题:只靠抽样能力,不碰任何概率数值,照样可以实现温度控制。

RAG检索模型选型:Bi-Encoder、Cross-Encoder、SPLADE与ColBERT的技术对比

本文将拆解每种模型的工作机制、适用边界,以及如何在实际系统中组合使用。而核心问题是:高召回和高精准之间的平衡该怎么把握。

构建自己的AI编程助手:基于RAG的上下文感知实现方案

代码助手需要专门为代码设计的上下文感知的RAG(Retrieval-Augmented Generation)管道,这是因为代码跟普通文本不一样,结构严格,而且不能随便按字符随便进行分割。

别再往一个智能体里塞功能了:6种多智能体模式技术解析与选型指南

这篇文章整理了 6 种经过验证的多智能体架构模式,可以有效的帮你解决问题。

LLM-as-a-judge有30%评测偏差?这篇论文给出修复方案

LLM-as-a-judge是个好想法但它的统计基础一直没跟上,而这项工作证明自动化评估可以既可扩展又可靠,但是前提是要承认局限、校正偏差。

Agentic RAG:用LangGraph打造会自动修正检索错误的 RAG 系统

本文要做的就是用 LangGraph 做流程编排、Redis 做向量存储,搭一个生产可用的 Agentic RAG 系统。涉及整体架构设计、决策逻辑实现,以及状态机的具体接线方式。

DecEx-RAG:过程监督+智能剪枝,让大模型检索推理快6倍

DecEx-RAG 把 RAG 建模成一个马尔可夫决策过程(MDP),分成决策和执行两个阶段。

Google Code Wiki:GitHub代码库秒变可交互文档

Google发布的这个Code Wiki项目可以在代码仓库之上构建动态知识层的工具,或者说可以"自动生成文档"。

Lux 上手指南:让 AI 直接操作你的电脑

**Lux** 要是一个专门用于计算机操作的基础模型。

大规模向量检索优化:Binary Quantization 让 RAG 系统内存占用降低 32 倍

本文会逐步展示如何搭建一个能在 30ms 内查询 3600 万+向量的 RAG 系统,用的就是二值化 embedding。

CALM自编码器:用连续向量替代离散token,生成效率提升4倍

近年来语言模型效率优化多聚焦参数规模与注意力机制,却忽视了自回归生成本身的高成本。CALM提出新思路:在token之上构建潜在空间,通过变分自编码器将多个token压缩为一个连续向量,实现“一次前向传播生成多个token”。

dLLM:复用自回归模型权重快速训练扩散语言模型

dLLM是一个开源的Python库,它把扩散语言模型的训练、微调、推理、评估这一整套流程都统一了起来,而且号称任何的自回归LLM都能通过dLLM转成扩散模型

Anthropic 开源 Bloom:基于 LLM 的自动化行为评估框架

这套框架把行为评估自动化了,从定义行为到生成测试用例、执行评估、给出判断,全程不需要人工介入。

Pydantic-DeepAgents:基于 Pydantic-AI 的轻量级生产级 Agent 框架

有时候严格的类型安全加上一个干净的 Docker 容器,远比一张错综复杂的有向无环图(DAG)要好维护得多。

1小时微调 Gemma 3 270M 端侧模型与部署全流程

Gemma 3 270M是谷歌推出的轻量级开源模型,可快速微调并压缩至300MB内,实现在浏览器中本地运行。本文教你用QLoRA在Colab微调模型,构建emoji翻译器,并通过LiteRT量化至4-bit,结合MediaPipe在前端离线运行,实现零延迟、高隐私的AI体验。小模型也能有大作为。

DeepSeek-R1 与 OpenAI o3 的启示:Test-Time Compute 技术不再迷信参数堆叠

Test-Time Compute(测试时计算),继 Transformer 之后,数据科学领域最重要的一次架构级范式转移。

LMCache:基于KV缓存复用的LLM推理优化方案

LMCache针对TTFT提出了一套KV缓存持久化与复用的方案。项目开源,目前已经和vLLM深度集成。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈