强化学习 - overfit.cn

18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现

本文系统讲解从基本强化学习方法到高级技术（如PPO、A3C、PlaNet等）的实现原理与编码过程，旨在通过理论结合代码的方式，构建对强化学习算法的全面理解。

Deephub 10 天前 0 收藏

SWEET-RL：基于训练时信息的多轮LLM代理强化学习框架

本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。

Deephub 24 天前 0 收藏

广义优势估计(GAE)：端策略优化PPO中偏差与方差平衡的关键技术

GAE的理论基础建立在资格迹(eligibility traces)和时序差分λ(TD-λ)之上，是近端策略优化(PPO)算法的重要基础理论

Deephub 1 个月前 0 收藏

SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架

该模型的核心创新在于**完全依靠强化学习机制（无需人工标注的交互轨迹）**来学习最优的搜索查询策略及基于检索知识的推理方法，从而显著提升问答任务的性能表现。

Deephub 2025-03-21 10:07:32 0 收藏

Visual-RFT：基于强化学习的视觉语言模型微调技术研究

Visual-RFT 的核心理念在于促进模型通过渐进式推理进行学习，而非简单地记忆标准答案。该方法鼓励模型生成多样化的响应并进行自主推理，随后基于答案正确性的验证信号调整学习方向。

Deephub 2025-03-06 21:28:44 0 收藏

Logic-RL: 小模型也能强推理，通过基于规则的强化学习提升大语言模型结构化推理能力

这篇论文探讨了基于规则的强化学习（RL）如何解锁LLM中的高级推理能力。通过在受控的逻辑谜题上进行训练并强制执行结构化的思考过程，即使是相对较小的模型也能开发出可转移的问题解决策略。

Deephub 2025-02-26 10:14:50 0 收藏

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

本文将深入分析 GRPO 的工作机制及其在语言模型训练领域的重要技术突破，并探讨其在实际应用中的优势与局限性。

Deephub 2025-02-14 10:04:59 0 收藏

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法，在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中，PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。

Deephub 2025-02-12 14:47:51 0 收藏

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

本研究将系统阐述**SRMT的技术架构、核心功能、应用场景及实验数据**，深入分析其在**多智能体强化学习(MARL)**领域的技术优势。

Deephub 2025-02-07 09:48:55 0 收藏

深度强化学习实战：训练DQN模型玩超级马里奥兄弟

本文将探讨深度学习在游戏领域的一个具体应用：构建一个能够自主学习并完成**超级马里奥兄弟**的游戏的智能系统。

Deephub 2025-01-11 21:20:37 0 收藏

面向强化学习的状态空间建模：RSSM的介绍和PyTorch实现

循环状态空间模型（Recurrent State Space Models, RSSM）最初由 Danijar Hafer 等人在论文《Learning Latent Dynamics for Planning from Pixels》中提出。

Deephub 2025-01-08 09:40:03 0 收藏

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

软演员-评论家算法（Soft Actor-Critic, SAC）因其在样本效率、探索效果和训练稳定性等方面的优异表现而备受关注。

Deephub 2025-01-03 09:47:09 0 收藏

【SARL】单智能体强化学习（Single-Agent Reinforcement Learning）《纲要》

强化学习（Reinforcement Learning，简称 RL）是一种让机器“通过尝试和错误学习”的方法。它模拟了人类和动物通过经验积累来学会做决策的过程，目的是让机器或智能体能够在复杂的环境中选择最优的行为，从而获得最大的奖励。我们在这里介绍了单智能体强化学习的相关算法。

overfit同步小助手 2024-12-06 09:01:44 0 收藏

【SSL-RL】基于好奇心驱动的自监督探索机制（ICM算法）

Intrinsic Curiosity Module (ICM) 是一种用于强化学习的内在奖励机制，旨在解决传统强化学习中在稀疏奖励场景下，智能体难以学习有效策略的问题。该算法由 Deepak Pathak 等人在论文《Curiosity-driven Exploration by Self-sup

overfit同步小助手 2024-11-27 12:02:39 0 收藏

【SSL-RL】自监督强化学习：随机网络蒸馏（RND）方法

随机网络蒸馏（RND）是一种自监督学习方法，旨在提高强化学习中的探索效率。该算法由 Chesney et al. 在论文《Random Network Distillation as a Method for Intrinsic Motivation》提出，RND 利用随机神经网络的输出与环境状态的

overfit同步小助手 2024-11-05 11:06:17 0 收藏

2024全国大数据与计算智能挑战赛火热报名中！

一年一度，快来报名！

overfit同步小助手 2024-10-24 16:04:39 0 收藏

【MADRL】反事实多智能体策略梯度（COMA）算法

反事实多智能体策略梯度法COMA (Counterfactual Multi-Agent Policy Gradient) 是一种面向多智能体协作问题的强化学习算法，旨在通过减少策略梯度的方差，来提升去中心化智能体的学习效果。COMA 算法最早由 DeepMind 团队提出，论文标题为 "Count

overfit同步小助手 2024-10-15 22:03:44 0 收藏

多代理强化学习综述：原理、算法与挑战

多代理强化学习是强化学习的一个子领域，专注于研究在共享环境中共存的多个学习代理的行为。每个代理都受其个体奖励驱动，采取行动以推进自身利益

Deephub 2024-10-12 09:38:39 0 收藏

【RL Latest Tech】安全强化学习（Safe RL）：理论、方法与应用

在强化学习（Reinforcement Learning, RL）中，智能体通过与环境的交互来学习一个策略，以最大化长期累积回报。然而，传统的强化学习算法在优化回报时往往不考虑智能体行为的安全性，导致在训练或部署过程中可能出现不安全的行为。**安全强化学习（Safe Reinforcement Le

overfit同步小助手 2024-10-08 08:07:16 0 收藏

SCoRe: 通过强化学习教导大语言模型进行自我纠错

这是谷歌9月发布在arxiv上的论文，研究者们提出了一种新方法**自我纠错强化学习(SCoRe)**,旨在使大语言模型能够在没有任何外部反馈或评判的情况下"即时"纠正自己的错误。

Deephub 2024-10-03 11:42:44 0 收藏