![](http://images.overfit.cn/upload/20250214/057e84d8800740aab5c7e431b9255d0f.jpeg)
DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
本文将深入分析 GRPO 的工作机制及其在语言模型训练领域的重要技术突破,并探讨其在实际应用中的优势与局限性。
![](http://images.overfit.cn/upload/20250212/56961f1af3024a3fb29a6b49361bbf32.jpeg)
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。
![](http://images.overfit.cn/upload/20250207/e6ad080ba3a74f1999941b8c6305aa49.jpeg)
SRMT:一种融合共享记忆与稀疏注意力的多智能体强化学习框架
本研究将系统阐述**SRMT的技术架构、核心功能、应用场景及实验数据**,深入分析其在**多智能体强化学习(MARL)**领域的技术优势。
![](http://images.overfit.cn/upload/20250111/725ab1e330474da59fd0acf407cae43f.gif)
深度强化学习实战:训练DQN模型玩超级马里奥兄弟
本文将探讨深度学习在游戏领域的一个具体应用:构建一个能够自主学习并完成**超级马里奥兄弟**的游戏的智能系统。
![](http://images.overfit.cn/upload/20250108/ce3b635661b34c2697f29f62d267c0b9.png)
面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现
循环状态空间模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在论文《Learning Latent Dynamics for Planning from Pixels》中提出。
![](http://images.overfit.cn/upload/20250103/bef4b9a8fe8b4115aa7070da8ef80477.jpeg)
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
软演员-评论家算法(Soft Actor-Critic, SAC)因其在样本效率、探索效果和训练稳定性等方面的优异表现而备受关注。
【SARL】单智能体强化学习(Single-Agent Reinforcement Learning)《纲要》
强化学习(Reinforcement Learning,简称 RL)是一种让机器“通过尝试和错误学习”的方法。它模拟了人类和动物通过经验积累来学会做决策的过程,目的是让机器或智能体能够在复杂的环境中选择最优的行为,从而获得最大的奖励。我们在这里介绍了单智能体强化学习的相关算法。
【SSL-RL】基于好奇心驱动的自监督探索机制(ICM算法)
Intrinsic Curiosity Module (ICM) 是一种用于强化学习的内在奖励机制,旨在解决传统强化学习中在稀疏奖励场景下,智能体难以学习有效策略的问题。该算法由 Deepak Pathak 等人在论文《Curiosity-driven Exploration by Self-sup
【SSL-RL】自监督强化学习:随机网络蒸馏(RND)方法
随机网络蒸馏(RND)是一种自监督学习方法,旨在提高强化学习中的探索效率。该算法由 Chesney et al. 在论文《Random Network Distillation as a Method for Intrinsic Motivation》提出,RND 利用随机神经网络的输出与环境状态的
2024全国大数据与计算智能挑战赛火热报名中!
一年一度,快来报名!
【MADRL】反事实多智能体策略梯度(COMA)算法
反事实多智能体策略梯度法COMA (Counterfactual Multi-Agent Policy Gradient) 是一种面向多智能体协作问题的强化学习算法,旨在通过减少策略梯度的方差,来提升去中心化智能体的学习效果。COMA 算法最早由 DeepMind 团队提出,论文标题为 "Count
![](http://images.overfit.cn/upload/20241012/a019b25fbddd448196e73ab70e7284c4.jpeg)
多代理强化学习综述:原理、算法与挑战
多代理强化学习是强化学习的一个子领域,专注于研究在共享环境中共存的多个学习代理的行为。每个代理都受其个体奖励驱动,采取行动以推进自身利益
【RL Latest Tech】安全强化学习(Safe RL):理论、方法与应用
在强化学习(Reinforcement Learning, RL)中,智能体通过与环境的交互来学习一个策略,以最大化长期累积回报。然而,传统的强化学习算法在优化回报时往往不考虑智能体行为的安全性,导致在训练或部署过程中可能出现不安全的行为。**安全强化学习(Safe Reinforcement Le
![](http://images.overfit.cn/upload/20241003/306a3356e1e74e06b9600449f7f6bc92.jpeg)
SCoRe: 通过强化学习教导大语言模型进行自我纠错
这是谷歌9月发布在arxiv上的论文,研究者们提出了一种新方法**自我纠错强化学习(SCoRe)**,旨在使大语言模型能够在没有任何外部反馈或评判的情况下"即时"纠正自己的错误。
【RL Latest Tech】分层强化学习:Option-Critic架构算法
分层强化学习(Hierarchical Reinforcement Learning, HRL)通过将复杂问题分解为更小的子问题,显著提高了强化学习算法在解决高维状态空间和长期目标任务中的效率。Option-Critic架构是分层强化学习中一种非常有影响力的方法,专门用于自动发现和优化子策略(称为“
【RL】强化学习入门:从基础到应用
【RL】强化学习入门:从基础到应用强化学习,本文介绍了强化学习的基础和python经典实现。(Reinforcement Learning, RL)是机器学习的一个重要分支,它使得智能体通过与环境的互动来学习如何选择最优动作,以最大化累积奖励。近年来,随着深度学习技术的发展,强化学习取得了显著的进展
吴恩达机器学习 第三课 week3 强化学习(月球着陆器自动着陆)
Coursera课程 吴恩达机器学习 第3课 :无监督学习、推荐算法和强化学习
AI:263-强化学习在自动驾驶领域的应用与前沿挑战
自动驾驶汽车是当前人工智能和机器学习的热门研究方向,而强化学习(Reinforcement Learning,RL)因其在复杂动态环境中的决策能力,成为推动自动驾驶技术的重要工具。本文将探讨强化学习在自动驾驶中的应用、面临的挑战,并提供一个简单的代码实例以展示如何在自动驾驶中应用强化学习。
![](http://images.overfit.cn/upload/20240910/bd09a1618b424357962eff955f4476ad.jpeg)
Monte Carlo方法解决强化学习问题
本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。
强化学习—多智能体
多智能体强化学习是强化学习中的一个重要分支,涉及多个智能体在动态和交互的环境中学习和决策。它面临着挑战,如非稳定性、维度灾难以及智能体之间的协作与竞争。然而,随着算法的不断进步,MARL 在多个复杂应用领域中显示出巨大的潜力和前景。如果有更多的具体问题或需要深入讨论某个方面,欢迎继续提问!在一个包含