强化学习 - overfit.cn

使用Actor-Critic的DDPG强化学习算法控制双关节机械臂

在本文中，我们将介绍在 Reacher 环境中训练智能代理控制双关节机械臂

Deephub 2023-05-10 10:09:09 0 收藏

Webots搭建强化学习二轮避障小车（看看吧蛮详细的）

此文为使用webots搭建二轮机器人并进行避障设计的全过程，各部分足够详细，对于初学者能起到不少帮助。同时也包含强化学习DQN算法进行避障的尝试。有兴趣可以一看。

overfit同步小助手 2023-05-03 16:01:38 0 收藏

【DeepExploit】基于强化学习的自动渗透工具

2018年日本公司MBSD研发出DeepExploit，底层使用Metasploit进行渗透，使用强化学习技术来提升渗透效率，主要功能如下：• 信息搜集：通过Nmap端口扫描以及爬虫收集主机的情报信息• 建模威胁：识别目标主机中的已知漏洞• 漏洞分析：确定高效有效的利用方法• 漏洞利用：使用确定的检

overfit同步小助手 2023-04-21 16:07:11 0 收藏

利用强化学习Q-Learning实现最短路径算法

本文中我们将尝试找出一种方法，在从目的地a移动到目的地B时尽可能减少遍历路径。我们使用自己的创建虚拟数据来提供演示，下面代码将创建虚拟的交通网格：

Deephub 2023-04-11 10:53:01 0 收藏

深度强化学习DRL训练指南和现存问题（D3QN（Dueling Double DQN））

深度强化学习DRL现存问题和训练指南（D3QN（Dueling Double DQN））

overfit同步小助手 2023-04-08 13:01:41 0 收藏

多智能体强化学习之MAPPO理论解读

多智能体强化学习之MAPPO算法MAPPO训练过程本文主要是结合文章Joint Optimization of Handover Control and Power Allocation Based on Multi-Agent Deep Reinforcement Learning对MAPPO算法

overfit同步小助手 2023-04-04 10:02:12 0 收藏

【深度强化学习】(4) Actor-Critic 模型解析，附Pytorch完整代码

行动者评论家方法是由行动者和评论家两个部分构成。行动者用于选择动作，评论家评论选择动作的好坏。Critic 是评判网络，当输入为环境状态时，它可以评估当前状态的价值，当输入为环境状态和采取的动作时，它可以评估当前状态下采取该动作的价值。Actor 为策略网络，以当前的状态作为输入，输出为动作的概率分

overfit同步小助手 2023-04-02 22:01:58 0 收藏

【深度强化学习】多智能体算法汇总

本文收纳了常见的多智能体强化学习方法，并简单介绍各个算法。

overfit同步小助手 2023-04-02 07:01:33 0 收藏

【深度强化学习】(7) SAC 模型解析，附Pytorch完整代码

Deepmind 提出的 SAC (Soft Actor Critic) 算法是一种基于最大熵的无模型的深度强化学习算法，适合于真实世界的机器人学习技能。SAC 算法的效率非常高，它解决了离散动作空间和连续性动作空间的强化学习问题。SAC 算法在以最大化未来累积奖励的基础上引入了最大熵的概念，加入熵

overfit同步小助手 2023-03-29 15:02:19 0 收藏

【强化学习】Q-Learning算法详解

1 Q-Learning算法简介1.1 行为准则我们做很多事情都有自己的行为准则，比如小时候爸妈常说：不写完作业就不准看电视。所以我们在写作业这种状态下，写的好的行为就是继续写作业，知道写完他，我们还可以得到奖励。不好的行为就是没写完就跑去看电视了，被爸妈发现，后果很严重。小时候这种事情做多了，也就

overfit同步小助手 2023-03-29 03:02:01 0 收藏

DRL基础（一）——强化学习发展历史简述

【摘要】这篇博客简要介绍强化学习发展历史：起源、发展、主要流派、以及应用举例。强化学习理论和技术很早就被提出和研究了，属于人工智能三大流派中的行为主义。强化学习一度成为着人工智能研究的主流，最近十年多年随着以深度学习为基础的联结主义的兴起，强化学习在感知和表达能力上得到了巨大提升，在解决某些领域的问

overfit同步小助手 2023-03-23 20:01:47 0 收藏

DDPG强化学习的PyTorch代码实现和逐步讲解

深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是受Deep Q-Network启发的无模型、非策略深度强化算法，是基于使用策略梯度的Actor-Critic，本文将使用pytorch对其进行完整的实现和讲解

Deephub 2023-03-22 10:33:52 0 收藏

7个流行的强化学习算法及代码实现

目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法已被用于在游戏、机器人和决策制定等各种应用中，并且这些流行的算法还在不断发展和改进，本文我们将对其做一个简单的介绍。

Deephub 2023-01-23 10:45:23 0 收藏

用强化学习玩《超级马里奥》

Pytorch的一个强化的学习教程（ Train a Mario-playing RL Agent）使用超级玛丽游戏来学习双Q网络(强化学习的一种类型)

overfit同步小助手 2022-12-22 14:04:21 0 收藏

强化学习的基础知识和6种基本算法解释

本文将涉及强化学习的术语和基本组成部分，以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最后用算法来说明不同类型的强化学习。

Deephub 2022-12-19 10:54:30 0 收藏

用强化学习玩《超级马里奥》

Pytorch的一个强化的学习教程（ Train a Mario-playing RL Agent）使用超级玛丽游戏来学习双Q网络(强化学习的一种类型)

Deephub 2022-12-01 10:43:02 0 收藏

使用PyTorch实现简单的AlphaZero的算法（3）：神经网络架构和自学习

神经网络架构和训练、自学习、棋盘对称性、Playout Cap Randomization，结果可视化

Deephub 2022-11-29 10:42:01 0 收藏

使用PyTorch实现简单的AlphaZero的算法（2）：理解和实现蒙特卡洛树搜索

本篇文章将实现AlphaZero的核心搜索算法：蒙特卡洛树搜索

Deephub 2022-11-09 10:59:26 0 收藏

使用PyTorch实现简单的AlphaZero的算法（1）：背景和介绍

在本文中，我们将在PyTorch中为Chain Reaction[2]游戏从头开始实现DeepMind的AlphaZero[1]。

Deephub 2022-11-08 14:28:39 0 收藏

多智能体强化学习之MAPPO理论解读

多智能体强化学习之MAPPO算法MAPPO训练过程本文主要是结合文章Joint Optimization of Handover Control and Power Allocation Based on Multi-Agent Deep Reinforcement Learning对MAPPO算法

overfit同步小助手 2022-11-02 11:21:09 0 收藏

使用Actor-Critic的DDPG强化学习算法控制双关节机械臂

Webots搭建强化学习二轮避障小车（看看吧蛮详细的）

【DeepExploit】基于强化学习的自动渗透工具

利用强化学习Q-Learning实现最短路径算法

深度强化学习DRL训练指南和现存问题（D3QN（Dueling Double DQN））

多智能体强化学习之MAPPO理论解读

【深度强化学习】(4) Actor-Critic 模型解析，附Pytorch完整代码

【深度强化学习】多智能体算法汇总

【深度强化学习】(7) SAC 模型解析，附Pytorch完整代码

【强化学习】Q-Learning算法详解

DRL基础（一）——强化学习发展历史简述

DDPG强化学习的PyTorch代码实现和逐步讲解

7个流行的强化学习算法及代码实现

用强化学习玩《超级马里奥》

强化学习的基础知识和6种基本算法解释

用强化学习玩《超级马里奥》

使用PyTorch实现简单的AlphaZero的算法（3）：神经网络架构和自学习

使用PyTorch实现简单的AlphaZero的算法（2）：理解和实现蒙特卡洛树搜索

使用PyTorch实现简单的AlphaZero的算法（1）：背景和介绍

多智能体强化学习之MAPPO理论解读

作者榜

资讯小助手

内容小助手

Deephub

奕凯