DRL基础(一)——强化学习发展历史简述

【摘要】这篇博客简要介绍强化学习发展历史:起源、发展、主要流派、以及应用举例。强化学习理论和技术很早就被提出和研究了,属于人工智能三大流派中的行为主义。强化学习一度成为着人工智能研究的主流,最近十年多年随着以深度学习为基础的联结主义的兴起,强化学习在感知和表达能力上得到了巨大提升,在解决某些领域的问

DDPG强化学习的PyTorch代码实现和逐步讲解

深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是受Deep Q-Network启发的无模型、非策略深度强化算法,是基于使用策略梯度的Actor-Critic,本文将使用pytorch对其进行完整的实现和讲解

7个流行的强化学习算法及代码实现

目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。 这些算法已被用于在游戏、机器人和决策制定等各种应用中,并且这些流行的算法还在不断发展和改进,本文我们将对其做一个简单的介绍。

用强化学习玩《超级马里奥》

Pytorch的一个强化的学习教程( Train a Mario-playing RL Agent)使用超级玛丽游戏来学习双Q网络(强化学习的一种类型)

强化学习的基础知识和6种基本算法解释

本文将涉及强化学习的术语和基本组成部分,以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最后用算法来说明不同类型的强化学习。

用强化学习玩《超级马里奥》

Pytorch的一个强化的学习教程( Train a Mario-playing RL Agent)使用超级玛丽游戏来学习双Q网络(强化学习的一种类型)

使用PyTorch实现简单的AlphaZero的算法(3):神经网络架构和自学习

神经网络架构和训练、自学习、棋盘对称性、Playout Cap Randomization,结果可视化

使用PyTorch实现简单的AlphaZero的算法(2):理解和实现蒙特卡洛树搜索

本篇文章将实现AlphaZero的核心搜索算法:蒙特卡洛树搜索

使用PyTorch实现简单的AlphaZero的算法(1):背景和介绍

在本文中,我们将在PyTorch中为Chain Reaction[2]游戏从头开始实现DeepMind的AlphaZero[1]。

多智能体强化学习之MAPPO理论解读

多智能体强化学习之MAPPO算法MAPPO训练过程本文主要是结合文章Joint Optimization of Handover Control and Power Allocation Based on Multi-Agent Deep Reinforcement Learning对MAPPO算法

【强化学习】Q-Learning算法详解以及Python实现【80行代码】

强化学习在文章正式开始前,请不要被强化学习的tag给吓到了,这也是我之前所遇到的一个困扰。觉得这个东西看上去很高级,需要一个完整的时间段,做详细的学习。相反,强化学习的很多算法是很符合直观思维的。 因此,强化学习的算法思想反而会是相当直观的。另外,需要强调的是,这个算法在很多地方都有很详细的阐述了。

强化学习入门笔记

我们先回忆一下童年,来看看超级玛丽这款游戏在这款游戏里面的,我们需要控制超级玛丽进行左右行走、跳、攻击等动作,来躲避或攻击小动物、吃金币以及各种类型的增益道具。最终,获得的金币数量的多少以及通关代表我们玩游戏玩的好不好。那么,如果我们希望让机器来玩这个游戏呢?怎么能让机器在合适的时候做出合适的动作?

PyTorch强化学习实战(1)——强化学习环境配置与PyTorch基础

工欲善其事,必先利其器。为了更专注于学习强化学习的思想,而不必关注其底层的计算细节,我们首先搭建相关强化学习环境,包括 PyTorch 和 Gym,其中 PyTorch 是我们将要使用的主要深度学习框架,Gym 则提供了用于各种强化学习模拟和任务的环境。除此之外,本文还介绍了一些 PyTorch 的

5篇关于将强化学习与马尔可夫决策过程结合使用的论文推荐

低光图像增强、离线强化学习、基于深度强化学习的二元分类决策森林的构建方法等最新的研究成果

强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度)

强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度)1. 动作空间1.1 离散动作空间1.2 连续动作空间1. 动作空间1.1 离散动作空间比如:{left,right,up}\{left,right,up\}{left,right,up}DQN可以用于离散的动作空间(策略网络)1.2

强化学习(四)—— Actor-Critic

强化学习(四)—— Actor-Critic1. 网络结构2. 网络结构2. 策略网络的更新-策略梯度3. 价值网络的更新-时序差分(TD)4. 网络训练流程3. 案例1. 网络结构状态价值函数:Vπ(st)=∑aQπ(st,a)⋅π(a∣st)V_\pi(s_t)=\sum_aQ_\pi(s_t

5篇关于强化学习在金融领域中应用的论文推荐

近年来机器学习在各个金融领域各个方面均有应用,其实金融领域的场景是很适合强化学习应用

强化学习 | 策略梯度 | Natural PG | TRPO | PPO

递进学习策略梯度:从 Gradient、Policy Gradient (REINFORCE、Q Actor-Critic、Advantage Actor-Critic ) 至 Natural Policy Gradient、TRPO、PPO 。逻辑清晰,含大量手写笔记,注释了黎曼流形、Hessia

论文推荐:StarCraft II Unplugged 离线强化学习

在本文中,我们将介绍 StarCarft II Unplugged 论文 [1],本论文可以将AlphaStar进行了扩展或者说更好的补充解释,绝对值得详细阅读。

通过强化学习和官方API制作《星露谷物语》的自动钓鱼mod

使用官方 Stardew Valley 的 modding API 用 C# 编写一个自动钓鱼的mod