强化学习 - overfit.cn

吴恩达机器学习第三课 week3 强化学习（月球着陆器自动着陆）

Coursera课程吴恩达机器学习第3课：无监督学习、推荐算法和强化学习

overfit同步小助手 2024-09-17 05:01:42 0 收藏

AI：263-强化学习在自动驾驶领域的应用与前沿挑战

自动驾驶汽车是当前人工智能和机器学习的热门研究方向，而强化学习（Reinforcement Learning，RL）因其在复杂动态环境中的决策能力，成为推动自动驾驶技术的重要工具。本文将探讨强化学习在自动驾驶中的应用、面临的挑战，并提供一个简单的代码实例以展示如何在自动驾驶中应用强化学习。

overfit同步小助手 2024-09-11 05:01:17 0 收藏

Monte Carlo方法解决强化学习问题

本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。

Deephub 2024-09-10 10:41:31 0 收藏

强化学习—多智能体

多智能体强化学习是强化学习中的一个重要分支，涉及多个智能体在动态和交互的环境中学习和决策。它面临着挑战，如非稳定性、维度灾难以及智能体之间的协作与竞争。然而，随着算法的不断进步，MARL 在多个复杂应用领域中显示出巨大的潜力和前景。如果有更多的具体问题或需要深入讨论某个方面，欢迎继续提问！在一个包含

overfit同步小助手 2024-09-05 23:01:46 0 收藏

使用 Python TorchRL 进行多代理强化学习

本文将深入探讨如何使用 TorchRL 解决 MARL 问题,重点关注多代理环境中的近端策略优化(PPO)。

Deephub 2024-08-28 10:32:52 0 收藏

【强化学习】Q-learning训练AI走迷宫

Q-learning是一种基于强化学习的算法，用于解决Markov决策过程（MDP）中的问题。这类问题我们理解为一种可以用有限状态机表示的问题。它具有一些离散的状态state、每一个state可以通过动作action转移到另外一个state。每次采取action，这个action都会带有一些奖励re

overfit同步小助手 2024-07-09 08:01:26 0 收藏

使用深度强化学习预测股票：DQN 、Double DQN和Dueling Double DQN对比和代码示例

通过DRL，研究人员和投资者可以开发能够分析历史数据的模型，理解复杂的市场动态，并对股票购买、销售或持有做出明智的决策。

Deephub 2024-06-20 10:55:37 0 收藏

通过强化学习策略进行特征选择

在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。

Deephub 2024-05-30 10:27:19 0 收藏

基于Google Vertex AI 和 Llama 2进行RLHF训练和评估

基于人类反馈的强化学习（RLHF）实战

overfit同步小助手 2024-03-30 12:01:06 0 收藏

MADQN：多代理合作强化学习

在本文中我们将只关注合作多代理学习的问题，不仅因为它在我们日常生活中更常见，而对于我们学习来说也相对的简单一些。

Deephub 2024-03-14 11:26:30 0 收藏

【强化学习入门】二.强化学习的基本概念：状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数

自动驾驶中，汽车就是智能体；机器人控制中，机器人就是智能体；超级玛丽游戏中，玛丽就是智能体。当智能体做出一个动作，状态会发生变化（从旧的状态变成新的状态）。我们就可以说状态发生的转移。的含义就是，根据观测到的状态，做出动作的方案，超级玛丽游戏中，观测到的这一帧画面就是一个。强化学习的目标就是尽可能的

overfit同步小助手 2023-12-27 00:01:12 0 收藏

强化学习稀疏奖励问题（sparse reward）及解决方法

通常在训练智能体时，我们希望每一步动作都有相应的奖励。但是某些情况下，智能体并不能立刻获得奖励，比如全局奖励的围棋，最终获胜会得到奖励，但是人们很难去设定中间每步的奖励，这会导致学习缓慢甚至无法进行学习的问题。稀疏奖励，奖励塑型，课程学习，好奇心模块，分层强化学习

overfit同步小助手 2023-12-03 21:01:08 0 收藏

一分钟秒懂人工智能对齐

事实上，人工智能对齐这一概念和ChatGPT这样的通用大模型的诞生密不可分。对于通用大模型而言，一个模型可以同时完成多种任务，而且不同的任务有着不同的期望：有的任务希望能够更有想象力，有的任务希望能够更尊重事实；有的任务希望能够理性客观，有的任务希望能有细腻丰富的情感。任务的多样性导致了需要对大模型

overfit同步小助手 2023-11-13 06:01:39 0 收藏

Python强化学习实战及其AI原理详解

1. 引言2. 时间旅行和平行宇宙3. 强化学习4. 策略梯度算法5. 代码案例6. 推荐阅读与粉丝福利

overfit同步小助手 2023-11-10 15:01:30 0 收藏

使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习

强化学习(RL)是一种机器学习方法，它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励，因采取行动导致预期结果而受到惩罚。随着时间的推移，代理学会采取行动，使其预期回报最大化。

Deephub 2023-10-30 09:19:02 0 收藏

基于时态差分法的强化学习：Sarsa和Q-learning

时态差分法（Temporal Difference, TD）是一类在强化学习中广泛应用的算法，用于学习价值函数或策略。Sarsa和Q-learning都是基于时态差分法的重要算法，用于解决马尔可夫决策过程（Markov Decision Process, MDP）中的强化学习问题。

Deephub 2023-08-12 09:33:34 0 收藏

基于Gym Anytrading 的强化学习简单实例

Gym Anytrading是一个建立在OpenAI Gym之上的开源库，它提供了一系列金融交易环境。它允许我们模拟各种交易场景，并使用RL算法测试不同的交易策略。

Deephub 2023-07-19 09:31:31 0 收藏

通用人工智能之路：什么是强化学习？如何结合深度学习？

【专栏订阅必读】ChatGPT强大魔力的关键因素之一是应用了强化学习模型，本文系统梳理强化学习中环境、智能体、奖赏、动作、状态等关键概念，并给出深度强化学习框架。

overfit同步小助手 2023-07-04 08:01:40 0 收藏

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

深度确定性策略梯度算法 (Deterministic Policy Gradient，DDPG)。DDPG 算法使用演员-评论家（Actor-Critic）算法作为其基本框架，采用深度神经网络作为策略网络和动作值函数的近似，使用随机梯度法训练策略网络和价值网络模型中的参数。DDPG 算法架构中使用双

overfit同步小助手 2023-05-22 23:01:36 0 收藏

强化学习笔记 Ornstein-Uhlenbeck 噪声和DDPG

用SDE的形式表示，Ornstein-Uhlenbeck过程为：从SDE的角度看，随机过程包含两块：如果我们考虑离散形式，记单步step为τ：形式上就是，也即自回归形式AR(1) 通过上一小段，不难发现Ornstein-Uhlenbeck过程是时序相关的【且满足马尔科夫性，后一步

overfit同步小助手 2023-05-16 19:03:53 0 收藏