使用 Python TorchRL 进行多代理强化学习

随着多代理系统的出现,强化学习的复杂性不断增加。为了管理这种复杂性,像 TorchRL 这样的专门工具提供了一个强大的框架,可以开发和实验多代理强化学习(MARL)算法。本文将深入探讨如何使用 TorchRL 解决 MARL 问题,重点关注多代理环境中的近端策略优化(PPO)。

我们将使用 VMAS 模拟器,这是一个多机器人模拟器并且可以在 GPU 上进行并行训练。他的主要目标多个机器人必须导航到各自的目标,同时避免碰撞。

依赖

在开始之前,请确保安装以下依赖项:

 !pip3 install torchrl  
 !pip3 install vmas  
 !pip3 install tqdm

理解近端策略优化 (PPO)

PPO 是一种策略梯度算法,它迭代地从环境中采样数据,并直接使用这些数据来优化策略。这个过程包括采样和训练两个阶段,数据在收集后立即进行训练更新。这种在线方法确保策略根据与环境最近的交互持续改进。

在线学习

在 PPO 中,学习过程依赖于一个评论家(critic),它评估策略所采取行动的质量。评论家估计给定状态的价值,通过比较预期回报与实际结果来指导策略优化。

在多代理设置中,我们部署多个策略,每个代理一个,通常以分散的方式运作。每个代理的策略仅根据其局部观察来决定其行动。但是评论家可以是集中的或分散的:

MAPPO : 评论家是集中的,以全局观察或连接的代理观察作为输入。这种方法在可获得全局状态信息的集中式训练场景中有益。
IPPO : 评论家是分散的,仅依赖于局部观察。这种设置支持分散式训练,代理只需要局部信息。

集中式评论家有助于缓解多个代理同时学习时出现的非平稳性问题,但可能因输入的高维度性而面临挑战。

TorchRL

TorchRL是一个基于PyTorch的强化学习（Reinforcement Learning, RL）库，专为研究人员和开发者设计，旨在提供一个灵活、高效的框架来实现和实验各种RL算法。

与PyTorch深度集成：TorchRL充分利用了PyTorch的生态系统，使用户能够无缝地将RL算法与深度学习模型结合。
模块化设计：库提供了可组合的组件，允许用户轻松构建和定制RL算法。
高性能：TorchRL注重效率，支持GPU加速和并行化，以加快训练和推理速度。
多环境支持：兼容多种RL环境，包括OpenAI Gym、DeepMind Control Suite等。
丰富的算法实现：内置多种流行的RL算法，如DQN、PPO、SAC等。
扩展性：易于扩展和添加新的算法、环境和功能。

下面代码我们将使用TorchRL来完成我们的目标

1、设置超参数

我们从定义 MARL 设置的超参数开始。这些参数控制模拟和训练过程的各个方面,如设备类型、批量大小、学习率和 PPO 特定设置。

 importtorch  
 fromtorchimportmultiprocessing  
   
 # 设置设备  
 is_fork=multiprocessing.get_start_method() =="fork"  
 device=torch.device(0) iftorch.cuda.is_available() andnotis_forkelsetorch.device("cpu")  
 vmas_device=device  # 运行 VMAS 模拟器的设备  
 # 采样和训练参数  
 frames_per_batch=6000    
 n_iters=10    
 total_frames=frames_per_batch*n_iters  
 # 训练细节  
 num_epochs=30    
 minibatch_size=400    
 lr=3e-4    
 max_grad_norm=1.0    
 # PPO 参数  
 clip_epsilon=0.2    
 gamma=0.99    
 lmbda=0.9    
 entropy_eps=1e-4

2、创建环境

TorchRL 与 VMAS 的集成允许我们高效地创建和管理多代理环境。在我们环境中多个代理必须在 LIDAR 传感器的引导下导航到各自的目标,同时避免碰撞。

 fromtorchrl.envs.libs.vmasimportVmasEnv  
   
 max_steps=100    
 num_vmas_envs=frames_per_batch//max_steps    
 scenario_name="navigation"  
 n_agents=3  
 env=VmasEnv(  
     scenario=scenario_name,  
     num_envs=num_vmas_envs,  
     continuous_actions=True,  
     max_steps=max_steps,  
     device=vmas_device,  
     n_agents=n_agents,  
 )

3、策略设计

策略网络在 PPO 中至关重要,它负责根据代理观察生成动作。鉴于环境中的连续动作空间,我们将使用 Tanh-Normal 分布来模拟动作，这样还可以决定是否在代理之间共享参数,在计算效率和行为多样性之间权衡。

 fromtorch.nnimportSequential, Tanh  
 fromtensordict.nnimportTensorDictModule  
 fromtorchrl.modulesimportMultiAgentMLP, ProbabilisticActor, TanhNormal  
 fromtensordict.nn.distributionsimportNormalParamExtractor  
   
 share_parameters_policy=True  
 # 定义策略网络  
 policy_net=Sequential(  
     MultiAgentMLP(  
         n_agent_inputs=env.observation_spec["agents", "observation"].shape[-1],  
         n_agent_outputs=2*env.action_spec.shape[-1],  
         n_agents=env.n_agents,  
         centralised=False,  
         share_params=share_parameters_policy,  
         device=device,  
         depth=2,  
         num_cells=256,  
         activation_class=Tanh,  
     ),  
     NormalParamExtractor(),  
 )  
 # 将网络包装在 TensorDictModule 中  
 policy_module=TensorDictModule(  
     policy_net,  
     in_keys=[("agents", "observation")],  
     out_keys=[("agents", "loc"), ("agents", "scale")],  
 )  
 # 创建概率性行动者  
 policy=ProbabilisticActor(  
     module=policy_module,  
     spec=env.unbatched_action_spec,  
     in_keys=[("agents", "loc"), ("agents", "scale")],  
     out_keys=[env.action_key],  
     distribution_class=TanhNormal,  
     distribution_kwargs={  
         "low": env.unbatched_action_spec[env.action_key].space.low,  
         "high": env.unbatched_action_spec[env.action_key].space.high,  
     },  
     return_log_prob=True,  
     log_prob_key=("agents", "sample_log_prob"),  
 )

4、评论家网络设计

评论家网络评估状态值,指导策略更新。可以根据使用 MAPPO 还是 IPPO 来选择集中式或分散式评论家。在代理之间共享参数可以加速训练,但是可能导致同质化策略。

 share_parameters_critic=True  
 mappo=True  # 设置为 False 以使用 IPPO  
   
 critic_net=MultiAgentMLP(  
     n_agent_inputs=env.observation_spec["agents", "observation"].shape[-1],  
     n_agent_outputs=1,    
     n_agents=env.n_agents,  
     centralised=mappo,  
     share_params=share_parameters_critic,  
     device=device,  
     depth=2,  
     num_cells=256,  
     activation_class=Tanh,  
 )  
 critic=TensorDictModule(  
     module=critic_net,  
     in_keys=[("agents", "observation")],  
     out_keys=[("agents", "state_value")],  
 )

5、数据收集

TorchRL 中的数据收集通过设计用于自动处理环境重置、动作计算和环境步进的类得到简化。所以我们可以直接使用

SyncDataCollector

来收集训练数据。

 fromtorchrl.collectorsimportSyncDataCollector  
   
 collector=SyncDataCollector(  
     env,  
     policy,  
     device=vmas_device,  
     storing_device=device,  
     frames_per_batch=frames_per_batch,  
     total_frames=total_frames,  
 )

6、训练循环

训练循环将环境、策略、评论家和数据收集器结合在一起,通过采样和训练阶段的迭代来优化代理的性能。

 fromtorchrl.data.replay_buffersimportReplayBuffer  
 fromtorchrl.data.replay_buffers.samplersimportSamplerWithoutReplacement  
 fromtorchrl.data.replay_buffers.storagesimportLazyTensorStorage  
 fromtorchrl.objectivesimportClipPPOLoss, ValueEstimators  
 fromtqdmimporttqdm  
   
 # 重放缓冲区设置  
 replay_buffer=ReplayBuffer(  
     storage=LazyTensorStorage(  
         size=frames_per_batch,  
         device=device,  
     ),  
     sampler=SamplerWithoutReplacement(),  
 )  
 # PPO 损失设置  
 ppo_loss=ClipPPOLoss(  
     actor=policy,  
     critic=critic,  
     clip_epsilon=clip_epsilon,  
     entropy_bonus=entropy_eps,  
     value_loss_coef=0.5,  
     gamma=gamma,  
     lam=lmbda,  
     advantage_normalization=True,  
 )  
 # 训练循环  
 foriintqdm(range(n_iters)):  
     batch=collector.next()  
     replay_buffer.extend(batch)  
     for_inrange(num_epochs):  
         forminibatchinreplay_buffer.sample(minibatch_size):  
             loss=ppo_loss(minibatch)  
             loss.backward()  
             torch.nn.utils.clip_grad_norm_(ppo_loss.parameters(), max_grad_norm)  
             optimizer.step()  
             optimizer.zero_grad()

这样我们完整的代码就完成了，可以看到通过TorchRL，可以减少我们很多的代码开发工作。

总结

本文提供了使用 TorchRL 和 PPO 实现 MARL 解决方案的全面指南。通过这些步骤,可以在多代理环境中训练代理以导航复杂任务,同时利用 GPU 加速模拟和并行计算的力量。无论选择集中式还是分散式评论家,TorchRL 都提供了设计和实验不同 MARL 架构,可以帮助你解决多代理强化学习的复杂性。

作者：Abish Pius

标签：深度学习强化学习 pytorch

使用 Python TorchRL 进行多代理强化学习

依赖

理解近端策略优化 (PPO)

在线学习

TorchRL

1、设置超参数

2、创建环境

3、策略设计

4、评论家网络设计

5、数据收集

6、训练循环

总结

发表评论

“使用 Python TorchRL 进行多代理强化学习”的评论:

关于作者

Deephub

相关阅读

文章导航