LunarLander 是 OpenAI Gym 中的经典环境,模拟一个着陆器在月球表面软着陆的过程。目标是在着陆器不翻倒的情况下,平稳地降落在着陆点上。使用 PyTorch 实现基于 Policy Gradient 的强化学习算法,训练智能体在 LunarLander-v3 环境中获得高分。 1.搭建一个基于 PyTorch 的 ...
The project adopts a front-end and back-end separation architecture: WECHAT_WEBHOOK Empty WeChat notification webhook URL FEISHU_WEBHOOK Empty Feishu notification webhook URL ...