RL思路

    强化学习

强化学习(三)--Reinforce算法_BUAA小乔的博客-CSDN博客_reinforce算法

  1. 科老师的课程

    1. GitHub - PaddlePaddle/PARL: A high-performance distributed training framework for Reinforcement Learning
    2. Lesson5-3-四轴飞行器与创意赛_哔哩哔哩_bilibili
    3. 飞桨AI Studio - 人工智能学习实训社区 (baidu.com)
  2. 强化学习入门:环境(含机器人)和代码库介绍 - 知乎 (zhihu.com)

    一本好的强化学习教材,需要满足以下 3 点:

    1. 讲好基础,包括 MDP、Q-Learning 等。这个大部分教材都能做到。
    2. 跟踪最近的算法,比如 DDPG、PPO、SAC 等。这个也有不少教材能满足。
    3. 提供与内容匹配的良好代码,用 PyTorch 或 Tensorflow。这个对初学者最为重要,只有少部分教材可以。

对于入门教程,在精不在多。除了 Sutton 的开山之作,在 2022 年的今天,推荐 2 本教材:

  1. 强化学习路线推荐及资料整理 - 知乎 (zhihu.com)
  2. 深度强化学习入门资料推荐 - 知乎 (zhihu.com)
  3. 深度强化学习(2/5):价值学习 Value-Based Reinforcement Learning_哔哩哔哩_bilibili

贝尔曼方程是用来求解 state value 的,而 state value 的大小可以表明一个 policy 的好坏,也就是说计算 state value 可以用来 policy evaluation。state value 越大,policy 越好。

事实上 action value 才是用来评判一个 policy 好坏的。action values can be used to evaluate actions.

贝尔曼最优方程用来求解最优 policy 和最优 state value,一个方程中有 policy 和 state value 两个未知量

凡是需要大量的采样,然后实验,最后用实验结果来近似的一种方法都可以成为蒙特卡洛估计的方法。

TD 算法依赖数据,不依赖模型来实现强化学习

因为一个 agent 在环境当中它一个时刻只能访问一个状态


通过在环境中进行演算(Roll-out)收集多轮交互信息,即在环境中根据当前的状态和决策策略形成一条具体的包含一系列状态、动作和奖励信息的探索轨迹。在一般的无模型学习中,智能体将在真实的环境中在线演算,并将获得的多轮交互信息用于策略学习。

轨迹(Trajectories) 常常也被称作 回合 (episodes) 或者 rollouts

  1. 强化学习中的奇怪概念2-rollout-episode-epoch-step-trajectory - 深度强化学习实验室 (deeprlhub.com)
  2. 第一部分:强化学习中的核心概念 — Spinning Up 文档 (qiwihui.com)
  3. 强化学习读书笔记 - 00 - 术语和数学符号 - SNYang - 博客园 (cnblogs.com)
  4. python 笔记 :Gym库 (官方文档笔记)_UQI-LIUWJ的博客-CSDN博客_gym库
  5. Gym库中关于Spaces库的使用方法 - 知乎 (zhihu.com)
  6. 【编写环境一】遇到常见python函数处理方式_汀、的博客-CSDN博客_spaces.multidiscrete

(转载)

对这几个概念,我一直理解不能。
先抛个砖,希望有更确切的中文定义~

  1. rollout:在 CS 相关论文中,一般 rollout 表示一次试验,一条轨迹。就比如我们我们用 MC 仿真出了一个 episode,这个 episode 就是一个 rollout。
  2. episode:一条轨迹
  3. epoch:可能有多个轨迹?因为强化里面的 epoch 和深度学习的不一样,我在 HER 相关的论文里看到的 epoch,是有 50 个 episode 组成的。
  4. trajectory:一条轨迹
  5. cycle:
  6. simulation step:智能体和环境的一次交互
  7. update step:网络更新一次

有的甚至在不同的论文和代码里,代表的含义都不一样。


Gym 库

  1. 官方文档Fundamental Spaces - Gymnasium Documentation (farama.org)
  2. 强化学习gym官方文档翻译 - 知乎 (zhihu.com)
  3. python 笔记 :Gym库 (官方文档笔记)_UQI-LIUWJ的博客-CSDN博客_gym库
  4. Gym库中关于Spaces库的使用方法 - 知乎 (zhihu.com)
  5. gym.spaces.Discrete()_双木青橙的博客-CSDN博客_spaces.discrete
  6. 【一】MADDPG-单智能体|多智能体总结(理论、算法)_汀、的博客-CSDN博客_多智能体理论
  7. 【编写环境一】遇到常见python函数处理方式_汀、的博客-CSDN博客_spaces.multidiscrete
  8. RLlib Environments_快乐地笑的博客-CSDN博客
page PV:  ・  site PV:  ・  site UV: