RL思路

2022-12-16 强化学习

对于入门教程，在精不在多。除了 Sutton 的开山之作，在 2022 年的今天，推荐 2 本教材：

《动手学强化学习》：上海交通大学张伟楠、俞勇团队出品，内容从基础到前沿都有覆盖，还提供了免费视频课程和代码（PyTorch）。
《深度强化学习：基础、研究与应用》Deep Reinforcement Learning Book ：北京大学董豪老师联合普林斯顿、UCB 等大学出品，中文/英文电子版都可免费下载，代码（Tensorflow）齐全。

贝尔曼方程是用来求解 state value 的，而 state value 的大小可以表明一个 policy 的好坏，也就是说计算 state value 可以用来 policy evaluation。state value 越大，policy 越好。

事实上 action value 才是用来评判一个 policy 好坏的。action values can be used to evaluate actions.

贝尔曼最优方程用来求解最优 policy 和最优 state value，一个方程中有 policy 和 state value 两个未知量

凡是需要大量的采样，然后实验，最后用实验结果来近似的一种方法都可以成为蒙特卡洛估计的方法。

TD 算法依赖数据，不依赖模型来实现强化学习

因为一个 agent 在环境当中它一个时刻只能访问一个状态

通过在环境中进行演算（Roll-out）收集多轮交互信息，即在环境中根据当前的状态和决策策略形成一条具体的包含一系列状态、动作和奖励信息的探索轨迹。在一般的无模型学习中，智能体将在真实的环境中在线演算，并将获得的多轮交互信息用于策略学习。

轨迹（Trajectories） 常常也被称作 回合 (episodes) 或者 rollouts。

（转载）

对这几个概念，我一直理解不能。
先抛个砖，希望有更确切的中文定义~

rollout：在 CS 相关论文中，一般 rollout 表示一次试验，一条轨迹。就比如我们我们用 MC 仿真出了一个 episode，这个 episode 就是一个 rollout。
episode：一条轨迹
epoch：可能有多个轨迹？因为强化里面的 epoch 和深度学习的不一样，我在 HER 相关的论文里看到的 epoch，是有 50 个 episode 组成的。
trajectory：一条轨迹
cycle:
simulation step：智能体和环境的一次交互
update step：网络更新一次

有的甚至在不同的论文和代码里，代表的含义都不一样。

Gym 库