RL中on-policy和off-policy的本质区别/重要性采样


本随笔的图片都来自UCL强化学习课程lec5 Model-free prediction的ppt (Teaching – David Silver ).

回忆值函数的表达式:

\[v_\pi(s) =\mathbb E_\pi[G_t\mid S_t=s] \]

其中\(G_t\)是折扣回报。期望\(\mathbb E\)下面的\(\pi\)是简写,实际上应该写作:

\[A_t,S_{t+1},A_{t+1}\cdots,S_k\sim\pi \]

无论MC prediction还是TD prediction,都是在估计\(\mathbb E_\pi[G_t \mid S_t=s]\),本质上是在做policy evaluation,evaluate的是\(\pi\)。从值函数表达式就可以看出,要估计\(v_\pi\),应该整条轨迹(的动作)都是从\(\pi\)上采样的。

如果从行为策略\(\mu\)采样,就变成了用策略\(\mu\)的数据来evaluate策略\(\pi\),这就需要用importance sampling来修正了。

  • 所以对于离策略的MC方法,在轨迹上每次对action的采样,都需要修正:

  • 离策略的TD方法,只用修正一步:

  • Q-learning,直接估计的是\(Q^*\),遍历action求max不涉及action的采样,天生是离策略,不需要修正: