목록Research/Reinforcement Learning (1)
숟가락 그만 얹어

Policy gradient는 사실 policy iteration과 policy를 update하는 방식이 같다고 한다. 현재 policy로 reward 또는 value를 추정하고, 그 결과로 다시 policy를 update하는 방식이다. Policy iteration은 Bellman update로 항상 수렴하기 때문에 특정 조건 하에서는 policy gradient도 항상 수렴할 수 있다고 한다. 여러 수학적 증명은 생략하고, 현재 policy와 updated policy 간의 distance를 epsilon 이하로 줄여야 한다는 것이다. 이것이 TRPO와 PPO가 탄생한 배경이다. References [1] Berkeley, CS285
Research/Reinforcement Learning
2020. 7. 15. 16:51