본문 바로가기

숟가락 그만 얹어

검색하기
숟가락 그만 얹어
프로필사진 업무외시간

  • 분류 전체보기 (87)
    • About me (7)
      • Me (6)
      • Study (1)
    • Research (68)
      • Anomaly Detection (7)
      • Causal Discovery (0)
      • Disentanglement (6)
      • Explainable AI (5)
      • Few Labels (2)
      • Forecasting (4)
      • Generalization (2)
      • Generative Model (10)
      • Industrial Application (6)
      • Music Generation (3)
      • Operations (4)
      • Reinforcement Learning (1)
      • Representations (8)
      • Uncertainty (10)
    • Engineering (11)
      • Developments (5)
      • Environments (6)
    • Interests (1)
      • Assets (1)
Guestbook
Recent Posts
Recent Comments
Tags
  • 한동대
  • XAI
more
Archives
Today
Total
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록Research/Reinforcement Learning (1)

숟가락 그만 얹어

TRPO, PPO 등장 배경

Policy gradient는 사실 policy iteration과 policy를 update하는 방식이 같다고 한다. 현재 policy로 reward 또는 value를 추정하고, 그 결과로 다시 policy를 update하는 방식이다. Policy iteration은 Bellman update로 항상 수렴하기 때문에 특정 조건 하에서는 policy gradient도 항상 수렴할 수 있다고 한다. 여러 수학적 증명은 생략하고, 현재 policy와 updated policy 간의 distance를 epsilon 이하로 줄여야 한다는 것이다. 이것이 TRPO와 PPO가 탄생한 배경이다. References [1] Berkeley, CS285

Research/Reinforcement Learning 2020. 7. 15. 16:51
이전 Prev 1 Next 다음

Blog is powered by kakao / Designed by Tistory

티스토리툴바