Joonas' Note
목록2023/03/11 (1)
Joonas' Note
[강화학습 메모] Proximal Policy Optimization (PPO, 2017)
Proximal Policy Optimization (PPO, 2017) 목적 함수를 완성하기 위한 gradient 식은 아래와 같다. ∇θJθ≅∞∑t=0∫st,at,st+1∇θlnpθ(at|st) At pθ(st,at) p(st+1|st,at) dst,at,st+1 여기서 At는 n-step TD error 인데, At의 정의에 따라서 아래와 같이 달라졌었다. $$ A_t = \begin{cases} G_t & \longrightarrow REINFORCE \\ Q(s_t) & \longrightarro..
AI
2023. 3. 11. 09:21