Joonas' Note
목록2023/03 (2)
Joonas' Note
[강화학습 메모] Proximal Policy Optimization (PPO, 2017)
Proximal Policy Optimization (PPO, 2017) 목적 함수를 완성하기 위한 gradient 식은 아래와 같다. ∇θJθ≅∞∑t=0∫st,at,st+1∇θlnpθ(at|st) At pθ(st,at) p(st+1|st,at) dst,at,st+1 여기서 At는 n-step TD error 인데, At의 정의에 따라서 아래와 같이 달라졌었다. $$ A_t = \begin{cases} G_t & \longrightarrow REINFORCE \\ Q(s_t) & \longrightarro..
AI
2023. 3. 11. 09:21

A3C (Asynchronous A2C, 2016) 샘플 사이의 상관 관계를 비동기 업데이트로 해결 리플레이 메모리를 사용하지 않음 on-policy 개념적으로는 A2C 를 여러개 두고, 각 에이전트마다 아래와 같이 gradient를 계산해서, 그걸 글로벌 네트워크에 반영하는 방식이다. Q(1)(st,at)(−∑yilogpi)→gradient(1)Q(2)(st,at)(−∑yilogpi)→gradient(2)⋮ 배경 A2C는 샘플 간 상관 관계에 문제가 있었다 시간의 흐름에 따라, 샘플을 수집했기 때문 또한 샘플에 따라 정책(π)이 업데이트 되고, 업데이트 된 정..
AI
2023. 3. 10. 19:08