'2023/03/11 글 목록

Today

Total

Notice

Recent Posts

Recent Comments

« 2023/03 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Archives

관리 메뉴

글쓰기
방명록
RSS
관리

목록2023/03/11 (1)

Joonas' Note

[강화학습 메모] Proximal Policy Optimization (PPO, 2017)

Proximal Policy Optimization (PPO, 2017) 목적 함수를 완성하기 위한 gradient 식은 아래와 같다. $$ \nabla_{\theta}J_{\theta} \cong \sum_{t=0}^{\infty} \int_{s_t,a_t,s_{t+1}}\nabla_{\theta}lnp_{\theta}(a_t|s_t)~A_t~p_{\theta}(s_t,a_t)~p(s_{t+1}|s_t,a_t)~ds_t,a_t,s_{t+1} $$ 여기서 $A_t$는 n-step TD error 인데, $A_t$의 정의에 따라서 아래와 같이 달라졌었다. $$ A_t = \begin{cases} G_t & \longrightarrow REINFORCE \\ Q(s_t) & \longrightarro..

AI 2023. 3. 11. 09:21

Prev 1 Next

목록2023/03/11 (1)

Joonas' Note

티스토리툴바