'2023/03/10 글 목록

Today

Total

Notice

Recent Posts

Recent Comments

« 2023/03 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Archives

관리 메뉴

글쓰기
방명록
RSS
관리

목록2023/03/10 (1)

Joonas' Note

[강화학습 메모] A3C (Asynchronous A2C, 2016)

A3C (Asynchronous A2C, 2016) 샘플 사이의 상관 관계를 비동기 업데이트로 해결 리플레이 메모리를 사용하지 않음 on-policy 개념적으로는 A2C 를 여러개 두고, 각 에이전트마다 아래와 같이 gradient를 계산해서, 그걸 글로벌 네트워크에 반영하는 방식이다. $$ Q_{(1)}(s_t,a_t)(-\sum y_i log p_i) \rightarrow gradient_{(1)} \\ Q_{(2)}(s_t,a_t)(-\sum y_i log p_i) \rightarrow gradient_{(2)} \\ \vdots $$ 배경 A2C는 샘플 간 상관 관계에 문제가 있었다 시간의 흐름에 따라, 샘플을 수집했기 때문 또한 샘플에 따라 정책($\pi$)이 업데이트 되고, 업데이트 된 정..

AI 2023. 3. 10. 19:08

Prev 1 Next

목록2023/03/10 (1)

Joonas' Note

티스토리툴바