Joonas' Note
목록2023/03/10 (1)
Joonas' Note

A3C (Asynchronous A2C, 2016) 샘플 사이의 상관 관계를 비동기 업데이트로 해결 리플레이 메모리를 사용하지 않음 on-policy 개념적으로는 A2C 를 여러개 두고, 각 에이전트마다 아래와 같이 gradient를 계산해서, 그걸 글로벌 네트워크에 반영하는 방식이다. Q(1)(st,at)(−∑yilogpi)→gradient(1)Q(2)(st,at)(−∑yilogpi)→gradient(2)⋮ 배경 A2C는 샘플 간 상관 관계에 문제가 있었다 시간의 흐름에 따라, 샘플을 수집했기 때문 또한 샘플에 따라 정책(π)이 업데이트 되고, 업데이트 된 정..
AI
2023. 3. 10. 19:08