본문 바로가기

Joonas' Note

'2023/03/11 글 목록

검색하기
Joonas' Note
프로필사진 joonas

  • 분류 전체보기 (258)
    • 알고리즘 (83)
      • 문제 풀이 (64)
      • 자료구조 (4)
    • 개발 (48)
      • Javascript (14)
      • C++ (6)
      • Docker (9)
      • python (19)
      • Java (6)
      • Unity (2)
    • AI (32)
      • 머신러닝 (4)
      • 딥러닝 (19)
      • 수학 (2)
    • 디자인 (9)
    • 후기 (19)
      • 수업 요약 (4)
Guestbook
Link
  • joonas.io
  • 이전 블로그 (~2017)
  • 준희
  • 백구님
  • 박트리님
  • 플즈런님
  • 영만이
Tags
  • 딥러닝
  • Bitmask
  • dfs
  • 문제적남자
  • Baekjoon Online Judge
  • Algorithm
  • Ai
  • github
  • docker
  • dl
  • 수학
  • Python
  • 자료구조
  • PS
  • JavaScript
  • 인공지능
  • Problem Solving
  • CNN
  • 파이토치
  • Git
  • 문제풀이
  • ML
  • pytorch
  • DP
  • 브루트포스
  • 알고리즘
  • React
  • C++
  • BOJ
  • 도커
더보기
Today
Total
Notice
Recent Posts
Recent Comments
«   2023/03   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리
Joonas' Note

목록2023/03/11 (1)

Joonas' Note

[강화학습 메모] Proximal Policy Optimization (PPO, 2017)

Proximal Policy Optimization (PPO, 2017) 목적 함수를 완성하기 위한 gradient 식은 아래와 같다. $$ \nabla_{\theta}J_{\theta} \cong \sum_{t=0}^{\infty} \int_{s_t,a_t,s_{t+1}}\nabla_{\theta}lnp_{\theta}(a_t|s_t)~A_t~p_{\theta}(s_t,a_t)~p(s_{t+1}|s_t,a_t)~ds_t,a_t,s_{t+1} $$ 여기서 \(A_t\)는 n-step TD error 인데, \(A_t\)의 정의에 따라서 아래와 같이 달라졌었다. $$ A_t = \begin{cases} G_t & \longrightarrow REINFORCE \\ Q(s_t) & \longrightarro..

AI 2023. 3. 11. 09:21
Prev 1 Next

Blog is powered by kakao / Designed by Tistory / Customized by Joonas

티스토리툴바