홈

분류 전체보기 (17)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

마음으로 이해하고 적었습니다 마음으로 이해하고 적었습니다

컨텐츠 검색 블로그 내 검색

DQN

Reinforcement Learning(강화학습) #1 강화학습 value-based method : Q learning, DQN, DDQN
Reinforcement Learning 2022. 6. 22. 01:07

이번 글에서는 MDP model을 모를 때(model free) 강화학습(RL)으로 최적 policy를 구하는 법에 대해서 알아보려고 한다. model을 알고 policy를 DP(dynamic programmingg)로 구할 때도 value-iteration과 policy-iteration이 있던 것과 같이, RL에서도 value-base 방법이 있고 policy-base 방법이 있다. 이 글에서는 이 중 value-base 방법에 대해서 설명하고자 한다. value-base 방법은 Q-learning - DQN - DDQN 순으로 발전했다. value-base 방법은 policy를 직접 구하지 않고 optimal value function 만을 구하고, optimal value function으로 부터..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바