DQN
-
Reinforcement Learning(강화학습) #1 강화학습 value-based method : Q learning, DQN, DDQNReinforcement Learning 2022. 6. 22. 01:07
이번 글에서는 MDP model을 모를 때(model free) 강화학습(RL)으로 최적 policy를 구하는 법에 대해서 알아보려고 한다. model을 알고 policy를 DP(dynamic programmingg)로 구할 때도 value-iteration과 policy-iteration이 있던 것과 같이, RL에서도 value-base 방법이 있고 policy-base 방법이 있다. 이 글에서는 이 중 value-base 방법에 대해서 설명하고자 한다. value-base 방법은 Q-learning - DQN - DDQN 순으로 발전했다. value-base 방법은 policy를 직접 구하지 않고 optimal value function 만을 구하고, optimal value function으로 부터..