Reinforcement Learning
-
Reinforcement Learning(강화학습) #1 강화학습 value-based method : Q learning, DQN, DDQNReinforcement Learning 2022. 6. 22. 01:07
이번 글에서는 MDP model을 모를 때(model free) 강화학습(RL)으로 최적 policy를 구하는 법에 대해서 알아보려고 한다. model을 알고 policy를 DP(dynamic programmingg)로 구할 때도 value-iteration과 policy-iteration이 있던 것과 같이, RL에서도 value-base 방법이 있고 policy-base 방법이 있다. 이 글에서는 이 중 value-base 방법에 대해서 설명하고자 한다. value-base 방법은 Q-learning - DQN - DDQN 순으로 발전했다. value-base 방법은 policy를 직접 구하지 않고 optimal value function 만을 구하고, optimal value function으로 부터..
-
Reinforcement Learning(강화학습) #0 배경 이해와 강화학습 요약 : 강화학습이란, MDP(마르코프 결정 과정), model, dpReinforcement Learning 2022. 6. 22. 00:30
Reinforcement Learning ? "trial-and-error learning approach to optimal control" 시간에 따라 변화하는 환경에서 agent가 최대 목표치를 이룰 수 있는 controller를 design 하는 것 value-based method인 Q-learning, DQN, policy-based method인 policy gradient, 두 방법을 섞은 actor-critic 이 대표적 아래 5가지가 RL이 어려운 근본 원인들이다. - Supervisor 없이 reward로만 학습해야된다는 점. - Feedback(reward)가 delayed 된다는 점. - Time에 따라 영향을 받는다는 점. data가 i.i.d가 아닌 점. - Agent가 정한 ..