분류 전체보기
-
Reinforcement Learning(강화학습) #0 배경 이해와 강화학습 요약 : 강화학습이란, MDP(마르코프 결정 과정), model, dpReinforcement Learning 2022. 6. 22. 00:30
Reinforcement Learning ? "trial-and-error learning approach to optimal control" 시간에 따라 변화하는 환경에서 agent가 최대 목표치를 이룰 수 있는 controller를 design 하는 것 value-based method인 Q-learning, DQN, policy-based method인 policy gradient, 두 방법을 섞은 actor-critic 이 대표적 아래 5가지가 RL이 어려운 근본 원인들이다. - Supervisor 없이 reward로만 학습해야된다는 점. - Feedback(reward)가 delayed 된다는 점. - Time에 따라 영향을 받는다는 점. data가 i.i.d가 아닌 점. - Agent가 정한 ..