[강화학습] Monte-Carlo Methods
Reinforcement Learning
2023. 5. 23. 21:53
Model-Free 이전 포스팅에서 Dynamic Programming, policy iteration과 value iteration에 대해 알아보았습니다. Dynamic programming은 Bellman Equation을 통해서 optimal한 해를 찾아내는 방법으로서 MDP에 대한 모든 정보를 가진 상태에서 문제를 풀어나가는 방법입니다. 특히 environment의 MDP인 reward function과 state transition probabilities를 알아야하기 때문에 Model-based한 방법이라고 할 수 있습니다. 이러한 방법에는 아래과 같은 문제점이 있습니다. Full-width Backup ⇒ expensive computation Full knowledge about Envir..