[강화학습] Temporal Difference Methods (Q-Learning)
Reinforcement Learning
2023. 5. 26. 17:45
이번 포스팅에서는 Monte-Carlo와 같이 model-free한 방법으로써, Temporal Difference Methods에 대해 다루겠습니다. MC는 한 episode가 끝난 후에 얻은 return값으로 각 state에서 얻은 reward를 시간에 따라 discounting하는 방법으로 value function을 update합니다. 하지만, atrai게임이나 현실의 문제는 episode의 끝이 무한대에 가깝도록 길기 때문에 episode가 반드시 끝나야 학습을 하는 MC의 방법으로는 한계가 존재합니다. DP처럼 time-step마다 학습하면서 model-free한 방법이 바로 TD입니다. Temporal Difference TD는 MC와 DP의 idea를 조합한 방법으로써 MC처럼 model-..