이번 포스팅에서는 Monte-Carlo와 같이 model-free한 방법으로써, Temporal Difference Methods에 대해 다루겠습니다. MC는 한 episode가 끝난 후에 얻은 return값으로 각 state에서 얻은 reward를 시간에 따라 discounting하는 방법으로 value function을 update합니다. 하지만, atrai게임이나 현실의 문제는 episode의 끝이 무한대에 가깝도록 길기 때문에 episode가 반드시 끝나야 학습을 하는 MC의 방법으로는 한계가 존재합니다. DP처럼 time-step마다 학습하면서 model-free한 방법이 바로 TD입니다. Temporal Difference TD는 MC와 DP의 idea를 조합한 방법으로써 MC처럼 model-..
Model-Free 이전 포스팅에서 Dynamic Programming, policy iteration과 value iteration에 대해 알아보았습니다. Dynamic programming은 Bellman Equation을 통해서 optimal한 해를 찾아내는 방법으로서 MDP에 대한 모든 정보를 가진 상태에서 문제를 풀어나가는 방법입니다. 특히 environment의 MDP인 reward function과 state transition probabilities를 알아야하기 때문에 Model-based한 방법이라고 할 수 있습니다. 이러한 방법에는 아래과 같은 문제점이 있습니다. Full-width Backup ⇒ expensive computation Full knowledge about Envir..
http://www.yes24.com/Product/Goods/92337949 바닥부터 배우는 강화 학습 - YES24 강화 학습 기초 이론부터 블레이드 & 소울 비무 AI 적용까지강화 학습을 모르는 초보자도 쉽게 이해할 수 있도록 도와주는 입문서다. 현업의 강화 학습 전문가가 직접 설명해 강화 학습에 가장 www.yes24.com https://dnddnjs.gitbooks.io/rl/content/ https://sumniya.tistory.com/10 ※본 내용은 위의 자료들을 참고하여 작성하였습니다. 강화학습에는 Dynamic programming, Monte-carlo method, Temporal difference method 등 다양한 방법론이 있습니다. 최신 강화학습 알고리즘은 주로 TD..
http://www.yes24.com/Product/Goods/92337949 바닥부터 배우는 강화 학습 - YES24 강화 학습 기초 이론부터 블레이드 & 소울 비무 AI 적용까지강화 학습을 모르는 초보자도 쉽게 이해할 수 있도록 도와주는 입문서다. 현업의 강화 학습 전문가가 직접 설명해 강화 학습에 가장 www.yes24.com https://dana-study-log.tistory.com/18 ※본 내용은 위의 자료들을 참고하여 작성하였습니다. 벨만 방정식은 시점 t에서의 밸류와 시점 t+1에서의 밸류 사이의 관계를 다루며, 가치 함수와 정책 함수 사이의 관계도 다루고 있습니다. 여러 강화학습 알고리즘의 근간이 되는 만큼 중요한 개념입니다. 먼저 벨만 기대 방정식과 벨만 최적 방정식을 0단계부터 2..
The Markov Decision Process (MDP) provides a mathematical framework for solving the RL problem. Almost all RL problems can be modeled as an MDP. MDPs are widely used for solving various optimization problems. In this section, we will understand what an MDP is and how it is used in RL. To understand an MDP, first, we need to learn about the Markov property and Markov chain. State Transition (Prob..