[Reinforcement] Temporal-Difference RL (Bootstrapping Approaches)
Target Value인 Gt는 R(t+1) + γV(S(t+1)) 로 된다. episode를 모두 다 처음에 생성하는 것이 아니라, S0에서 시작하여,A0를 뽑고 그에 대한 R(t+1)과 S(t+1)을 받고, 그 다음 V를 예측한다.이 과정을 반복하며, 전체 V를 알아나가게 된다. 즉, Monte Carlo는 모든 과정을 다 받아오고 시작하고,Temporal-Difference Learning은 예측값을 갱신하며 한 스텝씩 나아간다.SARSA : 상태(St), 행동(At), 보상(R_{t+1}), 다음 상태(St+1), 다음 행동(At+1)
2025. 1. 25.
[Reinforcement] MDP, Monte-Carlo RL
학습하고, 결론을 내고 끝내는 것이 아니다.학습하고 결과를 바탕으로 또 학습한다. STATE에서 취할 수 있는 ACTION 데이터를 얻어서,→ TREE를 형성하여 SEARCH 한다. ( CONTINUS OR RANDOM하면 TREE SEARCH 불가 ) DataA sequence of state, anction and → rewardS 0, A 0, → R 1, S 1, A 1, → R 2, S 2, … S T-1, A T-1, → R T, S T 첫번째 받은 Reward는 R0이 아니라, R1이다. 약속같은 것이기에, 기억해두자.whereS T is state at step tA T is the action which the agent takes at step TR T is a reward repre..
2025. 1. 23.