Target Value인 Gt는 R(t+1) + γV(S(t+1)) 로 된다.
episode를 모두 다 처음에 생성하는 것이 아니라, S0에서 시작하여,
A0를 뽑고 그에 대한 R(t+1)과 S(t+1)을 받고, 그 다음 V를 예측한다.
이 과정을 반복하며, 전체 V를 알아나가게 된다.
즉, Monte Carlo는 모든 과정을 다 받아오고 시작하고,
Temporal-Difference Learning은 예측값을 갱신하며 한 스텝씩 나아간다.
SARSA : 상태(St), 행동(At), 보상(R_{t+1}), 다음 상태(St+1), 다음 행동(At+1)
'AI, 논문, 데이터 분석' 카테고리의 다른 글
[논문 리뷰] InstructPix2Pix: Learning to Follow Image Editing Instructions (3) | 2025.01.31 |
---|---|
[논문 리뷰] Language Models are Few-Shot Learners (0) | 2025.01.31 |
[Off-Policy Learning] 개념 (0) | 2025.01.24 |
[PDFMathTranslate] 논문 번역 (0) | 2025.01.24 |
[Backpropagation] (0) | 2025.01.23 |