[Reinforcement] MDP, Monte-Carlo RL

학습하고, 결론을 내고 끝내는 것이 아니다.

학습하고 결과를 바탕으로 또 학습한다.

STATE에서 취할 수 있는 ACTION 데이터를 얻어서,

→ TREE를 형성하여 SEARCH 한다.

( CONTINUS OR RANDOM하면 TREE SEARCH 불가 )

Model

Components of an RL Agent
1. Policy ; Agent의 다음 행동을 계산하는 함수
2. Value Function ; 어떤 상태나 행동이 장기적으로 얼마나 좋은지 추정하는 함수
3. Model ; 자신의 행동에 대한 환경의 반응을 계산하기 위해 에이전트가 알고 있는 함수 (obsolete)

[PDFMathTranslate] 영어 논문 번역하는 방법 (0)	2025.01.24
[Backpropagation] (0)	2025.01.23
[Deep Learning] 개념 및 실습 [모음/정리] + 회고 (0)	2025.01.19
[NLP] 임베딩 (0)	2025.01.18
Batch Effect, Batch Correction (0)	2024.11.21

도라에몽 개발