본문 바로가기
AI, 논문, 데이터 분석

[Reinforcement] MDP, Monte-Carlo RL

by doraemin_dev 2025. 1. 23.

학습하고, 결론을 내고 끝내는 것이 아니다.

학습하고 결과를 바탕으로 또 학습한다.

 

 

STATE에서 취할 수 있는 ACTION 데이터를 얻어서,

→ TREE를 형성하여 SEARCH 한다.

 

( CONTINUS OR RANDOM하면 TREE SEARCH 불가 )

 


  • Data
    • A sequence of state, anction and → reward
    S 0, A 0, → R 1, S 1, A 1, → R 2, S 2, … S T-1, A T-1, → R T, S T 첫번째 받은 Reward는 R0이 아니라, R1이다. 약속같은 것이기에, 기억해두자.
    • where
      • S T is state at step t
      • A T is the action which the agent takes at step T
      • R T is a reward representing how good the state S T
  • Goal
    • 에이전트의 누적 리워드를 최대화하자!

Model

  • MarkovDecisionProcess (MDP) 학습 없이, 방정식으로 푼다. 단, 복잡도가 매우 크다.
  • PartiallyObservableMarkovDecisionProcess (POMDP) 통계적으로, 학습을 통해 파악해나간다.

  • Components of an RL Agent
    1. Policy ; Agent의 다음 행동을 계산하는 함수
    2. Value Function ; 어떤 상태나 행동이 장기적으로 얼마나 좋은지 추정하는 함수
    3. Model ; 자신의 행동에 대한 환경의 반응을 계산하기 위해 에이전트가 알고 있는 함수 (obsolete)