학습하고, 결론을 내고 끝내는 것이 아니다.
학습하고 결과를 바탕으로 또 학습한다.
STATE에서 취할 수 있는 ACTION 데이터를 얻어서,
→ TREE를 형성하여 SEARCH 한다.
( CONTINUS OR RANDOM하면 TREE SEARCH 불가 )
- Data
- A sequence of state, anction and → reward
- where
- S T is state at step t
- A T is the action which the agent takes at step T
- R T is a reward representing how good the state S T
- Goal
- 에이전트의 누적 리워드를 최대화하자!
Model
- MarkovDecisionProcess (MDP) 학습 없이, 방정식으로 푼다. 단, 복잡도가 매우 크다.
- PartiallyObservableMarkovDecisionProcess (POMDP) 통계적으로, 학습을 통해 파악해나간다.
- Components of an RL Agent
- Policy ; Agent의 다음 행동을 계산하는 함수
- Value Function ; 어떤 상태나 행동이 장기적으로 얼마나 좋은지 추정하는 함수
- Model ; 자신의 행동에 대한 환경의 반응을 계산하기 위해 에이전트가 알고 있는 함수 (obsolete)
'AI, 논문, 데이터 분석' 카테고리의 다른 글
[PDFMathTranslate] 논문 번역 (0) | 2025.01.24 |
---|---|
[Backpropagation] (0) | 2025.01.23 |
[OpenCV] Morphology (침식 / 팽창 / 열림과 닫힘) (0) | 2025.01.22 |
[OpenCV] Filtering (0) | 2025.01.22 |
[OpenCV] 인터페이스 (디지털 영상 처리) (0) | 2025.01.21 |