[Off-Policy Learning] 개념

Off-Policy Learning

On-policy ⇒ Exploitation

Off-policy ⇒ Exploration

1. 중심 극한 정리 : 가우시안 분포를 따르는 샘플을 추출.

2. 이후, 해당 값x는 우리가 원하는 분포(빨간색 그래프) y값 만큼의 가중치를 준다.

3. 그럼, 빨간색 분포를 다르는 샘플을 얻을 수 있다.

[LLM] llama3.2를 활용하여 Chatbot 만들기 (1)	2025.02.04
[Reinforcement] Temporal-Difference RL (Bootstrapping Approaches) (0)	2025.01.25
[PDFMathTranslate] 영어 논문 번역하는 방법 (0)	2025.01.24
[Backpropagation] (0)	2025.01.23
[Reinforcement] MDP, Monte-Carlo RL (0)	2025.01.23