AI 및 Data Analysis/Deep Learning

likelihood function vs. probability function

doraemin_dev 2025. 4. 22. 04:41

 

핵심 개념 비교

항목 확률 함수 (Probability Function)  우도 함수 (Likelihood Function)
입력(고정) 모수(모델) θ 데이터 x
출력(변화) 데이터 x의 확률값 모수 θ 의 적합도
해석 주어진 모수로 특정 데이터가 나올 확률 고정된 데이터를 주고, 그걸 가장 잘 설명하는 모수를 추정
표기법 P(x∣θ) L(θ∣x)=P(x∣θ)
목적 관측값의 확률 해석 최적의 θ\theta를 찾기 위한 최적화 (MLE 등)

Example

상황:

  • 동전을 던졌을 때 앞면이 나올 확률이 θ\theta라고 하자.
  • 10번 던졌더니 7번 앞면, 3번 뒷면이 나왔다.

확률 함수:

만약 θ=0.5\theta = 0.5 라면, "앞면 7번 나올 확률은?"

 

 

$$P(x = 7 \mid \theta = 0.5) = \binom{10}{7} \cdot (0.5)^7 \cdot (0.5)^3$$
→ 여기서는 $\theta = 0.5$가 고정, $x=7$이라는 사건의 확률을 계산


우도 함수:

관측값 x=7x = 7이 고정됐을 때, 가장 그럴듯한 θ\theta는?

 

$$L(\theta \mid x = 7) = \binom{10}{7} \cdot \theta^7 \cdot (1 - \theta)^3$$
→ $theta$가 변수이고, $x=7$은 고정된 데이터
→ 이걸 최대화하는 $\theta$를 찾는 것이 최대우도추정(MLE)


정리하면

확률 함수는: "이 모수로 이 결과가 나올 확률은 얼마나 될까?"

우도 함수는: "이 결과를 설명해줄 가장 적절한 모수는 무엇일까?"


(좌측 그래프) 우도 함수: Likelihood Function

  • x = 7이 고정된 관측값입니다.
  • $\theta$ 값을 0부터 1까지 변화시키면서 "x = 7이 얼마나 그럴듯한가?"를 측정한 것입니다.
  • 즉, 각 $\theta$에 대해 : $$L(\theta \mid x = 7) = P(x = 7 \mid \theta)$$
  • 이 곡선은 "이 관측 데이터를 가장 잘 설명하는 $\theta$는 무엇인가?"를 알려줍니다.
  • 가장 높이 찍힌 $\theta$가 최대우도추정(MLE) 결과입니다.

(우측 그래프) 확률 함수: Probability Function

  • $\theta = 0.5$를 고정하고, 가능한 모든 x값(0~10)에 대해 확률을 계산한 것입니다.
  • 각 x에 대해:$$P(x \mid \theta = 0.5)$$
  • 이 그래프는 동전의 앞면 확률이 0.5일 때, 각각의 앞면 개수 x가 나올 확률 분포를 보여줍니다.

 

 

위 그래프는 클래스 $Y = \text{No}$ 일 때의 정규분포 곡선입니다.
이때 관측값 $x = 120$ 에서의 우도(likelihood) 값은 다음과 같이 계산됩니다:

 계산 공식 (정규분포 기반 우도)

$$P(X_i = x \mid Y = y) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$$

 

  • $\mu = 110$ (평균)
  • $\sigma^2 = 2975$ (분산)
  • $x = 120$ (관측값)

계산 결과:

$$P(X = 120 \mid Y = \text{No}) \approx \boxed{0.00719}$$


해석

  • 이 값은 "클래스가 No일 때, 속성 X가 120일 가능성"을 정규분포의 밀도 함수 값으로 나타낸 것입니다.
  • 즉, 우도는 "이 x값이 해당 클래스에서 얼마나 자연스럽게 나오는지"를 수치로 보여줍니다.