본문 바로가기
AI 및 Data Analysis/Deep Learning

[Gini Index] Class Probability Graph

by doraemin_dev 2025. 4. 21.

Gini Index 공식:

$$ Gini = 1 - \sum p_i^2 $$

  • 불순도 = 잘못 분류될 확률
  • 순수할 수록 (=한 쪽으로 치우칠 수록) → Gini Index는 낮다.
    • 모든 데이터가 하나의 클래스에 속하면 Gini Index는 0으로 최소가 된다.
    • 모든 데이터가 클래스 B이면: pB=1, 나머지 0 → Gini = 0.
    • 이런 상태는 더 이상 분할할 필요가 없고, **잎 노드(leaf node)**로 처리하면 됩니다.
  • 불순할 수록 (=모든 class가 동일할 수록) → Gini Index는 최댓값에 가까워진다.
    • 데이터가 모든 클래스에 균등하게 분포하면 Gini Index는 $1 - \frac{1}{J}$로 최대가 된다

 

오답 확률 = 1 - 정답확률의 총합

 

For 2-class class problem ($p_1$, $p_2 = 1-p$)

 

$ 𝑃 (incorrect) \\ = 𝑃 (incorrect ~ 𝑎𝑛𝑑 ~ 𝑋 ∈ 𝐶_1) + 𝑃( incorrect ~𝑎𝑛𝑑~ 𝑋 ∈ 𝐶_2)
\\ = 𝑃 (𝑋 ∈ 𝐶_1) × 𝑃 (incorrect 𝑋 ∈ 𝐶_1) + 𝑃 (𝑋 ∈ 𝐶_2) × 𝑃 (incorrect 𝑋 ∈ 𝐶_2)
\\ = 𝑝_1~𝑝_2 + 𝑝_2~𝑝_1  = 2𝑝_1~𝑝_2 = 2p(1-p)
\\ =\sum\limits_{i=1}^J p_i(1-p_i)
\\ =\sum\limits_{i=1}^J(p_i-p_i^2)
\\ = 1 - \sum\limits_{i=1}^J p_i^2 $

 

  • 2-class 분류이면  $2p(1-p)$ 로 나타낼 수 있다.

이 그래프는 2-class 분류 문제에서 Gini Index가 클래스 비율에 따라 어떻게 변하는지를 시각화한 것입니다.

  • x축: 클래스 1의 비율 p1
  • y축: 해당 분포에 대한 Gini Index

주요 특징:

  1. 최대값: 0.5
  • $p1=0.5$, $ p2=0.5 $ 일 때 → 두 클래스가 동일한 비율 → 가장 불순함
  • $ Gini Index = 1 - (0.5^2 + 0.5^2) = 0.5 $

2. 최소값: 0

  • $ p1=0 $ 또는 $ p1=1 $ 일 때 → 완전한 순수성 (한 클래스만 존재)
  • $ Gini Index = 0 $

3. 대칭성

  • $ p1↔p2 $ 일 때 같은 값을 가짐

 


이 그래프는 3개 클래스의 분포(p1, p2, p3)에 따라 계산된 Gini Index의 3D 곡면입니다.

  • x축: 클래스 1의 비율 p1 
  • y축: 클래스 2의 비율 p2
  • z축: Gini Index 값

p3 = 1−p1−p2 로 자동 계산됨
조건: p1+p2+p3 = 1, 즉 전체가 확률 분포임


주요 특징

  • Gini Index = 0: 한 클래스의 확률이 1이고 나머지는 0일 때 → 완전한 순수
  • $  Gini Index 최대값 = 1 - (1/3)^2 × 3 = 1 - 1/3 ≈ 0.6667 $
    • 모든 클래스가 균등할 때: $ p_1 = p_2 = p_3 = 1/3 $
    • 가장 불순한 상태

 클래스가 n개일 때의 Gini Index 최댓값?

모든 클래스의 확률이 동일할 때, 즉

$$ p_1 = p_2 = ... = p_n = 1/n $$

 

이 경우:

$$ Gini_{max} = 1 - n * (\frac{1}{n})^2 = 1 - \frac{1}{n} $$

 

Gini Index 최대값 vs 클래스 수 (n)