[Gini Index] Class Probability Graph

Gini Index 공식:

$$ Gini = 1 - \sum p_i^2 $$

불순도 = 잘못 분류될 확률
순수할 수록 (=한 쪽으로 치우칠 수록) → Gini Index는 낮다.
- 모든 데이터가 하나의 클래스에 속하면 Gini Index는 0으로 최소가 된다.
- 모든 데이터가 클래스 B이면: pB=1, 나머지 0 → Gini = 0.
- 이런 상태는 더 이상 분할할 필요가 없고, **잎 노드(leaf node)**로 처리하면 됩니다.
불순할 수록 (=모든 class가 동일할 수록) → Gini Index는 최댓값에 가까워진다.
- 데이터가 모든 클래스에 균등하게 분포하면 Gini Index는 $1 - \frac{1}{J}$로 최대가 된다

오답 확률 = 1 - 정답확률의 총합

For 2-class class problem ($p_1$, $p_2 = 1-p$)

$ 𝑃 (incorrect) \\ = 𝑃 (incorrect ~ 𝑎𝑛𝑑 ~ 𝑋 ∈ 𝐶_1) + 𝑃( incorrect ~𝑎𝑛𝑑~ 𝑋 ∈ 𝐶_2)
\\ = 𝑃 (𝑋 ∈ 𝐶_1) × 𝑃 (incorrect 𝑋 ∈ 𝐶_1) + 𝑃 (𝑋 ∈ 𝐶_2) × 𝑃 (incorrect 𝑋 ∈ 𝐶_2)
\\ = 𝑝_1~𝑝_2 + 𝑝_2~𝑝_1 = 2𝑝_1~𝑝_2 = 2p(1-p)
\\ =\sum\limits_{i=1}^J p_i(1-p_i)
\\ =\sum\limits_{i=1}^J(p_i-p_i^2)
\\ = 1 - \sum\limits_{i=1}^J p_i^2 $

2-class 분류이면 $2p(1-p)$ 로 나타낼 수 있다.

이 그래프는 2-class 분류 문제에서 Gini Index가 클래스 비율에 따라 어떻게 변하는지를 시각화한 것입니다.

x축: 클래스 1의 비율 p1
y축: 해당 분포에 대한 Gini Index

주요 특징:

최대값: 0.5

$p1=0.5$, $ p2=0.5 $ 일 때 → 두 클래스가 동일한 비율 → 가장 불순함
$ Gini Index = 1 - (0.5^2 + 0.5^2) = 0.5 $

2. 최소값: 0

$ p1=0 $ 또는 $ p1=1 $ 일 때 → 완전한 순수성 (한 클래스만 존재)
$ Gini Index = 0 $

3. 대칭성

$ p1↔p2 $ 일 때 같은 값을 가짐

이 그래프는 3개 클래스의 분포(p1, p2, p3)에 따라 계산된 Gini Index의 3D 곡면입니다.

x축: 클래스 1의 비율 p1
y축: 클래스 2의 비율 p2
z축: Gini Index 값

p3 = 1−p1−p2 로 자동 계산됨
조건: p1+p2+p3 = 1, 즉 전체가 확률 분포임

주요 특징

Gini Index = 0: 한 클래스의 확률이 1이고 나머지는 0일 때 → 완전한 순수
$ Gini Index 최대값 = 1 - (1/3)^2 × 3 = 1 - 1/3 ≈ 0.6667 $
- 모든 클래스가 균등할 때: $ p_1 = p_2 = p_3 = 1/3 $
- 가장 불순한 상태

클래스가 n개일 때의 Gini Index 최댓값?

모든 클래스의 확률이 동일할 때, 즉

$$ p_1 = p_2 = ... = p_n = 1/n $$

이 경우:

$$ Gini_{max} = 1 - n * (\frac{1}{n})^2 = 1 - \frac{1}{n} $$

Gini Index 최대값 vs 클래스 수 (n)

'AI 및 Data Analysis > Deep Learning' 카테고리의 다른 글

Logistic Regression vs. Neural Network (with hidden layers) (0)	2025.04.22
likelihood function vs. probability function (0)	2025.04.22
[Asymmetric Attributes] Concepts (0)	2025.04.18
[Law of Large Numbers] Key Concepts (0)	2025.04.17
[Tuning Hyperparameters] Concept (0)	2025.04.16

도라에몽 개발

[Gini Index] Class Probability Graph

Gini Index 공식:

$$ Gini = 1 - \sum p_i^2 $$