Gini Index 공식:
$$ Gini = 1 - \sum p_i^2 $$
- 불순도 = 잘못 분류될 확률
- 순수할 수록 (=한 쪽으로 치우칠 수록) → Gini Index는 낮다.
- 모든 데이터가 하나의 클래스에 속하면 Gini Index는 0으로 최소가 된다.
- 모든 데이터가 클래스 B이면: pB=1, 나머지 0 → Gini = 0.
- 이런 상태는 더 이상 분할할 필요가 없고, **잎 노드(leaf node)**로 처리하면 됩니다.
- 불순할 수록 (=모든 class가 동일할 수록) → Gini Index는 최댓값에 가까워진다.
- 데이터가 모든 클래스에 균등하게 분포하면 Gini Index는 $1 - \frac{1}{J}$로 최대가 된다
오답 확률 = 1 - 정답확률의 총합
For 2-class class problem ($p_1$, $p_2 = 1-p$)
$ 𝑃 (incorrect) \\ = 𝑃 (incorrect ~ 𝑎𝑛𝑑 ~ 𝑋 ∈ 𝐶_1) + 𝑃( incorrect ~𝑎𝑛𝑑~ 𝑋 ∈ 𝐶_2)
\\ = 𝑃 (𝑋 ∈ 𝐶_1) × 𝑃 (incorrect 𝑋 ∈ 𝐶_1) + 𝑃 (𝑋 ∈ 𝐶_2) × 𝑃 (incorrect 𝑋 ∈ 𝐶_2)
\\ = 𝑝_1~𝑝_2 + 𝑝_2~𝑝_1 = 2𝑝_1~𝑝_2 = 2p(1-p)
\\ =\sum\limits_{i=1}^J p_i(1-p_i)
\\ =\sum\limits_{i=1}^J(p_i-p_i^2)
\\ = 1 - \sum\limits_{i=1}^J p_i^2 $
- 2-class 분류이면 $2p(1-p)$ 로 나타낼 수 있다.
이 그래프는 2-class 분류 문제에서 Gini Index가 클래스 비율에 따라 어떻게 변하는지를 시각화한 것입니다.
- x축: 클래스 1의 비율 p1
- y축: 해당 분포에 대한 Gini Index
주요 특징:
- 최대값: 0.5
- $p1=0.5$, $ p2=0.5 $ 일 때 → 두 클래스가 동일한 비율 → 가장 불순함
- $ Gini Index = 1 - (0.5^2 + 0.5^2) = 0.5 $
2. 최소값: 0
- $ p1=0 $ 또는 $ p1=1 $ 일 때 → 완전한 순수성 (한 클래스만 존재)
- $ Gini Index = 0 $
3. 대칭성
- $ p1↔p2 $ 일 때 같은 값을 가짐
이 그래프는 3개 클래스의 분포(p1, p2, p3)에 따라 계산된 Gini Index의 3D 곡면입니다.
- x축: 클래스 1의 비율 p1
- y축: 클래스 2의 비율 p2
- z축: Gini Index 값
p3 = 1−p1−p2 로 자동 계산됨
조건: p1+p2+p3 = 1, 즉 전체가 확률 분포임
주요 특징
- Gini Index = 0: 한 클래스의 확률이 1이고 나머지는 0일 때 → 완전한 순수
- $ Gini Index 최대값 = 1 - (1/3)^2 × 3 = 1 - 1/3 ≈ 0.6667 $
- 모든 클래스가 균등할 때: $ p_1 = p_2 = p_3 = 1/3 $
- 가장 불순한 상태
클래스가 n개일 때의 Gini Index 최댓값?
모든 클래스의 확률이 동일할 때, 즉
$$ p_1 = p_2 = ... = p_n = 1/n $$
이 경우:
$$ Gini_{max} = 1 - n * (\frac{1}{n})^2 = 1 - \frac{1}{n} $$
Gini Index 최대값 vs 클래스 수 (n)
'AI 및 Data Analysis > Deep Learning' 카테고리의 다른 글
Logistic Regression vs. Neural Network (with hidden layers) (0) | 2025.04.22 |
---|---|
likelihood function vs. probability function (0) | 2025.04.22 |
[Asymmetric Attributes] Concepts (0) | 2025.04.18 |
[Law of Large Numbers] Key Concepts (0) | 2025.04.17 |
[Tuning Hyperparameters] Concept (0) | 2025.04.16 |