본문 바로가기
AI 및 Data Analysis/Paper Reviews

[DosaCNV] Deep multiple-instance learning accurately predicts gene haploinsufficiency and deletion pathogenicity

by doraemin_dev 2025. 5. 22.

PAPER

https://pmc.ncbi.nlm.nih.gov/articles/PMC10491176/

 

Deep multiple-instance learning accurately predicts gene haploinsufficiency and deletion pathogenicity - PMC

Details of DosaCNV. We denote Xi as the input for the i-th deletion, which is a matrix of dimensions M × L, where M represents the number of genes and L corresponds to the number of gene-level features. Given that the number of genes varies for each delet

pmc.ncbi.nlm.nih.gov

 

 

1. 연구 배경 및 목적

  • 유전체의 복제 수 변이(CNV) 중 결실(deletion)은 다양한 유전 질환의 주요 원인입니다. 이 중에서도 한 쪽 복제본이 없어져도 기능이 유지되지 않는 ‘반수불충성(haploinsufficiency)’ 유전자들이 특히 병리적 결실(deletion pathogenicity)에 큰 영향을 미칩니다.
  • 기존 방법들은 결실의 병리성을 예측하면서도, 개별 유전자의 반수불충성 정도를 함께 고려하지 못해 성능이 제한적이었습니다.
  • 본 연구에서는 딥 멀티-인스턴스 러닝(deep multiple-instance learning) 을 활용해 “결실→유전자” 수준의 반수불충성 예측과 “결실 전체” 수준의 병리성 예측을 동시에 수행하는 새로운 프레임워크, DosaCNV를 제안합니다.

CNV란? (아래 접은 글 참조)

더보기

유전자 복제수 변이 (Copy-number variation, CNV)는 인간 유전체의 개인별 변이에서 구조 변이에 해당하는 유전적 변화이다. 복제수 변이 (Copy Number Variation)는 유전체의 특정 영역이 2개 이상으로 복사되거나 삭제되는 현상을 의미합니다.
이는 정상 유전자의 기능 이상을 초래하여 암이나 유전체 질환을 포함한 많은 질병을 유발합니다.

 

개인당 평균 1000개 정도의 CNVs가 존재하고 그 크기는 443 bp에서 1.28 Mb까지 다양하다. 개인에서 CNVs 전체의 길이는 24 Mb 로서 유전체의 0.78%에 해당한다.

이와 관련되어 최근 연구 중 주의력결핍 과다행동장애(ADHD)가 환경적인 영향뿐만 아니라 유전자 복제수 변이의 차이에 의해서도 발병할 수 있다는 결과가 보고되었다.

haploinsufficiency란?

더보기

우선, 단어의 의미부터 짚고 넘어가겠습니다.

Haplo- : 인간의 경우, 양쪽 부모로 부터 한쪽씩 유전체를 받아 이배체 (Diploidy, 2n)를 이룹니다. 따라서 여기서의 haplo는 두 짝의 유전체 중에 한 짝을 의미합니다.

-insufficiency: 불충분하다.

보통 Haplo-insufficiency는 글자 그대로 유전자의 기능이 정상적으로 작동하기위해서는 두 쪽의 유전자 중에 한 쪽만 정상으로 가지고 있으면, 유전자 기능을 나타내기에 불충분하다는 뜻이 됩니다.

 

2. 방법 개요

  • 입력 데이터: ClinVar에서 수집한 6,180개의 병리적(pat.)과 5,822개의 양성(benign) 결실 데이터를 사용했으며, 각 결실에 포함된 단백질 코딩 유전자들은 최대 100개까지 패딩하여 입력합니다.
  • 유전자 특징(feature): 유전체·에피유전체·진화적 제약·기능 유전체·변이 민감도·생물학적 네트워크 등 총 30여 개의 유전자 레벨 특징을 활용합니다.
  • 모델 구조:

1. Fully connected 네트워크로 각 유전자에 대한 반수불충성 확률($P_{HI}$)을 계산

왜 $P_{HI}$를 계산하는가?

더보기
하나의 결실(CNV deletion)에는 여러 유전자가 들어 있습니다.
한 개의 CNV 삭제(del) 이벤트에 포함된 유전자들에 대해서 각 gene마다 bag(인스턴스 집합)으로 보고 $P_{HI}$를 계산합니다.
  • CNV(deletion)가 단순히 유전자가 하나 사라진 이벤트인지,
    아니면 실제로 질병을 일으키는 병리적(pathogenic) 결실인지를 구분하기 위해,
  • 그 결실 안에 포함된 어떤 유전자가 반수불충성(haploinsufficiency) 특성을 보여 “질병을 일으킬 가능성”이 높은지를 먼저 파악해야 합니다.
따라서 각 유전자별로 “이 유전자가 HI일 확률”을 예측하는 것이 필요하고, 이 값을 $P_{HI,i}$라고 부릅니다.
---------------------------

따라서 DosaCNV는

  1. 각 유전자마다 “이 유전자가 반수불충성으로 인해 병을 일으킬 확률”을 **PHI₍ᵢ₎**로 예측하고,
  2. 그 확률들(PHI₁, PHI₂, …)을 Noisy-OR pooling으로 합쳐서 “이 결실 전체가 병리적일 확률”을 계산합니다.

즉, $P_HI₍ᵢ₎$는 “유전자 i가 HI 특성으로 인해 결실 시 질병에 기여할 확률”을 의미합니다. 이 값을 구하면

  • 어떤 유전자가 특히 위험한지,
  • 그 결실이 실제로 병을 일으킬 가능성이 얼마나 되는지
    를 모두 알 수 있게 됩니다

2. Noisy‐OR pooling 기법으로 결실에 속한 모든 유전자의 $P_{HI}$를 통합하여, “결실이 병리적일 확률”로 해석 가능한 스칼라 값을 출력

 

 

각 유전자별 반수불충성 확률(PHI: Probability of Haploinsufficiency) $P_{HI}$ 계산하는 방법?

더보기

1. 먼저, 유전자 i에 대해 33차원짜리 특징 벡터 xᵢ를 준비합니다. 예를 들어:
유전체 정보: exon 수, isoform 수 등
진화적 제약: pLI, LOEUF 등
에피유전체 마커: H3K27me3, H3K4me3 등
…총 6개 범주 30여 개 지표를 모아 33차원 벡터를 만듭니다.

2. 작은 신경망(MLP)으로 확률 계산하기

첫 번째 선형 변환(은닉층)
가중치 행렬 W₁ (크기 예: 33×H)와 편향 b₁ (크기 H)를 곱해서,
$z_i​=ReLU(W_1 ​_xi​+b_1​)$ 형태의 은닉 벡터 hᵢ를 만듭니다.
여기서 H는 은닉층 뉴런 수(예: 64)입니다. ReLU는 음수를 0으로 자르는 활성화 함수입니다.

두 번째 선형 변환(출력층)
또 다른 가중치 행렬 W₂ (크기 H×1)와 편향 b₂(스칼라)를 곱해,
$ Z_i = Dropout(ReLU(W_2​z_i​+b_2))$​ 형태의 스칼라 점수 $Z_i$를 얻습니다.

시그모이드 활성화로 확률로 변환
시그모이드 함수 σ를 적용해,
$P_{HI}_i = \sigma(Z_i*W_3 + b_3)$ ​
이 값은 항상 0과 1 사이에 있고,
0에 가까울수록 “이 유전자가 HI일 가능성 낮음” 1에 가까울수록 “이 유전자가 HI일 가능성 높음” 으로 해석할 수 있습니다.

3. 학습 방식: 어떻게 가중치를 구하나요?
모델 전체(은닉층 + 출력층)의 가중치 W₁, b₁, W₂, b₂를 데이터로부터 학습합니다.
레이블은 “이 결실(CNV)이 병리적인지(1)·양성인지(0)”만 있지만, Noisy-OR pooling을 거친 뒤
결실 전체 예측 Pₚₐₜₕₒ와 실제 레이블을 비교하며 역전파(Back-propagation) 로 업데이트됩니다.
즉, PHIᵢ 값 자체에 별도 레이블이 필요한 것이 아니라, “이 유전자가 HI일 확률을 잘 예측해야 전체 결실 예측도 잘 맞는다”는 다중과제 학습(Multi-task learning) 원리로 간접 학습됩니다.

---
<정리>
입력으로 “유전자 표현형 특징(feature)”을 받아 작은 Fully-Connected 네트워크(MLP)를 통해 0∼1 사이의 확률 값인 PHI_i를 출력합니다. 이 확률은 해당 유전자가 반수불충성(정상 대립유전자가 한쪽만 기능할 때 표현형 이상을 일으킬 가능성)을 가질 “확률적 점수”로 해석됩니다.

수식으로는, 각 유전자 벡터 $x_i$에 대해
$ P_{HI,i} = \sigma\bigl(W_{\text{PHI}}) $
형태의 시그모이드 출력층을 사용합니다.

 

Noisy-OR pooling을 통한 결실(del) 병리성 확률 통합 방법?

더보기

Noisy-OR pooling은 Multiple-Instance Learning에서 “여러 개 인스턴스 중 하나 이상이 긍정적일 때 전체도 긍정적”이라는 직관을 확률적으로 모델링하는 기법입니다.

 

CNV(del)에 포함된 k개의 유전자 각각이 “병리적”일 확률로 해석되는 $PHI_1$, …, $PHI_k$를 종합하여, “이 del 이벤트 전체가 병리적일 확률” $P_{patho}$를 계산합니다. Noisy-OR 모델은 “독립적인 원인 중 하나라도 발생하면 결과가 발생”한다는 가정 하에, $ Ppatho​= 1-∏(1− P_{HI,i,j} * Mask_{i,j} ​) $ 로 정의됩니다.

이 식은 “최소 하나의 유전자가 반수불충성인 경우 del이 병리적”이라는 직관과 일치하며, 0∼1 스칼라 값으로 바로 해석 가능합니다.

 

구성 요소 및 해석

 

  • 1 − PHIᵢ
    “유전자 i가 HI가 아닐 확률”을 의미합니다.
  • 곱셈 연산

$ ∏(1− P_{HI,i,j}​) $

모든 유전자가 동시에 HI가 아닐 확률, 즉 “결실 내 어느 유전자도 HI 역할을 못 하는” 시나리오의 확률입니다.

  • “1 − (…곱)”
    역으로, “최소 하나 이상의 유전자가 HI여서 결실이 병리적”일 확률을 계산합니다.

 

왜 Noisy-OR인가?

  • 정보 집약적: Max-pooling(max PHI)처럼 가장 큰 값 하나만 보는 것이 아니라, 여러 유전자의 누적 위험도를 고려합니다.
  • 확률 해석 용이: 결과값이 0∼1 사이의 확률로 바로 해석되어, 임상적 의사결정에 직관적입니다.
  • 미분 가능: 연속적인 곱셈·덧셈·1− 연산만으로 이루어져 있어, back-propagation이 가능하며 end-to-end 학습에 적합합니다.

수치 안정성 기법
특히 유전자 수가 많아질 때 곱셈 결과가 0에 수렴하거나 언더플로우가 발생할 수 있어, 실제 구현에서는 로그 도메인으로 변환하여 계산하기도 합니다:
$ \log\bigl(1 - P_{\text{patho}}\bigr) \;=\; \sum_i  ​log(1−P_{HI,i}​) $
형태로 구현한 뒤 지수 변환을 사용하기도 합니다.

이렇게 하면 작은 값들의 곱으로 인한 수치적 불안정성을 크게 완화할 수 있습니다.

왜 Noisy-OR pooling인가?

직관적 확률 해석: Max-pooling(“가장 위험한 유전자 하나만 본다”)와 달리, Noisy-OR은 여러 유전자의 “중첩된” 위험을 모두 반영합니다. 미분 가능성: 모두 미분 가능한 연산으로 이루어져 있어, 네트워크를 end-to-end로 학습할 때 각 유전자의 PHI에 대한 gradient가 자연스럽게 back‐prop 됩니다. 확장성: del에 속한 유전자의 수가 가변적일 때에도 간단히 곱셈/정보 집계를 통해 처리할 수 있습니다.

 

3. 학습 및 평가

  • 학습 전략: 염색체별로 “leave-one-chromosome-out” 방식을 사용해 학습·검증·테스트 데이터를 분할하고, 병리–양성 결실을 유전자 수 기준으로 매칭하여 길이 편향을 최소화했습니다.
  • 성능 비교: 기존 TADA, StrVCTVRE, CADD-SV 등 5개 방법과 비교했을 때,
    • 전체 테스트 세트에서 AUC 0.968로 최고 성능
    • 유전자 수·결실 길이로 매칭된 테스트 세트에서도 여전히 다른 방법들보다 우수한 예측력을 보였습니다.

4. 반수불충성 유전자 예측 (DosaCNV-HI)

  • DosaCNV 모델에서 pooling 레이어만 제거해 유전자 수준의 반수불충성 예측기로 분리(이름: DosaCNV-HI).
  • ClinGen, SFARI·DDG2P·MHKO 등 6개 공개 데이터셋에서 다른 12개 방법과 비교해,
    • ClinGen “gold standard” HI 유전자 예측에서 AUC 0.901로 2위(Episcore 0.854) 보다 유의미하게 우수
    • 나머지 데이터셋에서도 꾸준히 상위권 성적을 유지했습니다.

5. 모델 해석성 확보

  • Deep SHAP 기법을 적용해 각 유전자 예측에 기여한 주요 특징을 정량화:
    • 변이 민감도(pLI, LOEUF)·전사체 특성(isoform 수, 조직 특이성)·에피유전체 마커(H3K27me3, H3K4me3) 등이 중요한 인자로 확인
    • 지역 설명(local explanation)으로 대표적 HI 유전자(PMP22, SHANK3 등)에 대한 개별 기여도를 시각화해, 왜 해당 유전자가 HI로 예측되었는지 이해 가능

6. 의의 및 한계

  • DosaCNV는 “유전자 수준 반수불충성”과 “결실 수준 병리성”을 생물학적으로 일관되게 통합 예측한 최초의 딥러닝 프레임워크입니다.
  • 다만, 현 ClinVar 기반 학습 데이터의 편향성과 비암호화(non-coding) 영역 미반영, 유전자 간 상호작용 미고려 등의 한계가 있어, 다양한 질환 맥락과 완전한 CNV 카탈로그 확보가 후속 연구 과제로 남습니다.