본문 바로가기
AI & Data Analysis/Paper Reviews

[ScRAT 흐름] Phenotype prediction from single-cell RNA-seq data using attention-based neural networks

by doraemin_dev 2025. 3. 20.

논문 

https://academic.oup.com/bioinformatics/article/40/2/btae067/7613064

btae067.pdf
1.08MB


 발표용으로 정리

2025.03.22 - [AI 및 Data Analysis/Paper] - [ScRAT 정리] Phenotype prediction from single-cell RNA-seq data using attention-based neural networks

 

[ScRAT 정리] Phenotype prediction from single-cell RNA-seq data using attention-based neural networks

논문 https://academic.oup.com/bioinformatics/article/40/2/btae067/7613064 정리  Attention 기반 신경망을 사용한 / 단일 세포 RNA-Seq 데이터의 / 표현형 예측Attention 기반으로 진행하는 것이 이 논문의 핵심!Attentino

doraemin.tistory.com


배경 및 문제점

  • 질병의 표현형(phenotype) 예측은 진단, 예후 및 치료를 위해 필수적임.
  • 기존의 대량 RNA 시퀀싱(RNA-Seq) 기법은 조직 전체의 평균적인 유전자 발현 데이터를 제공하여 세포 간의 이질성을 반영하지 못함.
  • 단일 세포 RNA 시퀀싱(scRNA-seq)은 개별 세포 수준에서 유전자 발현을 분석할 수 있지만, 세포 유형(cell type) 분류의 정확성 부족과 적은 표본 수로 인해 분석이 어려움.

제안 방법: ScRAT (Single-cell RNA-seq Attention-based Transformer)

ScRAT은 단일 세포 RNA-seq 데이터를 활용한 표현형 예측 모델로, 다음과 같은 특징이 있음:

 

1. Mixup 데이터 증강 기법

  • 기존의 적은 샘플 데이터를 보완하기 위해, 기존 샘플을 조합하여 새로운 가상 샘플을 생성하여 훈련 데이터 증가.

2025.03.20 - [AI 및 Data Analysis/Code] - [ScRAT] STEP 1. Sample mixup

 

[ScRAT] STEP 1. Sample mixup

ScRAT의 첫번째 단계 : Sample mixup논문 4.1 Sample Mixup 부분에서는 scRNA-seq 데이터가 적은 샘플 크기로 인해 과적합(overfitting) 될 가능성이 높다는 문제를 해결하기 위해 Mixup 기법을 도입한 방법을 설명

doraemin.tistory.com

 

2. 다중 헤드(Self-attention) 기반 신경망

  • 셀 타입 정보 없이도 표현형 예측을 수행할 수 있도록, 다중 헤드 어텐션(Multi-head Attention) 기법을 사용하여 중요한 세포를 자동으로 식별.
  • 기존의 Gaussian 분포 기반 방법들과 달리, 세포 간의 상관관계를 학습하는 방식을 도입.

2025.03.20 - [AI 및 Data Analysis/Code] - [ScRAT] STEP 2. Attention layer

 

[ScRAT] STEP 2. Attention layer

🔍 4.2 Attention Layer (주의력 기법)논문의 4.2 Attention Layer 부분에서는 Self-Attention 및 Multi-Head Attention을 이용한 셀 임베딩 학습 방법을 설명하고 있습니다.즉, 각 세포(Cell) 임베딩을 입력으로 받아

doraemin.tistory.com

 

 

3. 설명 가능한 예측 결과

  • 기존의 블랙박스 모델과 달리, 특정 세포가 질병 표현형에 미치는 영향을 해석할 수 있도록 주목(attention)을 받은 세포를 분석.

 


 실험 및 성능 평가

ScRAT은 세 가지 COVID-19 관련 공공 데이터셋을 활용하여 검증되었음:

  1. COVID vs. Non-COVID
  2. 경증/중등증 vs. 중증/위중증
  3. 회복 vs. 진행

 주요 결과:

  • ScRAT은 기존 방법 대비 높은 AUC(ROC 곡선 아래 면적) 성능을 보이며, 훈련 샘플 수가 적을수록 경쟁 모델보다 뛰어난 성능을 발휘.
  • 중요한 세포(subpopulations)를 식별하는 능력이 기존 연구 결과와 일치함.

 생물학적 해석 및 의의

  • ScRAT이 가장 중요한 세포를 식별하는 능력이 기존 생물학 연구와 일치함.
    • 혈장세포(Plasma cell): 면역 반응에서 핵심적인 역할 수행.
    • 단핵구(Monocyte)와 혈소판(Platelets): COVID-19 환자에서 혈전 형성과 관련 있음.
    • 조혈줄기세포(HSC_CD38pos): 감염 후 혈액 생성 변화와 관련 있음.

 결론 및 기여

  • ScRAT은 단일 세포 RNA-seq 데이터를 활용하여 표현형을 예측하는 최초의 딥러닝 모델 중 하나.
  • 기존 방법들이 갖고 있던 세포 타입 의존성, 적은 샘플 크기, 해석 가능성 부족 등의 문제를 해결.
  • 신규 바이오마커(biomarker) 발굴 및 맞춤 치료법 개발에 활용 가능.

 코드 및 데이터

  • ScRAT의 코드 및 구현은 오픈소스로 제공됨:
    GitHub 링크
 

GitHub - yuzhenmao/ScRAT: Implementation of Phenotype prediction from single-cell RNA-seq data using attention-based neural netw

Implementation of Phenotype prediction from single-cell RNA-seq data using attention-based neural networks (Bioinformatics). - yuzhenmao/ScRAT

github.com

 

 코드

2025.03.20 - [AI 및 Data Analysis/Code] - [ScRAT] Code Demo

 

[ScRAT] Code Demo

이전 글에서, ScRAT 실행을 해보았다.2025.03.20 - [AI, 논문, 데이터 분석] - [ScRAT] scRNA Analysis [ScRAT] scRNA AnalysisPaper : Phenotype prediction from single-cell RNA-seq data using attention-based neural networks https://academic.o

doraemin.tistory.com

 

⇨ 분석 실행

2025.03.20 - [AI 및 Data Analysis/Code] - [ScRAT] scRNA Analysis

 

[ScRAT] scRNA Analysis

Paper : Phenotype prediction from single-cell RNA-seq data using attention-based neural networks https://academic.oup.com/bioinformatics/article/40/2/btae067/7613064  본 논문에서 언급된 ScRAT 방법으로 scRNA 분석하기 https://github.com/y

doraemin.tistory.com

 


 요약 정리

ScRAT은 단일 세포 RNA-seq 데이터를 활용한 새로운 표현형 예측 모델
Attention 기반의 신경망을 사용하여 세포 타입 정보 없이도 중요한 세포를 학습 가능
Mixup 데이터 증강을 통해 적은 샘플에서도 높은 성능을 유지
생물학적으로 의미 있는 세포를 자동으로 탐지하여 해석 가능성 제공
COVID-19 데이터를 활용한 실험에서 높은 성능을 기록, 바이오마커 및 맞춤형 치료 연구에 기여 가능