논문
https://academic.oup.com/bioinformatics/article/40/2/btae067/7613064
발표용으로 정리
[ScRAT 정리] Phenotype prediction from single-cell RNA-seq data using attention-based neural networks
논문 https://academic.oup.com/bioinformatics/article/40/2/btae067/7613064 정리 Attention 기반 신경망을 사용한 / 단일 세포 RNA-Seq 데이터의 / 표현형 예측Attention 기반으로 진행하는 것이 이 논문의 핵심!Attentino
doraemin.tistory.com
배경 및 문제점
- 질병의 표현형(phenotype) 예측은 진단, 예후 및 치료를 위해 필수적임.
- 기존의 대량 RNA 시퀀싱(RNA-Seq) 기법은 조직 전체의 평균적인 유전자 발현 데이터를 제공하여 세포 간의 이질성을 반영하지 못함.
- 단일 세포 RNA 시퀀싱(scRNA-seq)은 개별 세포 수준에서 유전자 발현을 분석할 수 있지만, 세포 유형(cell type) 분류의 정확성 부족과 적은 표본 수로 인해 분석이 어려움.
제안 방법: ScRAT (Single-cell RNA-seq Attention-based Transformer)
ScRAT은 단일 세포 RNA-seq 데이터를 활용한 표현형 예측 모델로, 다음과 같은 특징이 있음:
1. Mixup 데이터 증강 기법
- 기존의 적은 샘플 데이터를 보완하기 위해, 기존 샘플을 조합하여 새로운 가상 샘플을 생성하여 훈련 데이터 증가.
2025.03.20 - [AI 및 Data Analysis/Code] - [ScRAT] STEP 1. Sample mixup
[ScRAT] STEP 1. Sample mixup
ScRAT의 첫번째 단계 : Sample mixup논문 4.1 Sample Mixup 부분에서는 scRNA-seq 데이터가 적은 샘플 크기로 인해 과적합(overfitting) 될 가능성이 높다는 문제를 해결하기 위해 Mixup 기법을 도입한 방법을 설명
doraemin.tistory.com
2. 다중 헤드(Self-attention) 기반 신경망
- 셀 타입 정보 없이도 표현형 예측을 수행할 수 있도록, 다중 헤드 어텐션(Multi-head Attention) 기법을 사용하여 중요한 세포를 자동으로 식별.
- 기존의 Gaussian 분포 기반 방법들과 달리, 세포 간의 상관관계를 학습하는 방식을 도입.
2025.03.20 - [AI 및 Data Analysis/Code] - [ScRAT] STEP 2. Attention layer
[ScRAT] STEP 2. Attention layer
🔍 4.2 Attention Layer (주의력 기법)논문의 4.2 Attention Layer 부분에서는 Self-Attention 및 Multi-Head Attention을 이용한 셀 임베딩 학습 방법을 설명하고 있습니다.즉, 각 세포(Cell) 임베딩을 입력으로 받아
doraemin.tistory.com
3. 설명 가능한 예측 결과
- 기존의 블랙박스 모델과 달리, 특정 세포가 질병 표현형에 미치는 영향을 해석할 수 있도록 주목(attention)을 받은 세포를 분석.
실험 및 성능 평가
ScRAT은 세 가지 COVID-19 관련 공공 데이터셋을 활용하여 검증되었음:
- COVID vs. Non-COVID
- 경증/중등증 vs. 중증/위중증
- 회복 vs. 진행
주요 결과:
- ScRAT은 기존 방법 대비 높은 AUC(ROC 곡선 아래 면적) 성능을 보이며, 훈련 샘플 수가 적을수록 경쟁 모델보다 뛰어난 성능을 발휘.
- 중요한 세포(subpopulations)를 식별하는 능력이 기존 연구 결과와 일치함.
생물학적 해석 및 의의
- ScRAT이 가장 중요한 세포를 식별하는 능력이 기존 생물학 연구와 일치함.
- 혈장세포(Plasma cell): 면역 반응에서 핵심적인 역할 수행.
- 단핵구(Monocyte)와 혈소판(Platelets): COVID-19 환자에서 혈전 형성과 관련 있음.
- 조혈줄기세포(HSC_CD38pos): 감염 후 혈액 생성 변화와 관련 있음.
결론 및 기여
- ScRAT은 단일 세포 RNA-seq 데이터를 활용하여 표현형을 예측하는 최초의 딥러닝 모델 중 하나.
- 기존 방법들이 갖고 있던 세포 타입 의존성, 적은 샘플 크기, 해석 가능성 부족 등의 문제를 해결.
- 신규 바이오마커(biomarker) 발굴 및 맞춤 치료법 개발에 활용 가능.
코드 및 데이터
- ScRAT의 코드 및 구현은 오픈소스로 제공됨:
GitHub 링크
GitHub - yuzhenmao/ScRAT: Implementation of Phenotype prediction from single-cell RNA-seq data using attention-based neural netw
Implementation of Phenotype prediction from single-cell RNA-seq data using attention-based neural networks (Bioinformatics). - yuzhenmao/ScRAT
github.com
⇨ 코드
2025.03.20 - [AI 및 Data Analysis/Code] - [ScRAT] Code Demo
[ScRAT] Code Demo
이전 글에서, ScRAT 실행을 해보았다.2025.03.20 - [AI, 논문, 데이터 분석] - [ScRAT] scRNA Analysis [ScRAT] scRNA AnalysisPaper : Phenotype prediction from single-cell RNA-seq data using attention-based neural networks https://academic.o
doraemin.tistory.com
⇨ 분석 실행
2025.03.20 - [AI 및 Data Analysis/Code] - [ScRAT] scRNA Analysis
[ScRAT] scRNA Analysis
Paper : Phenotype prediction from single-cell RNA-seq data using attention-based neural networks https://academic.oup.com/bioinformatics/article/40/2/btae067/7613064 본 논문에서 언급된 ScRAT 방법으로 scRNA 분석하기 https://github.com/y
doraemin.tistory.com
요약 정리
✅ ScRAT은 단일 세포 RNA-seq 데이터를 활용한 새로운 표현형 예측 모델
✅ Attention 기반의 신경망을 사용하여 세포 타입 정보 없이도 중요한 세포를 학습 가능
✅ Mixup 데이터 증강을 통해 적은 샘플에서도 높은 성능을 유지
✅ 생물학적으로 의미 있는 세포를 자동으로 탐지하여 해석 가능성 제공
✅ COVID-19 데이터를 활용한 실험에서 높은 성능을 기록, 바이오마커 및 맞춤형 치료 연구에 기여 가능