Experiments
3가지 scRNA-seq 질병 데이터셋에 대해 기존 연구의 전처리 방법 적용
- Cardio: 심근병증 환자 데이터를 활용한 다중 분류 (DCM, HCM, 정상; 세 가지 분류)
- Chaffin et al. (2022)의 단일-핵 기반 데이터. 확장성 심근병, 비후성 심근병, 정상군으로 구성됨. - COVID: COVID-19 감염 여부를 예측하는 이진 분류
- Ziegler et al. (2021)이 공개한 데이터로, COVID-19 환자의 비강 샘플과 건강한 대조군 포함. 세부 질병 상태 중 Long COVID 및 호흡 부전은 샘플 수가 적어 이진 분류로 단순화함 - Lupus : 전신성 홍반성 루푸스(SLE) 환자와 건강한 사람의 PBMC 샘플로 구성된 scRNA-seq 데이터.

scGPT 학습에 사용된 데이터셋 리스트를 확인해본 결과
https://github.com/bowang-lab/scGPT/blob/main/data/cellxgene/metainfo.json
- 저희가 사용한 cardio 데이터셋은 cellxgene에 존재하지 않는 것으로 확인되었습니다.
- 혹시 몰라 cellxgene에 등록된 cardio 질병 관련 데이터셋들에 대해 scGPT 학습 여부를 추가로 확인했으나, 해당 데이터로 학습된 것은 없었습니다.
- covid 데이터셋은 cellxgene에는 등록되어 있으나, scGPT 학습 데이터에는 포함되지 않았습니다.(https://cellxgene.cziscience.com/collections/35d0b748-3eed-43a5-a1c4-1dade5ec5ca0)
- 근데, lupus 데이터셋은 저희가 사용한 데이터와 cell 수가 다르긴 하지만(ours: 약 83만 cells, 1.5GB. vs. cellxgene: 약 126만 cells, 11.5GB), 동일한 소유자 명의로 등록된 유사한 데이터셋이 cellxgene에 존재합니다. (https://cellxgene.cziscience.com/collections/436154da-bcf1-4130-9c8b-120ff9a888f2)
- 데이터를 확인해본 결과, 약 200개의 donor_id 중 83개, 약 3만 개의 유전자 중 2천 개 정도가 겹쳐, 유사한 데이터로 판단됩니다.
1. Covid Datasets
download the following files from https://singlecell.broadinstitute.org/single_cell/study/SCP1289/


32588 cells → 약 0.0326 million
32871 genes → 약 32.9 k
Cellxgene에도 존재한다!
https://cellxgene.cziscience.com/collections/35d0b748-3eed-43a5-a1c4-1dade5ec5ca0
Cellxgene Data Portal
Find, download, and visually explore curated and standardized single cell datasets.
cellxgene.cziscience.com

ScGPT 학습에는 사용 안 된 데이터.
2. Cardio Datasets
download the following files from https://singlecell.broadinstitute.org/single_cell/study/SCP1303/
592689 cells → 약 0.593 million
36601 genes → 약 36.6k

* 추가로, Cellxgene의 cardio 관련 질병 데이터들 모두를 확인해본 결과 scGPT 학습에 사용된 데이터는 없었다.
3. Lupus Datasets
download the following file from the link https://ucsf.app.box.com/s/tds2gotok3lyeanlrt13prj40am5w720


# move it to ./h5ad/
mv CLUESImmVar_nonorm.V6.h5ad ./h5ad/
834096 cells → 약 0.834 million
Cellxgene에도 존재한다!
https://cellxgene.cziscience.com/collections/436154da-bcf1-4130-9c8b-120ff9a888f2
Cellxgene Data Portal
Find, download, and visually explore curated and standardized single cell datasets.
cellxgene.cziscience.com

ScGPT 학습에 사용 되었다.

scGPT 학습에 사용된 데이터 리스트 (data/cellxgene/metainfo.json)
https://github.com/bowang-lab/scGPT/blob/main/data/cellxgene/metainfo.json
scGPT/data/cellxgene/metainfo.json at main · bowang-lab/scGPT
Contribute to bowang-lab/scGPT development by creating an account on GitHub.
github.com
scGPT 논문
https://www.biorxiv.org/content/10.1101/2023.04.30.538439v2.full
'AI & Data Analysis > Deep Learning' 카테고리의 다른 글
| Graph Attention Network (GAT) (0) | 2025.07.09 |
|---|---|
| Simple neighborhood aggregation (0) | 2025.07.09 |
| Pretrained model vs. Transfer learning (0) | 2025.06.09 |
| LSTM (0) | 2025.06.06 |
| [RNN] Parameter Sharing (0) | 2025.06.06 |