본문 바로가기
AI & Data Analysis/Deep Learning

[HierMIL Dataset] compare in cellxgene

by doraemin_dev 2025. 6. 24.

Experiments

Dataset

  3가지 scRNA-seq 질병 데이터셋에 대해 기존 연구의 전처리 방법 적용

 

  1. Cardio: 심근병증 환자 데이터를 활용한 다중 분류 (DCM, HCM, 정상; 세 가지 분류)
    - Chaffin et al. (2022)의 단일-핵 기반 데이터. 확장성 심근병, 비후성 심근병, 정상군으로 구성됨.
  2. COVID: COVID-19 감염 여부를 예측하는 이진 분류
    - Ziegler et al. (2021)이 공개한 데이터로, COVID-19 환자의 비강 샘플과 건강한 대조군 포함. 세부 질병 상태 중 Long COVID 및 호흡 부전은 샘플 수가 적어 이진 분류로 단순화함
  3. Lupus : 전신성 홍반성 루푸스(SLE) 환자와 건강한 사람의 PBMC 샘플로 구성된 scRNA-seq 데이터.

 

scGPT 학습에 사용된 데이터셋 리스트를 확인해본 결과
https://github.com/bowang-lab/scGPT/blob/main/data/cellxgene/metainfo.json

  • 저희가 사용한 cardio 데이터셋은 cellxgene에 존재하지 않는 것으로 확인되었습니다.
    • 혹시 몰라 cellxgene에 등록된 cardio 질병 관련 데이터셋들에 대해 scGPT 학습 여부를 추가로 확인했으나, 해당 데이터로 학습된 것은 없었습니다.
  • covid 데이터셋은 cellxgene에는 등록되어 있으나, scGPT 학습 데이터에는 포함되지 않았습니다.(https://cellxgene.cziscience.com/collections/35d0b748-3eed-43a5-a1c4-1dade5ec5ca0)
  • 근데, lupus 데이터셋은 저희가 사용한 데이터와 cell 수가 다르긴 하지만(ours: 약 83만 cells, 1.5GB. vs. cellxgene: 약 126만 cells, 11.5GB), 동일한 소유자 명의로 등록된 유사한 데이터셋이 cellxgene에 존재합니다. (https://cellxgene.cziscience.com/collections/436154da-bcf1-4130-9c8b-120ff9a888f2)
    • 데이터를 확인해본 결과, 약 200개의 donor_id 중 83개, 약 3만 개의 유전자 중 2천 개 정도가 겹쳐, 유사한 데이터로 판단됩니다.

1. Covid Datasets

download the following files from https://singlecell.broadinstitute.org/single_cell/study/SCP1289/

32588 cells → 약 0.0326 million

32871 genes → 약 32.9 k


Cellxgene에도 존재한다!

 

https://cellxgene.cziscience.com/collections/35d0b748-3eed-43a5-a1c4-1dade5ec5ca0

 

Cellxgene Data Portal

Find, download, and visually explore curated and standardized single cell datasets.

cellxgene.cziscience.com

 

ScGPT 학습에는 사용 안 된 데이터.


2. Cardio Datasets

download the following files from https://singlecell.broadinstitute.org/single_cell/study/SCP1303/

592689 cells → 약 0.593 million

36601 genes → 약 36.6k

 * 추가로, Cellxgene의 cardio 관련 질병 데이터들 모두를 확인해본 결과 scGPT 학습에 사용된 데이터는 없었다.


3. Lupus Datasets

download the following file from the link https://ucsf.app.box.com/s/tds2gotok3lyeanlrt13prj40am5w720

# move it to ./h5ad/
mv CLUESImmVar_nonorm.V6.h5ad ./h5ad/

 

834096 cells   약 0.834 million


Cellxgene에도 존재한다!

 

https://cellxgene.cziscience.com/collections/436154da-bcf1-4130-9c8b-120ff9a888f2

 

Cellxgene Data Portal

Find, download, and visually explore curated and standardized single cell datasets.

cellxgene.cziscience.com

 

 

ScGPT 학습에 사용 되었다.


 

 

 

scGPT 학습에 사용된 데이터 리스트 (data/cellxgene/metainfo.json)

https://github.com/bowang-lab/scGPT/blob/main/data/cellxgene/metainfo.json

 

scGPT/data/cellxgene/metainfo.json at main · bowang-lab/scGPT

Contribute to bowang-lab/scGPT development by creating an account on GitHub.

github.com

 

scGPT 논문

https://www.biorxiv.org/content/10.1101/2023.04.30.538439v2.full

 

'AI & Data Analysis > Deep Learning' 카테고리의 다른 글

Graph Attention Network (GAT)  (0) 2025.07.09
Simple neighborhood aggregation  (0) 2025.07.09
Pretrained model vs. Transfer learning  (0) 2025.06.09
LSTM  (0) 2025.06.06
[RNN] Parameter Sharing  (0) 2025.06.06