AI 및 Data Analysis/Deep Learning

[Dataset] compare in cellxgene

doraemin_dev 2025. 6. 24. 18:38

Experiments

Dataset

  3가지 scRNA-seq 질병 데이터셋에 대해 기존 연구의 전처리 방법 적용

 

  1. Cardio: 심근병증 환자 데이터를 활용한 다중 분류 (DCM, HCM, 정상; 세 가지 분류)
    - Chaffin et al. (2022)의 단일-핵 기반 데이터. 확장성 심근병, 비후성 심근병, 정상군으로 구성됨.
  2. COVID: COVID-19 감염 여부를 예측하는 이진 분류
    - Ziegler et al. (2021)이 공개한 데이터로, COVID-19 환자의 비강 샘플과 건강한 대조군 포함. 세부 질병 상태 중 Long COVID 및 호흡 부전은 샘플 수가 적어 이진 분류로 단순화함
  3. Lupus : 전신성 홍반성 루푸스(SLE) 환자와 건강한 사람의 PBMC 샘플로 구성된 scRNA-seq 데이터.


1. Covid Datasets

download the following files from https://singlecell.broadinstitute.org/single_cell/study/SCP1289/

32588 cells → 약 0.0326 million

32871 genes → 약 32.9 k


Cellxgene에도 존재한다!

 

https://cellxgene.cziscience.com/collections/35d0b748-3eed-43a5-a1c4-1dade5ec5ca0

 

Cellxgene Data Portal

Find, download, and visually explore curated and standardized single cell datasets.

cellxgene.cziscience.com


2. Cardio Datasets

download the following files from https://singlecell.broadinstitute.org/single_cell/study/SCP1303/

우클릭하여 '다른 이름으로 링크 저장' 하면, 데이터가 다운로드 된다!

592689 cells → 약 0.593 million

36601 genes → 약 36.6k

 * 추가로, Cellxgene의 cardio 관련 질병 데이터들 모두를 확인해본 결과 scGPT 학습에 사용된 데이터는 없었다.


3. Lupus Datasets

download the following file from the link https://ucsf.app.box.com/s/tds2gotok3lyeanlrt13prj40am5w720

# move it to ./h5ad/
mv CLUESImmVar_nonorm.V6.h5ad ./h5ad/

 

834096 cells   약 0.834 million


Cellxgene에도 존재한다!

 

https://cellxgene.cziscience.com/collections/436154da-bcf1-4130-9c8b-120ff9a888f2

 

Cellxgene Data Portal

Find, download, and visually explore curated and standardized single cell datasets.

cellxgene.cziscience.com

 


 

cell count : 2.1M ~ 3M 

scGPT 학습 안 한 데이터

https://cellxgene.cziscience.com/collections/d5d0df8f-4eee-49d8-a221-a288f50a1590
https://cellxgene.cziscience.com/collections/6f6d381a-7701-4781-935c-db10d30de293


scGPT 학습에 사용된 데이터 리스트

https://github.com/bowang-lab/scGPT/blob/main/data/cellxgene/metainfo.json

 

scGPT/data/cellxgene/metainfo.json at main · bowang-lab/scGPT

Contribute to bowang-lab/scGPT development by creating an account on GitHub.

github.com

 

scGPT 논문

https://www.biorxiv.org/content/10.1101/2023.04.30.538439v2.full