[Dataset] compare in cellxgene
Experiments
3가지 scRNA-seq 질병 데이터셋에 대해 기존 연구의 전처리 방법 적용
- Cardio: 심근병증 환자 데이터를 활용한 다중 분류 (DCM, HCM, 정상; 세 가지 분류)
- Chaffin et al. (2022)의 단일-핵 기반 데이터. 확장성 심근병, 비후성 심근병, 정상군으로 구성됨. - COVID: COVID-19 감염 여부를 예측하는 이진 분류
- Ziegler et al. (2021)이 공개한 데이터로, COVID-19 환자의 비강 샘플과 건강한 대조군 포함. 세부 질병 상태 중 Long COVID 및 호흡 부전은 샘플 수가 적어 이진 분류로 단순화함 - Lupus : 전신성 홍반성 루푸스(SLE) 환자와 건강한 사람의 PBMC 샘플로 구성된 scRNA-seq 데이터.
1. Covid Datasets
download the following files from https://singlecell.broadinstitute.org/single_cell/study/SCP1289/


32588 cells → 약 0.0326 million
32871 genes → 약 32.9 k
Cellxgene에도 존재한다!
https://cellxgene.cziscience.com/collections/35d0b748-3eed-43a5-a1c4-1dade5ec5ca0
Cellxgene Data Portal
Find, download, and visually explore curated and standardized single cell datasets.
cellxgene.cziscience.com

2. Cardio Datasets
download the following files from https://singlecell.broadinstitute.org/single_cell/study/SCP1303/

592689 cells → 약 0.593 million
36601 genes → 약 36.6k

* 추가로, Cellxgene의 cardio 관련 질병 데이터들 모두를 확인해본 결과 scGPT 학습에 사용된 데이터는 없었다.
3. Lupus Datasets
download the following file from the link https://ucsf.app.box.com/s/tds2gotok3lyeanlrt13prj40am5w720
# move it to ./h5ad/
mv CLUESImmVar_nonorm.V6.h5ad ./h5ad/
834096 cells → 약 0.834 million
Cellxgene에도 존재한다!
https://cellxgene.cziscience.com/collections/436154da-bcf1-4130-9c8b-120ff9a888f2
Cellxgene Data Portal
Find, download, and visually explore curated and standardized single cell datasets.
cellxgene.cziscience.com
cell count : 2.1M ~ 3M
scGPT 학습 안 한 데이터
-
Parkinson's disease
-
An integrated cell atlas of the human lung in health and disease (full)
scGPT 학습에 사용된 데이터 리스트
https://github.com/bowang-lab/scGPT/blob/main/data/cellxgene/metainfo.json
scGPT/data/cellxgene/metainfo.json at main · bowang-lab/scGPT
Contribute to bowang-lab/scGPT development by creating an account on GitHub.
github.com
scGPT 논문
https://www.biorxiv.org/content/10.1101/2023.04.30.538439v2.full