작성한 논문 AMIL에서 사용한 데이터셋의 cell type annoation이 어떻게 생성된 것인지 확인해보자.
ex. manual인지, singleR or computational인지 등
먼저, 사용한 Datasets은
- COVID
- Cardio
- Parkinson

COVID와 Cardio 는 HMIL 논문에서 가져왔다.
https://academic.oup.com/bioinformatics/article/41/Supplement_1/i96/8199355
Parkinso은 cellxgene에서 다운로드 했다.
1. COVID
SingleR R 패키지 사용하여 cell tyep annotation 추가함/만들어냄
We then annotate the single cells using the R package singler (Aran, Looney, Liu, et al., 2019) with the Human Primary Cell Atlas reference dataset (Mabbott et al., 2013).
* 단, Protocell4 원래 논문(Ziegler et al., 2021)의 original cell type annotation을 사용한 경우도 있음
(0.89로 성능이 더 좋았다. 논문 결과 표에는 0.83이니, 논문 코드에서는 SigleR을 사용한 듯하다)
It is worth noting that on the COVID dataset, when using the original annotations by Ziegler, Miao, Owings, et al., 2021 instead of the ones obtained with singler, ProtoCell4P achieves an AUC of 0.89±0.02, which is on par with our proposed models.C
2. Cardio
원본 논문인 Chaffin et al., 2022에서 제공된 주석을 그대로 사용한 것으로 추정
- 논문에서는 scGPT 모델을 사용하여 각 셀의 임베딩을 생성했다고만 언급되어 있으며,
- singler나 별도의 cell type annotation tool 사용 언급 없음.
<Cardio Dataset>
The Cardio dataset published by Chaffin, Papangeli, Simonson, et al., 2022 contains single-nucleus expression profiles of patients with dilated and hypertrophic cardiomyopathy. The task we perform on this dataset is to classify the samples based on the patients’ disease status, either dilated cardiomyopathy, hypertrophic cardiomyopathy, or normal (healthy control). Following Xiong, Bekiranov, and Zhang, 2023, to preprocess the data, we removed genes with nonzero expressions in fewer than 5 cells, normalized the total gene expression counts of each cell to sum up to 104, and log-transformed the counts. We then used the scGPT model (Cui, Wang, Maan, et al., 2024) with pretrained weights from the whole-human checkpoint to extract the embedding for each cell. Each cell is thus represented by a vector of m = 512 dimensions, which serves as input to the model.
3. Parkinson
데이터 제공 논문에서 언급이 없다.
https://www.nature.com/articles/s41597-024-04117-y
그럼, cell type 값을 지정해주는 과정을 2가지로 나눠볼 수 있다.
- manual : 데이터 자체 annotation 있음
- computational : singleR로 annotation 추가
* 두 과정을 비교해보는 것도 좋을 듯. 각각 실험을 해보고 어떤 결과가 나올지!?
'AI & Data Analysis > Deep Learning' 카테고리의 다른 글
| [ScRAT] sampling() function process (1) | 2025.08.07 |
|---|---|
| scRNA-seq Analysis Insight (0) | 2025.08.05 |
| [ScRAT Dataset] compare in CellFM (0) | 2025.07.23 |
| [ScRAT Dataset] compare in cellxgene (0) | 2025.07.23 |
| [GAT] self-attention (0) | 2025.07.17 |