Cell 수를 줄이는 방법론: 개요
cell*gene 유형의 데이터(특히 single-cell RNA-seq 등)에서 cell의 수가 너무 많을 때 분석 전처리로 cell 수를 줄이는 대표적인 방법론은 아래와 같습니다.
1. 표본추출, 샘플링 (Subsampling)
- 전체 cell 중 무작위 또는 계층적으로 일부만 선택하여 분석하는 기본적 방법.
- 과도한 데이터양을 줄이고 계산 부하를 완화하지만, 변이와 희귀 cell 타입 정보 손실 위험이 있습니다.
2. 차원축소 및 임베딩 (Dimensionality Reduction & Embedding)
- PCA, t-SNE, UMAP 등 알고리즘을 활용하여 cell의 정보(특히 유전자 발현 패턴)를 저차원 공간에 투영.
- 차원축소 후 cluster의 대표값(centroid 등)만 남기거나, 주요 cell type별 medoid 추출이 가능합니다.academic.oup+1
3. 클러스터링 후 대표 샘플 추출
- K-means, hierarchical clustering, leiden, louvain 등을 이용해 cell을 그룹화.
- 각 클러스터마다 centroid 혹은 medoid 등 대표 cell만 추려서 분석에 사용합니다.
4. 중복/유사 cell 제거
- 유전자 발현 프로파일이 유사한 cell을 합치거나 하나만 남깁니다.
- cell redundancy 문제 해결에 효과적.
5. 품질 기반 필터링(Quality Filtering)
- 미트리얼된 기준(최소 유전자 발현 수, mitochondrial gene 비율 등)으로 저품질 cell을 제거하는 방법.
- 예시: Tirosh et al.는 발현 유전자 수가 충분하지 않은 cell, housekeeping gene 평균이 낮은 cell을 제외함.pmc.ncbi.nlm.nih
6. 샘플 별 cell 개수 균등화
- 그룹별 cell 수의 불균형을 완화하기 위해 normalization을 진행하거나 1 그룹당 일정 수만 남깁니다.nature
7. 군집 중심(cell medoid) 기반 선택
- 전체 cell의 중앙값 혹은 클러스터 medoid 등을 이용해 대표성을 갖도록 선택.
실제 논문 사례
방법론 소개 및 검증 논문
- UNCURL: 대규모 cell 수 처리와 전처리에 최적화된 non-negative matrix factorization 기반 도구. 130만 cell 데이터에서 빠르고 정확하게 처리함.pmc.ncbi.nlm.nih
- Correlated Clustering and Projection (CCP): 차원축소와 clustering을 결합한 방법, 데이터의 대표성을 잘 유지할 수 있음.pmc.ncbi.nlm.nih
- Differential variability pipeline: denSNE(밀도 보존 t-SNE)로 medoid 기반 대표 cell을 선택, 신경·면역 cell 분석 등 적용 사례.academic.oup
전처리 후 분석 적용 논문
- Tirosh et al.: melanoma 데이터를 대상으로 품질 기반 cell 필터링 후, 4,645개 cell 분석.pmc.ncbi.nlm.nih
- COVID-19, autism 데이터의 면역세포/피질세포 variability 분석: 전처리(라이브러리 크기 normalization, denSNE 기반 representative cell 추출) 후 실제 biological condition별 변이 분석.academic.oup
- Single-cell multiomics studies: 클러스터링 후 대표 cell로 분석, 다양한 multiomics 통합 사례.nature
참고 논문(세부 요약)
- UNCURL: "UNCURL는 non-negative matrix factorization 기반 전처리 프레임워크로, 매우 많은 cell을 효율적으로 cluster/선별 가능. 클러스터링·visualization·lineage 추정에서 높은 성능 보임".pmc.ncbi.nlm.nih
- CCP: "CCP는 correlated clustering과 projection을 결합, 차원 축소와 군집화가 동시에 이루어짐. cluster 대표 cell(representative)로 분석시 성능 우수".pmc.ncbi.nlm.nih
- Tirosh et al.: "cell quality 기준으로 최소 유전자 발현 수, housekeeping gene 발현 등 필터링 후 cell 분석에 적용".pmc.ncbi.nlm.nih
- Differential variability pipeline: "denSNE 기반 medoid 추출로 각 population 대표 cell만 추려 변이 분석에 활용".academic.oup
- Multiomics: "클러스터링과 대표 cell 추출 후 각 cell을 다양한 molecular layer와 통합해서 분석함".nature
참고
- 위 방식들을 적절히 조합하면 cell 수를 줄이면서도 핵심 생물학적 정보를 보존할 수 있습니다.
- 간단 샘플링에서부터 clustering-대표값 추출(centroid/medoid), quality filtering, 차원축소 임베딩 등 다양한 기술을 적용할 수 있습니다.
- 실제 적용 논문들은 대체로 preprocessing–clustering–대표 cell 추출–downstream 분석 흐름을 사용합니다.
- https://academic.oup.com/bib/article/24/5/bbad294/7246469
- https://pmc.ncbi.nlm.nih.gov/articles/PMC11009150/
- https://pmc.ncbi.nlm.nih.gov/articles/PMC7771369/
- https://www.nature.com/articles/s41592-023-01814-1
- https://pmc.ncbi.nlm.nih.gov/articles/PMC6022691/
- https://www.nature.com/articles/s12276-020-0420-2
- https://pmc.ncbi.nlm.nih.gov/articles/PMC11420841/
- https://www.sciencedirect.com/science/article/pii/S2215016121003708
- https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-024-10364-5
- https://pmc.ncbi.nlm.nih.gov/articles/PMC6582955/
- https://www.biorxiv.org/content/10.1101/2021.06.24.449781v1.full-text
- https://koreascience.kr/article/JAKO201911562300524.page
- https://pmc.ncbi.nlm.nih.gov/articles/PMC6072887/
- https://academic.oup.com/bib/article/26/3/bbaf207/8128431
- https://www.nature.com/articles/s41598-025-03603-6
- https://www.sciencedirect.com/science/article/pii/S0168010225000653
- https://www.10xgenomics.com/analysis-guides/single-cell-rna-seq-data-normalization
- https://www.sciencedirect.com/science/article/pii/S0022283622001346
- https://www.10xgenomics.com/analysis-guides/best-practices-analysis-10x-single-cell-rnaseq-data
- https://academic.oup.com/bioinformatics/article/33/8/1179/2907823
'AI & Data Analysis > Deep Learning' 카테고리의 다른 글
| [ScRAT] using of cell type annotation (0) | 2025.08.20 |
|---|---|
| [protocell4P] Customized Dataset (2) | 2025.08.14 |
| [ScRAT] SPILT Dataset Results (4) | 2025.08.08 |
| [Multi-Class Classification] recall, precision, auc (2) | 2025.08.08 |
| [ScRAT] sampling() function process (1) | 2025.08.07 |