본문 바로가기
AI & Data Analysis/Deep Learning

[Survey] Methods to Reduce Cell Count

by doraemin_dev 2025. 8. 14.

Cell 수를 줄이는 방법론: 개요

cell*gene 유형의 데이터(특히 single-cell RNA-seq 등)에서 cell의 수가 너무 많을 때 분석 전처리로 cell 수를 줄이는 대표적인 방법론은 아래와 같습니다.

1. 표본추출, 샘플링 (Subsampling)

  • 전체 cell 중 무작위 또는 계층적으로 일부만 선택하여 분석하는 기본적 방법.
  • 과도한 데이터양을 줄이고 계산 부하를 완화하지만, 변이와 희귀 cell 타입 정보 손실 위험이 있습니다.

2. 차원축소 및 임베딩 (Dimensionality Reduction & Embedding)

  • PCA, t-SNE, UMAP 등 알고리즘을 활용하여 cell의 정보(특히 유전자 발현 패턴)를 저차원 공간에 투영.
  • 차원축소 후 cluster의 대표값(centroid 등)만 남기거나, 주요 cell type별 medoid 추출이 가능합니다.academic.oup+1

3. 클러스터링 후 대표 샘플 추출

  • K-means, hierarchical clustering, leiden, louvain 등을 이용해 cell을 그룹화.
  • 각 클러스터마다 centroid 혹은 medoid 등 대표 cell만 추려서 분석에 사용합니다.

4. 중복/유사 cell 제거

  • 유전자 발현 프로파일이 유사한 cell을 합치거나 하나만 남깁니다.
  • cell redundancy 문제 해결에 효과적.

5. 품질 기반 필터링(Quality Filtering)

  • 미트리얼된 기준(최소 유전자 발현 수, mitochondrial gene 비율 등)으로 저품질 cell을 제거하는 방법.
  • 예시: Tirosh et al.는 발현 유전자 수가 충분하지 않은 cell, housekeeping gene 평균이 낮은 cell을 제외함.pmc.ncbi.nlm.nih

6. 샘플 별 cell 개수 균등화

  • 그룹별 cell 수의 불균형을 완화하기 위해 normalization을 진행하거나 1 그룹당 일정 수만 남깁니다.nature

7. 군집 중심(cell medoid) 기반 선택

  • 전체 cell의 중앙값 혹은 클러스터 medoid 등을 이용해 대표성을 갖도록 선택.

실제 논문 사례

방법론 소개 및 검증 논문

  • UNCURL: 대규모 cell 수 처리와 전처리에 최적화된 non-negative matrix factorization 기반 도구. 130만 cell 데이터에서 빠르고 정확하게 처리함.pmc.ncbi.nlm.nih
  • Correlated Clustering and Projection (CCP): 차원축소와 clustering을 결합한 방법, 데이터의 대표성을 잘 유지할 수 있음.pmc.ncbi.nlm.nih
  • Differential variability pipeline: denSNE(밀도 보존 t-SNE)로 medoid 기반 대표 cell을 선택, 신경·면역 cell 분석 등 적용 사례.academic.oup

전처리 후 분석 적용 논문

  • Tirosh et al.: melanoma 데이터를 대상으로 품질 기반 cell 필터링 후, 4,645개 cell 분석.pmc.ncbi.nlm.nih
  • COVID-19, autism 데이터의 면역세포/피질세포 variability 분석: 전처리(라이브러리 크기 normalization, denSNE 기반 representative cell 추출) 후 실제 biological condition별 변이 분석.academic.oup
  • Single-cell multiomics studies: 클러스터링 후 대표 cell로 분석, 다양한 multiomics 통합 사례.nature

참고 논문(세부 요약)

  • UNCURL: "UNCURL는 non-negative matrix factorization 기반 전처리 프레임워크로, 매우 많은 cell을 효율적으로 cluster/선별 가능. 클러스터링·visualization·lineage 추정에서 높은 성능 보임".pmc.ncbi.nlm.nih
  • CCP: "CCP는 correlated clustering과 projection을 결합, 차원 축소와 군집화가 동시에 이루어짐. cluster 대표 cell(representative)로 분석시 성능 우수".pmc.ncbi.nlm.nih
  • Tirosh et al.: "cell quality 기준으로 최소 유전자 발현 수, housekeeping gene 발현 등 필터링 후 cell 분석에 적용".pmc.ncbi.nlm.nih
  • Differential variability pipeline: "denSNE 기반 medoid 추출로 각 population 대표 cell만 추려 변이 분석에 활용".academic.oup
  • Multiomics: "클러스터링과 대표 cell 추출 후 각 cell을 다양한 molecular layer와 통합해서 분석함".nature

참고

  • 위 방식들을 적절히 조합하면 cell 수를 줄이면서도 핵심 생물학적 정보를 보존할 수 있습니다.
  • 간단 샘플링에서부터 clustering-대표값 추출(centroid/medoid), quality filtering, 차원축소 임베딩 등 다양한 기술을 적용할 수 있습니다.
  • 실제 적용 논문들은 대체로 preprocessing–clustering–대표 cell 추출–downstream 분석 흐름을 사용합니다.

  1. https://academic.oup.com/bib/article/24/5/bbad294/7246469
  2. https://pmc.ncbi.nlm.nih.gov/articles/PMC11009150/
  3. https://pmc.ncbi.nlm.nih.gov/articles/PMC7771369/
  4. https://www.nature.com/articles/s41592-023-01814-1
  5. https://pmc.ncbi.nlm.nih.gov/articles/PMC6022691/
  6. https://www.nature.com/articles/s12276-020-0420-2
  7. https://pmc.ncbi.nlm.nih.gov/articles/PMC11420841/
  8. https://www.sciencedirect.com/science/article/pii/S2215016121003708
  9. https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-024-10364-5
  10. https://pmc.ncbi.nlm.nih.gov/articles/PMC6582955/
  11. https://www.biorxiv.org/content/10.1101/2021.06.24.449781v1.full-text
  12. https://koreascience.kr/article/JAKO201911562300524.page
  13. https://pmc.ncbi.nlm.nih.gov/articles/PMC6072887/
  14. https://academic.oup.com/bib/article/26/3/bbaf207/8128431
  15. https://www.nature.com/articles/s41598-025-03603-6
  16. https://www.sciencedirect.com/science/article/pii/S0168010225000653
  17. https://www.10xgenomics.com/analysis-guides/single-cell-rna-seq-data-normalization
  18. https://www.sciencedirect.com/science/article/pii/S0022283622001346
  19. https://www.10xgenomics.com/analysis-guides/best-practices-analysis-10x-single-cell-rnaseq-data
  20. https://academic.oup.com/bioinformatics/article/33/8/1179/2907823