[Survey] Methods to Reduce Cell Count

Cell 수를 줄이는 방법론: 개요

cell*gene 유형의 데이터(특히 single-cell RNA-seq 등)에서 cell의 수가 너무 많을 때 분석 전처리로 cell 수를 줄이는 대표적인 방법론은 아래와 같습니다.

1. 표본추출, 샘플링 (Subsampling)

전체 cell 중 무작위 또는 계층적으로 일부만 선택하여 분석하는 기본적 방법.
과도한 데이터양을 줄이고 계산 부하를 완화하지만, 변이와 희귀 cell 타입 정보 손실 위험이 있습니다.

2. 차원축소 및 임베딩 (Dimensionality Reduction & Embedding)

PCA, t-SNE, UMAP 등 알고리즘을 활용하여 cell의 정보(특히 유전자 발현 패턴)를 저차원 공간에 투영.
차원축소 후 cluster의 대표값(centroid 등)만 남기거나, 주요 cell type별 medoid 추출이 가능합니다.academic.oup+1

3. 클러스터링 후 대표 샘플 추출

K-means, hierarchical clustering, leiden, louvain 등을 이용해 cell을 그룹화.
각 클러스터마다 centroid 혹은 medoid 등 대표 cell만 추려서 분석에 사용합니다.

4. 중복/유사 cell 제거

유전자 발현 프로파일이 유사한 cell을 합치거나 하나만 남깁니다.
cell redundancy 문제 해결에 효과적.

5. 품질 기반 필터링(Quality Filtering)

미트리얼된 기준(최소 유전자 발현 수, mitochondrial gene 비율 등)으로 저품질 cell을 제거하는 방법.
예시: Tirosh et al.는 발현 유전자 수가 충분하지 않은 cell, housekeeping gene 평균이 낮은 cell을 제외함.pmc.ncbi.nlm.nih

6. 샘플 별 cell 개수 균등화

그룹별 cell 수의 불균형을 완화하기 위해 normalization을 진행하거나 1 그룹당 일정 수만 남깁니다.nature

7. 군집 중심(cell medoid) 기반 선택

전체 cell의 중앙값 혹은 클러스터 medoid 등을 이용해 대표성을 갖도록 선택.

실제 논문 사례

방법론 소개 및 검증 논문

UNCURL: 대규모 cell 수 처리와 전처리에 최적화된 non-negative matrix factorization 기반 도구. 130만 cell 데이터에서 빠르고 정확하게 처리함.pmc.ncbi.nlm.nih
Correlated Clustering and Projection (CCP): 차원축소와 clustering을 결합한 방법, 데이터의 대표성을 잘 유지할 수 있음.pmc.ncbi.nlm.nih
Differential variability pipeline: denSNE(밀도 보존 t-SNE)로 medoid 기반 대표 cell을 선택, 신경·면역 cell 분석 등 적용 사례.academic.oup

전처리 후 분석 적용 논문

Tirosh et al.: melanoma 데이터를 대상으로 품질 기반 cell 필터링 후, 4,645개 cell 분석.pmc.ncbi.nlm.nih
COVID-19, autism 데이터의 면역세포/피질세포 variability 분석: 전처리(라이브러리 크기 normalization, denSNE 기반 representative cell 추출) 후 실제 biological condition별 변이 분석.academic.oup
Single-cell multiomics studies: 클러스터링 후 대표 cell로 분석, 다양한 multiomics 통합 사례.nature

참고 논문(세부 요약)

UNCURL: "UNCURL는 non-negative matrix factorization 기반 전처리 프레임워크로, 매우 많은 cell을 효율적으로 cluster/선별 가능. 클러스터링·visualization·lineage 추정에서 높은 성능 보임".pmc.ncbi.nlm.nih
CCP: "CCP는 correlated clustering과 projection을 결합, 차원 축소와 군집화가 동시에 이루어짐. cluster 대표 cell(representative)로 분석시 성능 우수".pmc.ncbi.nlm.nih
Tirosh et al.: "cell quality 기준으로 최소 유전자 발현 수, housekeeping gene 발현 등 필터링 후 cell 분석에 적용".pmc.ncbi.nlm.nih
Differential variability pipeline: "denSNE 기반 medoid 추출로 각 population 대표 cell만 추려 변이 분석에 활용".academic.oup
Multiomics: "클러스터링과 대표 cell 추출 후 각 cell을 다양한 molecular layer와 통합해서 분석함".nature

참고

위 방식들을 적절히 조합하면 cell 수를 줄이면서도 핵심 생물학적 정보를 보존할 수 있습니다.
간단 샘플링에서부터 clustering-대표값 추출(centroid/medoid), quality filtering, 차원축소 임베딩 등 다양한 기술을 적용할 수 있습니다.
실제 적용 논문들은 대체로 preprocessing–clustering–대표 cell 추출–downstream 분석 흐름을 사용합니다.

'AI & Data Analysis > Deep Learning' 카테고리의 다른 글

[ScRAT] using of cell type annotation (0)	2025.08.20
[protocell4P] Customized Dataset (2)	2025.08.14
[ScRAT] SPILT Dataset Results (4)	2025.08.08
[Multi-Class Classification] recall, precision, auc (2)	2025.08.08
[ScRAT] sampling() function process (1)	2025.08.07

DoraeMIN’s Pocket

[Survey] Methods to Reduce Cell Count

Cell 수를 줄이는 방법론: 개요

1. 표본추출, 샘플링 (Subsampling)

2. 차원축소 및 임베딩 (Dimensionality Reduction & Embedding)

3. 클러스터링 후 대표 샘플 추출

4. 중복/유사 cell 제거

5. 품질 기반 필터링(Quality Filtering)

6. 샘플 별 cell 개수 균등화

7. 군집 중심(cell medoid) 기반 선택

실제 논문 사례

방법론 소개 및 검증 논문

전처리 후 분석 적용 논문

참고 논문(세부 요약)

참고

'AI & Data Analysis > Deep Learning' 카테고리의 다른 글

티스토리툴바

[Survey] Methods to Reduce Cell Count

Cell 수를 줄이는 방법론: 개요

1. 표본추출, 샘플링 (Subsampling)

2. 차원축소 및 임베딩 (Dimensionality Reduction & Embedding)

3. 클러스터링 후 대표 샘플 추출

4. 중복/유사 cell 제거

5. 품질 기반 필터링(Quality Filtering)

6. 샘플 별 cell 개수 균등화

7. 군집 중심(cell medoid) 기반 선택

실제 논문 사례

방법론 소개 및 검증 논문

전처리 후 분석 적용 논문

참고 논문(세부 요약)

참고

'AI & Data Analysis > Deep Learning' 카테고리의 다른 글

관련글

티스토리툴바