CASCC: a co-expression-assisted single-cell RNA-seq data clustering method

doraemin_dev 2025. 6. 27. 10:19

핵심 개요

CASCC(Co-expression-Assisted Single-Cell Clustering)는 기존의 클러스터링 방법이 갖는 한계―특히 세포 상태 전이 등으로 인해 클러스터 경계가 명확하지 않은 경우―를 보완하기 위해 제안된 co-expression 기반 feature selection과 clustering을 통합한 방법입니다.

CASCC의 주요 방법론 단계

초기 클러스터링 (기본 그래프 기반)
- Seurat 등에서 사용하는 방법처럼 low-dimensional representation 후, 초기 클러스터링을 수행합니다.
DEG 기반 feature 선택 및 seed gene 정의
- 초기 클러스터 내 top DEGs를 뽑아 seed gene으로 사용합니다.
적응형 Attractor 알고리즘 수행
- 각 seed gene에서 시작하여 해당 gene과 co-expressed되는 유전자들을 **iterative하게 수렴시켜 attractor signature (co-expression 그룹)**를 형성합니다.
- 이 과정을 통해 co-expression이 강한 핵심 유전자 세트를 탐색합니다.
Attractor에서 top gene들을 feature로 선정
- 각 attractor의 상위 유전자들을 클러스터링에 사용할 feature로 선택합니다.
K-means 클러스터링 (attractor 기반 초기 중심값 사용)
- attractor에 대한 발현이 높은 세포를 클러스터 중심값으로 설정하여 K-means 수행.
- 왜 또 cell clustering을 하냐?
  - 처음의 cell clustering은 단순한 그래프 기반 → seed gene 추출용
  - 최종 clustering은 co-expression 기반 feature를 반영한 refined clustering
    → 생물학적 해석력/정확도가 더 높음

CASCC의 핵심 파이프라인 구조적으로 정리해드리면 다음과 같습니다:

✅ CASCC의 핵심 흐름 정리

🔹 1. 초기 세포 클러스터링 (cell clustering)

Seurat이나 K-means (소규모 데이터셋의 경우) 등으로 초기 cell clustering을 수행합니다.
목적: **각 cluster를 대표하는 marker gene (DEG)**을 찾기 위함

🔹 2. 각 cluster에서 대표적인 DEG (gene)들을 추출 → seed gene list 구성

각 클러스터마다 **top 1 DEG (또는 더 많이)**을 추출하여 seed list 구성
이 seed gene이 이후 co-expression attractor 탐색의 시작점

🔹 3. Adaptive Attractor Algorithm 수행 (각 seed gene 기준)

각 seed gene에 대해 iterative하게 co-expressed gene 탐색
exponent a를 데이터에 맞게 자동 최적화하여 강한 attractor signature를 형성
attractor = co-expression이 강한 gene 집합 (ranked list)

🔹 4. Feature selection

각 attractor의 상위 50개 유전자 + 초기 cluster의 top DEGs (예: 10개씩) 을 feature set으로 설정
이 feature-selected matrix는 이후 PCA 및 clustering의 기반

🔹 5. K 추정 (using attractor info)

strong attractor 수 및 중복 제거 기준으로 K 후보 범위 지정
NbClust + silhouette index를 이용하여 최적의 K (cluster 수) 선택

🔹 6. 최종 세포 클러스터링 (K-means)

attractor top genes의 average expression이 가장 높은 cell들을 중심점으로 선택
→ 이들을 K-means의 초기 중심점으로 사용하여 최종 cell clustering

🎯 핵심 아이디어 요약

"초기 cell clustering → 대표 gene(DEG) 추출 → 해당 gene 주변 co-expressed gene 탐색 (gene 중심 분석) → 다시 그 정보를 바탕으로 cell clustering을 정교화"

즉:

cell ➝ gene ➝ gene neighborhood ➝ 다시 cell

이 순환 구조를 통해 co-expression 구조를 잘 반영한 biologically accurate한 clustering을 구현한 것이 CASCC의 핵심입니다.

성능 평가

15개의 실제 scRNA-seq 데이터셋 (소규모, < 3500 cells)과 19개의 Tabula Sapiens 데이터셋 (대규모, 최대 30,000 cells)에서 ARI, AMI, NMI, ASW 등 다양한 지표로 평가.
기존 방법들 (Seurat, SC3, TSCAN, RaceID, SIMLR, CIDR)보다 일관되게 높은 성능.
특히 클러스터 수 추정 정확도와 2D 시각화 품질(ASW) 측면에서 우수.

특징 및 장점

biological signal 기반 feature selection: 데이터 전처리 및 축소 과정에서 noise를 줄이고 biologically informative한 유전자를 중심으로 분석.
attractor 기반 feature selection은 유전자 간의 상관 패턴(co-expression)을 반영하여 feature redundancy를 줄이고 클러스터 구분력을 높임.
scalability 확보: 대규모 데이터셋에서도 reasonable한 계산 복잡도, 병렬 연산 가능.