본문 바로가기
AI 및 Data Analysis/Paper

[PaSCient] Learning multi-cellular representations of single-cell transcriptomic

by doraemin_dev 2025. 4. 9.

Learning multi-cellular representations of single-cell transcriptomics data enables characterization of
patient-level disease states
https://neurips.cc/virtual/2024/102865

NeurIPS  Learning multi-cellular representations of single-cell transcriptomics data enables characterization of patient-level d

Abstract: Over the years, single-cell transcriptomics has emerged as a prominent tool for understanding the mechanisms of human disease. The availability of extensive single-cell RNA sequencing (scRNA-seq) datasets, combined with advanced machine learning

neurips.cc

PaSCient.pdf
11.03MB

 

김민_04.11_PaSCient-1
0.74MB

 

Introduction

existing models only focus on binary disease classification, and were trained with only few samples and studies He et al. (2021);
기존 모델은 이진 질병 분류에만 초점을 맞추고 있으며, 소수의 샘플과 연구만으로 훈련되었습니다. He et al. (2021);
 
We propose a machine-learning model that creates patient-level representations based on their single-cell expression profiles. This representation can be used to compare, cluster, or classify patients. Our model leverages single-cell  expression studies from over 5,000 patients.
우리는 단일 세포 발현 프로필을 기반으로 환자 수준의 표현을 생성하는 기계 학습 모델을 제안합니다. 이 표현은 환자를 비교, 군집화 또는 분류하는 데 사용할 수 있습니다. 우리 모델은 5,000명 이상의 환자로부터 얻은 단일 세포 발현 연구를 활용합니다.

 

Overview of PaSCient

PaSCient takes the expression profiles of individual cells present within a patient’s sample as input and produces a summarized vector representation of the patient. This representation can then be used for downstream tasks such as dimensionality reduction and visualization, biological feature prioritization, treatment response prediction, and disease severity prediction, among others (Figure 1(a)).
Pascient는 환자의 샘플 내에 존재하는 개별 세포의 발현 프로파일을 입력으로 취하고 환자의 요약 된 벡터 표현을 생성합니다. 이 표현은 차원 감소 및 시각화, 생물학적 특징 우선 순위, 치 료 반응 예측 및 질병 심각도 예측과 같은 다운 스트림 작업에 사용될 수 있습니다 (그림 1 (a)).

 

1. Cell Representation

At a high level, the cell encoder produces an embedding for each cell in a patient sample.
The cell encoder is a linear layer.

 
Linear layer는 세포의 유전자 발현 데이터를 고차원 공간으로 변환하여, 모델이 더 풍부한 표현을 학습하고, 이를 통해 더 정확한 예측을 할 수 있도록 도와줍니다.
 
 

2. Patient Embedding

5개의 aggregators 방법들 중, non-linear attention aggregators 의 성능이 가장 좋았다.
 

3. Prediction

 

  • MLP다층 퍼셉트론으로, 각 입력에 대해 출력값을 생성하는 신경망입니다. 하지만 출력값은 임의의 실수로, 특정 클래스에 대한 확률이 아니라, 각 클래스에 대한 **점수(score)**일 뿐입니다. 이 점수는 클래스 간 비교가 어렵고, 직접적인 해석이 어렵습니다.
  • Softmax 함수는 이 점수들을 확률로 변환합니다. Softmax는 각 클래스의 점수를 비교하여, 모든 클래스의 점수의 합이 1이 되도록 확률로 변환합니다. 이를 통해 각 클래스의 예측된 확률을 계산할 수 있습니다.
  • 예를 들어, MLP의 출력이 3개의 클래스에 대해 각각 [2.1, -0.8, 1.4]라면, softmax는 이를 **[0.67, 0.01, 0.32]**와 같이 확률 값으로 변환하여, 최고 확률을 가진 클래스를 선택할 수 있게 해줍니다.

 
 

Train

We train PaSCient end-to-end by minimizing the cross-entropy between predicted disease-state label and observed disease-state label.

 

더보기
  • PaSCient:
    • 목표: 각 환자에 대해 질병의 카테고리를 예측합니다.
    • 작동 방식: 여러 세포들의 정보를 통합하여 환자 수준에서 질병 범주를 예측하는 분류 모델입니다.
    • 학습:
      • 모델은 환자 샘플을 학습하여, 각 세포의 유전자 발현 데이터로부터 환자 수준의 표현을 추출합니다. 그 후, 환자 수준 표현을 바탕으로 질병을 예측합니다.
      • **질병 카테고리(label)**는 모델이 예측하는 정답입니다. 예를 들어, 환자가 "COVID-19"에 걸린 경우, 이 카테고리가 예측되어야 합니다.
    • 예시: "COVID-19", "암", "대사성 질환" 등의 질병 카테고리를 예측합니다.
  • ScRAT:
    • 목표: 각 환자 샘플에서 어떤 세포들이 중요한지, 표현형을 예측합니다.
    • 작동 방식: self-attention을 사용하여 세포 간 상호작용을 학습하고, 이를 통해 질병의 진행 상태중증도와 같은 표현형을 예측합니다.
    • 학습:
      • ScRAT는 sample mixup과 같은 기법을 사용하여 훈련 데이터의 다양성을 증가시키며, 여러 세포들 간의 상호작용을 학습합니다.
      • 각 세포의 중요도는 attention weights를 통해 계산되고, 이를 통해 표현형을 유발하는 중요한 세포들을 찾아냅니다.
    • 예시: "mild vs severe", "COVID-19 vs non-COVID" 등의 표현형을 예측합니다.

따라서, PaSCient는 주로 질병 범주를 예측하고, ScRAT세포 간 상호작용을 학습하여 표현형 예측에 중요한 세포들을 식별하고 예측하는 모델입니다.


 

두 모델 모두 세포 발현 데이터를 학습하고, 이를 기반으로 중요한 세포들을 파악한 뒤 예측을 진행하는 방식이긴 하지만, 세부적인 목표와 방식은 다릅니다.

핵심 차이점

  1. 예측 목표:
    • PaSCient: 질병 카테고리를 예측합니다. 즉, 환자가 어떤 질병에 걸렸는지를 예측합니다. 예를 들어, "COVID-19" 혹은 "암" 등의 질병 카테고리를 예측하는 모델입니다.
    • ScRAT: 표현형 예측에 중점을 둡니다. 질병의 중증도진행 상태 등을 예측합니다. 예를 들어, "mild vs severe" 또는 "progression vs convalescence" 등을 예측하는 모델입니다.
  2. 세포의 중요도:
    • PaSCient는 여러 세포의 정보를 환자 수준에서 통합하여 예측을 수행합니다. 즉, 환자 수준의 표현을 기반으로 질병 카테고리를 예측합니다.
    • ScRAT세포 간의 상호작용self-attention 메커니즘을 통해 학습하고, 각 세포의 중요도를 평가합니다. 이를 통해 표현형 예측에 중요한 세포들을 찾아냅니다.

결론적으로, 둘 다 세포 수준에서의 정보를 기반으로 예측을 하지만, PaSCient는 질병을 **분류(classification)**하는 데 초점을 맞추고, ScRAT표현형 예측을 통해 질병의 진행 상태나 중증도를 예측하는 방식입니다.