본문 바로가기

논문 및 데이터 분석

RNA 데이터 생성 과정

데이터가 만들어지는 과정

(1) 시퀀싱 과정

  1. mRNA 추출:
    • 각 세포에서 RNA를 추출하고, 이를 **역전사(reverse transcription)**를 통해 cDNA로 변환합니다.
    • cDNA는 시퀀싱 과정에서 안정적으로 읽을 수 있도록 가공됩니다.
  2. 바코드와 UMI 부여:
    • 각 세포의 RNA에는 세포 바코드와 **UMI(Unique Molecular Identifier)**가 부여됩니다.
      • 세포 바코드: 어떤 RNA가 어떤 세포에서 나온 것인지를 식별.
      • UMI: 동일한 RNA 분자의 중복 여부를 확인.
  3. 시퀀싱:
    • 시퀀싱 기계가 RNA 서열(cDNA)을 읽어들입니다. 이 데이터는 원시 FASTQ 파일 형태로 저장됩니다.

(2) 바이오인포매틱스 처리

  1. 리드 정렬:
    • 시퀀싱된 리드(읽힌 서열)를 **참조 유전체(reference genome)**에 정렬하여, 각각의 리드가 어떤 유전자에서 유래했는지 확인합니다.
    • 예: "이 리드는 ACTB 유전자에서 유래했음."
  2. 바코드와 UMI 매칭:
    • 세포 바코드를 사용해 RNA가 어떤 세포에서 유래했는지를 파악.
    • UMI를 통해 동일한 RNA 분자의 중복 여부를 제거(중복 제거 과정).
  3. 유전자-세포 매트릭스 생성:
    • 각 세포에서 발현된 유전자와 RNA 카운트를 집계하여 최종적으로 유전자-세포 매트릭스를 만듭니다.
    • 유전자-세포 매트릭스의 형식
        세포 1 세포 2 세포 3 ...
      유전자 1 (ACTB) 500 300 0 ...
      유전자 2 (GAPDH) 1000 700 200 ...
      유전자 3 (TP53) 200 0 50 ...
      ... ... ... ... ...
    • 행(Row):
      • 특정 유전자 이름(예: ACTB, GAPDH, TP53 등)을 나타냅니다.
      • 어떤 유전자들이 발현되었는지를 알 수 있습니다.
    • 열(Column):
      • 단일 세포를 나타냅니다. 예를 들어, "세포 1"은 특정 샘플에서 추출된 하나의 개별 세포를 의미합니다.
    • 값(Value):
      • 특정 세포에서 특정 유전자에 의해 생성된 RNA의 카운트입니다.

유전자와 RNA 카운트의 추출 원리

 

  • 유전자가 발현되었는지 확인:
    • RNA가 특정 유전자에서 유래했는지 참조 유전체와의 정렬을 통해 확인합니다.
    • 유전자에서 리드가 한 번이라도 매핑되면, 해당 유전자가 발현된 것으로 간주됩니다.
  • RNA 카운트 계산:
    • 각 유전자에 매핑된 리드 수를 집계합니다.
    • UMI를 사용해 중복된 리드(같은 RNA 분자로부터 나온 리드)를 제거한 후 최종 카운트를 계산합니다.