데이터가 만들어지는 과정
(1) 시퀀싱 과정
- mRNA 추출:
- 각 세포에서 RNA를 추출하고, 이를 **역전사(reverse transcription)**를 통해 cDNA로 변환합니다.
- cDNA는 시퀀싱 과정에서 안정적으로 읽을 수 있도록 가공됩니다.
- 바코드와 UMI 부여:
- 각 세포의 RNA에는 세포 바코드와 **UMI(Unique Molecular Identifier)**가 부여됩니다.
- 세포 바코드: 어떤 RNA가 어떤 세포에서 나온 것인지를 식별.
- UMI: 동일한 RNA 분자의 중복 여부를 확인.
- 각 세포의 RNA에는 세포 바코드와 **UMI(Unique Molecular Identifier)**가 부여됩니다.
- 시퀀싱:
- 시퀀싱 기계가 RNA 서열(cDNA)을 읽어들입니다. 이 데이터는 원시 FASTQ 파일 형태로 저장됩니다.
(2) 바이오인포매틱스 처리
- 리드 정렬:
- 시퀀싱된 리드(읽힌 서열)를 **참조 유전체(reference genome)**에 정렬하여, 각각의 리드가 어떤 유전자에서 유래했는지 확인합니다.
- 예: "이 리드는 ACTB 유전자에서 유래했음."
- 바코드와 UMI 매칭:
- 세포 바코드를 사용해 RNA가 어떤 세포에서 유래했는지를 파악.
- UMI를 통해 동일한 RNA 분자의 중복 여부를 제거(중복 제거 과정).
- 유전자-세포 매트릭스 생성:
- 각 세포에서 발현된 유전자와 RNA 카운트를 집계하여 최종적으로 유전자-세포 매트릭스를 만듭니다.
- 유전자-세포 매트릭스의 형식
세포 1 세포 2 세포 3 ... 유전자 1 (ACTB) 500 300 0 ... 유전자 2 (GAPDH) 1000 700 200 ... 유전자 3 (TP53) 200 0 50 ... ... ... ... ... ... - 행(Row):
- 특정 유전자 이름(예: ACTB, GAPDH, TP53 등)을 나타냅니다.
- 어떤 유전자들이 발현되었는지를 알 수 있습니다.
- 열(Column):
- 단일 세포를 나타냅니다. 예를 들어, "세포 1"은 특정 샘플에서 추출된 하나의 개별 세포를 의미합니다.
- 값(Value):
- 특정 세포에서 특정 유전자에 의해 생성된 RNA의 카운트입니다.
유전자와 RNA 카운트의 추출 원리
- 유전자가 발현되었는지 확인:
- RNA가 특정 유전자에서 유래했는지 참조 유전체와의 정렬을 통해 확인합니다.
- 유전자에서 리드가 한 번이라도 매핑되면, 해당 유전자가 발현된 것으로 간주됩니다.
- RNA 카운트 계산:
- 각 유전자에 매핑된 리드 수를 집계합니다.
- UMI를 사용해 중복된 리드(같은 RNA 분자로부터 나온 리드)를 제거한 후 최종 카운트를 계산합니다.
'논문 및 데이터 분석' 카테고리의 다른 글
[Linux] 하드 링크 vs 소프트 링크 (0) | 2024.11.26 |
---|---|
Batch Effect, Batch Correction (0) | 2024.11.21 |
Cell Ranger 설치 및 실행 (2) | 2024.11.07 |
SRA Toolkit 사용해서 데이터 받기 (3) | 2024.11.06 |
[MAST, limma, DESeq2] 공통 DEGs 분석 (0) | 2024.09.19 |