RNA 데이터 생성 과정

데이터가 만들어지는 과정

mRNA 추출:
- 각 세포에서 RNA를 추출하고, 이를 **역전사(reverse transcription)**를 통해 cDNA로 변환합니다.
- cDNA는 시퀀싱 과정에서 안정적으로 읽을 수 있도록 가공됩니다.
바코드와 UMI 부여:
- 각 세포의 RNA에는 세포 바코드와 **UMI(Unique Molecular Identifier)**가 부여됩니다.
  - 세포 바코드: 어떤 RNA가 어떤 세포에서 나온 것인지를 식별.
  - UMI: 동일한 RNA 분자의 중복 여부를 확인.
시퀀싱:
- 시퀀싱 기계가 RNA 서열(cDNA)을 읽어들입니다. 이 데이터는 원시 FASTQ 파일 형태로 저장됩니다.

리드 정렬:
- 시퀀싱된 리드(읽힌 서열)를 **참조 유전체(reference genome)**에 정렬하여, 각각의 리드가 어떤 유전자에서 유래했는지 확인합니다.
- 예: "이 리드는 ACTB 유전자에서 유래했음."
바코드와 UMI 매칭:
- 세포 바코드를 사용해 RNA가 어떤 세포에서 유래했는지를 파악.
- UMI를 통해 동일한 RNA 분자의 중복 여부를 제거(중복 제거 과정).
유전자-세포 매트릭스 생성:
- 각 세포에서 발현된 유전자와 RNA 카운트를 집계하여 최종적으로 유전자-세포 매트릭스를 만듭니다.
- 유전자-세포 매트릭스의 형식
  
  세포 1 세포 2 세포 3 ...
  
  유전자 1 (ACTB) 500 300 0 ...
  
  유전자 2 (GAPDH) 1000 700 200 ...
  
  유전자 3 (TP53) 200 0 50 ...
  
  ... ... ... ... ...
- 행(Row):
  - 특정 유전자 이름(예: ACTB, GAPDH, TP53 등)을 나타냅니다.
  - 어떤 유전자들이 발현되었는지를 알 수 있습니다.
- 열(Column):
  - 단일 세포를 나타냅니다. 예를 들어, "세포 1"은 특정 샘플에서 추출된 하나의 개별 세포를 의미합니다.
- 값(Value):
  - 특정 세포에서 특정 유전자에 의해 생성된 RNA의 카운트입니다.

유전자가 발현되었는지 확인:
- RNA가 특정 유전자에서 유래했는지 참조 유전체와의 정렬을 통해 확인합니다.
- 유전자에서 리드가 한 번이라도 매핑되면, 해당 유전자가 발현된 것으로 간주됩니다.
RNA 카운트 계산:
- 각 유전자에 매핑된 리드 수를 집계합니다.
- UMI를 사용해 중복된 리드(같은 RNA 분자로부터 나온 리드)를 제거한 후 최종 카운트를 계산합니다.

[NLP] 임베딩 (0)	2025.01.18
Batch Effect, Batch Correction (0)	2024.11.21
SRA Toolkit 사용해서 데이터 받기 (3)	2024.11.06
Gene Ontology (GO) Enrichment analysis 개념 정리 (1)	2024.10.10
Pathway Enrichment analysis 개념 정리 (0)	2024.10.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`