STAR 정렬기는 RNA-Seq 읽기를 참조 게놈에 정렬하는 데 널리 사용되는 도구입니다. 시드 검색 및 클러스터링, 스티칭, 스코어링이라는 2단계 접근 방식 덕분에 프로세스가 매우 효율적이고 정확합니다.
1. 시드 검색
이 단계에서 STAR는 RNA-Seq 읽기와 참조 게놈 간의 가장 긴 연속 일치를 식별합니다. 이러한 일치를 최대 매핑 가능 접두사(MMP)라고 합니다. 읽기는 "시드"라고 불리는 세그먼트로 나뉘며 STAR는 각 시드에 대해 가장 긴 정확한 일치를 찾습니다. 먼저 하나의 시드를 매핑한 다음 읽기의 다음 매핑되지 않은 부분으로 이동하여 전체 읽기가 정렬되거나 더 이상 일치할 수 없을 때까지 프로세스를 반복합니다. 읽기를 여러 개의 시드로 분해하는 이 방법은 특히 큰 게놈의 정렬 속도를 높입니다.
불일치 또는 인델과 같은 작은 오류로 인해 정확한 일치를 찾지 못하는 경우 STAR는 매핑 품질을 개선하기 위해 읽기의 정렬 또는 소프트 클립 부분을 확장하려고 시도합니다.
2. 클러스터링, 스티칭 및 스코어링
씨앗이 발견되면 STAR는 게놈에서 서로 가까운 씨앗을 클러스터링합니다. 그런 다음 씨앗을 서로 연결하여 완전한 읽기 정렬을 형성합니다. 소프트웨어는 불일치, 인델, 갭 등 여러 요인을 기반으로 정렬을 점수화하고 각 읽기에 대해 가장 높은 점수를 받는 정렬을 선택합니다. STAR는 또한 다중 매핑 읽기(여러 위치에 정렬되는 읽기)를 고려하여 그에 따라 처리합니다.
이 2단계 방법을 사용하면 STAR가 복잡한 읽기를 효율적으로 처리할 수 있으므로 스플라이싱 및 기타 게놈 복잡성이 존재하는 RNA-Seq 데이터에 특히 적합합니다.
< 결론 >
이 과정에서 데이터를 reference genome (ex.hg38) 참조 유전체와 비교하여 각 읽은 데이터가 어느 위치에 해당하는지 파악합니다.
'논문 및 데이터 분석' 카테고리의 다른 글
[Seurat] [MAST] DEGs 분석 (0) | 2024.09.19 |
---|---|
[Seurat] Single cell 분석 (0) | 2024.09.19 |
[Seurat] 설치 ( + R 버전 에러) (0) | 2024.09.18 |
SmartSeq2(Smart Sequencing Technology 2) (1) | 2024.09.05 |
Transcriptome analysis based on machine learning reveals a role for autoinflammatory genes of chronic nonbacterial osteomyelitis (CNO) (0) | 2024.07.02 |