Batch
- 정의:
- 실험에서 동일한 조건 하에서 처리된 데이터 그룹.
- 실험 환경(날짜, 기계, 실험자 등)이 일관된 데이터를 한 그룹으로 묶습니다.
Batch Effect
- 정의:
- 실험 조건이 동일하지 않을 때(예: 실험 날짜, 기계, 실험자 등), 배치(batch) 간에 체계적인 차이가 발생하는 현상.
- 생물학적 변동과 무관한 비생물학적 신호로 인해 데이터 비교가 왜곡될 수 있음.
예시: 실험 날짜로 정의되는 배치
- 실험이 1월 1일과 1월 2일에 진행되었다고 가정.
샘플 ID 실험 날짜 유전자 1 발현값 유전자 2 발현값 Sample 1 1월 1일 100 200 Sample 2 1월 1일 120 190 Sample 3 1월 2일 200 300 Sample 4 1월 2일 220 310 - Batch 1: 1월 1일에 처리된 샘플.
- Batch 2: 1월 2일에 처리된 샘플.
- 이 경우, **배치 효과(Batch Effect)**는 실험 날짜(1월 1일 vs 1월 2일)로 인한 데이터의 차이를 말합니다.
- 문제:
- 유전자 1과 유전자 2의 발현값이 두 날짜 간에 체계적으로 다르게 나타남(1월 2일 데이터가 전반적으로 더 높음).
- 이 차이가 생물학적 차이가 아니라 실험 날짜에 기인했을 가능성이 높음
예시: 실험 장비로 정의되는 배치
- 두 개의 서로 다른 시퀀싱 장비(A와 B)를 사용한 경우.
샘플 ID 사용된 장비 유전자 1 발현값 유전자 2 발현값 Sample 1 장비 A 100 200 Sample 2 장비 A 120 190 Sample 3 장비 B 150 250 Sample 4 장비 B 160 240
- Batch 1: 장비 A로 처리된 샘플.
- Batch 2: 장비 B로 처리된 샘플.
- 이 경우, 배치 효과는 장비(A vs B)로 인한 데이터의 차이를 말합니다.
- 문제:
- 유전자 발현값이 장비 간에 체계적으로 다름.
Batch Correction
- 선형 모델 기반 보정
- ComBat (sva 패키지) : 배치 정보를 회귀 분석 모델에 포함하여 보정
- 회귀 모델
Yij=μ+ αi+βj+ϵij (αi : 유전자 별로 달라지는 batch effection) - 추정된 αi 값을 각 유전자의 발현값에서 제거하여 배치 효과를 보정
Y ij corrected = Yij - αi
- 회귀 모델
- 예시
샘플 ID 배치 (Batch) 유전자 i 발현값 (Yij) Sample 1 Batch 1 100 Sample 2 Batch 1 120 Sample 3 Batch 2 200 Sample 4 Batch 2 220
- ComBat (sva 패키지) : 배치 정보를 회귀 분석 모델에 포함하여 보정
1. 회귀 모델에서의 αi:
-
-
- 모델에서 αi는 Batch 1과 Batch 2 간 유전자 ii의 차이를 설명하는 변수.
- αi=200−100=100
-
2. 추정 단계에서의 αi:
-
-
- 계산된 αi = 100
-
3. 보정 단계에서의 αi:
-
-
- 보정된 데이터: Y ij corrected = Y ij − αi
샘플 ID 배치 (Batch) 보정 후 발현값 (Y ij corrected) Sample 1 Batch 1 100−0=100 Sample 2 Batch 1 120−0=120 Sample 3 Batch 2 200−100=100 Sample 4 Batch 2 220−100=120
- 보정된 데이터: Y ij corrected = Y ij − αi
-
'논문 및 데이터 분석' 카테고리의 다른 글
conda 가상환경 생성 및 R 실행 (3) | 2024.11.28 |
---|---|
[Linux] 하드 링크 vs 소프트 링크 (0) | 2024.11.26 |
RNA 데이터 생성 과정 (0) | 2024.11.20 |
Cell Ranger 설치 및 실행 (2) | 2024.11.07 |
SRA Toolkit 사용해서 데이터 받기 (3) | 2024.11.06 |