본문 바로가기

논문 및 데이터 분석

Batch Effect, Batch Correction

Batch

  • 정의:
    • 실험에서 동일한 조건 하에서 처리된 데이터 그룹.
    • 실험 환경(날짜, 기계, 실험자 등)이 일관된 데이터를 한 그룹으로 묶습니다.

Batch Effect

  • 정의:
    • 실험 조건이 동일하지 않을 때(예: 실험 날짜, 기계, 실험자 등), 배치(batch) 간에 체계적인 차이가 발생하는 현상.
    • 생물학적 변동과 무관한 비생물학적 신호로 인해 데이터 비교가 왜곡될 수 있음.

예시: 실험 날짜로 정의되는 배치

  • 실험이 1월 1일1월 2일에 진행되었다고 가정.
    샘플 ID 실험 날짜 유전자 1 발현값 유전자 2 발현값
    Sample 1 1월 1일 100 200
    Sample 2 1월 1일 120 190
    Sample 3 1월 2일 200 300
    Sample 4 1월 2일 220 310
    • Batch 1: 1월 1일에 처리된 샘플.
    • Batch 2: 1월 2일에 처리된 샘플.
  • 이 경우, **배치 효과(Batch Effect)**는 실험 날짜(1월 1일 vs 1월 2일)로 인한 데이터의 차이를 말합니다.
  • 문제:
    • 유전자 1과 유전자 2의 발현값이 두 날짜 간에 체계적으로 다르게 나타남(1월 2일 데이터가 전반적으로 더 높음).
    • 이 차이가 생물학적 차이가 아니라 실험 날짜에 기인했을 가능성이 높음

예시: 실험 장비로 정의되는 배치

  • 두 개의 서로 다른 시퀀싱 장비(A와 B)를 사용한 경우.
    샘플 ID 사용된 장비 유전자 1 발현값 유전자 2 발현값
    Sample 1 장비 A 100 200
    Sample 2 장비 A 120 190
    Sample 3 장비 B 150 250
    Sample 4 장비 B 160 240

    • Batch 1: 장비 A로 처리된 샘플.
    • Batch 2: 장비 B로 처리된 샘플.
  • 이 경우, 배치 효과는 장비(A vs B)로 인한 데이터의 차이를 말합니다.
  • 문제:
    • 유전자 발현값이 장비 간에 체계적으로 다름.

Batch Correction

    • 선형 모델 기반 보정
      • ComBat (sva 패키지) : 배치 정보를 회귀 분석 모델에 포함하여 보정
        • 회귀 모델
           Yij=μ+ αi+βj+ϵij   (αi : 유전자 별로 달라지는 batch effection)
        • 추정된 αi값을 각 유전자의 발현값에서 제거하여 배치 효과를 보정
          Y ij corrected = Yij - αi
      • 예시
        샘플 ID 배치 (Batch) 유전자 i 발현값 (Yij)
        Sample 1 Batch 1 100
        Sample 2 Batch 1 120
        Sample 3 Batch 2 200
        Sample 4 Batch 2 220
    •  
    •  

1. 회귀 모델에서의 αi:

        • 모델에서 αi는 Batch 1과 Batch 2 간 유전자 ii의 차이를 설명하는 변수.
        • αi=200−100=100

2. 추정 단계에서의 αi:

        • 계산된 αi = 100

3. 보정 단계에서의 αi:

      • 보정된 데이터: Y ij corrected = Y ij − αi
        샘플 ID 배치 (Batch) 보정 후 발현값 (Y ij corrected)
        Sample 1 Batch 1 100−0=100
        Sample 2 Batch 1 120−0=120
        Sample 3 Batch 2 200−100=100
        Sample 4 Batch 2 220−100=120