본문 바로가기

AI, 논문, 데이터 분석

SRA Toolkit 사용해서 데이터 받기

Step 1. SRA Toolkit 다운받기

 

https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

 

01. Downloading SRA Toolkit

SRA Tools. Contribute to ncbi/sra-tools development by creating an account on GitHub.

github.com

 

 

 

여기 깃허브 사이트에서, 자기 컴퓨터 사양에 맞는 항목을 다운로드 해준다.

 

 

 

 

 

Step 2. 

다운받은 폴더를 압축 해제 하자.

 

Step 3.

터미널에서 압축 해제한 폴더 위치로 이동(cd)하자.

 

이제, 내가 다운로드 하고 싶은 SRA파일 이름을 넣은 명령어를 작성하자

fastq-dump --split-files --gzip SRA파일이름
fastq-dump --split-files --gzip SRR3879601

 

 

(내가 받으려는 SRR3879601의 경우, 파일이 너무 큰지 다운로드 시간이 길어서 끝내 다운로드가 다 될 때까지 기다리지 못하고 껐다.)

 

fasterq-dump 명령어를 실행해보았다. 대량의 파일을 다운로드 받아야하는 상황에서 주로 사용한다.

fasterq-dump --split-files --threads 4 SRR3879601

disk-limit exceeded 에러는 해당 파일을 저장할 공간이 충분하지 않다는 것을 의미한다...

 

SRR3879601 의 크기를 알아보자.

fasterq-dump -x SRR3879601

 

그 결과, 예상되는 출력 크기가 약 178GB인데, 현재 시스템의 디스크 제한이 약 86GB로 설정되어 부족하다는 것을 알 수 있다.

C:\Users\LG\Downloads\sratoolkit.3.1.1-win64\sratoolkit.3.1.1-win64\bin>fasterq-dump -x SRR3879601
cursor-cache : 5,242,880 bytes
buf-size     : 1,048,576 bytes
mem-limit    : 52,428,800 bytes
threads      : 6
scratch-path : '/c/Users/LG/Downloads/sratoolkit.3.1.1-win64/sratoolkit.3.1.1-win64/bin/fasterq.tmp..0/'
total ram    : 17,179,869,184 bytes
output-format: FASTQ split 3
check-mode   : on
output-file  : '/c/Users/LG/Downloads/sratoolkit.3.1.1-win64/sratoolkit.3.1.1-win64/bin/SRR3879601.fastq'
output-dir   : '.'
output       : '/c/Users/LG/Downloads/sratoolkit.3.1.1-win64/sratoolkit.3.1.1-win64/bin/SRR3879601.fastq'
append-mode  : 'NO'
stdout-mode  : 'NO'
seq-defline  : '@$ac.$si $sn length=$rl'
qual-defline  : '+$ac.$si $sn length=$rl'
only-unaligned : 'NO'
only-aligned   : 'NO'
accession     : 'SRR3879601'
accession-path: 'SRR3879601'
est. output          : 178,826,409,500 bytes
disk-limit (OS)      : 86,778,253,312 bytes
disk-limit-tmp (OS)  : 86,778,253,312 bytes
out/tmp on same fs   : 'YES'

SRR3879601 is remote
... has a size of 19,239,067,561 bytes
... is SRA-flat
... SEQ has NAME column = YES
... SEQ has SPOT_GROUP column = YES
... SEQ has READ_TYPE column = YES
... SEQ has QUALITY column = YES
... SEQ has READ column = YES
SEQ.first_row = 1
SEQ.row_count = 357,652,819
SEQ.spot_count = 357,652,819
SEQ.total_base_count = 39,341,810,090
SEQ.bio_base_count = 39,341,810,090
SEQ.avg_name_len = 35
SEQ.avg_spot_group_len = 0
SEQ.avg_bio_reads_per_spot = 2
SEQ.avg_tech_reads_per_spot = 0
ALIGN.first_row = 0
ALIGN.row_count = 0
ALIGN.spot_count = 0
ALIGN.total_base_count = 0
ALIGN.bio_base_count = 0

disk-limit exeeded!

=============================================================
An error occurred during processing.
A report was generated into the file 'C:\Users\LG/ncbi_error_report.txt'.
If the problem persists, you may consider sending the file
to 'sra-tools@ncbi.nlm.nih.gov' for assistance.
=============================================================

fasterq-dump quit with error code 3

C:\Users\LG\Downloads\sratoolkit.3.1.1-win64\sratoolkit.3.1.1-win64\bin>

 

크기 부족이므로, 내 로컬이 아닌, 연구실 서버에서 진행해봐야겠다...


Step. Linux에서 실행하기

 

먼저 서버의 OS 확인... Ubuntu Linux이다.

https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit 에서 Ubuntu Linux 다운.

 

다운로드 한 파일을 서버에 넣어준다/보낸다/저장한다.

이후 압축을 풀어주자.

tar -xf 파일명
tar -xf sratoolkit.3.1.1-ubuntu64.tar.gz

 

fastq 폴더로 이동하자.

cd 파일명/bin
cd sratoolkit.3.1.1-ubuntu64/bin

 

$PATH에 bin/ 폴더를 등록하여, 안에 들어있는 fastq-dump를 사용할 수 있도록 하자.

PATH=$PATH:/home/경로/파일명/bin
PATH=$PATH:/home/kim89/Cell_ranger/sratoolkit.3.1.1-ubuntu64/bin

or

export PATH=$PATH:/home/kim89/Cell_ranger/sratoolkit.3.1.1-win64/bin
source ~/.bashrc

 

이제, sra toolkit으로 다운로드 하려했던 파일 다운하자!

fasterq-dump --split-files --threads 4 SRA파일이름
fasterq-dump --split-files --threads 4 SRR3879601

 

(여전히 내가 다운하려는 파일은 너무 크다... 17기가, 36기가이다,,,;;)

 

fastq-dump 명령어를 이용해 일부 읽어보자.

  • --minSpotId와 --maxSpotId 옵션을 사용하여 원하는 범위의 spot ID를 지정함으로써 일부만 다운로드할 수 있습니다. 이 옵션은 파일의 특정 부분만 추출하는 데 유용합니다.
 
fastq-dump --split-3 --minSpotId <MIN_SPOT_ID> --maxSpotId <MAX_SPOT_ID> SRRXXXXXXX
fastq-dump --split-3 --minSpotId 1 --maxSpotId 1000 SRR3879603

1000줄만 읽기

1000줄만 읽는 것에 (드디어) 성공했다!

해당 디렉토리 내의 파일을 확인하는 명령어를 입력해보자.

ls -lh

파일이 저장되어 있다.

 

다른 폴더에 저장하고 싶다면

fastq-dump --split-3 --minSpotId 1 --maxSpotId 1000 --outdir /저장할 폴더 경로/ SRR3879603
fastq-dump --split-3 --minSpotId 1 --maxSpotId 1000 --outdir /home/kim89/Cell_ranger/fastq_output/ SRR3879603

 

이후 Cell Ranger를 위해서는 .gz로 압축된 파일이 필요하다. 압축해주자.

gzip 파일명
gzip SRR3879601_1.fastq SRR3879601_2.fastq SRR3879602_1.fastq SRR3879602_2.fastq SRR3879603_1.fastq SRR3879603_2.fastq

 

+) 압축 해제는 gzip -d 파일명

 

 

 

+) SRR번호를 잘못 입력했을 때 에러.

err: name not found while resolving query within virtual file system module - failed to resolve accession 'SRR38796010'

마지막이 610인데, 6010으로 잘못 입력했다.

 

+) prefetch로 데이터를 미리 다운로드한 후 로컬에 있는 데이터를 처리.

./prefetch SRR3879601
./fasterq-dump --split-3 --outdir /home/kim89/Cell_ranger/fastq_gz/ SRR3879601

 

+) 이 블로그 분은 138G 파일을 다운로드 하는데, fastq-dump로는 ~7시간 소요.... prefetch로는 ~3.8시간이 소요됐다고 한다... (prefetch 방법이 그냥 fastq-dump보다 2배가량 차이나게 빠르다.)

https://blog.naver.com/aries84/223317080942

 

 

이후 cell ranger 설치 및 실행

https://doraemin.tistory.com/53

 

Cell Ranger 설치 및 실행

STEP 0. 공식 튜토리얼이 자세히 잘 나와있다. 잘 참고하자.https://www.10xgenomics.com/support/software/cell-ranger/latest/tutorials Cell Ranger - Official 10x Genomics SupportA set of analysis pipelines that perform sample demultiplexing

doraemin.tistory.com

 

< 참고 >

데이터 다루는 법 https://www.youtube.com/watch?v=dKl_KvFzGWU&ab_channel=BioI