AI 및 Data Analysis/Deep Learning
[cellxgene] Data Download
doraemin_dev
2025. 5. 30. 02:39
https://cellxgene.cziscience.com/datasets
Cellxgene Data Portal
Find, download, and visually explore curated and standardized single cell datasets.
cellxgene.cziscience.com
첫번째, Parkinson's disease
- 관측치(Cells) 수: 2096155
- 변수(Genes) 수: 17267
- 데이터 정보
더보기
아래는 두 번째 .h5ad 파일(2,096,155개 관측치 × 17,267개 변수)에 포함된 주요 구성 요소를 정리한 내용입니다.
1. 관측치 메타데이터 (adata.obs)
컬럼 이름 | 설명 |
n_genes | 셀당 검출된 유전자 수 |
n_counts | 셀당 총 읽기 수(counts) |
Brain_bank | 뇌 조직 기증 은행 정보 |
RIN | RNA 무결성 지수(RNA Integrity Number) |
path_braak_lb | Braak 병리 단계(Lewy bodies) |
derived_class2 | 파생 클래스 분류 2 |
PMI | 사후 지연 시간(Post-Mortem Interval) |
organism_ontology_term_id | 생물종 온톨로지 ID |
tissue_ontology_term_id | 조직(장기) 온톨로지 ID |
tissue_type | 조직 유형 |
assay_ontology_term_id | 측정법(어세이) 온톨로지 ID |
disease_ontology_term_id | 질병 온톨로지 ID |
cell_type_ontology_term_id | 세포 유형 온톨로지 ID |
self_reported_ethnicity_ontology_term_id | 참가자 보고 인종 온톨로지 ID |
development_stage_ontology_term_id | 발달 단계 온톨로지 ID |
sex_ontology_term_id | 성별 온톨로지 ID |
donor_id | 기증자(샘플) 고유 ID |
suspension_type | 세포 분리(현탁) 방식 |
is_primary_data | 원본 데이터 여부 |
cell_type | 세포 유형(표준화된 라벨) |
assay | 어세이(측정법) |
disease | 질병 정보 |
organism | 생물종 |
sex | 성별 |
tissue | 조직 |
self_reported_ethnicity | 자가 보고 인종 |
development_stage | 발달 단계 |
observation_joinid | 관측치 고유 조인 ID |
2. 변수 메타데이터 (adata.var)
컬럼 이름 | 설명 |
gene_name | 유전자 이름 |
n_cells | 유전자가 검출된 셀 수 |
feature_is_filtered | 필터링 여부 |
feature_name | 피처(유전자) 이름 |
feature_reference | 참조 정보 |
feature_biotype | 유전자 종류(예: 단백질 코딩 등) |
feature_length | 유전자 길이 |
feature_type | 피처 타입(유전자·트랜스크립트 등) |
3. 부가 정보 (adata.uns)
항목 | 설명 |
batch_condition | 배치(시약·실험 배치) 조건 |
citation | 데이터셋 인용 정보 |
genome | 참조 유전체 버전 (예: GRCh38 등) |
schema_reference | 스키마 참조 링크/문서 |
schema_version | 스키마 버전 |
title | 데이터셋 제목 |
uid | 데이터셋 고유 식별자 |
4. 저차원 표현 (adata.obsm)
항목 | 설명 |
X_umap | UMAP 임베딩 좌표 (n_obs × 2) |
- 데이터 예시
더보기
--- obs (첫 5개) ---
n_genes n_counts ... development_stage observation_joinid
barcodekey ...
Set10_C1-AAACCCACATCACGGC 2929 5645.0 ... 82-year-old stage MpT)aB)#*U
Set10_C1-AAACCCAGTAGCACAG 4395 14741.0 ... 73-year-old stage qFT~wG^BCg
Set10_C1-AAACCCAGTATGTCCA 3856 11005.0 ... 82-year-old stage fE`VpY%8fb
Set10_C1-AAACCCAGTCCAGAAG 3387 8134.0 ... 73-year-old stage g1Lr8^y)O(
Set10_C1-AAACCCATCCACGTAA 2366 4583.0 ... 73-year-old stage MR9tUCifao
[5 rows x 28 columns]
--- var (첫 5개) ---
gene_name n_cells ... feature_length feature_type
gene_id ...
ENSG00000186827 TNFRSF4 7846 ... 1039 protein_coding
ENSG00000186891 TNFRSF18 9000 ... 789 protein_coding
ENSG00000160072 ATAD3B 340777 ... 3300 protein_coding
ENSG00000041988 THAP3 209923 ... 931 protein_coding
ENSG00000142611 PRDM16 283396 ... 3730 protein_coding
[5 rows x 8 columns]
--- X 데이터 일부 (5×5) ---
gene_id ENSG00000186827 ... ENSG00000142611
barcodekey ...
Set10_C1-AAACCCACATCACGGC 0.0 ... 0.000000
Set10_C1-AAACCCAGTAGCACAG 0.0 ... 0.000000
Set10_C1-AAACCCAGTATGTCCA 0.0 ... 0.000000
Set10_C1-AAACCCAGTCCAGAAG 0.0 ... 0.000000
Set10_C1-AAACCCATCCACGTAA 0.0 ... 4.882185
[5 rows x 5 columns]
마지막에서 두번째,
An integrated cell atlas of the human lung in health and disease (full)
- 관측치(Cells) 수: 2282447
- 변수(Genes) 수: 56239
- 데이터 정보
더보기
아래는 AnnData 객체에 포함된 주요 속성들과 그 안에 들어 있는 값들을 한국어로 정리한 내용입니다.
1. 관측치 메타데이터 (adata.obs)
컬럼 이름 | 설명 |
suspension_type | 세포 분리(현탁) 방식 |
donor_id | 기증자(샘플) 고유 ID |
is_primary_data | 원본 데이터 여부 |
assay_ontology_term_id | 측정법(어세이) 온톨로지 ID |
cell_type_ontology_term_id | 세포 유형 온톨로지 ID |
development_stage_ontology_term_id | 발달 단계 온톨로지 ID |
disease_ontology_term_id | 질병 온톨로지 ID |
self_reported_ethnicity_ontology_term_id | 참가자 보고 인종 온톨로지 ID |
tissue_ontology_term_id | 조직(장기) 온톨로지 ID |
organism_ontology_term_id | 생물종 온톨로지 ID |
sex_ontology_term_id | 성별 온톨로지 ID |
“3′_or_5′” | 3′ 혹은 5′ 끝 유무 |
BMI | 체질량 지수 |
age_or_mean_of_age_range | 나이 또는 나이 구간의 중간 값 |
age_range | 나이 구간 |
anatomical_region_ccf_score | 해부학적 부위 매치 점수 |
ann_coarse_for_GWAS_and_modeling | GWAS·모델링용 대분류 주석 |
ann_finest_level | 가장 세분화된 주석 수준 |
ann_level_1 ~ ann_level_5 | 단계별 세분화 주석 레벨 1~5 |
cause_of_death | 사망 원인 |
core_or_extension | 핵심 데이터 vs 확장(Extension) 데이터 구분 |
dataset | 데이터셋 이름 |
fresh_or_frozen | 신선 vs 동결 샘플 구분 |
log10_total_counts | 전체 카운트의 log₁₀ 변환 값 |
lung_condition | 폐 상태(정상·질환 등) |
mixed_ancestry | 혼합 인종 여부 |
original_ann_level_1 ~ original_ann_level_5 | 원본 주석 레벨 1~5 |
original_ann_nonharmonized | 비표준화된(원본) 주석 |
reannotation_type | 재주석 방식 |
sample | 샘플 ID |
scanvi_label | scANVI(불확실성 포함) 예측 라벨 |
sequencing_platform | 시퀀싱 플랫폼 |
smoking_status | 흡연 상태 |
study | 연구 이름 |
subject_type | 대상 유형(건강인·환자 등) |
tissue_coarse_unharmonized | 비표준화된 대분류 조직 |
tissue_detailed_unharmonized | 비표준화된 세분화 조직 |
tissue_dissociation_protocol | 조직 분리 프로토콜 |
tissue_level_2 ~ tissue_level_3 | 조직 분류 레벨 2~3 |
tissue_sampling_method | 조직 채취 방법 |
total_counts | 전체 카운트 (raw) |
transf_ann_level_1_label ~ transf_ann_level_5_uncert | 전이 학습 기반 주석 레벨 1~5 라벨 및 불확실성 |
tissue_type | 조직 유형 |
cell_type | 세포 유형 |
assay | 어세이(측정법) |
disease | 질병 정보 |
organism | 생물종 |
sex | 성별 |
tissue | 조직 |
self_reported_ethnicity | 자가 보고 인종 |
development_stage | 발달 단계 |
observation_joinid | 관측치 고유 조인 ID |
2. 변수 메타데이터 (adata.var)
컬럼 이름 | 설명 |
feature_is_filtered | 필터링 여부 |
original_gene_symbols | 원본 유전자 심볼(이전 이름) |
feature_name | 유전자(또는 피처) 이름 |
feature_reference | 참조 정보 |
feature_biotype | 유전자 종류(예: 단백질 코딩 등) |
feature_length | 유전자 길이 |
feature_type | 피처 타입(유전자·트랜스크립트 등) |
3. 부가 정보 (adata.uns)
- batch_condition : 배치(시약·실험 배치) 조건
- citation : 데이터셋 인용 정보
- default_embedding : 기본 차원축소(예: UMAP) 이름
- schema_reference : 스키마 참조 링크/문서
- schema_version : 스키마 버전
- title : 데이터셋 제목
4. 저차원 표현 (adata.obsm)
- X_scanvi_emb : scANVI 임베딩 결과
- X_umap : UMAP 임베딩 좌표
각 객체는 (n_obs × 임베딩_차원수) 형태의 배열입니다.
5. 레이어 (adata.layers)
- soupX : 배경(소위 “수프”) 교정된 발현 매트릭스
원본(adata.X) 외에 별도 정제·보정된 발현값을 저장할 때 사용됩니다.
6. 관측치 간 관계 (adata.obsp)
- connectivities : 그래프 연결성 행렬 (스파스)
- distances : 그래프 거리 행렬 (스파스)
주로 클러스터링·그래프 기반 분석(예: Leiden, PAGA) 등에 활용됩니다.
위 내용을 통해 .h5ad 파일에 어떤 종류의 메타데이터와 매트릭스가 포함되어 있는지 한눈에 파악하실 수 있습니다.
- 데이터 예시
더보기
--- obs (첫 5개) ---
suspension_type ...
CGATGTAAGTTACGGG_SC10 cell ...
cc05p_CATGCCTGTGTGCCTG_carraro_csmc cell ...
ATTCTACCAAGGTTCT_HD68 cell ...
D062_TGACCCTTCAAACCCA-sub_wang_sub_batch3 nucleus ...
muc9826_GTCGTGAGAGGA_mayr cell ...
[5 rows x 70 columns]
--- var (첫 5개) ---
feature_is_filtered ... feature_type
ENSG00000121410 False ... protein_coding
ENSG00000268895 False ... lncRNA
ENSG00000148584 False ... protein_coding
ENSG00000175899 False ... protein_coding
ENSG00000245105 False ... lncRNA
[5 rows x 7 columns]
--- X 데이터 일부 (5×5) ---
ENSG00000121410 ... ENSG00000245105
CGATGTAAGTTACGGG_SC10 0.0 ... 0.0
cc05p_CATGCCTGTGTGCCTG_carraro_csmc 0.0 ... 0.0
ATTCTACCAAGGTTCT_HD68 0.0 ... 0.0
D062_TGACCCTTCAAACCCA-sub_wang_sub_batch3 0.0 ... 0.0
muc9826_GTCGTGAGAGGA_mayr 0.0 ... 0.0
[5 rows x 5 columns]