[cellxgene] Data Download

AI 및 Data Analysis/Deep Learning

[cellxgene] Data Download

doraemin_dev 2025. 5. 30. 02:39

https://cellxgene.cziscience.com/datasets

Cellxgene Data Portal

Find, download, and visually explore curated and standardized single cell datasets.

cellxgene.cziscience.com

첫번째, Parkinson's disease

관측치(Cells) 수: 2096155
변수(Genes) 수: 17267
데이터 정보

아래는 두 번째 .h5ad 파일(2,096,155개 관측치 × 17,267개 변수)에 포함된 주요 구성 요소를 정리한 내용입니다.

1. 관측치 메타데이터 (adata.obs)

컬럼 이름	설명
n_genes	셀당 검출된 유전자 수
n_counts	셀당 총 읽기 수(counts)
Brain_bank	뇌 조직 기증 은행 정보
RIN	RNA 무결성 지수(RNA Integrity Number)
path_braak_lb	Braak 병리 단계(Lewy bodies)
derived_class2	파생 클래스 분류 2
PMI	사후 지연 시간(Post-Mortem Interval)
organism_ontology_term_id	생물종 온톨로지 ID
tissue_ontology_term_id	조직(장기) 온톨로지 ID
tissue_type	조직 유형
assay_ontology_term_id	측정법(어세이) 온톨로지 ID
disease_ontology_term_id	질병 온톨로지 ID
cell_type_ontology_term_id	세포 유형 온톨로지 ID
self_reported_ethnicity_ontology_term_id	참가자 보고 인종 온톨로지 ID
development_stage_ontology_term_id	발달 단계 온톨로지 ID
sex_ontology_term_id	성별 온톨로지 ID
donor_id	기증자(샘플) 고유 ID
suspension_type	세포 분리(현탁) 방식
is_primary_data	원본 데이터 여부
cell_type	세포 유형(표준화된 라벨)
assay	어세이(측정법)
disease	질병 정보
organism	생물종
sex	성별
tissue	조직
self_reported_ethnicity	자가 보고 인종
development_stage	발달 단계
observation_joinid	관측치 고유 조인 ID

2. 변수 메타데이터 (adata.var)

컬럼 이름	설명
gene_name	유전자 이름
n_cells	유전자가 검출된 셀 수
feature_is_filtered	필터링 여부
feature_name	피처(유전자) 이름
feature_reference	참조 정보
feature_biotype	유전자 종류(예: 단백질 코딩 등)
feature_length	유전자 길이
feature_type	피처 타입(유전자·트랜스크립트 등)

3. 부가 정보 (adata.uns)

항목	설명
batch_condition	배치(시약·실험 배치) 조건
citation	데이터셋 인용 정보
genome	참조 유전체 버전 (예: GRCh38 등)
schema_reference	스키마 참조 링크/문서
schema_version	스키마 버전
title	데이터셋 제목
uid	데이터셋 고유 식별자

4. 저차원 표현 (adata.obsm)

항목	설명
X_umap	UMAP 임베딩 좌표 (n_obs × 2)

데이터 예시

--- obs (첫 5개) ---
                           n_genes  n_counts  ...  development_stage  observation_joinid
barcodekey                                    ...                                       
Set10_C1-AAACCCACATCACGGC     2929    5645.0  ...  82-year-old stage          MpT)aB)#*U
Set10_C1-AAACCCAGTAGCACAG     4395   14741.0  ...  73-year-old stage          qFT~wG^BCg
Set10_C1-AAACCCAGTATGTCCA     3856   11005.0  ...  82-year-old stage          fE`VpY%8fb
Set10_C1-AAACCCAGTCCAGAAG     3387    8134.0  ...  73-year-old stage          g1Lr8^y)O(
Set10_C1-AAACCCATCCACGTAA     2366    4583.0  ...  73-year-old stage          MR9tUCifao

[5 rows x 28 columns]

--- var (첫 5개) ---
                gene_name  n_cells  ...  feature_length    feature_type
gene_id                             ...                                
ENSG00000186827   TNFRSF4     7846  ...            1039  protein_coding
ENSG00000186891  TNFRSF18     9000  ...             789  protein_coding
ENSG00000160072    ATAD3B   340777  ...            3300  protein_coding
ENSG00000041988     THAP3   209923  ...             931  protein_coding
ENSG00000142611    PRDM16   283396  ...            3730  protein_coding

[5 rows x 8 columns]

--- X 데이터 일부 (5×5) ---
gene_id                    ENSG00000186827  ...  ENSG00000142611
barcodekey                                  ...                 
Set10_C1-AAACCCACATCACGGC              0.0  ...         0.000000
Set10_C1-AAACCCAGTAGCACAG              0.0  ...         0.000000
Set10_C1-AAACCCAGTATGTCCA              0.0  ...         0.000000
Set10_C1-AAACCCAGTCCAGAAG              0.0  ...         0.000000
Set10_C1-AAACCCATCCACGTAA              0.0  ...         4.882185

[5 rows x 5 columns]

마지막에서 두번째,

An integrated cell atlas of the human lung in health and disease (full)

관측치(Cells) 수: 2282447
변수(Genes) 수: 56239
데이터 정보

아래는 AnnData 객체에 포함된 주요 속성들과 그 안에 들어 있는 값들을 한국어로 정리한 내용입니다.

1. 관측치 메타데이터 (adata.obs)

컬럼 이름	설명
suspension_type	세포 분리(현탁) 방식
donor_id	기증자(샘플) 고유 ID
is_primary_data	원본 데이터 여부
assay_ontology_term_id	측정법(어세이) 온톨로지 ID
cell_type_ontology_term_id	세포 유형 온톨로지 ID
development_stage_ontology_term_id	발달 단계 온톨로지 ID
disease_ontology_term_id	질병 온톨로지 ID
self_reported_ethnicity_ontology_term_id	참가자 보고 인종 온톨로지 ID
tissue_ontology_term_id	조직(장기) 온톨로지 ID
organism_ontology_term_id	생물종 온톨로지 ID
sex_ontology_term_id	성별 온톨로지 ID
“3′_or_5′”	3′ 혹은 5′ 끝 유무
BMI	체질량 지수
age_or_mean_of_age_range	나이 또는 나이 구간의 중간 값
age_range	나이 구간
anatomical_region_ccf_score	해부학적 부위 매치 점수
ann_coarse_for_GWAS_and_modeling	GWAS·모델링용 대분류 주석
ann_finest_level	가장 세분화된 주석 수준
ann_level_1 ~ ann_level_5	단계별 세분화 주석 레벨 1~5
cause_of_death	사망 원인
core_or_extension	핵심 데이터 vs 확장(Extension) 데이터 구분
dataset	데이터셋 이름
fresh_or_frozen	신선 vs 동결 샘플 구분
log10_total_counts	전체 카운트의 log₁₀ 변환 값
lung_condition	폐 상태(정상·질환 등)
mixed_ancestry	혼합 인종 여부
original_ann_level_1 ~ original_ann_level_5	원본 주석 레벨 1~5
original_ann_nonharmonized	비표준화된(원본) 주석
reannotation_type	재주석 방식
sample	샘플 ID
scanvi_label	scANVI(불확실성 포함) 예측 라벨
sequencing_platform	시퀀싱 플랫폼
smoking_status	흡연 상태
study	연구 이름
subject_type	대상 유형(건강인·환자 등)
tissue_coarse_unharmonized	비표준화된 대분류 조직
tissue_detailed_unharmonized	비표준화된 세분화 조직
tissue_dissociation_protocol	조직 분리 프로토콜
tissue_level_2 ~ tissue_level_3	조직 분류 레벨 2~3
tissue_sampling_method	조직 채취 방법
total_counts	전체 카운트 (raw)
transf_ann_level_1_label ~ transf_ann_level_5_uncert	전이 학습 기반 주석 레벨 1~5 라벨 및 불확실성
tissue_type	조직 유형
cell_type	세포 유형
assay	어세이(측정법)
disease	질병 정보
organism	생물종
sex	성별
tissue	조직
self_reported_ethnicity	자가 보고 인종
development_stage	발달 단계
observation_joinid	관측치 고유 조인 ID

2. 변수 메타데이터 (adata.var)

컬럼 이름	설명
feature_is_filtered	필터링 여부
original_gene_symbols	원본 유전자 심볼(이전 이름)
feature_name	유전자(또는 피처) 이름
feature_reference	참조 정보
feature_biotype	유전자 종류(예: 단백질 코딩 등)
feature_length	유전자 길이
feature_type	피처 타입(유전자·트랜스크립트 등)

3. 부가 정보 (adata.uns)

batch_condition : 배치(시약·실험 배치) 조건
citation : 데이터셋 인용 정보
default_embedding : 기본 차원축소(예: UMAP) 이름
schema_reference : 스키마 참조 링크/문서
schema_version : 스키마 버전
title : 데이터셋 제목

4. 저차원 표현 (adata.obsm)

X_scanvi_emb : scANVI 임베딩 결과
X_umap : UMAP 임베딩 좌표

각 객체는 (n_obs × 임베딩_차원수) 형태의 배열입니다.

5. 레이어 (adata.layers)

soupX : 배경(소위 “수프”) 교정된 발현 매트릭스

원본(adata.X) 외에 별도 정제·보정된 발현값을 저장할 때 사용됩니다.

6. 관측치 간 관계 (adata.obsp)

connectivities : 그래프 연결성 행렬 (스파스)
distances : 그래프 거리 행렬 (스파스)

주로 클러스터링·그래프 기반 분석(예: Leiden, PAGA) 등에 활용됩니다.

위 내용을 통해 .h5ad 파일에 어떤 종류의 메타데이터와 매트릭스가 포함되어 있는지 한눈에 파악하실 수 있습니다.

데이터 예시

--- obs (첫 5개) ---
                                          suspension_type  ...
CGATGTAAGTTACGGG_SC10                                cell  ...
cc05p_CATGCCTGTGTGCCTG_carraro_csmc                  cell  ...
ATTCTACCAAGGTTCT_HD68                                cell  ...
D062_TGACCCTTCAAACCCA-sub_wang_sub_batch3         nucleus  ...
muc9826_GTCGTGAGAGGA_mayr                            cell  ...

[5 rows x 70 columns]

--- var (첫 5개) ---
                 feature_is_filtered  ...    feature_type
ENSG00000121410                False  ...  protein_coding
ENSG00000268895                False  ...          lncRNA
ENSG00000148584                False  ...  protein_coding
ENSG00000175899                False  ...  protein_coding
ENSG00000245105                False  ...          lncRNA

[5 rows x 7 columns]

--- X 데이터 일부 (5×5) ---
                                           ENSG00000121410  ...  ENSG00000245105
CGATGTAAGTTACGGG_SC10                                  0.0  ...              0.0
cc05p_CATGCCTGTGTGCCTG_carraro_csmc                    0.0  ...              0.0
ATTCTACCAAGGTTCT_HD68                                  0.0  ...              0.0
D062_TGACCCTTCAAACCCA-sub_wang_sub_batch3              0.0  ...              0.0
muc9826_GTCGTGAGAGGA_mayr                              0.0  ...              0.0

[5 rows x 5 columns]