AI 및 Data Analysis/Deep Learning

[cellxgene] Data Download

doraemin_dev 2025. 5. 30. 02:39

 

 

https://cellxgene.cziscience.com/datasets

 

Cellxgene Data Portal

Find, download, and visually explore curated and standardized single cell datasets.

cellxgene.cziscience.com

 

첫번째, Parkinson's disease

  • 관측치(Cells) 수: 2096155
  • 변수(Genes) 수: 17267
  • 데이터 정보
더보기

아래는 두 번째 .h5ad 파일(2,096,155개 관측치 × 17,267개 변수)에 포함된 주요 구성 요소를 정리한 내용입니다.


1. 관측치 메타데이터 (adata.obs)

컬럼 이름 설명
n_genes 셀당 검출된 유전자 수
n_counts 셀당 총 읽기 수(counts)
Brain_bank 뇌 조직 기증 은행 정보
RIN RNA 무결성 지수(RNA Integrity Number)
path_braak_lb Braak 병리 단계(Lewy bodies)
derived_class2 파생 클래스 분류 2
PMI 사후 지연 시간(Post-Mortem Interval)
organism_ontology_term_id 생물종 온톨로지 ID
tissue_ontology_term_id 조직(장기) 온톨로지 ID
tissue_type 조직 유형
assay_ontology_term_id 측정법(어세이) 온톨로지 ID
disease_ontology_term_id 질병 온톨로지 ID
cell_type_ontology_term_id 세포 유형 온톨로지 ID
self_reported_ethnicity_ontology_term_id 참가자 보고 인종 온톨로지 ID
development_stage_ontology_term_id 발달 단계 온톨로지 ID
sex_ontology_term_id 성별 온톨로지 ID
donor_id 기증자(샘플) 고유 ID
suspension_type 세포 분리(현탁) 방식
is_primary_data 원본 데이터 여부
cell_type 세포 유형(표준화된 라벨)
assay 어세이(측정법)
disease 질병 정보
organism 생물종
sex 성별
tissue 조직
self_reported_ethnicity 자가 보고 인종
development_stage 발달 단계
observation_joinid 관측치 고유 조인 ID

2. 변수 메타데이터 (adata.var)

컬럼 이름 설명
gene_name 유전자 이름
n_cells 유전자가 검출된 셀 수
feature_is_filtered 필터링 여부
feature_name 피처(유전자) 이름
feature_reference 참조 정보
feature_biotype 유전자 종류(예: 단백질 코딩 등)
feature_length 유전자 길이
feature_type 피처 타입(유전자·트랜스크립트 등)

3. 부가 정보 (adata.uns)

항목 설명
batch_condition 배치(시약·실험 배치) 조건
citation 데이터셋 인용 정보
genome 참조 유전체 버전 (예: GRCh38 등)
schema_reference 스키마 참조 링크/문서
schema_version 스키마 버전
title 데이터셋 제목
uid 데이터셋 고유 식별자

4. 저차원 표현 (adata.obsm)

항목 설명
X_umap UMAP 임베딩 좌표 (n_obs × 2)
  • 데이터 예시
더보기
--- obs (첫 5개) ---
                           n_genes  n_counts  ...  development_stage  observation_joinid
barcodekey                                    ...                                       
Set10_C1-AAACCCACATCACGGC     2929    5645.0  ...  82-year-old stage          MpT)aB)#*U
Set10_C1-AAACCCAGTAGCACAG     4395   14741.0  ...  73-year-old stage          qFT~wG^BCg
Set10_C1-AAACCCAGTATGTCCA     3856   11005.0  ...  82-year-old stage          fE`VpY%8fb
Set10_C1-AAACCCAGTCCAGAAG     3387    8134.0  ...  73-year-old stage          g1Lr8^y)O(
Set10_C1-AAACCCATCCACGTAA     2366    4583.0  ...  73-year-old stage          MR9tUCifao

[5 rows x 28 columns]

--- var (첫 5개) ---
                gene_name  n_cells  ...  feature_length    feature_type
gene_id                             ...                                
ENSG00000186827   TNFRSF4     7846  ...            1039  protein_coding
ENSG00000186891  TNFRSF18     9000  ...             789  protein_coding
ENSG00000160072    ATAD3B   340777  ...            3300  protein_coding
ENSG00000041988     THAP3   209923  ...             931  protein_coding
ENSG00000142611    PRDM16   283396  ...            3730  protein_coding

[5 rows x 8 columns]

--- X 데이터 일부 (5×5) ---
gene_id                    ENSG00000186827  ...  ENSG00000142611
barcodekey                                  ...                 
Set10_C1-AAACCCACATCACGGC              0.0  ...         0.000000
Set10_C1-AAACCCAGTAGCACAG              0.0  ...         0.000000
Set10_C1-AAACCCAGTATGTCCA              0.0  ...         0.000000
Set10_C1-AAACCCAGTCCAGAAG              0.0  ...         0.000000
Set10_C1-AAACCCATCCACGTAA              0.0  ...         4.882185

[5 rows x 5 columns]

마지막에서 두번째,

An integrated cell atlas of the human lung in health and disease (full)

  • 관측치(Cells) 수: 2282447
  • 변수(Genes) 수: 56239 
  • 데이터 정보
더보기

아래는 AnnData 객체에 포함된 주요 속성들과 그 안에 들어 있는 값들을 한국어로 정리한 내용입니다.


1. 관측치 메타데이터 (adata.obs)

컬럼 이름 설명
suspension_type 세포 분리(현탁) 방식
donor_id 기증자(샘플) 고유 ID
is_primary_data 원본 데이터 여부
assay_ontology_term_id 측정법(어세이) 온톨로지 ID
cell_type_ontology_term_id 세포 유형 온톨로지 ID
development_stage_ontology_term_id 발달 단계 온톨로지 ID
disease_ontology_term_id 질병 온톨로지 ID
self_reported_ethnicity_ontology_term_id 참가자 보고 인종 온톨로지 ID
tissue_ontology_term_id 조직(장기) 온톨로지 ID
organism_ontology_term_id 생물종 온톨로지 ID
sex_ontology_term_id 성별 온톨로지 ID
“3′_or_5′” 3′ 혹은 5′ 끝 유무
BMI 체질량 지수
age_or_mean_of_age_range 나이 또는 나이 구간의 중간 값
age_range 나이 구간
anatomical_region_ccf_score 해부학적 부위 매치 점수
ann_coarse_for_GWAS_and_modeling GWAS·모델링용 대분류 주석
ann_finest_level 가장 세분화된 주석 수준
ann_level_1 ~ ann_level_5 단계별 세분화 주석 레벨 1~5
cause_of_death 사망 원인
core_or_extension 핵심 데이터 vs 확장(Extension) 데이터 구분
dataset 데이터셋 이름
fresh_or_frozen 신선 vs 동결 샘플 구분
log10_total_counts 전체 카운트의 log₁₀ 변환 값
lung_condition 폐 상태(정상·질환 등)
mixed_ancestry 혼합 인종 여부
original_ann_level_1 ~ original_ann_level_5 원본 주석 레벨 1~5
original_ann_nonharmonized 비표준화된(원본) 주석
reannotation_type 재주석 방식
sample 샘플 ID
scanvi_label scANVI(불확실성 포함) 예측 라벨
sequencing_platform 시퀀싱 플랫폼
smoking_status 흡연 상태
study 연구 이름
subject_type 대상 유형(건강인·환자 등)
tissue_coarse_unharmonized 비표준화된 대분류 조직
tissue_detailed_unharmonized 비표준화된 세분화 조직
tissue_dissociation_protocol 조직 분리 프로토콜
tissue_level_2 ~ tissue_level_3 조직 분류 레벨 2~3
tissue_sampling_method 조직 채취 방법
total_counts 전체 카운트 (raw)
transf_ann_level_1_label ~ transf_ann_level_5_uncert 전이 학습 기반 주석 레벨 1~5 라벨 및 불확실성
tissue_type 조직 유형
cell_type 세포 유형
assay 어세이(측정법)
disease 질병 정보
organism 생물종
sex 성별
tissue 조직
self_reported_ethnicity 자가 보고 인종
development_stage 발달 단계
observation_joinid 관측치 고유 조인 ID

2. 변수 메타데이터 (adata.var)

컬럼 이름 설명
feature_is_filtered 필터링 여부
original_gene_symbols 원본 유전자 심볼(이전 이름)
feature_name 유전자(또는 피처) 이름
feature_reference 참조 정보
feature_biotype 유전자 종류(예: 단백질 코딩 등)
feature_length 유전자 길이
feature_type 피처 타입(유전자·트랜스크립트 등)

3. 부가 정보 (adata.uns)

  • batch_condition : 배치(시약·실험 배치) 조건
  • citation : 데이터셋 인용 정보
  • default_embedding : 기본 차원축소(예: UMAP) 이름
  • schema_reference : 스키마 참조 링크/문서
  • schema_version : 스키마 버전
  • title : 데이터셋 제목

4. 저차원 표현 (adata.obsm)

  • X_scanvi_emb : scANVI 임베딩 결과
  • X_umap : UMAP 임베딩 좌표

각 객체는 (n_obs × 임베딩_차원수) 형태의 배열입니다.


5. 레이어 (adata.layers)

  • soupX : 배경(소위 “수프”) 교정된 발현 매트릭스

원본(adata.X) 외에 별도 정제·보정된 발현값을 저장할 때 사용됩니다.


6. 관측치 간 관계 (adata.obsp)

  • connectivities : 그래프 연결성 행렬 (스파스)
  • distances : 그래프 거리 행렬 (스파스)

주로 클러스터링·그래프 기반 분석(예: Leiden, PAGA) 등에 활용됩니다.


위 내용을 통해 .h5ad 파일에 어떤 종류의 메타데이터와 매트릭스가 포함되어 있는지 한눈에 파악하실 수 있습니다.

  • 데이터 예시
더보기
--- obs (첫 5개) ---
                                          suspension_type  ...
CGATGTAAGTTACGGG_SC10                                cell  ...
cc05p_CATGCCTGTGTGCCTG_carraro_csmc                  cell  ...
ATTCTACCAAGGTTCT_HD68                                cell  ...
D062_TGACCCTTCAAACCCA-sub_wang_sub_batch3         nucleus  ...
muc9826_GTCGTGAGAGGA_mayr                            cell  ...

[5 rows x 70 columns]

--- var (첫 5개) ---
                 feature_is_filtered  ...    feature_type
ENSG00000121410                False  ...  protein_coding
ENSG00000268895                False  ...          lncRNA
ENSG00000148584                False  ...  protein_coding
ENSG00000175899                False  ...  protein_coding
ENSG00000245105                False  ...          lncRNA

[5 rows x 7 columns]

--- X 데이터 일부 (5×5) ---
                                           ENSG00000121410  ...  ENSG00000245105
CGATGTAAGTTACGGG_SC10                                  0.0  ...              0.0
cc05p_CATGCCTGTGTGCCTG_carraro_csmc                    0.0  ...              0.0
ATTCTACCAAGGTTCT_HD68                                  0.0  ...              0.0
D062_TGACCCTTCAAACCCA-sub_wang_sub_batch3              0.0  ...              0.0
muc9826_GTCGTGAGAGGA_mayr                              0.0  ...              0.0

[5 rows x 5 columns]