AI 및 Data Analysis/Paper Reviews

Gene Analysis Papers

doraemin_dev 2025. 6. 26. 00:47

여러 연구에서 다양한 계층적 클러스터링 알고리즘과 그 확장 기법이 제안되었으며, 특히 유전자 네트워크 추론이나 기능적 그룹 식별에 적용됩니다. 유전자 수준의 계층적 분석과 관련된 주요 방법론을 다음과 같이 정리합니다.

방법 설명 강점 한계
계층적 클러스터링 유전자 발현 데이터 분석에서 가장 널리 사용되는 기법으로, 덴드로그램(dendrogram) 을 통해 유전자 간 유사성을 시각화합니다. 직관적 시각화 노이즈 민감성, 계산 비효율성
SOTA 계층적 클러스터링과 신경망 기법(SOM)의 장점을 결합한 방법으로, 이진 트리 구조를 활용합니다. 유연성, 노이즈 내성 구현 복잡성
Tight Clustering 분산 유전자(scattered genes) 를 고려한 고성능 기법입니다. 분산 유전자 처리, 안정성 높은 계산 부하
Triclustering 유전자(G), 샘플(S), 시간(T)의 3차원 데이터를 동시에 클러스터링합니다 다차원 데이터 분석 차원 증가 시 성능 저하

Clustering Algorithms: Their Application to Gene Expression Data

Oyelade et al. (2016) : Triclustering을 포함한 다양한 계층적 알고리즘의 종합적 리뷰. (273회 인용)

 

https://pmc.ncbi.nlm.nih.gov/articles/PMC5135122/

 

Clustering Algorithms: Their Application to Gene Expression Data - PMC

Hierarchical methods Agglomerative nesting (AGNES)6 uses hierarchical agglomerative approach, which accepts dataset as input, and through a series of successive fusions of the individual objects contained in the dataset, it outputs a clustered expression o

pmc.ncbi.nlm.nih.gov


Evaluation and comparison of gene clustering methods in microarray analysis

Tseng & Wong (2006) : Tight Clustering의 우수성을 시뮬레이션 및 실제 데이터로 입증. (395회 인용)

https://academic.oup.com/bioinformatics/article/22/19/2405/241466?login=false


Hierarchical marker genes selection in scRNA-seq analysis

Sun et al. (2024) : 유사한 세포 클러스터를 계층적으로 그룹화하고, 각 분기점에서 마커 유전자를 정의하여 "개별 클러스터 + 관련 계통(Lineage)" 수준의 정보를 동시에 추출 (1회 인용)

 

PMC. 저널 영향력: Bioinformatics 계열 저널에 주로 게재되며, 단일세포 분석 분야에서 방법론적 혁신으로 평가됨.

https://pmc.ncbi.nlm.nih.gov/articles/PMC11637363/

 

Hierarchical marker genes selection in scRNA-seq analysis - PMC

Collection date 2024 Dec.

pmc.ncbi.nlm.nih.gov


A systematic comparison and evaluation of biclustering methods

유전자(G)와 실험 조건(C)을 동시에 클러스터링하여 부분적 공동 발현 패턴 탐지. 예: ISA, Samba, OPSM 알고리즘  (1240회 인용)

알고리즘 강점 한계
ISA 노이즈 내성 높음 복잡한 패턴 탐지 한계
Samba 정밀한 서브그룹 식별 계산 복잡도 높음
OPSM 연속적 발현 추세 탐색 단일 패턴 한계

 

저널 영향력: Bioinformatics(IF 6.9)는 계산생물학 분야 최상위 저널로 방법론 비교 연구의 표준 참고문헌.

https://academic.oup.com/bioinformatics/article/22/9/1122/200492


(보류,,)

Genetic Pathway-Based Hierarchical Clustering Analysis.

Sloan et al. (2010). : 알츠하이머 관련 유전자 경로(ABCB1, APBA1, BACE1 등)를 사전 정의하고, SNP-형질 연관성을 계층적 클러스터링으로 그룹화  (35회 인용)

 

PMC. 저널 영향력: NeuroImage 계열 저널에 게재, 신경유전학-영상학 융합 연구 선도.

https://pmc.ncbi.nlm.nih.gov/articles/PMC3021757

 

Genetic Pathway-Based Hierarchical Clustering Analysis of Older Adults with Cognitive Complaints and Amnestic Mild Cognitive Imp

Abstract Hierarchical clustering is frequently used for grouping results in expression or haplotype analyses. These methods can elucidate patterns between measures that can then be applied to discerning their validity in discriminating between experimental

pmc.ncbi.nlm.nih.gov


Analyzing 'omics data using hierarchical models

Ji (2010) : 유전자별 발현 변동성을 사전 분포로 모델링하고, 정보 공유(Information Sharing) 를 통해 소규모 데이터셋에서도 강건한 추론 가능. (74회 인용)

적용 예시: $θ_g ∼Top-Level Prior, y_g ∼Likelihood(θ_g)$
여기서 $θ_g$ 는 유전자별 모수, $y_g$ 는 관측 데이터

 

저널 영향력: Nature Methods 리뷰 시리즈에 소개된 방법론으로 체계적 접근성 인정받음

https://www.nature.com/articles/nbt.1619


최근(2024~2025년) 발표된 유전자 계층적/그룹 분석 관련 논문 추천

아래는 2024~2025년 발표된, 유전자 수준에서의 계층적 분석 및 그룹화와 관련된 최신 연구 논문들입니다. 각 논문은 최신 방법론을 제안하며, 일부는 평판 높은 저널이나 주요 학회에 발표되었습니다.

1. MERGE: Multi-faceted Hierarchical Graph-based GNN for Gene Expression Prediction

  • 발표: CVPR 2025 (컴퓨터비전 분야 최상위 학회, 생명정보학/공간전사체 분야 최신 융합 연구)
  • 핵심 내용:
    • Whole slide histopathology 이미지와 공간적으로 정렬된 유전자 발현 데이터를 통합 분석.
    • 공간적·형태적 특징을 활용한 계층적 그래프 클러스터링 및 Graph Neural Network(GNN) 적용.
    • 클러스터 간(장거리) 및 내부(단거리) 상호작용을 동시에 모델링하여, 기존 대비 유전자 발현 예측 정확도 향상.
    • 데이터 스무딩(smoothing) 기법의 생물학적 정당성도 함께 평가.
  • 특징:
    • 공간적 맥락과 계층적 구조를 모두 반영하는 최신 GNN 기반 분석법12.

2. GeneSetCluster 2.0: Seriation-based Clustering for Gene-set Relationships

  • 발표: bioRxiv 프리프린트(2025년 2월, 동 분야 최신 연구)
  • 핵심 내용:
    • 유전자 세트(예: GO term, pathway 등) 간 중복을 제거하고, seriation 기반 계층적 클러스터링을 적용.
    • 기존 k-means, hierarchical clustering 대비, 서열 정보 기반으로 점진적/계층적 구조 및 outlier gene-set 분리 가능.
    • 병렬화로 계산 효율성 개선, 해석력 높은 결과 제공.
  • 특징:
    • 유전자-기능 그룹 간 관계를 계층적으로 분석하고, 생물학적 해석력을 높임3.

3. Hierarchical Marker Genes Selection in scRNA-seq Analysis

  • 게재: PLOS Computational Biology (2024년 12월, 생물정보학 분야 SCIE 저널)
  • 핵심 내용:
    • 단일세포 RNA-seq 데이터에서 계층적 마커 유전자 선택 전략 제안.
    • 세포 클러스터 간 계통(hierarchy)을 정의하고, 각 분기점마다 마커 유전자 선정.
    • 기존 one-vs-all 방식의 한계(중첩, 해석력 저하)를 극복, 세포 아형(subtype) 구분력 향상.
  • 특징:
    • 계층적 구조를 기반으로 한 유전자-세포 유형 특이성 분석에 최적화4.

4. Healthcare Biclustering of Predictive Gene Expression Using LSTM-SVM Hybrid

  • 게재: Information Systems Education Journal (2024년)
  • 핵심 내용:
    • LSTM(순환 신경망)과 SVM(서포트 벡터 머신)을 결합한 하이브리드 모델로 유전자 발현 데이터의 바이클러스터링 수행.
    • 시간적 패턴과 주요 특성 동시 포착, 기존 HMM, RNN, SVM 대비 예측 정확도 및 해석력 향상.
  • 특징:
    • 시계열 유전자 발현 데이터 분석 및 바이클러스터링에 적합5.

요약 표

논문명/방법저널/학회주요 내용특징
MERGE (2025) CVPR 2025 계층적 그래프+GNN, 공간전사체 공간+형태 기반, 장·단거리 상호작용
GeneSetCluster 2.0 (2025) bioRxiv seriation 기반 계층 클러스터링 유전자세트 중복 제거, 해석력↑
Hierarchical Marker Genes (2024) PLOS Comp. Biol. 계층적 마커 유전자 선택 세포 아형 구분, 해석력↑
LSTM-SVM Biclustering (2024) ISEDJ LSTM+SVM 바이클러스터링 시계열 패턴, 예측력↑
 

이외에도 최근 Nature, Cell, Science, Nucleic Acids Research, Bioinformatics 등에서 계층적 유전자 분석 및 네트워크 기반 접근법에 관한 최신 논문들이 지속적으로 발표되고 있습니다.
특히 CVPR, PLOS Computational Biology 등은 생명정보학 및 데이터 과학 융합 분야에서 영향력 있는 저널/학회로 평가받고 있습니다6.

  1. https://cvpr.thecvf.com/virtual/2025/poster/32477
  2. https://arxiv.org/html/2412.02601v2
  3. https://www.biorxiv.org/content/10.1101/2024.12.18.629178v2.full.pdf
  4. https://journals.plos.org/ploscompbiol/article?id=10.1371%2Fjournal.pcbi.1012643
  5. https://www.inform.nu/Articles/Vol28/InfoSciV28Art012Bikku11096.pdf
  6. research.academic_sources
  7. https://www.biorxiv.org/content/10.1101/2025.06.03.657521v1.full.pdf
  8. https://www.nature.com/articles/s41598-025-00329-3
  9. https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202415106
  10. https://geneticsmr.com/2024/04/04/recent-advances-in-gene-expression-data-clustering-a-case-study-with-comparative-results/
  11. https://aacrjournals.org/bloodcancerdiscov/article/doi/10.1158/2643-3230.BCD-24-0342/761938/Single-cell-Transcriptional-Atlas-of-Human

추가 고영향력 저널 논문 탐색 방향


Functional Enrichment 적용 연구:
유전자 오믹스(GO, KEGG) 주석을 계층 구조에 통합한 방법론(예: Nucleic Acids Research).

심층학습 기반 계층적 모델:
Graph Neural Network(GNN)을 이용한 유전자 네트워크 계층화(예: Nature Machine Intelligence).

다중체 데이터 통합:
단일세체+공간체 데이터 결합 계층 분석(예: Cell Genomics).