본문 바로가기
AI, 논문, 데이터 분석

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

by doraemin_dev 2025. 1. 31.

 

https://arxiv.org/abs/1810.04805

 

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unla

arxiv.org

 

 

Introduction

BERT 이전의 모델. 모두 일방향적 구조.

ELMo, GPT

BERT

transformer의 Encoder를 쌓아서 형성한다.

[Pre-training Tasks]

  1. MLM (Masked LM)
    • 15%만 Mask
      • 15% 중 80%는 mask token으로 바꿈, 10%는 random token으로 바꿈, 나머지 10%는 unchanged 상태로 둠.
  2. Next sentence prediction ; 연속 두 문장이 문맥적으로 이어지는가 판단
    • sentence-level 학습
    • 데이터 중 50%는 isNext, 나머지 50%는 notNext로 label.

[Input/Output Represintation]

  1. Input : sentence 1 과 sentence 2
  2. Token Embedding ; 토큰 단위로 임베딩
  3. Segment Embedding
  4. Position Embedding

[Fine-tunning]

  • Task들에 대해 fine-tunning
  • Bidirectional 구조
  • 트랜스포머 기반 모델 구조

[Results]

  • GLUE ; 7.0% 향상된 결과를 보임
  • SQuAD v1.1 v2.0 ; 성능이 좋음
  • SWAG ; ELMO에 비해 27% 좋음

Ablation studies

  • NoNSP (BERT에서 NSP 제거함)의 경우 줄어들었다.
  • NoNSP + BiLSTM도 줄어들었다.
  • 모델 크기가 증가함에 따라 성능 또한 개선됨.
  • Feature-based approach 방식에서도 효율적임.

추가 사항

  • Elmo는 Unidirectional vs bidirectional?
    • 다양하게 봐질 수 있긴 하다. 근데 아무튼, Directional이다.

원문 논문 :

열정2팀,패기2팀_BERT.pdf
0.74MB

 

한국어 번역 논문 :

열정2팀,패기2팀_BERT-mono.pdf
0.87MB