https://arxiv.org/abs/1810.04805
Introduction
BERT 이전의 모델. 모두 일방향적 구조.
ELMo, GPT
BERT
transformer의 Encoder를 쌓아서 형성한다.
[Pre-training Tasks]
- MLM (Masked LM)
- 15%만 Mask
- 15% 중 80%는 mask token으로 바꿈, 10%는 random token으로 바꿈, 나머지 10%는 unchanged 상태로 둠.
- 15%만 Mask
- Next sentence prediction ; 연속 두 문장이 문맥적으로 이어지는가 판단
- sentence-level 학습
- 데이터 중 50%는 isNext, 나머지 50%는 notNext로 label.
[Input/Output Represintation]
- Input : sentence 1 과 sentence 2
- Token Embedding ; 토큰 단위로 임베딩
- Segment Embedding
- Position Embedding
[Fine-tunning]
- Task들에 대해 fine-tunning
- Bidirectional 구조
- 트랜스포머 기반 모델 구조
[Results]
- GLUE ; 7.0% 향상된 결과를 보임
- SQuAD v1.1 v2.0 ; 성능이 좋음
- SWAG ; ELMO에 비해 27% 좋음
Ablation studies
- NoNSP (BERT에서 NSP 제거함)의 경우 줄어들었다.
- NoNSP + BiLSTM도 줄어들었다.
- 모델 크기가 증가함에 따라 성능 또한 개선됨.
- Feature-based approach 방식에서도 효율적임.
추가 사항
- Elmo는 Unidirectional vs bidirectional?
- 다양하게 봐질 수 있긴 하다. 근데 아무튼, Directional이다.
원문 논문 :
한국어 번역 논문 :