본문 바로가기
AI, 논문, 데이터 분석

[논문 리뷰] Language Models are Few-Shot Learners

by doraemin_dev 2025. 1. 31.

 

 

https://arxiv.org/abs/2005.14165

 

Language Models are Few-Shot Learners

Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fi

arxiv.org

 

2020년도에 출현한, GPT-3 버전이 담고 있다.

파라미터와 모델이 점점 커지기에, 이를 막고 효율적인 성능을 내고자 출현하였다.

 

풀고자 하는 문제에 대해 몇 개(2개 이상)의 예시(shot)만 보고 태스크에 적응하여 문제를 푸는 것을 few shot learning이라고 한다. 추가로, zero-shot은 작업 설명만 제공, one-shot은 단 1개의 작업 예제를 사용한다.

 

논문에서는, 9가지 다양한 실험을 진행했다. 기존의 소타 모델과 비교하여 벤치마크를 측정했다.


추가로, gpt4o와 o1 improvement에 대해 비교해보면, 거의 100에 가까운 수준으로 성능 향상이 되었다.


원문 논문 :

패기1팀_LanguageModelsareFew-ShotLearners.pdf
6.45MB

 

한국어 번역 논문 :

패기1팀_LanguageModelsareFew-ShotLearners-mono.pdf
6.94MB