https://arxiv.org/abs/2005.14165
Language Models are Few-Shot Learners
Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fi
arxiv.org
2020년도에 출현한, GPT-3 버전이 담고 있다.
파라미터와 모델이 점점 커지기에, 이를 막고 효율적인 성능을 내고자 출현하였다.
풀고자 하는 문제에 대해 몇 개(2개 이상)의 예시(shot)만 보고 태스크에 적응하여 문제를 푸는 것을 few shot learning이라고 한다. 추가로, zero-shot은 작업 설명만 제공, one-shot은 단 1개의 작업 예제를 사용한다.
논문에서는, 9가지 다양한 실험을 진행했다. 기존의 소타 모델과 비교하여 벤치마크를 측정했다.
추가로, gpt4o와 o1 improvement에 대해 비교해보면, 거의 100에 가까운 수준으로 성능 향상이 되었다.
원문 논문 :
한국어 번역 논문 :
'AI, 논문, 데이터 분석' 카테고리의 다른 글
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (0) | 2025.01.31 |
---|---|
[논문 리뷰] InstructPix2Pix: Learning to Follow Image Editing Instructions (3) | 2025.01.31 |
[Reinforcement] Temporal-Difference RL (Bootstrapping Approaches) (0) | 2025.01.25 |
[Off-Policy Learning] 개념 (0) | 2025.01.24 |
[PDFMathTranslate] 논문 번역 (0) | 2025.01.24 |