Language ModelZero-shot Learning
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-2는 대규모의 다양한 웹페이지 데이터셋인 WebText로 학습될 때, 별도의 명시적인 지도 학습 없이도 질의응답, 기계 번역, 요약과 같은 다양한 자연어 처리(NLP) 작업을 수행할 수 있음을 보여주는 1.5B 파라미터의 Transformer 기반 언어 모델입니다. 이 모델은 zero-shot 설정, 즉 특정 작업을 위한 미세 조정(fine-tuning) 없이도 여러 NLP 벤치마크에서 기존 최고 성능을 달성했으며, 이는 대용량 언어 모델이 자연적으로 발생하는 텍스트 데이터로부터 암시적으로 여러 작업을 학습할 수 있는 잠재력을 시사합니다. 논문 제목: Language Models are Unsupervised Multitask Learners