Zero-shot Learning
2개의 포스트
FLAN: Fine-tuned 언어 모델을 활용한 Zero-Shot 학습
이 논문은 instruction tuning이라는 간단한 방법으로 언어 모델의 zero-shot 학습 능력을 향상시키는 방법을 제안합니다. 이 방법은 자연어 instruction으로 설명된 데이터셋 모음으로 언어 모델을 finetuning하는 것입니다. 137B 파라미터의 pretrained 언어 모델을 60개 이상의 NLP 데이터셋에서 instruction tuning하여 FLAN(Finetuned Language Net)이라는 모델을 만들었습니다. FLAN은 이전에 보지 못한 task에 대해 기존 모델보다 훨씬 향상된 성능을 보였으며, 평가한 25개 데이터셋 중 20개에서 zero-shot 175B GPT-3를 능가했습니다. 논문 제목: Finetuned Language Models Are Zero-Shot Learners
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-2는 대규모의 다양한 웹페이지 데이터셋인 WebText로 학습될 때, 별도의 명시적인 지도 학습 없이도 질의응답, 기계 번역, 요약과 같은 다양한 자연어 처리(NLP) 작업을 수행할 수 있음을 보여주는 1.5B 파라미터의 Transformer 기반 언어 모델입니다. 이 모델은 zero-shot 설정, 즉 특정 작업을 위한 미세 조정(fine-tuning) 없이도 여러 NLP 벤치마크에서 기존 최고 성능을 달성했으며, 이는 대용량 언어 모델이 자연적으로 발생하는 텍스트 데이터로부터 암시적으로 여러 작업을 학습할 수 있는 잠재력을 시사합니다. 논문 제목: Language Models are Unsupervised Multitask Learners