Zero-shot Generalization

1개의 포스트

2025. 10. 1.

Multitask LearningZero-shot Generalization

Multitask Prompted Training을 통한 Zero-Shot Task Generalization

이 논문은 명시적인 Multitask Prompted Training을 통해 언어 모델의 zero-shot task generalization 능력을 직접적으로 유도할 수 있는지 탐구합니다. 다양한 자연어 처리(NLP) 데이터셋을 사람이 읽을 수 있는 프롬프트 형식으로 변환하고, 이를 multitask mixture로 구성하여 pretrained encoder-decoder 모델(T5+LM)을 fine-tuning합니다. 그 결과로 나온 T0 모델은 훈련 중에 보지 못한 완전히 새로운 task에 대해서도 강력한 zero-shot 성능을 보이며, 종종 자신보다 16배 더 큰 모델을 능가하는 결과를 달성합니다. 이는 명시적인 멀티태스크 학습이 모델의 일반화 능력을 효과적으로 향상시킬 수 있음을 보여줍니다. 논문 제목: Multitask Prompted Training Enables Zero-Shot Task Generalization

모든 태그 보기