Generative Pre-trainingTransformer
GPT-1: 생성적 사전 훈련을 통한 언어 이해 능력의 혁신
GPT-1은 대규모의 레이블 없는 텍스트 코퍼스에서 언어 모델을 생성적으로 사전 훈련(generative pre-training)한 후, 각 특정 과제에 맞게 판별적으로 미세 조정(discriminative fine-tuning)하여 자연어 이해(NLU) 능력을 크게 향상시킨 모델입니다. 이 접근법은 Transformer 아키텍처를 사용하여 긴 텍스트의 의존성을 효과적으로 학습하고, 최소한의 아키텍처 변경만으로 다양한 다운스트림 과제에 적용할 수 있는 범용 표현(universal representation)을 학습합니다. 그 결과, 상식 추론, 질의응답, 텍스트 함의 관계 인식 등 12개 과제 중 9개에서 당시 최고 수준의 성능을 달성했습니다. 논문 제목: Improving Language Understanding by Generative Pre-Training