Language Model
2개의 포스트
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-2는 대규모의 다양한 웹페이지 데이터셋인 WebText로 학습될 때, 별도의 명시적인 지도 학습 없이도 질의응답, 기계 번역, 요약과 같은 다양한 자연어 처리(NLP) 작업을 수행할 수 있음을 보여주는 1.5B 파라미터의 Transformer 기반 언어 모델입니다. 이 모델은 zero-shot 설정, 즉 특정 작업을 위한 미세 조정(fine-tuning) 없이도 여러 NLP 벤치마크에서 기존 최고 성능을 달성했으며, 이는 대용량 언어 모델이 자연적으로 발생하는 텍스트 데이터로부터 암시적으로 여러 작업을 학습할 수 있는 잠재력을 시사합니다. 논문 제목: Language Models are Unsupervised Multitask Learners
BERT: 언어 이해를 위한 Deep Bidirectional Transformers의 Pre-training
BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 기존 모델들과 달리 문장의 왼쪽과 오른쪽 문맥을 동시에 고려하여 언어를 이해하는 Deep Bidirectional 모델입니다. "Masked Language Model" (MLM)과 "Next Sentence Prediction" (NSP)이라는 두 가지 비지도 학습 과제를 통해 사전 학습되며, 이로 인해 별도의 큰 구조 변경 없이 fine-tuning만으로 다양한 NLP 태스크에서 최고의 성능을 달성합니다. BERT는 특히 문장 레벨 및 토큰 레벨의 과제 모두에서 기존의 단방향 모델들의 한계를 극복하고 새로운 state-of-the-art를 기록했습니다. 논문 제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding