Language Model
8개의 포스트
UL2: 언어 학습 패러다임의 통합
UL2(Unifying Language Learning Paradigms)는 다양한 NLP 데이터셋과 설정에서 보편적으로 효과적인 사전 학습 모델을 위한 통합 프레임워크를 제시합니다. 이 논문은 기존 모델들이 특정 문제에 특화되어 있다는 한계를 지적하며, 다양한 사전 학습 패러다임을 결합한 새로운 목표인 Mixture-of-Denoisers(MoD)를 제안합니다. MoD는 일반적인 span corruption(R-Denoiser), 순차적 denoising(S-Denoiser), 극단적인 denoising(X-Denoiser)을 혼합하여 모델이 fine-tuning과 few-shot 학습 모두에서 뛰어난 성능을 발휘하도록 합니다. 또한, downstream task에 맞춰 사전 학습 방식을 전환하는 '모드 스위칭' 개념을 도입하여 T5나 GPT와 같은 기존 모델들을 능가하는 성능을 달성했습니다. 논문 제목: Unifying Language Learning Paradigms
Flan Collection: 효과적인 Instruction Tuning을 위한 데이터와 방법론 설계
이 논문은 효과적인 Instruction Tuning을 위한 데이터 및 방법론 설계에 대해 다루는 Flan Collection을 소개합니다. 저자들은 Flan 2022 모델의 개발 과정을 상세히 분석하고, ablation studies를 통해 어떤 설계 결정이 성능 향상에 기여했는지 밝혀냅니다. 연구 결과, task balancing, 데이터 증강 기법, 그리고 특히 zero-shot, few-shot, Chain-of-Thought (CoT) 프롬프트를 혼합하여 훈련하는 것이 모든 평가 환경에서 성능을 크게 향상시킨다는 점을 발견했습니다. 이렇게 훈련된 Flan-T5는 이전의 공개 Instruction Tuning 방법론들보다 우수한 성능을 보였으며, 새로운 단일 downstream task에 대해 미세 조정할 때 더 적은 계산 비용으로 더 빠르고 높은 성능에 도달하는 효율적인 시작점(checkpoint)이 됨을 입증합니다. 논문 제목: The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
BIG-bench: 대규모 언어 모델의 능력을 정량화하고 예측하기 위한 벤치마크
이 논문은 대규모 언어 모델의 현재와 미래의 능력 및 한계를 더 잘 이해하기 위해 새로운 벤치마크인 BIG-bench (Beyond the Imitation Game benchmark)를 제안합니다. BIG-bench는 언어학, 수학, 상식 추론, 사회적 편향 등 204개의 다양한 태스크로 구성되어 있으며, 현재 모델의 능력을 뛰어넘도록 설계되었습니다. OpenAI의 GPT 모델, Google의 Transformer 아키텍처 등 다양한 모델을 평가한 결과, 모델의 성능은 규모에 따라 향상되지만 인간 전문가에 비해서는 여전히 낮은 수준에 머물렀습니다. 또한, 일부 태스크에서는 점진적인 성능 향상을 보인 반면, 다른 태스크에서는 특정 규모에서 '돌파구(breakthrough)' 현상을 보였습니다. 특히, 모호한 맥락에서 사회적 편향은 모델 규모가 커질수록 증가하는 경향이 관찰되었습니다. 논문 제목: Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
Retro: 수조 개 토큰 검색으로 언어 모델 성능을 향상시키는 방법
Retro (Retrieval-Enhanced Transformer)는 자동 회귀 언어 모델의 성능을 향상시키기 위해, 예측 시점에 거대한 외부 데이터베이스에서 관련 정보를 검색하여 활용하는 모델입니다. 2조 개의 토큰으로 구성된 데이터베이스에서 현재 텍스트와 유사한 문서 청크를 검색하고, 이를 frozen Bert retriever와 chunked cross-attention 메커니즘을 통해 모델의 예측에 통합합니다. 이 semi-parametric 접근 방식을 통해 Retro는 GPT-3와 같은 거대 모델보다 25배 적은 파라미터로도 비슷한 성능을 달성하며, 기존에 학습된 Transformer 모델을 빠르게 Retrofit하여 검색 기능을 추가할 수도 있습니다. 논문 제목: Improving language models by retrieving from trillions of tokens
Minerva: 언어 모델을 활용한 정량적 추론 문제 해결
Minerva는 수학, 과학, 공학 분야의 정량적 추론 문제 해결에 특화된 대규모 언어 모델입니다. 일반 자연어 데이터로 사전 학습된 PaLM 모델을 기반으로, arXiv 논문 및 수학 콘텐츠가 포함된 웹페이지로 구성된 기술 데이터셋으로 추가 학습되었습니다. 이 모델은 외부 도구 없이도 단계별 풀이 과정을 생성하며, MATH, GSM8k와 같은 기술 벤치마크에서 최고 수준의 성능을 달성했습니다. Minerva는 자연어 설명과 정확한 LaTeX 수식을 혼합하여 복잡한 문제의 해답을 제시하는 능력을 보여줍니다. 논문 제목: Solving Quantitative Reasoning Problems with Language Models
언어 모델은 왜 환각(Hallucination)을 일으키는가?
이 논문은 대규모 언어 모델(LLM)이 왜 "환각(hallucination)" 현상을 보이는지에 대한 근본적인 원인을 분석합니다. 저자들은 환각이 불확실할 때 추측하도록 훈련 및 평가 과정이 설계되었기 때문이라고 주장합니다. Pretraining 단계에서는 생성 오류가 본질적으로 binary classification 문제의 오류에서 비롯되며, 자연스러운 통계적 압력으로 인해 발생한다고 설명합니다. Post-training 단계에서는 대부분의 평가 벤치마크가 불확실성을 인정하는 답변(I don""t know)에 불이익을 주고 추측을 통해 정답을 맞추는 것을 보상하기 때문에 환각이 지속된다고 지적합니다. 이는 모델을 "시험을 잘 보는 학생"처럼 최적화시키는 결과를 낳습니다. 이에 대한 해결책으로 새로운 환각 평가를 도입하는 대신, 기존의 주요 벤치마크 채점 방식을 수정하는 사회-기술적 완화책을 제안합니다. 논문 제목: Why Language Models Hallucinate
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-2는 대규모의 다양한 웹페이지 데이터셋인 WebText로 학습될 때, 별도의 명시적인 지도 학습 없이도 질의응답, 기계 번역, 요약과 같은 다양한 자연어 처리(NLP) 작업을 수행할 수 있음을 보여주는 1.5B 파라미터의 Transformer 기반 언어 모델입니다. 이 모델은 zero-shot 설정, 즉 특정 작업을 위한 미세 조정(fine-tuning) 없이도 여러 NLP 벤치마크에서 기존 최고 성능을 달성했으며, 이는 대용량 언어 모델이 자연적으로 발생하는 텍스트 데이터로부터 암시적으로 여러 작업을 학습할 수 있는 잠재력을 시사합니다. 논문 제목: Language Models are Unsupervised Multitask Learners
BERT: 언어 이해를 위한 Deep Bidirectional Transformers의 Pre-training
BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 기존 모델들과 달리 문장의 왼쪽과 오른쪽 문맥을 동시에 고려하여 언어를 이해하는 Deep Bidirectional 모델입니다. "Masked Language Model" (MLM)과 "Next Sentence Prediction" (NSP)이라는 두 가지 비지도 학습 과제를 통해 사전 학습되며, 이로 인해 별도의 큰 구조 변경 없이 fine-tuning만으로 다양한 NLP 태스크에서 최고의 성능을 달성합니다. BERT는 특히 문장 레벨 및 토큰 레벨의 과제 모두에서 기존의 단방향 모델들의 한계를 극복하고 새로운 state-of-the-art를 기록했습니다. 논문 제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding