Large Language ModelGopher
Gopher: 2800억 파라미터 언어 모델의 스케일링, 분석 및 인사이트
이 논문은 DeepMind가 개발한 2800억 파라미터의 대규모 언어 모델 Gopher에 대한 심층 분석을 제공합니다. Gopher는 152개의 다양한 태스크에서 평가되었으며, 대부분의 태스크에서 기존 SOTA 성능을 능가했습니다. 특히 독해, 사실 확인(fact-checking)과 같은 지식 집약적 분야에서 스케일의 이점이 크게 나타났지만, 논리 및 수학적 추론에서는 상대적으로 이점이 적었습니다. 또한 이 논문은 모델의 학습 데이터셋, 편향성(bias) 및 유해성(toxicity)에 대한 포괄적인 분석과 함께 AI 안전에 대한 언어 모델의 적용 가능성을 논의합니다. 논문 제목: Scaling Language Models: Methods, Analysis & Insights from Training Gopher