Large Language ModelModel Training
Megatron-Turing NLG 530B: DeepSpeed와 Megatron을 활용한 5300억 파라미터 언어 모델 학습
본 논문은 Microsoft와 NVIDIA의 협력으로 개발된 5300억 개의 파라미터를 가진 거대 단일(monolithic) transformer 기반 언어 모델인 Megatron-Turing NLG 530B (MT-NLG)의 학습 과정을 상세히 설명합니다. DeepSpeed와 Megatron을 활용한 3D parallelism 방법론과 인프라, 고품질 학습 말뭉치 설계 및 데이터 큐레이션 기술을 중점적으로 다룹니다. MT-NLG는 여러 NLP 벤치마크에서 뛰어난 zero-shot, one-shot, few-shot 학습 정확도를 달성하며 새로운 SOTA(state-of-the-art) 결과를 수립했습니다. 논문 제목: Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model