Model ParallelismLarge Language Model
Megatron-LM: 모델 병렬 처리를 이용한 수십억 파라미터 언어 모델 훈련
Megatron-LM은 메모리 제약으로 인해 훈련이 어려운 대규모 Transformer 모델을 위한 효율적인 layer 내부 모델 병렬 처리(intra-layer model parallelism) 기법을 제시합니다. 이 접근법은 새로운 컴파일러나 라이브러리 변경 없이 PyTorch에 몇 가지 통신 연산만을 추가하여 구현할 수 있으며, 수십억 개의 파라미터를 가진 GPT-2 및 BERT와 유사한 모델을 512개의 GPU를 사용하여 성공적으로 훈련시켰습니다. 특히, 이 논문은 모델 크기가 커질 때 BERT와 같은 모델에서 layer normalization의 배치가 성능에 매우 중요함을 보여주었고, 이를 통해 WikiText103, LAMBADA, RACE 데이터셋에서 최고 수준(SOTA)의 성능을 달성했습니다. 논문 제목: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism