Mixture of ExpertsSparsity
Switch Transformers: 단순하고 효율적인 희소성을 통한 1조 파라미터 모델 확장
Switch Transformer는 기존의 Mixture of Experts (MoE) 모델을 단순화하여, 각 입력을 단 하나의 expert로 라우팅하는 희소 활성화(sparsely-activated) 모델입니다. 이 접근법은 MoE의 복잡성, 통신 비용, 훈련 불안정성 문제를 해결하면서, 동일한 계산 리소스 내에서 파라미터 수를 극대화합니다. 그 결과, T5-Base 모델 대비 최대 7배의 사전 훈련 속도 향상을 보였으며, bfloat16과 같은 저정밀도 형식에서도 안정적인 훈련이 가능함을 입증했습니다. 본 논문은 이러한 혁신을 통해 최대 1조 개의 파라미터를 가진 언어 모델을 성공적으로 훈련시키고, 다양한 자연어 처리 과제에서 그 효율성과 성능을 입증합니다. 논문 제목: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity