Language Model Scaling

1개의 포스트

2025. 10. 1.

Mixture-of-ExpertsLanguage Model Scaling

GLaM: Mixture-of-Experts를 이용한 언어 모델의 효율적인 확장

GLaM (Generalist Language Model)은 sparsely activated Mixture-of-Experts (MoE) 아키텍처를 사용하여 언어 모델의 용량을 효율적으로 확장하는 모델 계열입니다. 가장 큰 GLaM 모델은 GPT-3보다 약 7배 큰 1.2조 개의 파라미터를 가지고 있지만, 훈련에 사용된 에너지는 GPT-3의 1/3에 불과하고 추론 시에는 절반의 계산 flops만 필요로 합니다. 이는 각 토큰이 전체 네트워크가 아닌 소수의 expert 하위 네트워크만 활성화하기 때문에 가능합니다. 결과적으로 GLaM은 29개의 NLP 벤치마크에서 zero-shot, one-shot, few-shot 성능 전반에 걸쳐 GPT-3보다 우수한 성능을 달성했습니다. 논문 제목: GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

모든 태그 보기