논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Sparsity

1개의 포스트

2025. 10. 1.
Mixture of ExpertsSparsity

Switch Transformers: 단순하고 효율적인 희소성을 통한 1조 파라미터 모델 확장

Switch Transformer는 기존의 Mixture of Experts (MoE) 모델을 단순화하여, 각 입력을 단 하나의 expert로 라우팅하는 희소 활성화(sparsely-activated) 모델입니다. 이 접근법은 MoE의 복잡성, 통신 비용, 훈련 불안정성 문제를 해결하면서, 동일한 계산 리소스 내에서 파라미터 수를 극대화합니다. 그 결과, T5-Base 모델 대비 최대 7배의 사전 훈련 속도 향상을 보였으며, bfloat16과 같은 저정밀도 형식에서도 안정적인 훈련이 가능함을 입증했습니다. 본 논문은 이러한 혁신을 통해 최대 1조 개의 파라미터를 가진 언어 모델을 성공적으로 훈련시키고, 다양한 자연어 처리 과제에서 그 효율성과 성능을 입증합니다. 논문 제목: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

모든 태그 보기

© 2025 junhan.blog