논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Model Training

1개의 포스트

2025. 10. 3.
Large Language ModelModel Training

Megatron-Turing NLG 530B: DeepSpeed와 Megatron을 활용한 5300억 파라미터 언어 모델 학습

본 논문은 Microsoft와 NVIDIA의 협력으로 개발된 5300억 개의 파라미터를 가진 거대 단일(monolithic) transformer 기반 언어 모델인 Megatron-Turing NLG 530B (MT-NLG)의 학습 과정을 상세히 설명합니다. DeepSpeed와 Megatron을 활용한 3D parallelism 방법론과 인프라, 고품질 학습 말뭉치 설계 및 데이터 큐레이션 기술을 중점적으로 다룹니다. MT-NLG는 여러 NLP 벤치마크에서 뛰어난 zero-shot, one-shot, few-shot 학습 정확도를 달성하며 새로운 SOTA(state-of-the-art) 결과를 수립했습니다. 논문 제목: Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model

모든 태그 보기

© 2025 junhan.blog