Compute-Optimal Training

1개의 포스트

2025. 8. 15.

Large Language ModelCompute-Optimal Training

Chinchilla: 더 적은 파라미터와 더 많은 데이터로 최적화된 대규모 언어 모델

이 논문은 주어진 컴퓨팅 예산 하에서 Transformer 언어 모델을 훈련하기 위한 최적의 모델 크기와 토큰 수를 탐구합니다. 연구 결과, 기존의 대규모 언어 모델들이 훈련 데이터 양에 비해 모델 크기가 지나치게 크다는 점을 발견했습니다. 최적의 훈련을 위해서는 모델 크기를 두 배로 늘릴 때마다 훈련 토큰 수도 두 배로 늘려야 한다는 결론을 제시합니다. 이러한 가설을 검증하기 위해 Gopher와 동일한 컴퓨팅 예산을 사용하지만, 파라미터는 70B로 4배 더 작고 데이터는 4배 더 많은 Chinchilla 모델을 훈련했습니다. Chinchilla는 Gopher, GPT-3 등 기존의 거대 모델들을 광범위한 평가에서 압도적인 성능으로 능가하며, 모델 크기가 작아 추론 및 파인튜닝 비용이 훨씬 효율적임을 입증했습니다. 논문 제목: Training Compute-Optimal Large Language Models

모든 태그 보기