Scaling LawsLanguage Models
뉴럴 네트워크를 위한 스케일링 법칙 (Scaling Laws for Neural Language Models)
이 논문은 cross-entropy loss를 기준으로 한 언어 모델의 성능에 대한 경험적 스케일링 법칙을 연구합니다. 모델 크기(N), 데이터셋 크기(D), 학습에 사용된 컴퓨팅(C)에 따라 손실이 power-law 관계로 스케일링되며, 이러한 경향은 7차수 이상의 규모에 걸쳐 나타납니다. 모델의 너비나 깊이 같은 아키텍처 세부 사항은 넓은 범위 내에서 미미한 영향을 미칩니다. 이 관계를 통해 고정된 컴퓨팅 예산 내에서 최적의 자원 할당 방법을 결정할 수 있으며, 더 큰 모델이 샘플 효율성이 훨씬 뛰어나다는 결론을 내립니다. 따라서 최적의 컴퓨팅 효율적 학습은 매우 큰 모델을 상대적으로 적은 양의 데이터로 학습시키고, 수렴에 도달하기 전에 학습을 중단하는 것을 포함합니다. 논문 제목: Scaling Laws for Neural Language Models