Scaling
2개의 포스트
PaLM: Pathways를 이용한 언어 모델링 스케일링
PaLM은 5400억 개의 파라미터를 가진 대규모 고밀도 Transformer 언어 모델로, Pathways라는 새로운 ML 시스템을 사용하여 6144개의 TPU v4 칩에서 효율적으로 학습되었습니다. 이 모델은 수백 개의 언어 이해 및 생성 벤치마크에서 최첨단 few-shot 학습 성능을 달성했으며, 특히 chain-of-thought prompting과 결합되었을 때 다단계 추론 작업에서 획기적인 성능을 보여줍니다. 또한 모델 규모가 커짐에 따라 특정 작업에서 성능이 급격히 향상되는 불연속적인 개선(discontinuous improvements) 현상을 나타내며, 이는 대규모 모델에서 새로운 능력이 나타날 수 있음을 시사합니다. 논문 제목: PaLM: Scaling Language Modeling with Pathways
Instruction Finetuning 스케일링을 통한 언어 모델 성능 극대화
이 논문은 Instruction Finetuning을 통해 언어 모델의 성능과 일반화 능력을 향상시키는 방법을 탐구합니다. 특히, (1) finetuning task의 수, (2) 모델의 크기, (3) chain-of-thought (CoT) 데이터의 포함 여부라는 세 가지 핵심 요소를 확장하는 것에 집중합니다. 연구 결과, 이러한 요소들을 확장한 Instruction Finetuning은 PaLM, T5, U-PaLM과 같은 다양한 모델 클래스와 zero-shot, few-shot, CoT 같은 프롬프팅 방식 전반에 걸쳐 성능을 극적으로 향상시켰습니다. 예를 들어, 1,800개의 task로 instruction-finetuned된 Flan-PaLM 540B 모델은 기존 PaLM 540B 모델의 성능을 크게 뛰어넘었으며, MMLU와 같은 여러 벤치마크에서 최고 수준의 성능을 달성했습니다. 또한, CoT 데이터로 finetuning하는 것이 모델의 추론 능력을 유지하고 향상시키는 데 매우 중요하다는 점을 보여줍니다. 논문 제목: Scaling Instruction-Finetuned Language Models