대규모 언어 모델의 창발적 능력 (Emergent Abilities)

이 논문은 대규모 언어 모델(Large Language Models)의 스케일을 키울 때 예측 가능하게 성능이 향상되는 현상과는 달리, 특정 규모에 도달했을 때 갑자기 나타나는 "창발적 능력(Emergent Abilities)"이라는 예측 불가능한 현상을 다룹니다. 창발적 능력이란 작은 모델에서는 보이지 않다가 일정 임계점을 넘는 큰 모델에서만 발현되는 능력으로, 이는 단순한 성능 외삽(extrapolation)으로는 예측할 수 없습니다. 본 논문은 few-shot prompting, chain-of-thought prompting 등 다양한 태스크에서 이러한 창발적 능력이 어떻게 나타나는지 여러 사례를 통해 보여주며, 모델 스케일링이 가져오는 질적 변화의 중요성을 강조합니다. 논문 제목: Emergent Abilities of Large Language Models

Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).

Emergent Abilities of Large Language Models

Abstract

Language model의 규모를 확장하는 것이 다양한 다운스트림 task에서 성능과 sample efficiency를 예측 가능하게 향상시킨다는 것이 입증되었다. 본 논문은 대신 대규모 language model의 emergent abilities라고 부르는 예측 불가능한 현상에 대해 논의한다. 우리는 작은 모델에서는 나타나지 않지만, 더 큰 모델에서는 나타나는 능력emergent ability로 간주한다. 따라서 emergent ability는 작은 모델의 성능을 단순히 외삽(extrapolate)하는 것만으로는 예측할 수 없다. 이러한 emergent ability의 존재는 추가적인 스케일링이 language model의 능력 범위를 잠재적으로 더욱 확장할 수 있는지에 대한 의문을 제기한다.

1 Introduction

최근 몇 년간 **Language Model(LM)**은 자연어 처리(NLP) 분야에 혁명을 가져왔다. 이제는 LM의 규모를 확장(예: 학습 연산량, 모델 파라미터 수 증가 등)하는 것이 다양한 다운스트림 NLP task에서 더 나은 성능과 sample efficiency를 가져올 수 있음이 잘 알려져 있다 (Devlin et al., 2019; Brown et al., 2020 등). 많은 경우, 규모 확장이 성능에 미치는 영향은 scaling law를 통해 방법론적으로 예측될 수 있다. 예를 들어, cross-entropy loss에 대한 scaling curve는 경험적으로 7단계 이상의 크기(orders of magnitude)에 걸쳐 나타남이 입증되었다 (Kaplan et al., 2020; Hoffmann et al., 2022). 반면, 특정 다운스트림 task의 성능은 직관과 달리 규모 확장에 따라 지속적으로 개선되지 않는 경우도 있으며, 이러한 task는 사전에 예측할 수 없다 (Ganguli et al., 2022).

본 논문에서는 대규모 Language Model의 예측 불가능한 현상인 emergent abilities에 대해 논의할 것이다. Emergence라는 개념은 물리학, 생물학, 컴퓨터 과학과 같은 분야에서 오랫동안 논의되어 왔다 (Anderson, 1972; Hwang et al., 2012; Forrest, 1990; Corradini & O'Connor, 2010; Harper & Lewis, 2012 등). 우리는 노벨 물리학상 수상자인 Philip Anderson의 1972년 에세이 "More Is Different" (Anderson, 1972)에 뿌리를 두고 Steinhardt (2022)에서 각색한 다음의 일반적인 emergence 정의를 고려할 것이다:

Emergence시스템의 양적 변화가 행동의 질적 변화를 초래할 때 발생한다.

여기서 우리는 학습 연산량과 모델 파라미터 수로 측정되는 모델 규모에 따른 emergence를 탐구할 것이다. 구체적으로, 우리는 대규모 Language Model의 emergent abilities소규모 모델에서는 나타나지 않지만 대규모 모델에서는 나타나는 능력으로 정의한다. 따라서 이러한 능력은 소규모 모델의 성능 향상을 단순히 외삽(extrapolate)하는 것만으로는 예측할 수 없다 (§2). 우리는 다양한 선행 연구에서 관찰된 emergent abilities를 조사하고, 이를 few-shot prompting (§3) 및 augmented prompting 전략 (§4)과 같은 설정으로 분류한다. Emergence는 이러한 능력이 왜 습득되는지, 그리고 더 많은 규모 확장이 추가적인 emergent abilities로 이어질지에 대한 미래 연구를 촉진하며, 우리는 이를 이 분야의 중요한 질문으로 강조한다 (§5).

2 Emergent Abilities Definition

광범위한 개념으로서 emergence는 종종 비공식적으로 사용되며 여러 가지 방식으로 합리적으로 해석될 수 있다. 본 논문에서는 대규모 언어 모델의 emergent abilities에 대한 집중적인 정의를 고려할 것이다:

어떤 능력이 더 작은 모델에서는 나타나지 않지만 더 큰 모델에서는 나타난다면, 그 능력은 emergent하다.

Emergent abilities는 소규모 모델에서 scaling law (즉, 일관된 성능 향상)를 외삽하여 직접적으로 예측할 수 없었을 것이다. scaling curve (x축: 모델 규모, y축: 성능)로 시각화했을 때, emergent abilities는 명확한 패턴을 보인다. 즉, 특정 임계 규모에 도달할 때까지 성능은 거의 무작위 수준에 머물다가, 그 이후에는 성능이 무작위 수준을 훨씬 상회할 정도로 급격히 증가한다. 이러한 질적인 변화는 **상전이(phase transition)**라고도 알려져 있으며, 이는 소규모 시스템을 검토해서는 예측할 수 없었던 전체적인 행동의 극적인 변화를 의미한다 (Huberman & Hogg, 1987).

오늘날의 언어 모델은 주로 세 가지 요인에 따라 확장되어 왔다: 연산량, 모델 파라미터 수, 학습 데이터셋 크기 (Kaplan et al., 2020; Hoffmann et al., 2022). 본 논문에서는 각 모델의 학습 연산량(FLOPs)을 x축으로 하여 scaling curve를 분석할 것이다 (Hoffmann et al., 2022). 더 많은 연산량으로 학습된 언어 모델은 더 많은 파라미터를 가지는 경향이 있으므로, Appendix D에서는 모델 파라미터 수를 x축으로 하는 그래프도 추가로 보여준다 (Figure 11 및 Figure 12, 그리고 Figure 4 및 Figure 10 참조). 학습 FLOPs 또는 모델 파라미터 수를 x축으로 사용하면 유사한 형태의 곡선이 생성되는데, 이는 대부분의 dense Transformer 언어 모델 계열이 학습 연산량을 모델 파라미터 수에 대략적으로 비례하여 확장했기 때문이다 (Kaplan et al., 2020).

학습 데이터셋 크기 또한 중요한 요인이지만, 많은 언어 모델 계열이 모든 모델 크기에 대해 고정된 수의 학습 예시를 사용하기 때문에 (Brown et al., 2020; Rae et al., 2021; Chowdhery et al., 2022) 이에 대한 능력 그래프는 그리지 않는다. 비록 여기서는 학습 연산량과 모델 크기에 초점을 맞추지만, 규모의 모든 측면을 적절하게 포착하는 단일 프록시는 없다. 예를 들어, Chinchilla (Hoffmann et al., 2022)는 Gopher (Rae et al., 2021)보다 파라미터 수가 1/4에 불과하지만 유사한 학습 연산량을 사용한다. 또한, sparse mixture-of-expert 모델은 dense 모델보다 학습/추론 연산량당 더 많은 파라미터를 가진다 (Fedus et al., 2021; Du et al., 2021). 전반적으로, emergence를 여러 상관 변수의 함수로 보는 것이 현명할 수 있다. 예를 들어, Figure 4에서는 WikiText103 perplexity (Merity et al., 2016)의 함수로서 emergence를 그릴 것인데, 이는 Gopher/Chinchilla의 학습 연산량과 밀접하게 상관관계가 있다 (비록 이 상관관계가 장기적으로는 유지되지 않을 수 있지만).

어떤 능력이 처음으로 emerge하는 것으로 관찰되는 규모는 여러 요인에 따라 달라지며, 그 능력의 불변하는 속성은 아니다. 예를 들어, 더 높은 품질의 데이터로 학습된 모델의 경우, 더 적은 학습 연산량이나 더 적은 모델 파라미터로도 emergence가 발생할 수 있다. 반대로, emergent abilities데이터 양, 품질, 모델의 파라미터 수에 의해 제한되지 않는 등 다른 요인에도 결정적으로 의존한다. 오늘날의 언어 모델은 최적으로 학습되지 않았을 가능성이 높으며 (Hoffmann et al., 2022), 모델을 가장 잘 학습시키는 방법에 대한 우리의 이해는 시간이 지남에 따라 발전할 것이다. 본 논문의 목표는 emergent abilities를 관찰하는 데 특정 규모가 필요하다고 특성화하거나 주장하는 것이 아니라, 오히려 이전 연구에서 나타난 emergent behavior의 예시들을 논의하는 것이다.

3 Few-Shot Prompted Tasks

우리는 먼저 GPT-3 (Brown et al., 2020)에 의해 대중화된 prompting 패러다임에서의 emergent abilities에 대해 논의한다. prompting에서 사전학습된 language model은 task에 대한 prompt (예: 자연어 지시)를 받고, 추가적인 학습이나 파라미터에 대한 gradient 업데이트 없이 응답을 완료한다. Brown et al. (2020)은 few-shot prompting을 제안했는데, 이는 모델이 미지의 추론 시점 예시에 대해 task를 수행하도록 요청하기 전에, 몇 개의 입력-출력 예시를 모델의 context (입력)에 서문으로 포함하는 방식이다. Figure 1에 prompt 예시가 나와 있다.

Figure 1: few-shot prompting의 입력 및 출력 예시.

few-shot prompting을 통해 task를 수행하는 능력은 모델이 특정 규모에 도달할 때까지는 무작위 성능을 보이다가, 그 이후 성능이 무작위 수준을 훨씬 뛰어넘어 증가할 때 emergent하다고 말한다. Figure 2는 다양한 연구에서 나온 다섯 가지 language model 계열에 걸쳐 나타나는 여덟 가지 emergent abilities를 보여준다.

BIG-Bench. Figure 2A-D는 BIG-Bench에서 나온 네 가지 emergent few-shot prompted task를 보여준다. BIG-Bench는 language model 평가를 위한 200개 이상의 벤치마크로 구성된 크라우드 소싱 스위트이다 (BIG-Bench, 2022). Figure 2A는 3자리 덧셈과 뺄셈, 그리고 2자리 곱셈을 테스트하는 산술 벤치마크를 보여준다. GPT-3와 LaMDA (Thoppilan et al., 2022)는 수십 자릿수의 학습 연산량에 대해 거의 0에 가까운 성능을 보이다가, GPT-3의 경우 210222 \cdot 10^{22} training FLOPs (13B 파라미터)에서, LaMDA의 경우 102310^{23} training FLOPs (68B 파라미터)에서 성능이 무작위 수준을 훨씬 뛰어넘어 급격히 상승한다. 유사한 emergent 행동은 **국제 음성 기호(International Phonetic Alphabet)에서 음역하기 (Figure 2B), 스크램블된 글자에서 단어 복구하기 (Figure 2C), 페르시아어 질문-답변 (Figure 2D)**와 같은 다른 task에서도 거의 동일한 모델 규모에서 발생한다. BIG-Bench에서 나온 더 많은 emergent abilities는 Appendix E에 제시되어 있다.

TruthfulQA. Figure 2E는 TruthfulQA 벤치마크에서의 few-shot prompted 성능을 보여주는데, 이는 질문에 진실되게 답변하는 능력을 측정한다 (Lin et al., 2021). 이 벤치마크는 GPT-3 모델에 대해 적대적으로 큐레이션되었으며, GPT-3는 가장 큰 모델 규모로 확장되어도 무작위 성능 이상을 보이지 못한다. 작은 Gopher 모델 또한 510235 \cdot 10^{23} training FLOPs (280B 파라미터)의 가장 큰 모델로 확장될 때까지 무작위 성능 이상을 보이지 못하다가, 이 시점에서 성능이 무작위 수준보다 20% 이상 급증한다 (Rae et al., 2021).

Grounded conceptual mappings. Figure 2F는 grounded conceptual mappings task를 보여주는데, 여기서 language model은 텍스트 그리드 세계(textual grid world)에 표현된 방위와 같은 개념적 도메인을 매핑하는 방법을 학습해야 한다 (Patel & Pavlick, 2022). 다시 한번, 가장 큰 GPT-3 모델을 사용해야만 성능이 무작위 수준 이상으로 급증한다.

Multi-task language understanding. Figure 2G는 Massive Multi-task Language Understanding (MMLU) 벤치마크를 보여주는데, 이는 수학, 역사, 법률 등을 포함한 다양한 주제를 다루는 57개의 테스트를 통합한다 (Hendrycks et al., 2021a). GPT-3, Gopher, Chinchilla의 경우, 1022\sim 10^{22} training FLOPs (10\sim 10B 파라미터) 이하의 모델은 모든 주제에 걸쳐 평균적으로 추측하는 것보다 나은 성능을 보이지 못하다가, 3510233-5 \cdot 10^{23} training FLOPs (70B-280B 파라미터)로 확장되면 성능이 무작위 수준을 상당히 초과한다. 이 결과는 방대한 주제에 걸친 지식 기반 질문을 해결하는 능력이 이 임계값을 넘어서는 규모 확장(검색 또는 외부 메모리 접근이 없는 dense language model의 경우)을 요구할 수 있음을 시사할 수 있기 때문에 놀랍다.

Figure 2: few-shot prompting 설정에서 나타나는 emergent 현상의 여덟 가지 예시. 각 점은 별개의 모델을 나타낸다. few-shot prompting을 통해 task를 수행하는 능력은 language model이 특정 규모에 도달할 때까지는 무작위 성능을 보이다가, 그 이후 성능이 무작위 수준을 훨씬 뛰어넘어 크게 증가할 때 emergent하다고 말한다. 더 많은 학습 연산량을 사용한 모델은 일반적으로 더 많은 파라미터를 가지고 있음에 유의하라. 따라서 Figure 11에서는 xx-축을 training FLOPs 대신 모델 파라미터 수로 대체한 유사한 그림을 보여준다. A-D: BIG-Bench (2022), 2-shot. E: Lin et al. (2021) 및 Rae et al. (2021). F: Patel & Pavlick (2022). G: Hendrycks et al. (2021a), Rae et al. (2021) 및 Hoffmann et al. (2022). H: Brown et al. (2020), Hoffmann et al. (2022) 및 Chowdhery et al. (2022)의 WiC 벤치마크 (Pilehvar & Camacho-Collados, 2019) 결과.

Word in Context. 마지막으로, Figure 2H는 Word in Context (WiC) 벤치마크 (Pilehvar & Camacho-Collados, 2019)를 보여주는데, 이는 의미 이해 벤치마크이다. 특히 GPT-3와 Chinchilla는 51023\sim 5 \cdot 10^{23} FLOPs의 가장 큰 모델 규모로 확장되어도 무작위보다 나은 one-shot 성능을 달성하지 못한다. 비록 이러한 결과들이 규모 확장만으로는 모델이 WiC를 해결할 수 없음을 시사할 수 있지만, PaLM이 GPT-3와 Chinchilla보다 훨씬 큰 2.510242.5 \cdot 10^{24} FLOPs (540B 파라미터)로 확장되었을 때 결국 무작위 이상의 성능이 emergent하게 나타났다.

4 Augmented Prompting Strategies

few-shot prompting이 현재 대규모 language model과 상호작용하는 가장 일반적인 방법일지라도, 최근 연구에서는 language model의 능력을 더욱 향상시키기 위한 여러 다른 prompting 및 fine-tuning 전략을 제안했다. 특정 기술이 충분히 큰 규모의 모델에 적용되기 전까지는, 해당 기술을 사용하지 않은 baseline과 비교했을 때 개선 효과가 없거나 오히려 해롭다면, 우리는 그 기술 또한 emergent ability로 간주한다.

Figure 3: Specialized prompting 또는 fine-tuning 방법은 특정 모델 규모에 도달하기 전까지는 긍정적인 효과를 보이지 않는다는 점에서 emergent할 수 있다. A: Wei et al. (2022b). B: Wei et al. (2022a). C: Nye et al. (2021). D: Kadavath et al. (2022). 훈련 FLOPs 대신 xx-축에 파라미터 수를 나타낸 유사한 그림은 Figure 12에 제시되어 있다. A-C에 나타난 모델은 LaMDA (Thoppilan et al., 2022)이며, D에 나타난 모델은 Anthropic의 모델이다.

Multi-step reasoning. 추론 task, 특히 여러 단계를 포함하는 task는 language model과 더 넓게는 NLP 모델에게 도전적인 과제였다 (Rae et al., 2021; Bommasani et al., 2021; Nye et al., 2021). chain-of-thought prompting이라는 최근의 prompting 전략은 language model이 최종 답변을 제공하기 전에 일련의 중간 단계를 생성하도록 유도함으로써 이러한 문제를 해결할 수 있게 한다 (Cobbe et al., 2021; Wei et al., 2022b; Suzgun et al., 2022). Figure 3A에서 볼 수 있듯이, chain-of-thought prompting102310^{23} training FLOPs (약 100B 파라미터) 규모로 확장되었을 때에만 중간 단계가 없는 표준 prompting을 능가한다. 최종 답변 이후에 설명을 추가하여 few-shot prompting을 강화했을 때도 유사한 성능 향상의 emergent 현상이 관찰되었다 (Lampinen et al., 2022).

Instruction following. 또 다른 연구 방향은 language model이 task를 설명하는 지시(instruction)를 읽는 것만으로 새로운 task를 수행할 수 있도록 하는 데 중점을 둔다 (few-shot 예시 없이). 지시 형태로 표현된 다양한 task의 혼합 데이터로 fine-tuning함으로써, language model은 이전에 본 적 없는 task를 설명하는 지시에 적절하게 반응하는 것으로 나타났다 (Ouyang et al., 2022; Wei et al., 2022a; Sanh et al., 2022; Chung et al., 2022). Figure 3B에서 볼 수 있듯이, Wei et al. (2022a)는 이러한 instruction-finetuning 기술710217 \cdot 10^{21} training FLOPs (약 8B 파라미터) 이하의 모델에서는 성능을 저하시키고, 102310^{23} training FLOPs (약 100B 파라미터) 규모로 확장되었을 때에만 성능을 향상시킨다는 것을 발견했다 (하지만 Sanh et al. (2022)은 얼마 지나지 않아 이러한 instruction-following 행동이 더 작은 encoder-decoder T5 모델을 fine-tuning함으로써도 유도될 수 있음을 발견했다).

Program execution. 큰 숫자 더하기나 컴퓨터 프로그램 실행과 같이 여러 단계를 포함하는 계산 task를 고려해보자. Nye et al. (2021)은 language model을 중간 출력("scratchpad")을 예측하도록 fine-tuning하면 이러한 다단계 계산을 성공적으로 수행할 수 있음을 보여준다. Figure 3C에서 볼 수 있듯이, 8자리 덧셈에서 scratchpad 사용은 약 910199 \cdot 10^{19} training FLOPs (약 40M 파라미터) 이상의 모델에서만 도움이 된다.

Model calibration. 마지막으로, language model 배포를 위한 중요한 연구 방향은 calibration이다. 이는 모델이 어떤 질문에 올바르게 답변할 수 있을지 예측하는 능력을 측정한다. Kadavath et al. (2022)은 calibration을 측정하는 두 가지 방법을 비교했다: 모델이 먼저 답변을 제안한 다음, 그 답변이 정확할 "P(True)" 확률을 평가하는 True/False 기법과, 다른 답변 옵션과 비교하여 정답의 확률을 사용하는 더 표준적인 calibration 방법이다. Figure 3D에서 볼 수 있듯이, True/False 기법의 우수성은 약 310233 \cdot 10^{23} training FLOPs (52B 파라미터)의 가장 큰 모델 규모로 확장되었을 때에만 emergent하게 나타난다.

Table 1: 대규모 language model의 emergent abilities 목록과 해당 능력이 나타나는 규모 (훈련 FLOPs 및 모델 파라미터 수).

Emergent scaleModelReference
Train. FLOPsParams.
Few-shot prompting abilities
- Addition/subtraction (3 digit)2.3E+222.3 \mathrm{E}+2213 BGPT-3Brown et al. (2020)
- Addition/subtraction (4-5 digit)3.1E+233.1 \mathrm{E}+23175 B
- MMLU Benchmark (57 topic avg.)3.1E+233.1 \mathrm{E}+23175 BGPT-3Hendrycks et al. (2021a)
- Toxicity classification (CivilComments)1.3E+221.3 \mathrm{E}+227.1 BGopherRae et al. (2021)
- Truthfulness (Truthful QA)5.0E+235.0 \mathrm{E}+23280 B
- MMLU Benchmark (26 topics)5.0E+235.0 \mathrm{E}+23280 B
- Grounded conceptual mappings3.1E+233.1 \mathrm{E}+23175 BGPT-3Patel & Pavlick (2022)
- MMLU Benchmark (30 topics)5.0E+235.0 \mathrm{E}+2370 BChinchillaHoffmann et al. (2022)
- Word in Context (WiC) benchmark2.5E+242.5 \mathrm{E}+24540 BPaLMChowdhery et al. (2022)
- Many BIG-Bench tasks (see Appendix E)ManyManyManyBIG-Bench (2022)
Augmented prompting abilities
- Instruction following (finetuning)1.3E+231.3 \mathrm{E}+2368 BFLANWei et al. (2022a)
- Scratchpad: 8 -digit addition (finetuning)8.9E+1940 MLaMDANye et al. (2021)
- Using open-book knowledge for fact checking1.3E+221.3 \mathrm{E}+227.1 BGopherRae et al. (2021)
- Chain-of-thought: Math word problems1.3E+231.3 \mathrm{E}+2368BLaMDAWei et al. (2022b)
- Chain-of-thought: StrategyQA2.9E+232.9 \mathrm{E}+2362BPaLMChowdhery et al. (2022)
- Differentiable search index3.3E+223.3 \mathrm{E}+2211 BT5Tay et al. (2022b)
- Self-consistency decoding1.3E+231.3 \mathrm{E}+2368 BLaMDAWang et al. (2022b)
- Leveraging explanations in prompting5.0E+235.0 \mathrm{E}+23280 BGopherLampinen et al. (2022)
- Least-to-most prompting3.1E+233.1 \mathrm{E}+23175 BGPT-3Zhou et al. (2022)
- Zero-shot chain-of-thought reasoning3.1E+233.1 \mathrm{E}+23175 BGPT-3Kojima et al. (2022)
- Calibration via P(True)2.6E+232.6 \mathrm{E}+2352BAnthropicKadavath et al. (2022)
- Multilingual chain-of-thought reasoning2.9E+232.9 \mathrm{E}+2362BPaLMShi et al. (2022)
- Ask me anything prompting1.4E+221.4 \mathrm{E}+226 BEleutherAIArora et al. (2022)

5 Discussion

우리는 few-shot prompting 설정에서든 아니든, 충분히 큰 language model에서 평가했을 때만 관찰되는 다양한 능력들을 보아왔다. 따라서 이러한 능력의 출현은 소규모 모델의 성능을 단순히 외삽(extrapolate)하는 것만으로는 예측할 수 없다.
Emergent few-shot prompted task는 또한 사전학습에 명시적으로 포함되지 않았다는 점에서 예측 불가능하며, 우리는 language model이 수행할 수 있는 few-shot prompted task의 전체 범위를 알지 못할 가능성이 높다. 이는 추가적인 스케일링이 훨씬 더 큰 language model에 새로운 emergent ability를 부여할 수 있는지에 대한 질문을 제기한다.
현재 language model이 수행할 수 없는 task들은 미래에 emergent ability로 나타날 주요 후보이다. 예를 들어, BIG-Bench에는 가장 큰 GPT-3 및 PaLM 모델조차도 무작위 성능 이상을 달성하지 못하는 수십 개의 task가 있다 (Appendix E.4 참조).

스케일이 예측 불가능하게 새로운 기술을 가능하게 하는 능력은 단지 이론적인 것이 아니다. Figure 2H에 나타난 Word in Context (WiC) 벤치마크 (Pilehvar & Camacho-Collados, 2019)를 역사적인 예시로 살펴보자. 여기서 GPT-3를 약 310233 \cdot 10^{23} training FLOPs (175B 파라미터)로 스케일링했을 때도 무작위 성능 이상의 one-shot prompting 성능을 달성하지 못했다.
이러한 부정적인 결과에 대해 Brown et al. (2020)은 GPT-3의 모델 아키텍처 또는 autoregressive language modeling objective 사용 (denoising training objective 대신)을 잠재적인 이유로 들었으며, 양방향 아키텍처를 가진 유사한 크기의 모델을 학습시키는 것을 해결책으로 제안했다. 그러나 이후 연구에서는 decoder-only language model을 추가로 스케일링하는 것만으로도 이 task에서 무작위 성능 이상의 성능을 달성하기에 충분하다는 것을 발견했다.
Figure 2H에 나타난 바와 같이, PaLM (Chowdhery et al., 2022)을 310233 \cdot 10^{23} training FLOPs (62B 파라미터)에서 310243 \cdot 10^{24} training FLOPs (540B 파라미터)로 스케일링했을 때, Brown et al. (2020)이 제안한 중대한 아키텍처 변경 없이도 성능이 크게 향상되었다.

5.1 Potential explanations of emergence

수십 가지의 emergent abilities 사례가 있음에도 불구하고, 현재까지는 왜 그러한 능력들이 특정 방식으로 나타나는지에 대한 설득력 있는 설명은 거의 없다. 특정 task의 경우, 왜 emergence가 특정 임계값 이상의 모델 규모를 요구하는지에 대한 자연스러운 직관이 있을 수 있다. 예를 들어, 다단계 추론 task가 ll 단계의 순차적 연산을 요구한다면, 이는 최소 O(l)O(l) layer 깊이를 가진 모델을 필요로 할 수 있다. 또한, 더 많은 파라미터와 더 많은 학습이 세계 지식(world knowledge)을 요구하는 task에 도움이 될 수 있는 더 나은 기억력(memorization)을 가능하게 한다고 가정하는 것도 합리적이다. 예를 들어, closed-book question-answering에서 좋은 성능을 내려면 압축된 지식 베이스 자체를 포착할 수 있을 만큼 충분한 파라미터를 가진 모델이 필요할 수 있다 (비록 language model 기반 압축기가 기존 압축기보다 더 높은 압축률을 가질 수 있지만 (Bellard, 2021)).

emergent abilities를 측정하는 데 사용되는 평가 지표(evaluation metrics)를 고려하는 것도 중요하다 (BIG-Bench, 2022). 예를 들어, 긴 시퀀스 타겟에 대해 exact string match를 평가 지표로 사용하면, 점진적인 개선이 누적되어 emergence처럼 보일 수 있다. 유사한 논리가 다단계 또는 산술 추론 문제에도 적용될 수 있는데, 이 경우 모델은 다단계 문제의 최종 답을 맞혔는지 여부만으로 점수가 매겨지며, 부분적으로 올바른 해결책에 대해서는 어떠한 점수도 주어지지 않는다. 그러나 최종 답 정확도의 급격한 상승이 왜 중간 단계의 품질이 갑자기 무작위 수준 이상으로 나타나는지를 설명하지 못하며, 부분 점수를 주지 않는 평가 지표는 기껏해야 불완전한 설명일 뿐이다. 왜냐하면 emergent abilities는 여전히 많은 분류 task에서도 관찰되기 때문이다 (예: Figure 2D-H의 task들).

대안적인 평가 방법으로, 우리는 사전학습(pre-training)을 위한 scaling law에서 사용되는 cross-entropy loss를 Appendix A에 자세히 설명된 대로 6개의 emergent BIG-Bench task에 대해 측정한다. 이 분석은 BIG-Bench (2022)와 동일한 실험 설정을 따르며, 우리가 고려하는 6개의 emergent task에 대한 그들의 결론을 확인시켜준다. 즉, cross-entropy loss는 downstream metrics (exact match, BLEU, accuracy)가 무작위 수준에 가깝고 개선되지 않는 작은 모델 규모에서도 향상된다. 이는 타겟 시퀀스의 log-likelihood 개선이 이러한 downstream metrics에 의해 가려질 수 있음을 보여준다. 그러나 이 분석은 왜 downstream metrics가 emergent한지 설명하지 못하며, emergence가 발생하는 규모를 예측할 수 있게 해주지도 않는다. 전반적으로, 규모가 emergent abilities를 발현시키는 원인을 밝히기 위해서는 더 많은 연구가 필요하다.

5.2 Beyond scaling

특정 규모에서 emergent ability가 나타나는 것을 관찰할 수 있지만, 이러한 능력이 나중에 더 작은 규모에서도 달성될 가능성이 있다. 즉, 모델 규모만이 emergent ability를 발현시키는 유일한 요인은 아니다. 대규모 language model 훈련 과학이 발전함에 따라, 새로운 아키텍처, 더 높은 품질의 데이터, 또는 개선된 훈련 절차를 통해 더 작은 모델에서도 특정 능력이 발현될 수 있다. 예를 들어, LaMDA 137BGPT-3 175B 모델이 거의 무작위 성능을 보이는 14개의 BIG-Bench task에서, PaLM 62B더 적은 모델 파라미터와 훈련 FLOPs에도 불구하고 무작위보다 높은 성능을 달성한다. PaLM 62B와 이전 모델들 간의 모든 차이점을 ablation하는 실증 연구는 없지만 (계산 비용이 너무 높을 것임), PaLM의 더 나은 성능에 대한 잠재적인 이유는 **고품질 훈련 데이터 (예: LaMDA보다 더 많은 다국어 및 코드 데이터)**와 **아키텍처 차이 (예: split digit-encodings; Chowdhery et al. (2022)의 Section 2 참조)**를 포함할 수 있다. Emergence를 발현시키는 또 다른 잠재적인 방법은 다른 pre-training objective를 통해서이다. Tay et al. (2022c)에서는 mixture-of-denoisers objective (Tay et al., 2022a)에 대한 계산 효율적인 continued pre-training 단계가 여러 BIG-Bench task에서 emergent 성능을 가능하게 했음을 보여주었다.

더욱이, 일단 어떤 능력이 발견되면, 추가 연구를 통해 더 작은 규모의 모델에서도 그 능력을 활용할 수 있게 될 수 있다. task를 설명하는 자연어 지시를 따르도록 language model을 활성화하는 초기 방향을 고려해보자 (Wei et al., 2022a; Sanh et al., 2022; Ouyang et al., 2022 등). Wei et al. (2022a)은 처음에 instruction-based finetuning68B 파라미터 이상의 decoder-only 모델에서만 작동한다는 것을 발견했지만, Sanh et al. (2022)은 encoder-decoder 아키텍처를 가진 11B 모델에서 유사한 동작을 유도했다. encoder-decoder 아키텍처는 일반적으로 decoder-only 아키텍처보다 fine-tuning 후 더 높은 성능을 보인다 (Wang et al., 2022a). 또 다른 예로, Ouyang et al. (2022)은 InstructGPT 모델에 대해 fine-tuning과 인간 피드백 기반 강화 학습(reinforcement learning from human feedback) 접근 방식을 제안했으며, 이를 통해 1.3B 모델이 훨씬 더 큰 모델들을 광범위한 사용 사례에서 인간 평가자 평가에서 능가할 수 있었다.

또한 language model의 일반적인 few-shot prompting 능력을 향상시키기 위한 연구도 진행되어 왔다 (Gao et al., 2021; Schick & Schütze, 2021 등). language modeling objective가 특정 다운스트림 동작을 촉진하는 이유에 대한 이론적 및 해석 가능성 연구 (Wei et al., 2021a; Saunshi et al., 2021)는 단순히 규모를 확장하는 것을 넘어 emergence를 가능하게 하는 방법에 대한 함의를 가질 수 있다. 예를 들어, **pre-training 데이터의 특정 특징 (예: 장거리 일관성, 많은 희귀 클래스 보유)**은 emergent few-shot prompting과 상관관계가 있는 것으로 나타났으며, 잠재적으로 더 작은 모델에서도 이를 가능하게 할 수 있다 (Xie et al., 2022; Chan et al., 2022). 또한 few-shot learning은 일부 시나리오에서 특정 모델 아키텍처를 요구할 수 있다 (Chan et al., 2022). 계산 언어학 연구모델 파라미터와 훈련 FLOPs가 일정하게 유지될 때 훈련 데이터의 임계 빈도가 emergent syntactic rule-learning을 어떻게 활성화할 수 있는지 보여주었으며 (Wei et al., 2021b), 이는 심리 언어학 문헌의 "아하" 순간과 유사한 놀라운 순간을 보여주기도 했다 (Abend et al., 2017; Zhang et al., 2021). 우리가 language model을 계속 훈련함에 따라, emergent ability에 대한 규모 임계값을 낮추는 것은 이러한 능력에 대한 연구를 커뮤니티에 더 광범위하게 제공하는 데 더욱 중요해질 것이다 (Bommasani et al., 2021; Ganguli et al., 2022; Liang et al., 2022).

물론, 규모 증가 (훈련 연산량, 모델 파라미터, 데이터셋 크기)만으로 구성된 프로그램에는 한계가 있다. 예를 들어, 규모 확장은 결국 하드웨어 제약에 의해 병목 현상을 겪을 수 있으며, 이 시점에서는 일부 능력이 아직 발현되지 않을 수도 있다. 다른 능력은 결코 발현되지 않을 수도 있다. 예를 들어, 아주 큰 훈련 데이터셋의 분포에서 크게 벗어난 task는 어떤 중요한 성능도 달성하지 못할 수 있다. 마지막으로, 능력이 발현된 후 정체될 수 있다. 즉, 규모 확장이 능력을 원하는 수준으로 끌어올릴 것이라는 보장은 없다.

5.3 Another view of emergence

지금까지 **scale (예: 학습 FLOPs 또는 모델 파라미터 수)**은 많은 다운스트림 metric에서 언어 모델의 성능과 높은 상관관계를 보여왔지만, scale만이 emergent abilities를 바라보는 유일한 렌즈일 필요는 없다. 예를 들어, **task-specific 능력의 출현(emergence)**은 WikiText103 (Merity et al., 2016)과 같은 일반 텍스트 코퍼스에 대한 언어 모델의 perplexity 함수로 분석될 수 있다. Figure 4는 이러한 분석을 보여주는 그래프로, xx-축에는 언어 모델의 WikiText103 perplexity를, yy-축에는 MMLU 벤치마크 성능을 나타내며, 학습 FLOPs 및 모델 파라미터 수를 xx-축으로 하는 그래프와 나란히 배치되어 있다.

여기서 고려된 모델들(Gopher 및 Chinchilla)의 경우, WikiText103 perplexity와 학습 FLOPs가 우연히 높은 상관관계를 보였기 때문에, emergent abilities 그래프는 두 경우 모두 유사하게 나타난다. 그러나 vanilla dense Transformer 모델을 넘어서는 새로운 기술들(예: retrieval-augmented 모델은 더 적은 학습 연산량과 더 적은 모델 파라미터로도 강력한 WikiText103 perplexity를 가질 수 있음 (Borgeaud et al., 2021))이 개발됨에 따라, WikiText103 perplexity와 scale 간의 이러한 상관관계는 미래에는 유지되지 않을 수 있다. 또한, 학습 데이터 구성의 차이와 같은 요인들로 인해 WikiText103 perplexity를 사용하여 모델 계열 간을 비교하는 것은 복잡할 수 있다는 점에 유의해야 한다. 결론적으로, emergent abilities는 여러 상관관계가 있는 변수들의 함수로 간주되어야 할 것이다.

5.4 Emergent risks

중요하게도, 사전학습에 명시적으로 포함되지 않았음에도 few-shot prompting 설정에서 emergent abilities가 관찰된 것과 유사하게, 위험 또한 emergent하게 나타날 수 있다 (Bommasani et al., 2021; Steinhardt, 2021; Ganguli et al., 2022). 예를 들어, 대형 언어 모델의 사회적 위험진실성(truthfulness), 편향(bias), 유해성(toxicity) 등은 연구가 활발히 진행되고 있는 분야이다 (Weidinger et al., 2021). 이러한 위험들은 §2의 정의에 따라 "emergent"로 정확히 특징지을 수 있는지 여부와 관계없이 중요한 고려 사항이며, 일부 시나리오에서는 모델 규모가 커질수록 증가하기도 한다 (Inverse Scaling Prize 참조). emergent abilities에 대한 연구가 언어 모델의 스케일링을 장려하는 만큼, emergent하지 않더라도 모델 규모가 커질수록 증가하는 위험에 대해 인지하는 것이 중요하다.

Figure 4: 상단: Chinchilla와 Gopher 모델의 학습 FLOPs, 모델 파라미터 수, 그리고 WikiText103 (Merity et al., 2016)에서의 perplexity (ppl) 간의 관계. 하단: 학습 FLOPs, 모델 파라미터 수, WikiText103 perplexity의 함수로서 massively multi-task language understanding 벤치마크 (MMLU; Hendrycks et al., 2021a)에서의 전반적인 성능.

여기서는 특정 사회적 위험과 모델 규모 간의 관계에 대한 몇 가지 기존 연구 결과를 요약한다. WinoGender (Rudinger et al., 2017) 벤치마크는 "간호사" 또는 "전기공"과 같은 직업에서의 성별 편향을 측정하는데, 지금까지는 스케일링이 성능을 향상시켰다 (Du et al., 2021; Chowdhery et al., 2022). 그러나 BIG-Bench (2022)의 BBQ bias 벤치마크 (Parrish et al., 2022)에서는 모호한 맥락(ambiguous contexts)에서 편향이 스케일링과 함께 증가할 수 있음을 발견했다. **유해성(toxicity)**에 관해서는, Askell et al. (2021)이 더 큰 언어 모델이 RealToxicityPrompts 데이터셋 (Gehman et al., 2020)에서 더 유해한 응답을 생성할 수 있음을 발견했지만, 모델에 "도움이 되고, 해롭지 않으며, 정직한" 예시를 포함한 prompt를 제공함으로써 이러한 행동을 완화할 수 있음을 보여주었다. 언어 모델에서 학습 데이터를 추출하는 문제에 있어서는, 더 큰 모델이 학습 데이터를 암기할 가능성이 더 높음이 밝혀졌다 (Carlini et al., 2021; 2022). 하지만 중복 제거(deduplication) 방법이 제안되었고, 이는 암기(memorization)를 줄이면서 동시에 성능을 향상시킬 수 있다 (Kandpal et al., 2022; Lee et al., 2022a). TruthfulQA 벤치마크 (Lin et al., 2021)는 GPT-3 모델이 커질수록 인간의 거짓말을 모방할 가능성이 더 높음을 보여주었지만, Rae et al. (2021)은 이후 multiple-choice 버전에서 Gopher를 280B로 스케일링했을 때 무작위보다 훨씬 뛰어난 emergent 성능을 달성할 수 있음을 보여주었다.

위에서 언급된 것 외에도, emergent risks에는 미래의 언어 모델에서만 존재할 수 있거나 현재 언어 모델에서는 아직 특징지어지지 않은 현상들도 포함된다. Hendrycks et al. (2021b)에서 자세히 논의된 바와 같이, 이러한 행동 중 일부는 백도어 취약점(backdoor vulnerabilities), 의도치 않은 기만(inadvertent deception), 또는 유해 콘텐츠 합성(harmful content synthesis) 등이 될 수 있다. 데이터 필터링, 예측(forecasting), 거버넌스, 유해 행동 자동 발견과 같은 접근 방식들이 emergent risks를 발견하고 완화하기 위해 제안되어 왔다 (Bender et al., 2021; Weidinger et al., 2021; Steinhardt, 2021; Ganguli et al., 2022; Perez et al., 2022, inter alia). emergent risks를 포함한 대형 언어 모델의 위험에 대한 더 자세한 논의는 Bender et al. (2021); Steinhardt (2021); Bommasani et al. (2021); Ganguli et al. (2022)를 참조하라.

5.5 Sociological changes

마지막으로, 여기서 논의된 emergent abilities모델의 행동에 초점을 맞추며, NLP에서 나타나는 여러 유형의 emergence 중 하나일 뿐이다 (Manning et al., 2020; Teehan et al., 2022). 또 다른 주목할 만한 질적 변화는 사회학적(sociological) 변화인데, 이는 모델 규모가 커지면서 커뮤니티가 언어 모델을 바라보고 사용하는 방식이 변화한 것을 의미한다. 예를 들어, NLP는 역사적으로 task-specific 모델에 중점을 두었다 (Jurafsky & Martin, 2009). 최근에는 scaling이 이루어지면서, 학습 데이터에 명시적으로 인코딩되지 않은 다양한 task를 수행하는 것을 목표로 하는 "general purpose" 모델(예: GPT-3, Chinchilla, PaLM)에 대한 연구 및 개발이 폭발적으로 증가했다 (Manning, 2022).

general-purpose 모델로의 사회학적 전환에서 나타나는 핵심적인 결과 중 하나는, scaling을 통해 few-shot prompting된 general-purpose 모델이 fine-tuning된 task-specific 모델이 보유했던 기존 state of the art를 능가하는 경우이다. 몇 가지 예시를 들면 다음과 같다:

  • GPT-3 175B는 TriviaQA 및 PiQA 질문-응답 벤치마크에서 새로운 state of the art를 달성했다 (Brown et al., 2020).
  • PaLM 540B는 세 가지 산술 추론 벤치마크에서 새로운 state of the art를 달성했다 (Chowdhery et al., 2022).
  • 멀티모달 Flamingo 80B 모델은 여섯 가지 visual question answering 벤치마크에서 새로운 state of the art를 달성했다 (Alayrac et al., 2022).

이 모든 경우에서, 전례 없는 규모의 언어 모델에 few-shot prompting을 적용하여 state-of-the-art 성능을 달성했다 (이러한 예시들의 scaling curve는 Appendix Figure 13에 제시되어 있다). 이러한 능력들은 매끄럽고 예측 가능한 scaling curve를 가지므로 반드시 emergent하다고 볼 수는 없지만, NLP 커뮤니티에서 general-purpose 모델로의 사회학적 전환이 일어나고 있음을 분명히 보여준다.

general-purpose 모델이 소수의 예시만으로 이전에 보지 못한 task를 수행할 수 있는 능력은 NLP 연구 커뮤니티 외부에서도 언어 모델의 많은 새로운 응용 분야를 이끌어냈다. 예를 들어, 언어 모델은 prompting을 통해 자연어 지시를 로봇이 실행 가능한 동작으로 번역하거나 (Ahn et al., 2022; Huang et al., 2022), 사용자와 상호작용하거나 (Coenen et al., 2021; Wu et al., 2021; 2022a; Lee et al., 2022b), 멀티모달 추론을 촉진하는 데 사용되었다 (Zeng et al., 2022; Alayrac et al., 2022). 대규모 언어 모델은 GitHub CoPilot과 같은 제품이나, OpenAI의 GPT-3 API와 같은 서비스 형태로 실제 세계에 배포되기도 했다.

5.6 Directions for future work

Emergent abilities에 대한 향후 연구는 더욱 강력한 language model을 훈련하는 것과 더불어, language model이 task를 더 잘 수행할 수 있도록 하는 방법을 포함할 수 있다. 몇 가지 잠재적인 연구 방향은 다음과 같다 (이에 국한되지 않음).

모델 스케일링의 추가 확장 (Further model scaling)
지금까지 모델의 스케일을 확장하는 것은 language model의 능력을 향상시키는 것으로 나타났으며, 이는 향후 연구의 직접적인 방향이다. 그러나 단순히 language model의 스케일을 확장하는 것은 계산 비용이 많이 들고 상당한 하드웨어 문제를 해결해야 하므로, 다른 접근 방식들이 대규모 language model의 emergent abilities 발전에 핵심적인 역할을 할 가능성이 높다.

향상된 모델 아키텍처 및 훈련 (Improved model architectures and training)
모델 아키텍처 및 훈련 절차를 개선하면 계산 비용을 완화하면서 emergent abilities를 갖춘 고품질 모델을 구축할 수 있다. 한 가지 방향은 sparse mixture-of-experts 아키텍처를 사용하는 것이다 (Lepikhin et al., 2021; Fedus et al., 2021; Artetxe et al., 2021; Zoph et al., 2022). 이는 입력에 대한 계산 비용을 일정하게 유지하면서 모델의 파라미터 수를 확장한다. 계산 효율성을 높이기 위한 다른 방향으로는 다양한 입력에 대해 가변적인 계산량을 사용하거나 (Graves, 2016; Dehghani et al., 2018), 신경망의 모든 가중치를 통한 역전파보다 더 지역화된 학습 전략을 사용하거나 (Jaderberg et al., 2017), 외부 메모리로 모델을 증강하는 것 등이 있다 (Guu et al., 2020; Borgeaud et al., 2021; Wu et al., 2022b, inter alia). 이러한 초기 단계의 방향들은 이미 많은 환경에서 가능성을 보여주었지만, 아직 널리 채택되지는 않았으며, 이는 추가적인 연구를 필요로 할 것이다.

데이터 스케일링 (Data scaling)
충분히 큰 데이터셋으로 충분히 오래 훈련하는 것은 language model이 구문, 의미 및 기타 세계 지식을 습득하는 능력에 핵심적인 것으로 나타났다 (Zhang et al., 2021; Wei et al., 2021b; Razeghi et al., 2022). 최근 Hoffmann et al. (2022)은 이전 연구 (Kaplan et al., 2020)가 계산 최적 모델을 훈련하는 데 필요한 훈련 데이터의 양을 과소평가했다고 주장하며, 훈련 데이터의 중요성을 강조했다. 모델이 더 오래 훈련될 수 있도록 대규모 데이터셋을 수집하면 고정된 모델 크기 제약 하에서 더 넓은 범위의 emergent abilities를 얻을 수 있을 것이다.

더 나은 prompting 기술 및 이해 (Better techniques for and understanding of prompting)
Few-shot prompting (Brown et al., 2020)은 간단하고 효과적이지만, prompting에 대한 전반적인 개선은 language model의 능력을 더욱 확장할 수 있다. 예를 들어, 출력 확률을 보정하거나 (Zhao et al., 2021; Holtzman et al., 2021) noisy channel을 사용하는 것과 같은 간단한 수정 (Min et al., 2022a)은 다양한 task에서 성능을 향상시켰다. Few-shot exemplars에 중간 단계(intermediate steps)를 추가하는 것 (Reynolds & McDonell, 2021; Nye et al., 2021; Wei et al., 2022b) 또한 Brown et al. (2020)의 표준 prompting 방식으로는 불가능했던 다단계 추론 task를 모델이 수행할 수 있도록 했다. 더욱이, prompting이 성공하는 이유에 대한 더 나은 탐구 (Wei et al., 2021a; Xie et al., 2022; Min et al., 2022b; Olsson et al., 2022)는 더 작은 모델 규모에서 emergent abilities를 이끌어내는 방법에 대한 통찰력을 제공할 수 있다. 모델이 작동하는 이유에 대한 충분한 이해는 일반적으로 few-shot prompting과 같은 기술의 개발 및 대중화보다 뒤처져 있으며, 더 강력한 모델이 시간이 지남에 따라 개발됨에 따라 prompting에 대한 모범 사례도 바뀔 가능성이 높다.

프론티어 task (Frontier tasks)
Language model은 광범위한 task를 수행할 수 있지만, 현재까지 가장 큰 language model조차도 무작위 정확도 이상으로 수행할 수 없는 많은 task가 여전히 존재한다. BIG-Bench의 수십 가지 이러한 task는 Appendix E.4에 열거되어 있으며, 이러한 task는 종종 추상적인 추론을 포함한다 (예: 체스 플레이, 어려운 수학 문제 등). 향후 연구는 이러한 능력이 아직 나타나지 않은 이유와 모델이 이러한 task를 수행할 수 있도록 하는 방법을 잠재적으로 조사할 수 있다. 앞으로 또 다른 성장 방향은 다국어 emergent abilities가 될 수 있다. 다국어 BIG-Bench task에 대한 결과는 모델 규모와 훈련 데이터 모두 emergent abilities에 중요한 역할을 한다는 것을 나타낸다 (예: Figure 2D는 PaLM의 훈련 데이터셋을 사용하고 62B 파라미터로 스케일링하는 것이 페르시아어 질문 응답에 필요하다는 것을 보여준다). 다른 프론티어 task에는 다중 모달리티에서의 prompting이 포함될 수 있다 (Alayrac et al., 2022; Ramesh et al., 2022).

Emergent abilities 이해 (Understanding emergence)
추가적인 emergent abilities를 발현시키는 연구를 넘어, 향후 연구의 미해결 과제는 대규모 language model에서 emergent abilities가 어떻게, 왜 발생하는지이다. 본 논문은 BIG-Bench에서의 cross-entropy loss 스케일링 (Appendix A.1), 생성 task에 대한 다양한 metric (Appendix A.2), 그리고 어떤 유형의 task에서 emergent abilities가 발생하는지 (Appendix A.3 및 Appendix B)에 대한 초기 분석을 수행했다. 이러한 분석은 emergent abilities가 발생하는 이유나 이를 예측하는 방법에 대한 완전한 답변을 제공하지 못했다. 향후 연구는 새로운 방식으로 emergent abilities를 분석할 수 있다 (예: emergent task와 훈련 데이터의 유사성 간의 관계 분석; 여러 구성 하위 task를 요구하는 합성 task를 생성하고 각 하위 task가 규모에 따라 어떻게 개선되고 결합될 때 emergent abilities를 발현하는지 평가). 전반적으로, emergent abilities를 이해하는 것은 미래 모델이 어떤 능력을 가질지 예측할 수 있게 하고, 더 유능한 language model을 훈련하는 방법에 대한 새로운 통찰력을 제공할 수 있기 때문에 중요한 방향이다.

6 Conclusions

우리는 언어 모델의 emergent abilities에 대해 논의했으며, 이는 특정 연산 규모에서만 의미 있는 성능이 관찰되었다. 이러한 emergent abilities는 다양한 언어 모델, task 유형, 실험 시나리오에 걸쳐 나타날 수 있다. 이러한 능력은 언어 모델의 규모를 확장하는 과정에서 최근에 발견된 결과이며, 어떻게 이러한 능력이 발현되는지, 그리고 더 많은 확장이 추가적인 emergent abilities를 가능하게 할 것인지에 대한 질문은 NLP 분야의 중요한 미래 연구 방향이 될 것으로 보인다.

Broader Impact Statement

본 논문에서는 새로운 방법론이나 모델을 제안하지 않고, 기존 문헌의 결과들을 조사하였다. (§5)에서 논의된 바와 같이, emergent abilities는 여러 면에서 예측 불가능하며, emergent risks(§5.4)를 포함한다. 우리는 이러한 현상들이 신중한 연구를 필요로 하며, 이 분야에 중요한 질문들을 제기한다고 믿는다.