Iyer, Srinivasan, et al. "Opt-iml: Scaling language model instruction meta learning through the lens of generalization." arXiv preprint arXiv:2212.12017 (2022).

OPT-IML : Scaling Language Model Instruction Meta Learning through the Lens of Generalization

Abstract

최근 연구에 따르면, **명령어(instruction)를 통해 설명된 다양한 task 모음으로 대규모 사전학습된 language model을 fine-tuning하는 것(instruction-tuning)**은 미지의 task에 대한 zero-shot 및 few-shot 일반화 성능을 향상시킨다. 그러나 instruction-tuning 과정에서 이루어지는 다양한 결정들이 성능에 미치는 trade-off에 대한 이해는 아직 제한적이다. 이러한 결정에는 instruction-tuning 벤치마크의 규모와 다양성, 다양한 task 샘플링 전략, demonstration 유무에 따른 fine-tuning, 추론 및 대화를 위한 특수 데이터셋을 사용한 학습, 그리고 fine-tuning objective 자체가 포함된다.

본 논문에서는 모델 및 벤치마크 크기를 확장할 때 instruction-tuning 결정이 다운스트림 task 성능에 미치는 영향을 분석한다. 이를 위해 우리는 Instruction MetaLearning (IML)을 위한 대규모 벤치마크인 OPT-IML Bench를 구축한다. 이 벤치마크는 기존 8개 벤치마크에서 가져온 2000개의 NLP task를 task 카테고리로 통합한 것이다. 또한, 우리는 세 가지 유형의 모델 일반화 능력을 측정하기 위한 평가 프레임워크를 준비한다:

완전히 held-out된 카테고리의 task에 대한 일반화,
학습에 사용된 카테고리 내의 held-out task에 대한 일반화,
학습에 사용된 task 내의 held-out instance에 대한 일반화.

이 프레임워크를 통해, 우리는 먼저 OPT-30B에 적용된 instruction-tuning 결정에 대한 통찰력을 제시하고, 이 통찰력을 활용하여 OPT의 instruction-tuned 버전인 OPT-IML 30B 및 175B를 학습시킨다. OPT-IML은 PromptSource, FLAN, Super-NaturalInstructions, UnifiedSKG와 같이 다양한 task와 입력 형식을 가진 4개의 평가 벤치마크에서 두 가지 모델 규모(30B, 175B) 모두에서 세 가지 일반화 능력을 모두 보여준다. OPT-IML은 모든 벤치마크에서 OPT를 크게 능가할 뿐만 아니라, 각 특정 벤치마크에 대해 fine-tuning된 기존 모델들과도 매우 경쟁력 있는 성능을 보인다. 우리는 OPT-IML Bench 평가 프레임워크와 함께 OPT-IML 모델을 두 가지 규모로 공개한다.

1. Introduction

Instruction fine-tuning은 대규모 사전학습된 Language Model(LLM)의 zero-shot 및 few-shot 성능을 크게 향상시키는 것으로 나타났다 (Wei et al., 2022a; Sanh et al., 2022; Chung et al., 2022a). 이 방식은 instructional style 입력 형식을 사용하여 NLP task 컬렉션에 대해 LLM을 fine-tuning하는 것을 포함한다.
LLM의 성공적인 instruction-tuning은 다음과 같은 여러 측면에 따라 달라진다:

fine-tuning에 사용되는 objective,
fine-tuning task의 분포 및 다양성,
reasoning 및 dialogue 관련 특화된 데이터셋 포함 여부,
demonstration을 활용한 fine-tuning,
평가 프레임워크의 포괄성.

본 논문에서는 **2,000개의 NLP task로 구성된 광범위한 대규모 fine-tuning 및 평가 프레임워크(OPT-IML Bench)**를 개발하고, 이를 사용하여 OPT 모델 (Zhang et al., 2022)에 대한 instruction meta-learning (IML) 관련 다양한 결정들의 trade-off를 특성화한다. 이 과정에서 얻은 통찰력을 활용하여, OPT의 instruction-tuned 버전인 OPT-IML 30B 및 175B를 학습시킨다.

Super-NaturalInstructions (Wang et al., 2022), FLAN (Wei et al., 2022a), PromptSource (Sanh et al., 2022)와 같이 대규모 NLP task 메타 데이터셋의 수가 증가하고 있다. 최근 instruction-tuning 연구들은 이러한 개별 벤치마크 및 그 조합을 사용하여 성공을 입증했으며 (Chung et al., 2022b), task 수를 확장하는 것이 일반적인 권장 사항이다.

Figure 1: 우리는 OPT-IML을 만들기 위해 OPT를 1,500개 이상의 NLP task로 구성된 대규모 컬렉션에 대해 fine-tuning하며, 이 task들은 **task category(왼쪽)**로 나뉜다. 각 category는 여러 관련 task를 포함하며, 동일한 task(예: IMDB)에 대해서도 여러 벤치마크에서 집계된 여러 prompt를 포함한다. 우리는 OPT-IML을 평가 category(오른쪽) 세트에 대해 평가한다. 이 평가 category는 튜닝에 사용된 category와 완전히 분리되거나, 부분적으로 겹치거나, 완전히 겹칠 수 있다 (예: Sentiment Analysis는 완전히 겹치고, QA는 부분적으로 겹침). 이는 완전히 held-out된 category의 task, 학습 중 본 category의 task, 학습 중 본 task의 held-out instance에 대한 모델의 일반화 능력을 평가하는 것에 해당한다. 우리는 이 평가 프레임워크를 OPT-IML Bench로 공개한다.

우리는 이러한 권장 사항을 따라 8개의 메타 데이터셋을 통합하여 1,991개의 NLP task로 구성된 대규모 컬렉션을 구축했다. 이 컬렉션은 여러 prompt를 포함하는 instruction을 포함하며, Question Answering 및 Sentiment Analysis와 같은 100개 이상의 task category로 그룹화된다 (Figure 1).
또한, 이 컬렉션을 대규모 instruction-tuned 모델을 세 가지 수준의 일반화 능력에 걸쳐 포괄적으로 평가하기 위한 프레임워크로 변환했다:

튜닝에 사용되지 않은 완전히 held-out된 task category의 task에 대한 모델 성능 (이전 연구와 동일) (Wei et al., 2022a; Sanh et al., 2022).
instruction-tuning 중 본 category에서 이전에 보지 못한 task에 대한 성능.
튜닝 중 본 task의 held-out instance에 대한 성능.

앞의 두 설정은 instruction-tuning의 cross-task generalization을 평가하는 반면, 마지막 설정은 supervised multi-task learning의 generalization을 평가한다 (McCann et al., 2018). 우리는 결과로 나온 instruction-tuning 프레임워크를 OPT-IML Bench라고 부르며, Figure 1에서 그 구성을 보여준다. Figure 1의 오른쪽은 평가 category를 나타내며, 이는 왼쪽에 있는 튜닝에 사용된 category와 완전히 분리되거나, 부분적으로 겹치거나, 완전히 겹칠 수 있다. 각 category는 여러 벤치마크에 속할 수 있고 여러 prompt와 연결될 수 있는 데이터셋으로 구성된다.

LLM에 대한 instruction-tuning의 효과는 튜닝 task의 다양성과 분포, prompt의 형식, fine-tuning에 사용되는 objective와 같은 요인에 따라 달라진다. 최근 instruction-tuning에 대한 여러 연구들은 task를 category로 그룹화하고 완전히 held-out된 task category의 task에 대한 성능을 평가함으로써 이러한 요인들을 탐구한다 (Sanh et al., 2022; Wei et al., 2022a; Wang et al., 2022). 우리는 여러 수준의 일반화를 고려하는 평가 프레임워크를 사용하여, 8개의 다른 벤치마크를 통합하여 instruction-tuning을 확장할 때 발생하는 이러한 다양한 요인과 관련된 trade-off를 포괄적으로 특성화할 수 있다.
OPT-IML Bench에서 OPT 30B (Zhang et al., 2022)를 instruction-tuning함으로써, 우리는 다음 사항들의 trade-off를 설명한다:

튜닝 중 데이터셋 및 벤치마크 샘플링 전략,
task 및 category에 대한 scaling law,
Min et al. (2021)을 기반으로 instruction-tuning에 task demonstration을 통합하는 접근 방식의 효과,
reasoning chain (Kojima et al., 2022; Wei et al., 2022b) 및 dialogue (Shuster et al., 2022)를 포함하는 특화된 데이터셋을 사용한 instruction-tuning.

이러한 실험들은 LLM의 대규모 instruction-tuning을 위한 모범 사례를 확립하는 데 기여할 수 있다.

OPT-IML Bench에 대한 일반화 실험에서 얻은 통찰력을 바탕으로 OPT-IML을 학습시켰다. OPT-IML은 30B 및 175B 규모 모두에서 4가지 instruction-tuning 벤치마크(PromptSource (Sanh et al., 2022), FLAN (Wei et al., 2022a), Super-NaturalInstructions (Wang et al., 2022), UnifiedSKG (Xie et al., 2022))에서 기본 사전학습 모델보다 크게 향상된 성능을 보인다. 또한, OPT-IML 모델은 zero-shot 및 few-shot 성능 모두에서 이러한 벤치마크에 개별적으로 튜닝된 이전 instruction-tuned 모델들과 비교하여 경쟁력 있는 성능을 보여준다. 최근, 본 연구와 유사한 맥락에서 Chung et al. (2022b)은 PaLM (Chowdhery et al., 2022) 및 T5 (Raffel et al., 2020)를 1.8K task의 확장된 컬렉션에 instruction-tuning함으로써 MMLU (Hendrycks et al., 2020) 및 Big-Bench Hard (Suzgun et al., 2022)와 같은 도전적인 벤치마크에서 인상적인 성능 향상을 달성했다. 유사한 설정에서 학습된 OPT-IML은 이러한 도전적인 벤치마크에서는 여전히 성능이 뒤처지며, 이에 대해서는 Section 6에서 논의한다. OPT (Zhang et al., 2022)에 따라, 우리는 두 규모의 OPT-IML 버전을 책임감 있게 공유하고, 이 방향의 향후 연구를 촉진하기 위해 OPT-IML Bench 평가 프레임워크도 공개할 것이다.

2. Scaling up Multi-task Benchmarks

Instruction tuning에 대한 극단적인 task scaling의 효과를 특성화하기 위해, 우리는 Super-NaturalInstructions (Wang et al., 2022) 및 **PromptSource (Sanh et al., 2022)**와 같은 최근의 task collection들을 기반으로, 총 8개의 collection을 통합하여 OPT-IML Benchmark를 구축하였다. 이 벤치마크는 다양한 task category, instruction type, prompting setup에 걸쳐 대규모 instruction fine-tuning 및 평가를 가능하게 한다 (Table 1).

본 논문의 나머지 부분에서는 task와 dataset 용어를 상호 교환적으로 사용한다. 각 task/dataset은 여러 prompt template을 사용하여 인스턴스화될 수 있다. 우리는 task가 생성된 원본 데이터를 data source라고 부르며, 동일한 data source로부터 여러 task가 생성될 수 있다 (예: question answering과 question rewriting). 벤치마크는 여러 task로 구성되며, 각 task는 단일 task category/cluster에 속한다.

2.1 Task Curation

우리는 Wang et al. (2022)의 1600개 이상의 task로 구성된 Super-NaturalInstructions 벤치마크를 확장하여, instruction-tuning에 대한 여러 기존 연구들의 task collection을 추가하였다:

FLAN (Wei et al., 2022a),
T0 (Sanh et al., 2022);

prompt crowdsourcing 연구:

PromptSource (Bach et al., 2022);

cross-task transfer 연구:

ExMix (Aribandi et al., 2022),
T5 (Raffel et al., 2020),
CrossFit (Ye et al., 2021);

그리고 영역별 task 통합 연구:

Structured Knowledge Grounding (Xie et al., 2022),
Dialogue (Shuster et al., 2022),
Chain-of-thought Reasoning (Chung et al., 2022b).

이 모든 벤치마크의 큐레이션 과정은 Appendix A.1에서 확인할 수 있다.

이러한 벤치마크들 간에는 데이터셋의 상당한 중복이 존재한다. 예를 들어, SQuAD v1/v2 (Rajpurkar et al., 2016, 2018)와 같은 인기 있는 데이터셋은 거의 모든 벤치마크에 나타난다. 또한, Super-NaturalInstructions, PromptSource, FLAN, Chain-of-thought Reasoning은 긴 형태의 사람이 작성한 instruction 또는 reasoning chain을 포함하는 반면, 나머지 벤치마크들은 multi-task learning을 위해 설계되었으며, prompt template은 종종 짧은 필드 또는 task prefix(예: "question:", "label:")로만 구성된다. 따라서 우리는 다른 벤치마크에 나타나지 않는 CrossFit, ExMix, T5 collection의 task만 유지하였다.
우리는 많은 수의 task를 탐색하고 있으므로, FLAN을 제외한 모든 벤치마크에서 task당 최대 100k개의 예시(무작위로)를 추출하였다. FLAN의 경우, Wei et al. (2022a)와 동일한 방식으로 task당 최대 30k개의 예시를 추출하였다.

Benchmark	Instruct. type	# clusters	# tasks	# total examples	Avg. # prompts / task	prompt length mean std
Super-NaturalInstructions	task inst.	76	1613	12.4 M	1.0	287	882
PromptSource	instance inst.	51	280	12.8 M	5.7	179	222
CrossFit	keywords	32	159	7.1 M	1.0	117	258
FLAN	instance inst.	12	70	4.4 M	8.5	193	375
ExMix ${ }^{\ddagger}$	keywords	10	14	0.5 M	1.0	132	191
T5	keywords	9	36	1.9 M	1.0	111	167
UnifiedSKG	keywords	7	21	0.8 M	1.0	444	297
Reasoning	task inst.	1	14	0.4 M	1.0	146	122
$\overline{\mathrm{O}} \overline{\mathrm{P}} \overline{\mathrm{T}}-\overline{\mathrm{I}} \overline{\mathrm{ML}}$ - $\overline{\text { Bench }}$ ( $\overline{\text { train }}$ )	mixed	$93^{\dagger}$	1,545	17.9 M	1.7	261	631
OPT-IML Bench (dev)	mixed	7	35	145 K	2.9	-	-
OPT-IML Bench (test)	mixed	10	87	321 K	4.6	-	-

Table 1: OPT-IML Bench의 세부 정보.
각 기존 벤치마크의 통계는 우리가 다운로드한 원본 데이터를 사용하여 계산되었다.
OPT-IML Bench의 통계는 task 필터링 및 task당 최대 $M$ 개의 예시를 추출한 후의 데이터를 사용하여 계산되었다.
FLAN을 제외한 모든 벤치마크에 대해 $M=100 \mathrm{k}$ 로 설정했으며, FLAN의 경우 Wei et al. (2022a)에 따라 $M=30 \mathrm{k}$ 로 설정했다.
${ }^{\dagger}$ 우리는 평가 세트에서만 task 분류를 수동으로 통합했다.
학습 세트의 task cluster 수는 각 원본 벤치마크의 클러스터링 태그를 대략적으로 통합하여 추정한 것이다.

2.2 Benchmark Consolidation

지시 스키마 (Instruction schema)
각 벤치마크는 서로 다른 지시 및 언어 스타일을 채택한다. Table 2에서 우리는 이들의 지시를 크게 **두 가지 범주(dataset-level 및 instance-level)**로 분류한다.

Dataset-level 지시: 전체 task를 정의하며, 긍정/부정 예시 및 설명과 같은 보조 정보를 포함할 수 있다. 모델은 이를 기반으로 task의 정의를 학습하고, 이후에 나오는 각 예시에 해당 지식을 적용해야 한다.
Instance-level 지시: 각 예시별로 개별적으로 인스턴스화되는 템플릿이며, 때로는 예시에 대한 원하는 출력을 유도하기 위해 cloze-style로 설계되기도 한다.

우리는 수집한 벤치마크의 모든 task를 "instructions" 및 "output" 세그먼트를 포함하는 이분형 prompt 형식으로 변환한다 (Table 2). CrossFit, ExMix, T5의 경우, 원본 벤치마크가 자연어 지시를 제공하지 않으므로, 우리는 포함된 각 task에 대해 간단한 지시 문장을 수동으로 작성하여 instance level에서 사용한다. 예를 들어, ExMix의 GPT-2 Deepfake Detection task (Radford et al., 2021)에 대한 지시는 "Is the following text produced by GPT-2?"이다.

Task 분류 (Task categorization)
우리는 이전 연구 (Wei et al., 2022a; Sanh et al., 2022; Wang et al., 2022; Ye et al., 2021)의 관행에 따라 기존 NLP 범주로 task를 분류한다. 이러한 그룹화는 범주 간 및 범주 내 모델의 일반화를 연구하는 데 편리한 틀을 제공한다. 우리는 주로 Super-NaturalInstructions에서 정의한 76개 범주의 분류 체계를 따른다. 다른 벤치마크들도 자체적인 task 클러스터를 제공한다. 우리는 task 클러스터를 수동으로 대략적으로 통합한다 (예: "hate speech detection"을 "toxic language detection"과 병합). 이 외에도 CrossFit 및 PromptSource와 같은 벤치마크는 Super-NaturalInstructions보다 더 세분화된 task 분류를 채택한다 (예: CrossFit은 Question Answering의 여러 하위 클래스를 식별한다). 이러한 경우, 우리는 Super-NaturalInstructions의 더 광범위한 할당을 채택한다. 그 결과 100개 이상의 task 범주를 가진 단일 수준 분류 체계가 된다 (Table 1).

	Inst. Type	Instructions	Output
SuperNatInst	task-level inst.	Instructions: Given a premise and two alternatives, choose the alternative that is a more plausible cause or effect of the situation described by the premise. The input format is "premise (1) alternative_1 (2) alternative_2", the output should either be "1" or "2" based on your judgment. <br> Input: The terrorist set off the bomb. (1) The bomb exploded. (2) The bomb was deactivated.	1
PromptSource	instance-level inst.	Exercise: choose the most plausible alternative. [Sep]The terrorist set off the bomb. so.. [Sep]- The bomb exploded. [Sep]The bomb was deactivated.	The bomb exploded.
FLAN	instance-level inst.	The terrorist set off the bomb. What is the effect?[Sep]OPTIONS: - The bomb exploded. - The bomb was deactivated.	The bomb exploded.
CrossFit	keywords	The terrorist set off the bomb. (A) The bomb exploded. (B) The bomb was deactivated.	The bomb exploded.

Table 2: SuperNaturalInstructions, PromptSource, FLAN, CrossFit의 COPA task (Roemmele et al., 2011)에 대한 다양한 prompt 구성.
CrossFit은 자연어 지시를 제공하지 않으므로, 모델은 task 요구 사항을 추론하기 위해 데이터 표현에 의존해야 한다.

2.3 Creating Benchmark Splits

Train, validation 및 test split
우리는 대규모 instruction fine-tuning을 수행하고, 그 결과 모델의 세 가지 수준의 일반화 능력을 평가할 수 있도록 전체 task 세트를 분할하였다.
첫째, 새로운 task 카테고리에 대한 모델의 일반화 능력을 평가하기 위해 여러 task 카테고리를 held-out으로 지정하였다.
둘째, 나머지 카테고리 중 일부를 부분적으로 held-out된 카테고리로 선정하였다. 이 카테고리 내의 데이터셋은 학습(train) 및 평가(evaluation) 세트로 분할하여, 이미 본 task 카테고리 내의 새로운 데이터셋에 대한 모델의 일반화 능력을 테스트하는 데 사용한다.
완전히 held-out된 카테고리와 부분적으로 held-out된 카테고리는 이전 instruction fine-tuning 연구들(Wang et al., 2022; Wei et al., 2022a; Sanh et al., 2022)과 일관성을 유지하여 직접적인 비교가 가능하도록 선정하였다.
마지막으로, 학습 task의 일부에 대해서는 원래 데이터 릴리스의 validation 및 test 세트를 held-out으로 지정하고, 이를 표준 멀티태스크 학습 설정(즉, 이미 본 task의 새로운 예시)에서의 모델 일반화 능력을 테스트하는 데 사용한다.
우리는 평가 task 중 9개 task 카테고리에 걸쳐 35개의 평가 task를 validation 세트로 지정하고, 이를 §4에서 다양한 instruction-tuning 전략의 trade-off를 특성화하는 데 사용한다. validation task의 세부 정보와 평가 지표는 Table 15에 제시되어 있다.

Task 중복 제거 (Task de-duplication)
Wang et al. (2022)의 관행에 따라, 데이터 유출을 방지하기 위해 학습(train) task와 평가(evaluation) task가 생성된 데이터 소스에서 중복되지 않도록 하였다.
각 학습 task와 평가 task 쌍에 대해, 인스턴스화된 시퀀스(instantiated sequence) 간에 13-gram 중복이 있는 예시의 비율을 계산하였다.
**평가 세트의 1% 이상이 학습 세트와 중복되는 모든 쌍(약 14,000쌍)**을 수동으로 검토하여, 학습 task에서의 튜닝이 평가 task에 불공정하게 이득을 줄 수 있는지 여부를 확인하고, 확인된 경우에는 학습 task 또는 평가 task를 제거하기로 결정하였다.
Wikipedia와 같이 광범위한 맥락적 자원을 공유하지만, 그 외에는 관련 없는 출력 레이블을 포함하는 task 쌍은 유지하였다.
Table 1은 우리의 task split 통계를 보여준다.

2.4 Task Prompt Construction

zero-shot 설정에서 각 예시는 Section 2.1에서 설명된 이분법적 지시(bipartite instruction) 방식으로 포맷된다. 지시문이 ":"로 끝나지 않는 경우, 지시문과 출력 사이에 구분자(delimiter)를 삽입한다. Chung et al. (2022b)와 유사하게, 과적합을 완화하기 위해 각 예시마다 작은 구분자 집합 ${ }^{5}$ 에서 무작위로 구분자를 샘플링한다.

few-shot prompt의 경우,

Super-NaturalInstructions와 같이 task-level 지시를 채택하는 벤치마크에서는 task 설명과 target 예시 사이에 demonstration 예시를 배치한다.
FLAN 및 PromptSource와 같이 instance-level 지시를 채택하는 벤치마크에서는 task 예시 앞에 demonstration 예시를 배치한다.

각 task에 대한 prompt 예시는 Appendix C에서 확인할 수 있다.

FLAN 및 PromptSource 벤치마크는 task당 여러 개의 수동으로 작성된 템플릿을 포함한다. task 다양성을 더욱 높이기 위해, 이 벤치마크의 일부 템플릿은 원래 task의 의미를 변경했다 (예: "question answering" $\rightarrow$ "question generation"). 우리는 이러한 벤치마크의 모든 task 템플릿을 수동으로 검토하여 원래 task 의미를 변경한 템플릿을 제거함으로써 task 범주를 정제하였다.

3. Instruction Fine-tuning

우리는 Section 2에서 제시된 OPT-IML Bench를 사용하여 **OPT (Zhang et al., 2022)**를 fine-tuning한다. OPT는 125M에서 175B 파라미터 규모로 출시된 오픈소스 decoder-only Transformer language model 제품군으로, 표준 NLP task 모음에서 GPT-3 (Brown et al., 2020a)와 유사한 성능을 보인다. OPT는 RoBERTa (Liu et al., 2019), Pile (Gao et al., 2020), PushShift.io Reddit (Baumgartner et al., 2020; Roller et al., 2020)에서 사용된 데이터셋을 조합하여 얻은 180B개의 고유 토큰으로 next-word prediction objective를 사용하여 학습되었다. 이 섹션에서는 30B 및 175B 규모의 OPT에 대한 instruction-tuning 과정을 설명한다.

3.1 Fine-tuning Objective

우리는 OPT를 사전학습과 유사한 방식으로 next-word prediction objective를 사용하여 fine-tuning한다. 이때, 이전의 모든 token을 context로 조건화한다. 하지만, 학습 시퀀스를 source context sequence와 target sequence로 분리하고, target sequence의 token들(label-loss)에서만 loss term을 포함시킨다. 우리는 task instruction과 input을 source token으로, label token을 target token으로 간주한다.
정식으로, **source instance $s_i$ 와 그에 해당하는 target token $t_i = \{t_{ij}\}$ 로 구성된 fine-tuning 데이터셋 $\mathcal{D}$ **에 대해, 파라미터 $\theta$ 를 가진 사전학습된 모델은 source token과 이전에 본 target token에 조건화된 target token에 대한 다음 loss를 최소화하도록 fine-tuning된다.

\mathcal{L}(\mathcal{D} ; \theta)=-\sum_{i} \sum_{j} \log p_{\theta}\left(t_{i j} \mid s_{i}, t_{i,<j}\right)

우리는 OPT-IML Bench의 모든 데이터셋에 걸쳐 이 loss를 최소화하는데, 이때 각 데이터셋의 크기와 해당 벤치마크에 할당된 비율에 따라 다른 데이터셋의 예시들을 혼합한다 (자세한 내용은 Section 4 참조).

3.2 Packing and Document Attention

계산 효율성을 극대화하기 위해, 우리는 최대 시퀀스 길이를 활용하여 여러 예시(source 및 target)를 <eos> 토큰으로 구분된 2048 토큰 시퀀스로 함께 묶는다 (Raffel et al., 2020). 이러한 패킹(packing)의 한 가지 결과는, 하나의 예시에 속하는 토큰이 동일 시퀀스 내의 이전에 패킹된 예시의 토큰을 attend할 수 있다는 점이다. 이를 완화하기 위해 우리는 document attention masking을 사용한다. 즉, causal LM의 토큰 attention mask를 수정하여, 시퀀스 내의 모든 이전 토큰이 아닌, 동일한 예시의 일부인 토큰만 attend하도록 한다. 이러한 변경은 attention mask를 삼각형(triangular)에서 블록 삼각형(block triangular) 마스크로 바꾸며, 우리 실험에서 안정성과 성능을 모두 향상시켰다.

3.3 Fine-tuning Hyperparameters

우리는 30B 모델은 64개의 40GB A100 GPU에서, 175B 모델은 128개의 40GB A100 GPU에서 fine-tuning한다. OPT를 따라, 우리는 **Fully Sharded Data Parallel (Artetxe et al., 2021)**과 **Megatron-LM Tensor Parallelism (Shoeybi et al., 2019)**을 사용한다. 각 모델 규모에 대한 대부분의 모델 하이퍼파라미터는 OPT를 따른다. 우리는 학습 예시들을 길이가 2048인 시퀀스로 묶고, 넘치는 예시들은 왼쪽에서부터 잘라낸다. 우리는 **32-bit state를 가진 Adam (Kingma and Ba, 2014)**을 $\left(\beta_{1}, \beta_{2}\right)=(0.9,0.95)$ 로 사용하며, 학습률을 60단계 동안 최대치까지 선형적으로 증가시킨 후 0으로 선형적으로 감소시킨다. 우리는 §2의 validation split을 사용하여 $\left\{1 e^{-5}, 3 e^{-5}, 5 e^{-5}, 6 e^{-5}\right\}$ 범위의 학습률과 $\{2,4,8\}$ 범위의 GPU당 배치 크기를 선택하기 위한 예비 실험을 수행한다. 그 결과로 얻은 하이퍼파라미터는 Table 3에 나열되어 있다. 우리는 **dropout을 0.1 (embedding dropout 포함)**로 설정하고, gradient norm을 1.0으로 clip하며, **underflow를 방지하기 위해 dynamic loss scaling (Micikevicius et al., 2018)**을 사용한다. fine-tuning 동안, 우리 모델은 약 20억 개의 토큰을 보았는데, 이는 OPT의 사전학습 예산의 0.6%에 불과하다 (Table 3).

Model	# Gpus	Batch Size	Learning Rate	Steps	Warm-up Steps	FT Time (h)	# Tokens
OPT-IML 30B	64	256	$5 \mathrm{e}-05$	4000	60	19	2 B
OPT-IML 175B	128	128	$5 \mathrm{e}-05$	8000	60	72	2 B

Table 3: 모든 OPT-IML 모델의 fine-tuning 파라미터, fine-tuning 시간 및 fine-tuning 토큰 수를 포함한다.

4. What Matters for Instruction Fine-tuning?

최근 연구들은 instruction fine-tuning 기법들을 탐구하여, 결과 모델의 특정 다운스트림 task에 대한 성능을 최적화하고, prompt, instruction 스타일, prompting 설정의 변화에 대한 견고성(robustness)을 향상시키고자 했다.
우리는 §3.3에서 선택된 기본 하이퍼파라미터 설정을 가진 OPT 30B 모델을 사용하여, 데이터셋 비율, task 수 및 다양성이 instruction-tuning에 미치는 영향을 특성화하기 위한 실험을 수행했다. 이 실험에서는 사전학습(pre-training), 대화(dialogue), 추론(reasoning) 데이터셋을 활용하고, demonstration을 이용한 학습을 진행했으며, 모델 일반화의 세 가지 수준(fully held-out, partially held-out, fully supervised)에 대해 평가했다.
최적의 설정을 결정하기 위해 클러스터 및 벤치마크와 같은 여러 차원을 따라 성능을 집계하였다.

4.1 Experimental Setup

실험 설정의 목표는 첫째, fine-tuning 과정과 관련된 다양한 요소들이 instruction-tuning 성능에 미치는 영향을 규명하고, 둘째, 이러한 발견을 활용하여 OPT 모델을 효과적으로 instruction-tune하는 것이다. 우리가 실험한 요소들은 다음과 같다:

fine-tuning 데이터셋 혼합의 구성,
fine-tuning에 사용된 task의 수와 다양성,
사전학습, 추론, 대화와 관련된 추가 데이터셋을 fine-tuning 혼합에 포함하는 것,
demonstration을 활용한 다양한 fine-tuning 방식.

Prompt 구성 세부사항
학습 데이터를 구성하기 위해, 우리는 $N$ 개의 예시를 가진 task의 모든 prompt 데이터를 병합하고, 학습 task 분포가 prompt 수에 관계없이 동일하게 유지되도록 pool에서 $N$ 개의 prompt를 무작위로 선택한다. 검증 세트에서도 유사한 방식으로 각 task의 prompt를 병합하고, 검증 결과를 보고하기 위해 task당 최대 250개의 prompt를 무작위로 샘플링한다. 테스트 task의 경우, 모든 prompt 변형과 모든 예시를 유지한다.

일반화 수준 (Generalization levels)
baseline instruction-tuned 모델에서 시작하여, 우리는 각 요소의 여러 변형으로 모델을 튜닝하고, Section 2의 검증 분할(validation split)에 있는 task들을 세 가지 일반화 수준으로 나누어 모델을 평가함으로써 각 요소의 효과를 독립적으로 특성화한다: a) 학습에 포함되지 않은 클러스터의 task (Fully Held-out), b) 학습 중에는 보지 못했지만, 학습에 사용된 클러스터에 속하는 task (Partially Supervised), c) 학습 중에 보았던 task (Fully Supervised). instruction-tuning 설정은 fully supervised task의 성능을 희생하지 않으면서 fully held-out 및 partially supervised task의 성능을 향상시킬 때 바람직하다. 우리는 각 요소에 대한 최적의 설정을 결정하기 위해, 검증 분할에 있는 task의 validation/test 세트에서 0-shot 및 5-shot 설정 모두에 대한 세 가지 일반화 수준 전반의 평균 성능을 사용한다.

디코딩 (Decoding)
우리의 평가 데이터는 **정답 후보가 있는 task(그 중 하나가 정답)**와 여러 개의 gold reference 시퀀스가 있는 task로 구성된다. 전자의 task 세트의 경우, Brown et al. (2020b)와 유사한 rank classification을 사용한다. 여기서 우리는 각 후보의 likelihood를 기반으로 점수를 매기고 가장 높은 점수를 받은 후보를 정답으로 출력한다. 이 후보는 task의 정확도를 계산하는 데 사용된다. 후보가 없는 task의 경우, <eos> 토큰이 예측되거나 최대 $N=256$ 개의 토큰이 생성될 때까지 greedy decoding을 수행한다. 생성된 시퀀스와 reference를 기반으로 Exact-match 또는 Rouge-L F1 점수를 계산한다.

모델 선택 (Model selection)
모든 실험에서 우리는 먼저 0-shot 및 5-shot 결과를 task 하위 유형별로 따로 집계한다. 예를 들어, PromptSource의 type 1 및 type 2 Winobias (Zhao et al., 2018) task의 pro 및 anti 버전, 그리고 MMLU (Hendrycks et al., 2020)의 57개 모든 하위 task는 task별 성능을 얻기 위해 집계된다. 만약 동일한 task가 여러 벤치마크에 존재한다면, 벤치마크 전반의 성능도 평균을 낸다. 그런 다음, 카테고리 내의 모든 task(또는 실험에 따라 벤치마크)의 0-shot 및 5-shot 평균을 계산하고, 마지막으로 각 카테고리(또는 벤치마크)의 모든 0-shot 및 5-shot 점수의 결합된 평균을 계산하며, 이를 모델 선택에 사용한다.

우리는 각 모델을 4000단계 동안 튜닝하고, 0-shot 및 5-shot 설정 모두에서 검증 분할에 대해 평가하며, 연산 효율성을 위해 각 task에서 250개의 예시를 사용한다. Section 2에서 설명했듯이, 각 task에 대한 우리의 검증 분할은 FLAN 및 PromptSource에 대한 여러 prompt의 혼합을 포함한다. 4개의 검증 task를 제외한 모든 task는 **생성 스타일 task(여기서 Rouge-L F1을 보고)**이다. 우리는 나머지 task에 대해 점수 계산을 기반으로 정확도를 계산하고, 표시 목적으로 Rouge-L과 함께 집계한다. 검증 분할에 있는 task에 대한 전체 세부 정보는 Appendix의 Table 15를 참조하라.

4.2 Effects of varying task mixing-rate maximum

이전 연구들(Raffel et al., 2020; Wei et al., 2022a)에서는 일반적으로 example-proportional sampling을 사용하며, 데이터셋 크기에 비례하여 샘플링하여 배치를 구성한다. 이때 최대 크기 파라미터(EPS) 를 적용하여 대규모 데이터셋이 배치에 과도하게 포함되는 것을 방지한다.
이러한 최대 혼합 비율(EPS) 이 다양한 일반화 수준(generalization level)에 걸쳐 성능에 어떻게 영향을 미치는지 이해하기 위해, 우리는 $\mathrm{EPS} \in\left\{128,256,512,1024,2048,4096,8192,16384,10^{6}\right\}$ 값으로 실험을 수행하고 그 결과를 Table 4에 보고한다.
EPS가 512일 때는 97%의 데이터셋이 최대치에 도달하며, EPS가 8192일 때는 16%의 데이터셋이 최대치에 도달한다. 우리는 또한 EPS를 사용하지 않는 경우, 즉 $\mathrm{EPS}=100 \mathrm{~K}$ 인 경우도 실험한다.

전반적으로, 우리는 EPS가 instruction-tuning에 중요하다는 것을 발견했다. 즉, EPS를 사용하는 모든 모델이 사용하지 않는 모델보다 평균적으로 더 나은 성능을 보였다. 그러나 특정 임계값(우리의 경우 4096 미만)을 넘어서면, 모든 일반화 수준에서 성능 변화가 미미했다.
가장 높은 평균 성능을 기준으로 4096 (데이터셋 길이의 50%가 제한되는 값) 을 다른 실험 및 최종 OPT-IML 모델에 선택했지만, 4096 미만의 모든 값들도 상당히 좋은 성능을 보였으며, 특히 $\mathrm{EPS}=128$ 은 4096과 거의 일치하는 결과를 나타냈다.
또한, EPS를 변경하면 각 벤치마크에서 fine-tuning 데이터의 비율이 암묵적으로 변경되는데, 이에 대해서는 다음 섹션에서 명시적으로 제어한다.

	Fully Held Out				Partially Supervised				Fully Supervised
	Cause Effect	Gram. Corr.	Stereo. Det.	Word Ana.	Reas.	MMLU	QA	Summ.	Toxic Det.	Dial ogue.	QA	Summ.
$2^{7}$	61.4/62.0	86.2/87.5	59.1/82.5	12.1/59.1	2.9/22.4	42.5/35.6	67.5/59.7	21.0	61.7/66.3	16.8/17.5	86.9/83.3	30.7
$2^{8}$	59.3/60.7	86.5/87.8	60.2/83.4	13.0/57.1	2.6/19.1	41.5/36.0	64.8/59.9	20.5	61.7/69.5	16.4/16.8	86.2/83.7	31.0
$2^{9}$	59.6/61.3	86.4/87.9	55.2/82.8	12.9/58.5	2.6/24.7	40.2/38.1	65.3/57.4	20.2	59.8/66.2	17.1/16.6	85.7/82.6	31.2
$2^{10}$	64.5/60.3	86.0/87.6	47.9/82.3	14.1/56.8	2.7/23.6	39.0/35.9	66.9/61.6	20.5	60.8/66.4	17.7/16.0	86.1/85.2	31.0
$2^{11}$	64.4/62.7	85.9/87.7	50.4/82.2	11.7/54.5	2.7/22.0	40.1/35.7	67.4/58.6	19.9	60.1/65.6	17.2/16.8	87.3/84.6	31.4
$2^{12}$	63.5/62.5	86.1/87.5	58.9/82.3	17.2/57.8	2.6/20.4	41.5/37.0	69.3/59.0	18.1	60.0/70.0	16.1/15.8	87.6/83.5	31.3
$2^{13}$	63.3/61.2	85.6/87.9	48.2/81.3	13.2/56.8	2.6/25.6	38.3/35.9	69.4/57.7	19.6	59.4/68.2	16.4/15.6	86.2/84.5	32.3
$2^{14}$	60.2/61.3	86.0/88.0	57.3/82.5	15.1/52.6	2.6/20.3	41.8/36.1	70.5/61.1	19.8	58.6/64.0	16.9/14.7	86.1/84.4	32.0
$10^{6}$	59.2/62.2	86.4/86.9	57.3/80.8	8.8/53.7	2.6/22.0	39.2/34.2	67.6/59.5	19.8	58.2/68.1	15.2/15.8	84.6/81.6	31.7

Table 4: OPT-IML 30B 모델의 4000 스텝 학습 후, 다양한 최대 혼합 비율(EPS)에 따른 각 일반화 수준별 task 카테고리 성능 변화.
결과는 0-shot / 5-shot 형식으로 제시된다. 요약(summarization) task의 경우 0-shot 성능만 보고한다. 대부분의 task는 생성(generation) task이며, 이에 대해 Rouge-L 점수를 보고한다. MMLU의 경우 정확도(accuracy) 를 보고한다. Cause Effect 클러스터의 일부 task도 정확도를 사용하며, 이는 표시를 위해 Rouge-L과 평균을 낸다. 우리는 카테고리, 벤치마크, shot별로 집계된 평균 성능을 기준으로 모델을 선택한다.

4.3 Effects of varying benchmark proportions

Section 2에서는 instruction-tuning에 사용되는 task의 수를 대규모로 확장하기 위해 통합한 여러 task 및 prompt repository (Sanh et al., 2022; Wang et al., 2022; Wei et al., 2022a; Ye et al., 2021; Aribandi et al., 2022)에 대해 설명한다. 그러나 여러 벤치마크를 학습에 사용하면서 단순히 예시 비율에 비례하는 샘플링(example-proportional sampling)만 적용하면, 더 많은 task를 포함하는 벤치마크가 batch 구성을 압도하게 된다. 예를 들어, 우리의 벤치마크에서는 학습 예시의 71%가 SuperNatInst에서, 18%가 PromptSource에서, 그리고 단 5%만이 FLAN에서 유래한다. 각 벤치마크는 특정 task 형식과 연관되어 있기 때문에, 이러한 불균형은 결과 모델이 특정 입력-출력 형식에 편향되도록 만들 수 있다.
우리는 다양한 벤치마크의 비율을 변경하여, 이것이 세 가지 일반화 수준(generalization level)에서 다운스트림 task 성능에 미치는 영향을 평가하고, 그 결과를 Table 5에 제시한다. 이 실험에서는 최대한 많은 벤치마크에서 좋은 성능을 보이는 파라미터를 선택하고자 하므로, task category 대신 각 벤치마크별 집계 성능을 기반으로 모델을 비교한다.

첫째, 우리는 비율이 변경된 동일 벤치마크 내에서의 성능 향상을 살펴본다. FLAN의 비율을 5%에서 25%로 늘리면, fully-held out 및 partially held-out 일반화 수준 모두에서 성능이 크게 향상되지만, fully-supervised task에서는 눈에 띄는 개선이 없었다. SuperNatInst는 partially-supervised task에서 유사한 경향을 보였지만, 놀랍게도 fully held-out task에서는 큰 변화가 없었다. 이는 SuperNatInst의 매우 특정한 입력-출력 형식 때문에, 관련 없는 클러스터의 비율을 변경하는 것이 fully held-out 클러스터에 아무런 이점을 제공하지 못했을 가능성이 있다. PromptSource는 fully supervised 클러스터와 partially supervised 클러스터에서 상대적으로 변화가 없었는데, 이는 18%의 비율로도 이미 성능 포화 상태에 도달했기 때문일 수 있다. 그러나 fully-held out 클러스터에서는 비율이 높아질수록 이점을 얻었다.

둘째, 우리는 벤치마크들이 서로 보완적인 역할을 한다는 것도 관찰했다. 예를 들어, fully held-out FLAN에서 가장 높은 정확도(88.8/83.6%)는 FLAN의 비율이 가장 높을 때가 아니라, PromptSource와 Crossfit의 비율을 개선했을 때 달성되었다. 유사하게, fully-held out PromptSource에서 가장 높은 생성 성능(79.7/83.5%)은 25% PS 비율에서 달성되었으며, 45% PS 비율에서는 그렇지 않았다. 또한, 특정 trade-off도 관찰된다. 예를 들어, FLAN과 PromptSource에 가장 적합한 비율은 reasoning 데이터셋에서 성능이 급격히 하락하는 결과를 초래하며, 그 반대도 마찬가지이다. 마지막으로, Crossfit, Exmix, T5, Unified-SKG의 비율을 0으로 설정하면 최악의 모델이 되는데, 이는 instruction-tuning에 다양한 벤치마크를 사용하는 것의 이점을 보여준다.

Benchmark Props. Crossfit/Exmix/Flan /NIV2/PS/T5/U-SKG	Fully Held-Out				Partially Supervised			Fully Supervised
	FLAN	NIV2	PromptS	Reas.	FLAN	MMLU	NIV2	PromptS	FLAN	PromptS
2/1/ 5/71/18/1/2	79.2/74.4	52.4/61.8	75.2/79.7	2.7/23.4	17.8	37.3/35.3	69.3/61.4	54.3/62.0	85.8/82.9	43.1/49.1
2/1/35/25/34/1/2	86.8/80.8	53.0/62.5	72.0/83.7	2.6/20.3	17.7	34.5/30.8	62.2/53.5	57.6/66.2	85.9/81.7	44.3/48.3
3/3/35/25/25/7/2	81.2/83.2	52.5/61.1	79.7/83.5	2.7/19.8	20.0	36.7/29.8	60.9/54.1	57.1/56.8	86.8/84.1	43.4/48.3
2/1/27/40/27/1/2	86.8/81.2	52.4/63.2	77.9/83.3	2.6/21.3	20.2	36.3/30.3	67.3/60.4	57.8/61.7	86.4/81.6	43.2/48.8
3/3/25/25/35/7/2	91.2/80.4	51.1/62.2	75.6/83.4	2.6/18.4	21.4	37.5/33.7	59.7/51.5	57.4/66.9	83.6/83.7	44.3/48.9
4/2/35/25/30/2/2	88.0/76.8	51.5/61.3	75.1/82.7	3.0/16.8	20.0	37.1/30.7	65.6/58.0	60.4/61.5	85.4/81.5	43.2/49.9
4/2/20/25/45/2/2	88.8/83.6	54.5/62.2	73.5/85.0	2.5/13.1	19.8	38.2/33.2	63.0/57.5	56.1/61.8	86.1/84.2	43.0/48.7
2/1/35/25/30/5/2	86.0/83.2	51.1/61.6	74.0/82.8	2.6/17.1	20.8	36.9/31.9	63.5/62.4	53.1/63.7	86.2/81.6	43.5/49.7
7/1/35/25/28/2/2	85.6/81.2	51.0/61.6	78.0/82.1	2.6/19.9	20.0	36.3/31.9	65.1/60.6	59.6/63.1	85.0/84.0	43.2/49.3
0/0/35/30/35/0/0	86.0/79.2	52.3/62.6	71.8/84.2	2.6/15.3	19.3	36.6/28.6	60.8/54.8	56.9/62.3	85.2/80.2	43.6/47.8

Table 5: 다양한 벤치마크 비율에 따른 각 일반화 수준에서의 벤치마크별 성능 변화. 첫 번째 행은 OPT-IML 벤치마크의 원래 비율을 나타낸다. 결과는 0-shot / 5-shot 형식으로 제시된다. 요약(Summarization) task의 경우 0-shot 성능만 보고한다. 대부분의 task는 생성(generation) task이며, 이에 대해 Rouge-L을 보고한다. MMLU의 경우 정확도(accuracy)를 보고한다. Cause Effect Cluster의 4개 task도 정확도를 사용하며, 이는 발표 목적상 Rouge-L과 평균화된다. 우리는 벤치마크 및 shot별로 집계된 평균 성능을 기반으로 모델을 선택한다.

Figure 2: OPT-IML 30B 모델의 0-shot 및 5-shot 설정에서 학습 task 수 확장이 각 일반화 수준에 미치는 영향. task category별로 집계된 결과이다.

벤치마크별 평균 성능을 기준으로, "2/1/27/40/27/1/2", "7/1/35/25/28/2/2", "4/2/20/25/45/2/2"가 가장 좋은 성능을 보였으며, 우리는 마지막 비율을 최종 OPT-IML 모델의 비율로 선택한다. 우리의 선택에도 불구하고, 다른 최종 목표(예: reasoning chain 생성)를 가진 instruction-tuned 모델은 다른 비율을 선택하는 것이 더 유리할 수 있다. 우리는 또한 Section 4.6에서 reasoning 데이터셋의 성능을 향상시키는 방법을 탐구한다.

4.4 Effects of Scaling Tasks or Categories

이전 연구에서는 학습 task 또는 클러스터의 수를 확장하면 완전히 held-out된 일반화 설정에서 모델의 전반적인 성능이 향상됨을 보여주었다 (Wei et al., 2022a; Wang et al., 2022). 우리는 이와 유사한 축을 따라 효과를 연구하지만, 완전히 held-out, 부분적으로 supervised, 완전히 supervised task/카테고리와 같은 더 많은 일반화 설정을 포함한다. 이 섹션에서는 클러스터/카테고리를 상호 교환적으로 사용한다.
Task scaling 연구를 위해, 우리는 16, 64, 256, 1024개의 task 세트를 무작위로 샘플링했으며, 이때 더 작은 세트가 더 큰 세트의 부분집합이 되도록 하고, 완전히 supervised된 task는 항상 선택되도록 했다. Figure 2 (전체 결과는 Appendix Table 17 참조)는 0-shot 및 5-shot 성능 모두에 대해 클러스터 수준으로 집계된 세 가지 일반화 수준에서의 이러한 task scaling 연구 결과를 제시한다.

우리는 완전히 held-out된 task와 부분적으로 supervised된 task 모두 학습 task 수가 증가함에 따라 가장 큰 성능 향상을 보인다는 것을 관찰했다. 흥미롭게도, 학습 task를 늘려 완전히 supervised된 task의 클러스터에서 더 많은 관련 task를 보더라도, 완전히 supervised된 task의 성능은 변하지 않았다.
완전히 held-out 설정에서는 Cause Effect Classification 클러스터가 zero-shot에서, Word Analogy 클러스터가 few-shot에서 가장 큰 향상을 보였다.
부분적으로 supervised된 설정에서는 Question Answering 클러스터와 Toxic Language Detection 클러스터가 zero-shot 및 few-shot 모두에서 가장 큰 향상을 보였다.

클러스터 scaling 연구를 위해, 우리는 각 클러스터에 포함된 task 수의 내림차순으로 클러스터를 정렬하고, 처음 4개, 16개, 64개, 그리고 93개(즉, 모든) 클러스터를 선택했다. 또한, 우리의 완전히 supervised된 validation task가 Question Answering, Summarization, Dialogue Generation 클러스터에 속하므로, 이 세 클러스터는 항상 포함되도록 했다. Figure 3 (전체 결과는 Appendix Table 18 참조)는 zero-shot 및 few-shot 설정 모두에 대해 세 가지 일반화 수준에서의 해당 결과를 제시한다.
우리는 학습 클러스터 수가 증가함에 따라 완전히 supervised된 task의 성능은 few-shot 설정에서 동일하게 유지되거나 약간 감소하는 것을 관찰했다.
완전히 held-out 및 부분적으로 supervised된 수준에서는 zero-shot 설정의 결과는 클러스터 수 증가에 따라 향상되었고, few-shot 설정의 결과는 다소 혼합적이었지만, 전반적으로 클러스터 scaling에 따라 감소하는 경향을 보였다.
참고로, 처음 4개의 클러스터만으로도 이미 673개의 task를 포함한다 (완전히 supervised된 설정에 속하는 클러스터는 많은 task를 가짐). 따라서 모델은 이미 강력한 성능으로 시작하며, 이는 우리가 관찰한 혼합된 결과의 원인이 될 수 있다. 이러한 결과를 바탕으로

Figure 3: OPT-IML 30B 모델의 0-shot 및 5-shot 설정에서 학습 카테고리 수 확장이 각 일반화 수준에 미치는 영향.

4.5 Effects of Pre-training during Instruction-Tuning

우리는 fine-tuning 시 전체 시퀀스에 대해 사전학습(pre-training) 방식의 업데이트를 적용하면 학습이 더 안정적일 수 있음을 관찰했으며, 이에 따라 세 가지 일반화 수준에서 사전학습 데이터 사용이 성능에 미치는 영향을 탐구한다. Table 6은 사전학습 방식 업데이트에 사용된 예시를 보여준다. Shuster et al. (2022)의 연구를 따라, 우리는 OPT (Zhang et al., 2022) 학습에 사용된 코퍼스의 마지막 shard를 fine-tuning을 위한 사전학습 데이터로 사용한다. 이는 OPT의 사전학습 단계에서 단 한 번만 사용되었기 때문이다. 우리는 사전학습 데이터를 1%, 5%, 10%, 50%의 비율로 점진적으로 추가하는 실험을 수행했으며, 5-shot 설정에서 task 카테고리별로 집계된 결과를 Figure 4에 제시한다 (전체 0-shot 및 5-shot 결과는 Appendix Table 19 참조).

Dataset	Example (Input Prompt and Output)
Pre-training	You could make it a full group party with the kids and wives. Don't make it just about books. So have $A$ movie night My parents made a movie group they go out to dinner then see a movie then dicuss it. You could play card games. Watch some comedy. Ask the members. Do a music night when one of you has to bring a selection of their fav music.
Reasoning	Answer the following question by reasoning step by step. <br> How do most people feel about a person they love? <br> popularity, know all, own house, care about, flu Output: we care about people we love. The answer is care about
Dialogue	I love cats and have five of them. <br> Cats are nice. How old are you? <br> Old enough to work in the construction field. You? <br> I am 68, been retired for a few years now. <br> Great. What did you work and retire from? <br> I was a tailor.

Table 6: 사전학습, 추론, 대화 데이터셋의 예시. 사전학습 및 대화 데이터의 경우, source는 비어 있으며 전체 텍스트 시퀀스가 target으로 간주된다.

Figure 4: OPT-IML 30B의 5-shot 설정에서, 각 일반화 수준에 대해 instruction-tuning과 함께 전체 시퀀스에 대한 사전학습 업데이트를 수행했을 때의 효과를 task 카테고리별로 집계한 결과. x축은 전체 업데이트 수 대비 사전학습 업데이트가 수행된 비율(%)을 나타낸다.

전반적으로, 완전히 held-out된 일반화 수준과 부분적으로 supervised된 일반화 수준에서는 사전학습 데이터를 10%까지 추가할 때 모델 성능이 향상되다가 그 이후에는 저하되기 시작함을 관찰했다. 또한, 더 많은 사전학습 데이터를 사용하면 Rouge-L F1 점수는 높아지지만, 정확도(accuracy) 점수는 낮아지는 경향을 보였다. 이는 사전학습 데이터가 생성(generation) task와 분류(classification) task의 비율에 미치는 영향 때문인 것으로 부분적으로 설명된다. 일반화 수준별 평균 점수를 바탕으로 (Appendix Table 19 참조), 우리는 OPT-IML 모델의 instruction-tuning에 5%의 사전학습 데이터를 포함하기로 결정했다.

4.6 Effects of Adding Reasoning Datasets

최근 연구(Wei et al., 2022b; Kojima et al., 2022)에 따르면, LLM이 답변을 생성하기 전에 자연어로 추론 과정(reasoning chain)을 생성하도록 prompt를 주면, 추론 task에서의 성능이 향상되는 것으로 나타났다. 이러한 발견을 바탕으로, 우리는 14개의 추론 데이터셋(목록은 Appendix A.1 참조)을 컴파일하여 LLM이 추론을 수행하도록 명시적으로 fine-tuning을 시도한다. 이 데이터셋들은 답변 이전에 rationale을 포함하며, instruction-tuning 과정에서 이 데이터셋들을 포함시킨다. 이 데이터셋 세트에는 Chung et al. (2022b)이 CoT 카테고리에서 사용한 9개의 데이터셋과 몇 가지 추가 데이터셋이 포함된다. 각 데이터셋은 모델에게 추론 과정을 명시적으로 생성하도록 요청하는 instruction (Kojima et al., 2022)을 사용하는 단일 prompt를 가지며, 그 뒤에 답변 이전에 추론 과정이 어떻게 생성되어야 하는지를 보여주는 few-shot 예시가 이어진다. 이러한 prompt의 예시는 Table 6에 제시되어 있다. 벤치마크 비율 "2/1/27/40/27/1/2"를 baseline으로 사용하여 (Section 4.3 참조), 우리는 추론 데이터의 비율을 1%, 2%, 4%로 추가하는 실험을 수행하고 (가장 높은 비율의 벤치마크인 SuperNatInst의 비율을 줄이는 방식으로), 5-shot 설정에서의 결과를 Figure 5에 제시한다 (전체 0-shot 및 5-shot 결과는 Appendix Table 20 참조). 결과는 일반화 수준(generalization level) 및 task 카테고리별로 분류되어 있다.

Figure 5: OPT-IML 30B 모델의 5-shot 설정에서 추론 데이터셋을 사용한 fine-tuning이 각 일반화 수준(generalization level)에 미치는 영향을 task 카테고리별로 집계한 결과. 우리는 추론 데이터셋의 비율을 1%, 2%, 4%로 추가하여 실험을 진행했다. 이 실험의 baseline은 다른 실험들과 다른 비율을 기반으로 한다는 점에 유의해야 한다.

우리는 추론 데이터셋으로 instruction-tuning을 수행했을 때, **2/14개의 held-out validation 추론 task에서 상당한 성능 향상(Rouge-L이 12.2%에서 31.6%로 증가)**을 확인했다. 이와 함께 Cause-Effect, Stereotype Detection, Toxicity Detection, Word Analogy와 같은 다른 held-out task 카테고리에서도 성능 향상을 보였다. 또한, 1%의 추론 데이터를 추가했을 때 전반적으로 가장 큰 성능 향상을 보였으며, 그 이상으로 데이터를 추가하면 MMLU, Cause-Effect Accuracy, Toxicity, Dialogue (0-shot 및 5-shot 평균)에서는 성능 향상이 감소하기 시작했다. 반면, Summarization 클러스터(0-shot만 해당, Appendix 참조)는 더 높은 비율의 추론 데이터에서도 지속적으로 이점을 얻었다. 카테고리 및 일반화 수준 전반의 평균 성능을 기반으로, 우리는 최종 OPT-IML 모델에 1%의 추론 데이터를 사용한다.

4.7 Effects of Adding Dialogue Datasets

우리는 대화 데이터를 보조 fine-tuning 데이터로 추가하여, LM이 지시적 입력에 반응하고 지시적 표현을 이해하는 능력을 향상시킬 수 있는지 실험하였다. 또 다른 목표는 이 접근 방식이 챗봇 행동(Shuster et al., 2022)을 유도하여 모델을 더 대화적으로 만들 수 있는지 평가하는 것이었다.

BlenderBot 3 학습에 사용된 대화 데이터셋의 일부를 활용하여 (Shuster et al., 2022), 우리는 대화를 단일 개행 문자(newline token)로 구분된 턴(turn) 시퀀스로 처리하였다 (예시는 Table 6 참조). 이 데이터는 320,543개의 고유한 대화로 구성되며, 우리는 모델이 전체 대화 시퀀스를 예측하도록 fine-tuning하였다. 포함된 대화 데이터의 비율은 **0.5%**로 설정하였으며, Table 7에서는 task 카테고리 및 일반화 수준별 0-shot 및 5-shot 결과를 validation split에 대해 제시한다.

우리는 앞서 언급된 대화 데이터를 단 0.5%만 추가하더라도 0-shot 성능이 저하되는 반면, 5-shot 성능은 변함없이 유지됨을 관찰하였다. 특히, 0-shot 성능은 주로 stereotype detection과 word analogy task에서 저하되었다. 이 카테고리들의 모델 예측을 분석한 결과, 이들은 주로 참조(reference)가 단일 단어이거나 특정 형식(예: 원본 입력에서 서로를 지칭하는 구문 쌍)을 가진 짧은 텍스트인 생성(generation) task였다. BB3 데이터로 학습하면 모델이 요구되는 형식에 맞추는 능력이 약화되었다. 또한, toxicity detection의 5-shot 성능도 크게 저하되었다. 오류 분석 결과 유사한 문제가 드러났는데, 즉 모델이 단순히 "yes" 또는 "no"를 생성하는 대신, 특정 결정 단어 집합을 생성해야 하는 task에서 성능이 더 나빠지는 경향을 보였다. 이러한 task들에서 심각한 모델 성능 저하가 발생했기 때문에, 우리는 OPT-IML 튜닝 시 대화 데이터를 추가하지 않았다.

EPS	Fully Held Out				Partially Supervised				Toxic Det.	Fully Supervised		Average
	Cause Effect	Gram. Corr.	Stereo. Det.	Word Ana.	Reas.	MMLU	QA	Summ.		Dial ogue.	Summ.
Baseline	63.5/62.5	86.1/87.5	58.9/82.3	17.2/57.8	2.6/20.4	41.5/37.0	69.3/58.9	18.1	60.0/70.0	16.1/15.8	87.6/83.5	46.0/57.6
+ 0.5% BB3	61.7/62.2	86.1/87.4	51.9/83.4	10.4/57.5	2.6/22.2	40.2/35.4	68.9/62.5	20.6	61.9/65.4	16.1/15.2	86.4/83.7	44.8/57.5

Table 7: OPT-IML 30B에 대해 0.5%의 대화 데이터를 사용하여 4000 스텝 fine-tuning한 후, 각 일반화 수준별 효과를 task 카테고리별로 집계한 결과. 결과는 0-shot / 5-shot 형식으로 제시된다. 대부분의 카테고리는 Rouge-L F1을 사용하며, MMLU는 accuracy를 사용한다. 일부 Cause-Effect task는 accuracy를 사용하며, 이는 제시를 위해 Rouge-L F1과 평균화되었다.

4.8 Effects of Meta-Training for In-Context Learning

최근 연구에 따르면, instruction에 demonstration example을 포함하여 language model을 fine-tuning하면 in-context learning 능력이 향상된다는 것이 밝혀졌다 (Min et al., 2021; Wang et al., 2022; Chung et al., 2022b). Min et al. (2021)과 Wang et al. (2022)은 각 학습 예시에 $k$ 개의 demonstration example을 고정된 수로 추가하는 방식으로 실험을 진행했다. 모델은 추론 시에도 동일한 수의 $k$ demonstration example로 평가되었다. Chung et al. (2022b)은 exemplar가 포함된 데이터와 포함되지 않은 데이터를 혼합하여 사용했지만, 각 유형 데이터의 비율과 포함된 exemplar의 수는 명확하게 제시되지 않았다.

우리는 더 나은 in-context few-shot learner이면서, 추론 시 사용되는 demonstration example의 수에 강건한 모델을 학습하고자 한다. ${ }^{8}$ 우리는 다양한 수의 demonstration example을 포함하는 학습 예시를 생성하는 간단한 방법을 실험한다. 각 예시 $e$ 에 대해, 우리는 분포 $\mathcal{D}$ 에서 $k$ 를 샘플링하고 (최대 ${ }^{9} K$ 까지), 만약 $k>0$ 이면 학습 세트에서 $e$ 와 다른 $k$ 개의 예시 $E_{d}=\left\{e_{1}, \ldots, e_{k}\right\}$ 를 무작위로 선택한다. 이 $E_{d}$ 를 $e$ 의 prompt에 demonstration example로 추가하며, 이때 예시들은 특수 토큰 [SEP]으로 구분된다. Super-NaturalInstructions와 같이 task-level instruction을 가진 벤치마크의 경우, demonstration example은 $e$ 앞에, 그리고 instruction 필드 뒤에 배치된다. FLAN 및 PromptSource와 같이 instance-level instruction을 가진 벤치마크의 경우, demonstration example은 $e$ 앞에 배치된다.

demonstration example은 prompt 길이를 상당히 증가시키기 때문에, 너무 많은 few-shot 학습 예시를 포함하면 손실의 희소성(sparsity)과 낮은 batch 다양성으로 인해 종종 성능 저하 및 학습 안정성 감소로 이어진다. 결과적으로 우리는 $k=0$ 에 크게 치우칠 수 있는 Zipf 분포 ${ }^{10}$ 를 $\mathcal{D}$ 로 선택한다. 우리는 Zipf 분포의 shape parameter $a$ 를 조정하여 다양한 $\mathcal{D}$ 를 가진 MetaICL 모델을 학습한다. $a=4$ 일 때, 예시의 92.5%가 zero-shot 예시이며, $a=2$ 일 때, 예시의 67.1%가 zero-shot 예시이다. Min et al. (2021)을 따라 $K=5$ 로 설정하고, 세 개의 연속된 개행 토큰을 [SEP]으로 사용한다.

Figure 6: 우리는 MetaICL을 위한 두 가지 유형의 학습 손실을 실험한다: Min et al. (2021)이 제안한 타겟 예시의 레이블에 대한 generation loss, 그리고 첫 번째 demonstration example의 레이블과 이어지는 예시들의 전체 시퀀스에 대한 generation loss.

Suffix loss를 사용한 MetaICL
손실 희소성 문제를 추가적으로 해결하기 위해, 우리는 Figure 6에 설명된 오리지널 MetaICL loss의 변형도 실험한다. instruction과 exemplar가 포함된 예시가 주어졌을 때, 모델이 타겟 레이블을 생성하도록 학습하는 대신, 첫 번째 exemplar의 타겟 레이블과 이어지는 나머지 exemplar들의 전체 시퀀스를 생성하도록 모델을 학습시킨다. 이는 demonstration example을 효과적으로 학습 예시로 전환시키며, 더 많은 토큰에 손실이 분산되므로 손실 희소성 문제를 완화한다.

생성(generation) task에서의 성능 저하
Table 8에서는 MetaICL의 다양한 설정으로 instruction-tuning을 수행한 validation set 결과를, 일반화 수준 및 task 카테고리별로 0-shot 및 5-shot 설정 모두에서 집계하여 제시한다. 우리는 MetaICL 학습을 추가하는 것이 대부분의 경우 0-shot 및 5-shot 설정 모두에서 성능 저하로 이어진다는 것을 관찰했다. 반면, suffix loss를 사용한 MetaICL은 일반 MetaICL보다 우수한 성능을 보였으며, 특히 0-shot 설정에서 그러했다. 카테고리별 성능을 추가로 살펴보면, MetaICL 모델이 여러 5-shot 평가에서 합리적인 개선을 보였음에도 불구하고, Stereotype Detection 및 Word Analogy task의 5-shot 성능은 크게 저하되었다. 오류 분석 결과 §4.7과 유사한 문제가 발견되었는데, MetaICL 모델은 in-context exemplar가 있을 때 출력 패턴을 엄격하게 따르는 능력을 잃는 경향이 있었다. 또한, 표준 MetaICL loss는 추론(reasoning) task에 상당한 악영향을 미쳤다. 결과 모델은 in-context learning 예시에 추론 체인(reasoning chain)이 있음에도 불구하고 짧은 답변을 생성하는 경향을 보였다. 추가 조사 결과, 모델이 demonstration separator에 과적합될 수 있으며, 추론 시 이를 수정하면 이러한 문제들을 크게 완화할 수 있음이 밝혀졌다 (Table 21). ${ }^{11}$ 흥미롭게도, MetaICL은 생성 task에서만 성능을 저하시켰지만, MMLU와 같은 점수 기반 분류 task에서는 전반적으로 유익했다. 그러나 일반 설정에서 심각한 출력 저하가 발생했기 때문에, 우리는 OPT-IML 모델 학습에 MetaICL을 사용하지 않기로 결정했다.

EPS	Fully Held Out				Partially Supervised				Fully Supervised				Average
	Cause Effect	Gram. Corr.	Stereo. Det.	Word Ana.	Reas.	MMLU	QA	Summ.	Toxic Det.	Dial ogue.	QA	Summ.
Baseline	62.1/59.6	85.4/87.4	56.8/79.9	13.5/55.9	2.6/18.3	39.3/36.0	65.1/58.0	17.8	61.6/66.9	16.4/16.2	86.4/81.5	29.7	44.7/56.0
Zipf $\mathrm{a}=4$	60.5/61.4	84.7/87.5	53.0/67.6	13.8/36.5	2.9/3.3	37.9/35.9	63.6/59.7	18.8	59.5/62.2	15.5/15.3	86.1/86.3	30.2	43.9/51.6
Zipf $\mathrm{a}=4 \mathrm{sf}$ .	59.8/62.0	85.1/87.2	$52.9 / \underline{67.6}$	12.2/42.9	2.7/20.7	41.0/38.7	64.3/61.6	18.4	66.3/66.2	15.9/16.2	85.9/85.2	29.5	44.5/54.8
Zipf $\mathrm{a}=2$	61.6/62.0	84.2/87.0	$\underline{48.0} / \underline{69.1}$	11.0/41.2	2.6/5.2	37.9/36.4	63.7/64.9	20.2	65.1/72.8	16.1/14.5	85.6/84.8	29.8	43.8/53.8
Zipf $\mathrm{a}=2 \mathrm{sf}$ .	56.1/64.3	87.6/88.1	60.8/65.9	14.5/35.9	2.6/16.9	39.7/38.0	63.4/62.1	19.1	65.2/75.3	16.2/16.9	85.4/86.2	31.5	45.2/55.0

Table 8: OPT-IML 30B 모델에 대한 MetaICL fine-tuning이 각 일반화 수준에 미치는 영향 (2000 스텝 후), task 카테고리별로 집계.
결과는 0-shot / 5-shot으로 제시된다. MetaICL 모델의 출력이 baseline 모델에 비해 심각한 저하를 보이는 카테고리는 밑줄로 표시했다.

5. OPT-IML Models

Section 4의 실험에서 얻은 instruction tuning을 위한 최적 설정을 사용하여, 우리는 OPT 30B와 175B 모델을 instruction tune하여 OPT-IML 30B와 175B 모델을 생성한다. 구체적으로, 우리는 EPS와 벤치마크 비율에 대한 최적 값을 선택하고, 학습 분할에 모든 task를 포함하며, reasoning chain이 포함된 데이터셋을 1% 추가하고, OPT 사전학습 코퍼스에서 5%의 데이터를 추가한다. 또한, demonstration을 사용한 학습(즉, MetaICL)과 dialogue 데이터셋은 제외한다. 우리는 OPT-IML 30B를 4000 스텝 동안 튜닝하고, OPT-IML 175B는 메모리 효율성을 위해 배치 크기를 절반으로 줄여 두 배의 스텝 동안 튜닝한다. 주기적인 validation set metric을 기반으로, 우리는 마지막 체크포인트를 최종 모델로 사용하기로 결정한다.

우리는 OPT-IML 모델을 OPT 평가 task뿐만 아니라 이전 연구(Wei et al., 2022a; Sanh et al., 2022; Wang et al., 2022; Xie et al., 2022; Zhang et al., 2022)의 네 가지 멀티태스크 벤치마크에 대해 zero-shot 및 5-shot 설정 모두에서 평가한다. 이 과정에서 이전 연구에서 발표된 개별 벤치마크별 instruction-tuned 모델들과 직접 비교한다. 따라서 우리는 다음과 같이 비교한다:

OPT 평가 세트에서는 baseline OPT 모델과 비교한다.
FLAN (Wei et al., 2022a) 평가 세트에서는 FLAN-137B와 비교한다.
PromptSource (Sanh et al., 2022) 평가 세트에서는 T0pp 11B와 비교한다.
Super-NaturalInstructions (Wang et al., 2022) 평가 세트에서는 Tk-Instruct 11B와 비교한다.
UnifiedSKG (Xie et al., 2022) 벤치마크의 세 가지 task에서는 코드/구조와 텍스트의 공동 모델링에 대해 비교한다.

우리는 다음 섹션에서 이러한 결과를 검토하며, OPT-IML이 모든 벤치마크에서 OPT를 능가하고, zero-shot 및 few-shot 성능 모두에서 개별 벤치마크별 instruction-tuned 모델들과 경쟁력 있는 성능을 보인다는 것을 발견한다.

5.1 OPT Evaluations

우리는 OPT-IML을 OPT (Zhang et al., 2022)가 보고한 14개의 표준 NLP task subset에 대해 평가했다. 평가는 30B 및 175B 스케일에서 zero-shot 및 few-shot 설정으로 진행되었으며, **OPT가 공개한 동일한 prompt (task당 하나의 prompt)**를 사용했다. 이 모든 task는 여러 후보가 있는 분류(classification) 스타일의 task이므로, OPT와 유사하게 가장 높은 likelihood를 가진 후보를 모델의 예측으로 사용하고 정확도(accuracy)를 Table 9에 보고한다. 또한, 이 모든 task는 학습 시 held-out되었으며, 일부는 완전히 held-out된 카테고리에서, 일부는 부분적으로 held-out된 카테고리에서 가져왔다. few-shot 설정의 경우, OPT가 사용한 것과 **동일한 예시와 shot 수 (32-shot)**를 사용했지만, 모델의 최대 시퀀스 길이에 맞게 잘라냈다.

Model	StoryCloze	PIQA	ARC (e)	ARC (c)	OpenBookQA	Winograd	Winogrande
OPT 30B	80.3/84.1	77.5/78.8	63.9/72.7	43.1/45.2	57.2/60.1	83.5/83.3	69.7/71.7
OPT-IML 30B	80.1/82.7	77.3/69.2	64.9/72.1	45.5/46.7	50.6/55.2	83.5/83.5	67.8/69.0
OPT 175B	82.9/86.9	79.5/81.6	67.0/76.8	44.1/50.5	58.4/64.5	85.3/87.8	73.7/77.6
OPT-IML 175B	83.3/86.4	79.8/80.5	70.8/77.2	50.9/53.2	58.2/65.0	85.7/87.5	73.0/74.4
Model	BoolQ	CB	COPA	RTE	WIC	WSC	MultiRC	Average
OPT 30B	64.0/69.6	28.6/5.7	84.0/88.6	58.1/61.7	50.2/54.0	62.2/63.2	6.1/7.8	59.2/60.5
OPT-IML 30B	66.9/71.8	82.1/78.6	85.0/89.0	83.8/73.3	57.1/52.0	75.7/54.1	7.7/4.9	66.3/64.4
OPT 175B	60.1/76.8	46.4/70.0	87.0/91.4	60.3/71.0	56.6/54.3	51.4/75.1	7.5/14.0	61.4/69.9
OPT-IML 175B	71.4/81.7	69.6/53.6	88.0/89.0	84.8/83.8	56.1/56.1	73.0/75.7	10.3/20.4	68.2/70.3

Table 9: OPT-IML과 OPT의 14개 표준 NLP task에 대한 정확도 비교.
Zhang et al. (2022)의 연구에서 가져온 task들이며, 0-shot / 32-shot 형식으로 표시된다. ARC의 경우, (e)는 (Easy)를, (c)는 (Challenge)를 나타낸다.

평균적으로 OPT-IML은 30B 및 175B 모델 스케일 모두에서 0-shot 정확도를 OPT 대비 약 6-7% 향상시킨다. 32-shot 정확도의 경우, 30B 모델에서는 상당한 개선을 보이지만, 175B 모델에서는 완만한 개선을 보인다. RTE, WSC, BoolQ, ARC, CB, WiC와 같은 특정 task에서는 개선이 두드러지지만, 우리의 instruction-tuning은 StoryCloze, PIQA, Winograd, Winogrande와 같은 다른 task에서는 성능을 향상시키지 못한다. 이러한 후자의 결과 중 일부는 OPT가 사용한 prompt에 특화된 것이다. 예를 들어, Section 5.2의 PromptSource의 일부로 다양한 prompt template 컬렉션으로 평가했을 때 StoryCloze와 Winogrande에서 개선을 관찰했다. 이러한 현상의 한 가지 이유는 OPT prompt가 원래 GPT-3 (Brown et al., 2020a)에서 채택되었고, 최적의 성능을 위해 prompt engineering 과정을 거쳤기 때문이다. 반면, FLAN과 PromptSource는 최적이 아닌 prompt를 포함하여 다양한 prompt 컬렉션을 사용하여 평균 정확도를 평가한다. 따라서 이러한 task에 대한 instruction-tuning의 장점은 모델의 견고성(robustness)을 향상시키고 prompt engineering의 필요성을 줄이는 것일 수 있다.

5.2 Evaluations on PromptSource

Sanh et al. (2022)는 T5 11B (Raffel et al., 2020; Lester et al., 2021)의 LM 적응 버전을 **PromptSource의 50개 데이터셋(T0라고 명명)**으로 fine-tuning하고, 완전히 held-out된 4개 카테고리에 속하는 11개의 held-out task에 대해 평가를 수행했다. 각 task는 연구 커뮤니티가 prompting tool의 도움을 받아 기여한 여러 prompt template와 연결되어 있다. 이 모든 task는 OPT-IML에서도 held-out 카테고리에 속하므로, 우리는 유사한 평가 설정을 사용하되, 몇 가지 추가 task를 포함했다. 대부분의 task는 likelihood를 기반으로 후보 점수를 매기고 정확도를 보고하는 분류 task이며, Blended Skill Talk는 Rouge-L F1 점수를 보고하는 생성 task이다. 각 task는 여러 prompt를 사용하므로, Table 10에서는 0-shot 및 5-shot 설정에서 prompt별로 평균화된 metric을 보고한다.

Model	ANLI R1	ANLI R2	ANLI R3	CB	RTE	StoryCloze	WSC
OPT 30	33.7/33.6	34.1/33.2	34.7/33.3	24.6/43.6	56.4/49.6	55.5/55.7	43.5/45.5
OPT-IML 30B	37.1/38.3	35.4/35.0	36.6/38.8	43.2/66.8	67.8/65.1	90.7/85.6	58.2/62.4
OPT 175	34.1/37.8	34.1/34.7	34.7/36.5	38.9/63.5	54.0/51.6	57.0/63.5	51.0/40.2
OPT-IML 175b	42.2/44.3	38.5/39.9	39.6/43.5	56.4/75.6	73.4/82.7	95.0/93.3	59.2/53.8
T0-original-task 11B	42.1/33.6	37.9/33.1	39.7/33.2	58.5/48.9	80.2/47.3	96.7/94.1	58.6/63.5
Model	WiC	Winogrande	Blended Skill Talk	WinoGender	Crows-Pairs	Average
OPT 30	50.8/50.7	50.2/50.2	15.2/15.7	54.9/54.9	85.5/85.5	44.9/45.9
OPT-IML 30B	54.7/54.2	53.4/52.9	15.7/15.9	64.6/64.6	22.3/22.3	48.3/50.1
OPT 175	49.7/49.9	50.1/52.2	15.0/16.1	53.9/53.9	85.5/85.5	46.5/48.8
OPT-IML 175b	53.6/53.8	56.6/56.9	16.3/16.4	72.7/72.7	34.4/34.4	53.2/55.6
T0-original-task 11B	56.0/50.0	62.5/57.9	6.2/4.5	83.8/83.8	24.0/24.0	53.8/47.8

Table 10: Sanh et al. (2022)의 평가 task에서 OPT-IML 30B 및 175B와 baseline OPT 모델, 그리고 T0-original-task-only 11B 모델의 Zero-shot 및 5-shot 성능 비교. Blended Skill Talk에 대해서는 Rouge-L F1을 보고하고, 다른 모든 task에 대해서는 정확도를 사용한다. 각 task metric은 해당 task의 여러 original-task prompt에 대한 평균으로 보고된다. 모든 task는 OPT-IML과 T0 모두에 대해 held out된 상태이다.

PromptSource에 수집된 일부 prompt는 task의 역방향 버전을 위한 것이다. 예를 들어, QA의 역방향 task는 질문 생성이다. 우리는 이러한 prompt를 사용하여 학습하거나 평가하지 않는데, 이는 task가 카테고리에 할당될 때 문제가 발생하기 때문이다. 우리는 OPT-IML을 T0-original-task-only 모델과 비교한다. 이 모델은 우리의 held-out 설정에 해당하며 (Sanh et al. (2022)는 추가 task로 학습된 T0p 및 T0pp도 공개함), original task를 준수하는 prompt로만 학습되었다.

OPT-IML 175B는 T0-original-task (11B)의 zero-shot 성능과 일치하며, 5-shot 성능에서는 이를 크게 능가한다. 두 모델 모두 demonstration으로 학습되지 않았지만, OPT와 같은 causal LM은 T0와 같은 encoder-decoder 모델보다 few-shot 설정에 대한 더 강력한 일반화 능력을 보여준다. 후자는 Chung et al. (2022b)가 탐구한 바와 같이 MetaICL 학습을 통해 few-shot 성능을 향상시킬 수 있다. 유사하게, Blended Skill Talk 생성 task에서 T0는 causal LM보다 성능이 떨어지는데, 이는 OPT-IML의 대규모 튜닝 데이터 때문이거나, encoder-decoder 모델이 새로운 생성 task에 일반화하는 데 어려움이 있음을 시사할 수 있다. 두 규모 모두에서 OPT-IML은 Crows Pairs를 제외한 거의 모든 task에서 baseline OPT 모델보다 우수한 성능을 보인다. Section 5.1에서 설명했듯이, 이 평가는 task당 여러 prompt를 사용하며, 입력 prompt에 더 강건한 모델에 보상을 준다. 또한, OPT-IML 30B가 평균적으로 baseline OPT 175B보다 우수한 성능을 보인다는 점은 instruction-tuning이 소규모의 자원 효율적인 모델을 더 경쟁력 있게 만들 수 있는 방법이 될 수 있음을 보여준다.

Sanh et al. (2022)에 따라, 우리는 LLM의 성별 편향 정도를 측정하는 WinoGender Schemas (Rudinger et al., 2018)를 textual entailment task (Poliak et al., 2018)로 변환하여 평가했으며, instruction-tuning이 이 task의 정확도를 크게 향상시킨다는 것을 발견했다. 마지막으로, 우리는 Crows Pairs (Nangia et al., 2020)를 문장이 고정관념을 나타내는지 여부에 대한 boolean QA task (단일 prompt 사용)로 구성하여 평가했으며, OPT-IML 175B에서는 OPT보다 성능 저하를 보였지만, 30B 모델에서는 그렇지 않았다. 이 task의 다른 구성, 예를 들어 어떤 문장이 고정관념인지 예측하는 방식은 다른 경향을 보일 수 있다. 이 두 task는 held-out 클러스터에서 온 것이 아니므로, 도움이 될 수 있는 다른 학습 데이터셋이 있을 수 있다는 점에 유의해야 한다.

5.3 Evaluations on FLAN

Wei et al. (2022a)는 OPT-IML Bench에 포함된 62개 데이터셋으로 구성된 FLAN instruction-tuning 벤치마크와 함께, **1.5조 단어의 공개 대화 데이터 및 웹 텍스트로 학습된 137B causal LM인 Lamda-PT (Thoppilan et al., 2022)**를 instruction-tune하는 데 사용한다. 그들은 leave-one-out 전략을 사용하여 완전히 held-out된 task 카테고리에 대해 FLAN-137B를 이용한 instruction-tuning을 평가한다. 즉, 다른 모든 카테고리로 튜닝하여 각 테스트 카테고리를 평가하기 위한 다른 모델을 생성한다. 이는 단일 instruction-tuned 모델을 사용하여 instruction tuning 벤치마크를 1500개 task로 확장함으로써 달성할 수 있는 개선 사항을 평가하기 위해 동일한 task 카테고리에서 OPT-IML 모델을 평가할 기회를 제공한다.

Models	ANLI-R1	ANLI-R2	ANLI-R3	CB	MNLI-m	MNLI-mm	RTE	SNLI
LaMDA-PT 137B	39.6/39.0	39.9/37.5	39.3/40.7	42.9/34.4	35.7/43.7	37.0/43.8	73.3/70.8	33.3/54.7
FLAN 137B	47.7/44.2	43.9/41.6	47.0/42.8	64.1/82.6	51.1/60.8	51.0/61.0	78.3/79.9	43.0/62.3
OPT 30B	33.3/33.3	33.3/33.6	33.5/33.5	8.9/54.0	31.8/33.3	31.8/35.5	53.0/59.2	32.8/35.0
OPT-IML 30B	38.5/36.5	37.5/37.0	39.6/38.3	80.0/81.5	59.2/53.6	61.0/56.3	75.4/72.4	59.4/61.7
OPT 175 B	33.3/34.0	33.3/35.0	33.5/34.6	8.9/59.1	31.8/33.5	31.8/32.9	53.8/63.1	32.8/35.2
OPT-IML 175B	46.1/48.0	43.5/43.8	43.8/44.1	75.4/84.1	61.1/64.4	62.8/64.9	80.9/82.1	63.9/67.1
Models	WNLI	BoolQ	OpenBookQA	ARC (e)	ARC (c)	Winogrande	WSC	Average
LaMDA-PT 137B	56.3/64.8	81.0/80.0	41.8/50.6	76.4/80.9	42.0/49.4	68.3/68.4	81.0	52.5/54.2
FLAN 137B	61.0/55.4	80.2/83.6	77.4/77.2	79.5/80.5	61.7/63.7	67.3/72.3	80.8	62.3/64.9
OPT 30B	50.3/50.6	62.3/66.5	45.5/42.5	34.2/38.8	27.4/29.6	56.2/57.8	53.2	39.2/43.1
OPT-IML 30B	58.5/57.7	72.0/72.4	76.7/70.2	72.5/69.1	54.4/49.8	59.9/59.4	68.2	60.9/58.3
OPT 175 B	55.4/47.7	62.1/65.2	50.8/52.6	39.4/52.4	31.0/34.9	57.7/60.5	53.4	40.6/45.8
OPT-IML 175 B	70.0/62.7	80.7/81.7	79.9/76.5	80.5/76.9	61.2/58.0	62.4/63.4	73.9	65.7/65.6

Table 11: FLAN 벤치마크의 네 가지 task 클러스터(NLI, Reading Comprehension, Closed-Book QA, Co-reference)에서 OPT-IML 및 FLAN 모델(Wei et al., 2022a)의 성능 비교. 우리는 0-shot / k-shot 형식으로 정확도 점수를 보고하며, 우리 모델의 경우 k=5이고 FLAN은 각 task에 대해 다른 k 값을 사용한다. WSC에는 few-shot 설정이 없다. FLAN-137B 성능은 leave-one-category-out 전략을 사용하여 학습된 여러 모델을 기반으로 한다.

우리는 FLAN-137B에서 사용된 task의 하위 집합에 대해 OPT-IML 모델을 평가한다. 우리의 분할에 따르면, 일부 task는 **완전히 held-out된 카테고리(ANLI, CB, MNLI, RTE, SNLI, WNLI, Winogrande, WSC)**에서 가져왔고, 나머지 task는 **부분적으로 held-out된 카테고리(BoolQ, OpenBookQA, ARC)**에서 가져왔다. 이 모든 task는 답변 후보가 있는 분류 스타일을 사용하며, 우리는 가능성(likelihood)을 기반으로 점수를 매겨 평가하고, Table 11에 zero-shot 및 few-shot 정확도를 보고한다. 각 task는 7-10개의 템플릿과 연결되어 있으며, 우리는 모든 템플릿에 대한 평균 정확도를 보고한다. 일부 템플릿은 task를 반전시키므로(예: QA가 질문 생성으로 바뀜), 이러한 템플릿에 대해서는 평가하지 않는다. 또한, FLAN-137B는 few-shot 평가를 위해 각 task에 대해 다른 shot 수를 사용하지만, 우리는 모든 task에 대해 5-shot 결과를 보고한다.

우리는 instruction-tuning이 30B 및 175B 규모의 baseline OPT 모델에 비해 15개 개별 task 각각에서 성능을 크게 향상시킨다는 것을 발견했다. Wei et al. (2022a)은 instruction-tuning이 8B 이하 규모에서는 완전히 held-out된 task에 해를 끼치지만, 66B 이상의 규모에서는 emergent behavior를 보인다고 밝혔다. 그러나 우리의 실험에서는 이러한 emergent behavior가 나타나지 않았다. 즉, 30B 및 175B OPT-IML 모델 모두 0-shot 및 few-shot 설정에서 각각의 untuned 모델보다 평균 20% 이상의 개선을 달성했다. 또한, 우리의 30B OPT-IML 모델은 0-shot에서 20%, 5-shot에서 12% 더 높은 성능을 보여 더 작은 규모의 instruction-tuned 모델이 더 큰 untuned 모델에 대한 강력한 자원 효율적인 대안이 될 수 있음을 보여준다. FLAN-137B와 비교했을 때, OPT-IML 175B는 5-shot 성능에서 경쟁력 있는 성능을 보이며, 0-shot 성능에서 평균 3%의 개선을 가져온다. 그럼에도 불구하고, held-out 클러스터, 모델 크기 및 사전학습 토큰 수와 관련된 실험 설정의 다양한 차이로 인해 이러한 개선 사항을 instruction-tuning 벤치마크 확장에 확실히 귀속시키기는 어렵다.

5.4 Evaluations on Super-NaturalInstructions

지금까지의 평가와는 다르게, Super-NaturalInstructions는 엄격한 instructional format (Section 2)을 사용한다. 이 형식에서는 prompt 시작 부분에 공식적인 instruction block이 제공되어, 옵션 후보들을 상세히 설명하고 task의 모호성을 해소하며, 그 뒤에 여러 demonstration이 이어진다. 이는 우리 모델이 다양한 instruction format에 일반화하는 능력을 평가하는 데 도움이 될 수 있다.
Wang et al. (2022)은 SuperNatInst 벤치마크를 training 및 held-out 카테고리로 세분화하고, LM-adapted T5 모델의 instruction-tuned 버전인 TkInstruct 3B 및 11B를 학습시켰다. 그들은 완전히 held-out된 일반화 성능을 위해 154개 task를 대표하는 12개 카테고리에서 Tk-Instruct를 평가했다. 이 12개 카테고리 중 Textual Entailment, Coreference Resolution, Dialogue Act Recognition은 우리 평가 프레임워크에서 완전히 held-out된다. 우리는 이 세 카테고리에서 OPT-IML을 0-shot, 2-shot, 5-shot 설정으로 평가하고 Rouge-L F1 점수를 Table 12에 보고한다. 이 세 카테고리는 44개의 task로 구성되며, Wang et al. (2022)에 따라 각 task에서 상위 100개의 예시를 평가하고, 각 task는 단일 prompt를 사용한다. 모든 경우에 대해, 우리는 각 테스트 예시에 대해 최대 256개의 토큰을 생성한다. 비교를 위해, 우리는 동일한 평가 프레임워크 하에서 Tk-Instruct 11B를 이 클러스터들에서 재평가했다. 우리는 전반적으로 가장 좋은 성능을 보이는 Tk-Instruct 11B 버전, 즉 instructions + 2 positive demonstration 및 negative demonstration 없이 학습된 버전을 사용한다.

Model	Textual Entailment	Coreference Resolution	Dialogue Act Recognition	Average
OPT 30B	40.3/0.9/42.7	21.3/1.1/43.4	35.2/4.1/48.2	32.3/2.0/44.8
OPT-IML 30B	54.7/47.8/49.8	37.4/41.6/43.8	51.4/51.8/47.2	47.9/47.1/46.9
OPT 175 B	41.6/2.2/43.6	21.0/4.2/43.6	37.1/16.8/48.2	33.3/7.7/45.2
OPT-IML 175 B	54.3/51.0/51.5	39.0/49.8/50.9	61.2/60.2/56.5	51.5/53.6/53.0
Tk-Instruct 11B	55.0/64.1/62.3	32.3/62.3/57.1	51.1/69.6/55.8	46.1/65.3/58.4

Table 12: Wang et al. (2022)의 세 가지 완전히 held-out된 task 카테고리에서 OPT-IML과 baseline OPT 및 Tk-Instruct 11B를 비교한 결과. 우리는 0-shot / 2-shot / 5-shot 성능 형식으로 Rouge-L F1 점수를 보고한다. 우리는 instructions + 2 positive demonstration 및 negative demonstration 없이 학습된 Tk-Instruct 버전을 사용한다.

Tk-Instruct는 2-shot 설정으로 학습 및 평가되었으므로, 우리는 이 평가를 위해 2-shot 설정에 대한 결과도 추가적으로 보고한다. 첫째, OPT-IML 모델은 0-shot 및 모든 few-shot 설정에서 두 가지 규모 모두에서 각 클러스터의 baseline OPT 모델보다 우수한 성능을 보인다. 다시 한번 instruction-tuned된 30B 모델이 untuned 175B 모델보다 우수한 성능을 보임을 관찰한다. 또한, OPT 30B와 175B는 모든 shot에서 비슷한 성능을 보이지만, instruction-tuned된 175B 버전은 OPT-IML 30B를 크게 능가하여, 더 큰 모델이 instruction tuning으로부터 더 많은 이점을 얻을 수 있음을 보여준다. Textual Entailment 및 이전 평가의 다른 task들과는 달리, 여기의 모든 task는 생성(generation) 설정(scoring과 반대)으로 평가되므로, untuned 모델에게는 훨씬 더 어렵다. OPT-IML 175B는 0-shot 형식에서 Tk-Instruct 11B를 능가한다. 전자는 여러 벤치마크의 다양한 형식의 혼합 세트에서 튜닝되었지만, 후자는 이 벤치마크를 위해 특별히 튜닝되었음에도 불구하고 말이다. 2-shot 및 5-shot 설정에서는 Tk-Instruct가 OPT-IML을 능가하는 경향이 역전된다. 여기서 OPT-IML은 두 설정 모두에서 균일한 성능을 보이는 반면, Tk-Instruct는 학습된 2-shot 설정에 크게 편향되어 있다. 따라서 Tk-Instruct의 성능은 2-shot에서 5-shot으로 갈수록 65.3에서 58.4로 하락한다.

5.5 Evaluations on UnifiedSKG

UnifiedSKG (Xie et al., 2022)는 데이터베이스, 대화 상태, SQL 쿼리 등과 같은 **이질적인 입력(heterogeneous inputs)**을 다루는 Structured Knowledge Grounding 관련 21개 task 모음이다. 우리는 모델에 구조화된 지식 처리 능력을 부여하기 위해 의도적으로 이 task들을 OPT-IML Bench에 포함시켰다. 이러한 능력을 평가하기 위해, 우리는 OPT-IML 모델과 baseline OPT를 text-to-text 형식으로 변환된 세 가지 UnifiedSKG task에서 비교한다:

DART (Nan et al., 2020): 데이터 트리플을 텍스트로 변환하는 held-out data-to-text task.
Spider (Yu et al., 2018): 데이터베이스와 입력 쿼리가 주어졌을 때 SQL 쿼리를 생성하는 task로, 우리 프레임워크에서는 fully supervised로 설정되었다.
MultiWoZ (Budzianowski et al., 2018): held-out dialogue state tracking task.

세 가지 task 모두 생성(generation) task이며, 우리는 256개의 토큰을 디코딩한 후 중단하고, 0-shot 및 5-shot 설정에서 Rouge-L F1 점수를 Table 13에 보고한다.

Model	DART	Spider	MultiWoZ
OPT 30B	$14.4 / 40.6$	$19.2 / 43.2$	$1.6 / 87.6$
OPT-IML 30B	$43.0 / 44.3$	$84.3 / 81.3$	$3.2 / 40.0$
OPT 175B	$22.5 / 48.7$	$34.0 / 50.5$	$\mathbf{12 . 1} / \mathbf{7 9 . 9}$
OPT-IML 175B	$\mathbf{44 . 1} / \mathbf{49 . 8}$	$\mathbf{8 5 . 3} / \mathbf{8 4 . 0}$	$3.6 / 59.0$

Table 13: UnifiedSKG 벤치마크의 세 가지 데이터셋(DART (Nan et al., 2020), Spider (Yu et al., 2018), MultiWoZ (Budzianowski et al., 2018)) 테스트 세트에서 baseline OPT와 OPT-IML 모델의 성능 비교. DART는 Database to Text Generation, Spider는 Text to SQL Generation, MultiWoZ는 Dialog State Tracking task이다. Rouge-L 점수는 0-shot / 5-shot 형식으로 보고된다.

fully supervised 설정인 Spider task에서, OPT-IML 모델은 instruction-tuning mix에 다른 수많은 task들이 포함되어 있음에도 불구하고, Rouge-L F1 점수 85에 가까운 높은 성능을 유지한다. DART에서는 OPT-IML이 5-shot 설정에서 완만한 성능 향상을 보이지만, zero-shot 설정에서는 OPT 모델들을 크게 능가하며, 특히 OPT-IML 30B가 OPT 175B보다 우수한 성능을 보인다. 반면, MultiWoZ에서는 두 모델 규모 모두에서 instruction tuning으로 인해 성능이 크게 저하되는 양상을 보인다.

6. Discussion and Limitations

이전 섹션에서는 효과적으로 instruction-tuned된 모델이 zero-shot 및 few-shot 설정 모두에서 튜닝되지 않은 모델보다 상당한 성능 향상을 얻을 수 있음을 여러 평가 벤치마크를 통해 입증했다. 우리는 이를 위해 먼저 instruction-tuning 데이터셋을 8개의 대규모 NLP task 컬렉션으로 확장했으며, 이를 다운스트림 task에 대한 모델 일반화의 세 가지 수준을 테스트하는 평가 프레임워크로 변환했다. 이 프레임워크를 사용하여 instruction tuning에 영향을 미치는 다양한 요소들의 trade-off를 분석했다:

입력 task의 수와 다양성,
다양한 task 및 instruction 스타일의 분포,
reasoning chain 및 dialogue와 관련된 특수 데이터셋 포함 여부,
demonstration을 사용한 fine-tuning. 이러한 탐색을 통해 30B 및 175B 규모의 OPT-IML 모델을 instruction tune하기 위한 최적의 설정을 선택할 수 있었고, 이 모델들은 광범위한 벤치마크에서 경쟁력 있는 성능을 보여주었다.

이 섹션에서는 전체 task 컬렉션을 사용한 instruction fine-tuning에 대한 추가 결과를 보고하고, 현재 접근 방식의 한계점을 논의한다.

6.1 Evaluations on MMLU, BBH and RAFT

우리는 대규모 instruction-tuning 벤치마크를 instruction-tuning 기법 연구를 위한 평가 프레임워크로 전환하는 한편, 최근 Chung et al. (2022b)은 PaLM 모델 (Chowdhery et al., 2022)을 최대 540B, T5 모델 (Raffel et al., 2020)을 최대 11B까지 사용하여 4개의 벤치마크에서 1,836개 task로 instruction fine-tuning을 확장했다. 그 결과 모델인 FLAN-PaLM 및 FLAN-T5 시리즈는 MMLU (Hendrycks et al., 2021a) 및 Big Bench Hard (BBH) (Srivastava et al., 2022)를 포함한 여러 도전적인 language model 벤치마크에서 평가되었다. 유사한 설정(및 추가적으로 RAFT (Alex et al., 2021)에서도)에서 OPT-IML의 성능을 확립하기 위해, 우리는 OPT 30B 및 175B를 우리가 OPT-IML-Max라고 부르는 1,991개 task 전체 벤치마크에 대해 instruction-tune한다.

우리는 두 가지 분류 벤치마크인 MMLU와 RAFT에 대해 option scoring을 사용하고, BBH에 대해서는 **Exact Match를 사용한 생성(generation)**을 사용한다. 우리는 MMLU와 BBH의 test set에서 평가하고, HELM 벤치마크 (Liang et al., 2022)에서 공개된 RAFT의 evaluation split에서 평가한다. 이 결과는 Table 14에 다른 대규모 사전학습 및 instruction-tuned 모델들과 함께 보고된다. 또한, 우리는 1.3B 규모의 OPT-IML-Max에 대한 결과도 학습하고 제시한다(OPT-IML-Max 30B와 동일한 설정을 사용). 세 가지 데이터셋 모두에서 OPT-IML-Max는 모든 규모에서 untuned counterpart보다 뛰어난 성능을 보인다(BBH의 1.3B 제외). OPT-IML-Max는 RAFT에서 FLAN-T5 11B와 경쟁력이 있지만, MMLU와 BBH에서는 FLAN-T5, FLAN-PaLM 및 instruction-tuned GPT-3 모델 계열(-davinci-)에 비해 성능이 뒤처진다. 이 모델들 간의 instruction-tuning 벤치마크 규모는 유사하지만, 다른 많은 근본적인 차이점들이 존재한다. 각 underlying pre-training 모델을 학습하는 데 사용된 토큰 수에 큰 차이가 있다. 예를 들어, T5는 1T 토큰으로 학습되었고, FLAN-PaLM은 800B, OPT는 180B 토큰으로 학습되었다. 또한 pre-training 데이터의 구성과 각 모델링 아키텍처에도 차이가 있다. Chowdhery et al. (2022)은 encoder-decoder 모델이 유사한 규모에서 decoder-only 모델보다 더 효과적으로 fine-tune될 수 있으며, decoder-only 모델을 대규모로 확장하면 더 경쟁력을 가질 수 있음을 발견했다. 마지막으로, 사용된 fine-tuning 알고리즘에도 차이가 있다. 예를 들어, 일부 OpenAI davinci 모델은 supervised fine-tuning 외에도 API에서 수집된 피드백 신호에 대해 RLHF (Christiano et al., 2017)를 사용한다. 우리는 Meta-ICL (§4)을 사용하는 것이 전체적으로 더 나은 모델을 만들지 못했고 최종 모델에 포함하지 않았지만, MMLU와 BBH에서 2-3%의 성능 향상을 가져왔다. 이 모든 요소들은 이러한 벤치마크에서 성능 격차를 설명하기 어렵게 만들지만, 그럼에도 불구하고 이러한 평가는 OPT 모델에 대한 우리의 instruction tuning 결정이 이러한 도전적인 외부 벤치마크에 미치는 영향을 확립하는 데 기여한다.

# shots	BBH	MMLU	RAFT
	3	0/5	5
OPT 1.3B	27.9	23.5/25.9	$49.1^{\dagger}$
OPT 30B	28.4	24.2/26.1	$59.1^{\dagger}$
OPT 175B	30.2	27.3/34.2	$63.2^{\dagger}$
T5 11B	29.5	-/25.9	-
PaLM 62B	37.4	-/55.1	-
PaLM 540B	49.1	-/71.3	-
OpenAI davinci	33.6	-/32.3	64.5
$\overline{\mathrm{O}} \overline{\mathrm{P}} \overline{\mathrm{T}}-\overline{\mathrm{I}} \overline{\mathrm{M}} \overline{\mathrm{L}}-\overline{\mathrm{M}} \overline{\mathrm{a}} \overline{\mathrm{x}} \overline{1.3} \overline{\mathrm{~B}}$	26.5	$3 \overline{4} . \overline{9} / 2 \overline{9} . \overline{5}$	$5 \overline{5} . \overline{9}^{\dagger}$
OPT-IML-Max 30B	30.9	46.3/43.2	$69.3^{\dagger}$
OPT-IML-Max 175B	35.7	49.1/47.1	$79.3^{\dagger}$
T0pp 11B	13.0	46.7/33.7	$56.8^{\dagger}$
FLAN-T5 11B	45.3	53.7/54.9	$79.5^{\dagger}$
FLAN-PaLM 62B	47.5	-/59.6	-
FLAN-PaLM 540B	57.9	-/73.5	-
OpenAI text-davinci-002	48.6	-/64.5	72.1
OpenAI text-davinci-003	50.9	-/74.2	-
OpenAI code-davinci-002	52.8	-/77.4	-

Table 14: BigBench Hard, MMLU, RAFT에서 우리의 벤치마크의 모든 task로 학습된 OPT-IML-Max의 test-set 성능.

6.2 Limitations

우리는 평가 프레임워크를 사용하여 OPT 30B 모델에 대한 다양한 instruction-tuning 변수들의 trade-off를 서로 독립적으로 특성화한다. 이러한 변수들이 상호작용하여 최적의 튜닝 설정이 달라질 수 있지만(예: reasoning 데이터셋 추가가 벤치마크 비율 선택에 영향을 미칠 수 있음), 이를 테스트하는 것은 많은 자원을 필요로 한다. 또한, 30B instruction tuning에서 연구된 모든 trade-off가 더 큰 규모의 모델에서도 동일한 경향을 보이지 않을 수 있다. 우리는 완전히 held-out, 부분적으로 supervised, 완전히 supervised 범주로 구성된 포괄적인 데이터셋 분할을 사용하여 instruction tuning trade-off를 연구했지만, 다른 범주 세트를 선택하면 본 논문에서 내린 결정과는 다른 우선순위의 결정이 나올 수 있다. 비록 우리가 기저 형식(underlying formats)을 기반으로 task를 범주에 할당했지만, 이러한 할당은 주관적일 수 있으며, 다른 범주 할당은 instruction-tuning을 위한 최적의 요소를 변경할 수 있다. 예를 들어, 독성 감지(detecting toxicity)와 같이 다른 기술을 요구하는 task도 textual entailment task로 간주될 수 있다.

6.3 Responsible AI

OPT-IML 모델은 광범위한 평가 세트(Section 5)에서 baseline OPT보다 뛰어난 성능을 보이지만, 그럼에도 불구하고 사실적 정확성 (Thoppilan et al., 2022; Brown et al., 2020a; Chowdhery et al., 2022), 유해한 언어 생성 (Gehman et al., 2020), 고정관념 강화 등 대규모 language model 사용과 관련된 다양한 위험에 취약하다. 우리는 instruction-tuning에 대한 향후 연구를 확산하고 100B개 이상의 파라미터를 가진 대규모 instruction-tuned causal LM의 가용성을 높이기 위해 OPT-IML 모델을 공개하지만, 이러한 모델의 사용은 책임감 있는 모범 사례와 함께 이루어져야 한다.

대규모 language model을 지시(instruction)에 따르도록 fine-tuning하는 우리의 연구는 multi-task learning, prompting, in-context learning의 meta-training과 같은 여러 영역에 걸쳐 있다. 우리는 이 영역들을 우리의 연구와 가장 밀접하게 관련된 범위 내에서 논의한다.

Instruction Tuning
Language model은 self-supervised learning을 통해 시퀀스에서 다음 token을 예측하도록 학습된다 (Brown et al., 2020a; Zhang et al., 2022; Chowdhery et al., 2022). Prompt engineering과 in-context learning은 이러한 모델을 활용하여 많은 NLP task를 해결하는 지배적인 접근 방식이 되었다. 이러한 모델이 자연어 지시를 따르고 prompt engineering을 피하도록 정렬(align)하기 위해, 최근 연구들은 instruction fine-tuning을 제안했다 (Ouyang et al., 2022; Wei et al., 2022a; Chung et al., 2022b; Wang et al., 2022). 이들 중 일부는 사람이 주석을 단 prompt와 피드백을 사용하여 광범위한 task에 대해 모델을 fine-tuning하는 데 중점을 두는 반면 (Ouyang et al., 2022), 다른 연구들은 수동 또는 자동으로 생성된 지시로 보강된 학술 벤치마크 및 데이터셋을 사용하여 supervised fine-tuning에 중점을 둔다 (Wang et al., 2022; Wei et al., 2022a; Sanh et al., 2022; Zhong et al., 2021). 우리 연구에서는 두 번째 접근 방식에 중점을 두고, OPT를 fine-tune하기 위해 공개적으로 사용 가능한 방대한 데이터셋 컬렉션을 지시와 함께 통합한다. 우리 연구와 동시에 Chung et al. (2022a)도 4개의 벤치마크에서 1836개의 task로 확장하는 유사한 instruction 벤치마크 접근 방식을 제안한다. 그들은 MMLU (Hendrycks et al., 2020) 및 Big-Bench Hard (BBH) (Suzgun et al., 2022)와 같이 모델의 세계 지식과 추론 능력을 테스트하는 몇 가지 도전적인 held-out task에서 성능의 한계를 뛰어넘기 위해 전체 벤치마크를 사용하여 fine-tuning하는 데 중점을 두는 반면, 우리는 다운스트림 성능에 영향을 미칠 수 있는 다양한 instruction-tuning 결정의 trade-off를 특성화하는 데 중점을 둔다.

Prompting과 Meta-Training
**매우 적은 예시를 활용하여 language model에 효과적으로 prompt를 제공함으로써 모든 NLP task를 해결하는 zero-shot 및 few-shot learning (일명 in-context learning)**은 최근 몇 년 동안 지배적인 패러다임이 되고 있다 (Brown et al., 2020a). Prompting은 주어진 task의 입력 및 출력 공간을 수정하여 language model의 지식을 효과적으로 활용하여 task를 해결하는 것을 포함한다. 다양한 접근 방식이 일반화 성능을 향상시키기 위한 더 나은 prompting 방법을 제안했다 (Wei et al., 2022b; Lu et al., 2021). 또한, 최근 개발은 in-context learning (ICL)을 위해 language model을 더 잘 적응시키기 위한 meta-tuning을 통해 ICL을 개선하는 방법을 보여주었다 (Min et al., 2022, 2021). 우리 연구에서는 다양한 prompting 언어 및 설정에 대한 견고성을 유도하는 instruction 기반 fine-tuning의 효과적인 설정을 연구하기 위해, 다양한 벤치마크에서 사용 가능한 prompt 변형과 대규모 task 풀의 demonstration을 사용한 meta-training을 모두 활용한다.

Learning to Reason
In-context learning의 발전에도 불구하고, state-of-the-art LLM은 상식 추론 (West et al., 2022) 및 산술 추론 등을 요구하는 수학 문제 (Hendrycks et al., 2021b)와 같은 추론 task에서 여전히 어려움을 겪는다. 이러한 도전적인 task를 해결하기 위해 최근 연구는 산술 및 논리 추론을 위한 scratchpad 형태의 최종 답변과 함께 rationale를 포함하는 prompting 방법 (Nye et al., 2021), demonstration에서 chain-of-thought prompt를 제공하는 방법 (Wei et al., 2022b), 또는 모델이 설명을 생성하도록 prompt하기 위해 'let's think step-by-step'과 같은 trigger phrase를 추가하는 방법 (Kojima et al., 2022)을 사용했다. prompt를 변경하는 것 외에도 Chung et al. (2022a)는 step-by-step 설명을 instruction tuning 단계에 통합했다. Chung et al. (2022a)를 따라, 우리는 추론 데이터셋의 집합을 14개 데이터셋으로 더욱 확장하고 다양한 held-out task 클러스터에 대한 다양한 추론 데이터 비율의 영향을 연구한다.

Multi-task Learning
Instruction 기반 fine-tuning은 multi-task learning (MTL)의 한 형태로 간주될 수 있다. MTL은 공통 매개변수 또는 표현을 공유함으로써 관련 task와 결합될 때 task의 일반화 성능을 향상시키는 인기 있는 패러다임이다 (Caruana, 1997; Kumar and Daume III, 2012). MTL은 최근 몇 년 동안 많은 NLP 시나리오에 적용되었으며, 주로 관련 task의 신호를 활용하여 훈련 task 또는 새로운 도메인에서의 성능을 향상시키는 데 중점을 두었다 (Collobert and Weston, 2008; McCann et al., 2018; Raffel et al., 2020; Vu et al., 2020). 이와 대조적으로, instruction 기반 fine-tuning은 훈련 중에 전혀 보지 못한 새로운 task에 대한 일반화 성능을 향상시킬 수 있다. 이는 지시를 통해 모든 task를 공통 형식으로 통합하고 (Kumar et al., 2016; Khashabi et al., 2020), 모든 task에 걸쳐 모델의 모든 가중치를 공유하여 함께 훈련함으로써 달성된다.

Continuous Learning
기존 연구는 또한 catastrophic forgetting을 방지하기 위해 새로운 task로 fine-tuning할 때 이전에 학습한 task의 지시 (Yin et al., 2022) 또는 예시 (Scialom et al., 2022)를 다시 검토함으로써 language model의 지속적인 적응을 다룬다. 결과는 LM이 이전에 학습한 task를 잊지 않고 새로운 task에 효과적으로 적응할 수 있음을 보여준다. 다른 연구는 학습된 task vector의 산술적 조합 (Ilharco et al., 2022) 또는 기본 LM의 매개변수를 변경하지 않고 패치된 soft prompt (Anonymous, 2023)를 통해 LM이 새로운 task를 수행할 수 있도록 한다. 우리는 2000개의 task로 LM을 한 번에 fine-tuning함으로써 (대규모) multi-task 적응 설정에 중점을 둔다. 결과 모델을 새로운 데이터, 새로운 task 및 새로운 도메인에 지속적으로 적응시키는 것은 흥미롭고 중요한 미래 방향이 될 것이다.

8. Conclusions

LLM의 instruction-tuning은 zero-shot 및 few-shot 일반화 능력을 향상시키는 효과적인 방법으로 부상했다. 본 논문에서는 instruction-tuning에 세 가지 주요 기여를 한다.

첫째, 우리는 8개 데이터셋 컬렉션에서 2,000개의 NLP task를 포함하고, task 카테고리로 주석 처리된 대규모 instruction-tuning 벤치마크를 구축했다. 이 벤치마크에서 우리는 세 가지 다른 유형의 모델 일반화 능력을 평가하기 위해 전략적으로 평가 분할(evaluation splits)을 생성한다:

완전 supervised 성능
학습된 task 카테고리 내의 새로운 task에 대한 성능
완전히 held-out된 카테고리의 task에 대한 성능

둘째, 우리의 평가 도구를 사용하여, fine-tuning task 및 카테고리의 다양한 샘플링 방법, task demonstration을 사용한 fine-tuning, 추론 및 대화를 위한 특수 데이터셋을 사용한 fine-tuning 등 instruction-tuning의 여러 측면에 대한 trade-off와 모범 사례를 확립한다.

마지막으로, 실험에서 얻은 최적의 설정을 사용하여 OPT 기반의 OPT-IML 30B 및 175B instruction-tuned 모델을 학습하고 공개한다. 이 모델들은 5개의 평가 벤치마크에서 OPT를 크게 능가하며, 개별 벤치마크에 fine-tuning된 최신 instruction-tuned 모델들과도 경쟁력 있는 성능을 보인다.