Tay, Yi, et al. "Ul2: Unifying language learning paradigms." arXiv preprint arXiv:2205.05131 (2022).

Unifying Language Learning Paradigms

Abstract

기존의 사전학습된 모델들은 일반적으로 특정 유형의 문제에 맞춰져 있다. 현재까지도 어떤 아키텍처와 사전학습(pre-training) 설정이 가장 적합한지에 대한 합의는 없는 상태이다. 본 논문은 다양한 데이터셋과 설정 전반에 걸쳐 보편적으로 효과적인 모델을 사전학습하기 위한 통합 프레임워크를 제시한다.
우리는 먼저 **아키텍처 유형(architectural archetypes)과 사전학습 목표(pre-training objectives)**라는, 흔히 혼동되는 두 개념을 분리하는 것부터 시작한다. 다음으로, NLP 분야의 self-supervision에 대한 일반화되고 통합된 관점을 제시하고, 서로 다른 사전학습 목표들이 어떻게 상호 변환될 수 있는지, 그리고 다양한 목표들 사이를 보간(interpolating)하는 것이 어떻게 효과적일 수 있는지를 보여준다.
이어서, 우리는 **다양한 사전학습 패러다임을 결합한 사전학습 목표인 Mixture-of-Denoisers (MoD)**를 제안한다. 또한, downstream fine-tuning이 특정 사전학습 방식과 연관되는 '모드 전환(mode switching)' 개념을 도입한다.
우리는 여러 사전학습 목표를 비교하기 위한 광범위한 ablation 실험을 수행했으며, 그 결과 우리의 방법이 T5 및/또는 GPT 계열 모델들을 다양한 설정에서 능가함으로써 Pareto-frontier를 확장한다는 것을 발견했다.
마지막으로, 모델을 20B 파라미터 규모로 확장하여, 언어 생성(자동 및 인간 평가 포함), 언어 이해, 텍스트 분류, 질문 응답, 상식 추론, 장문 텍스트 추론, 구조화된 지식 grounding, 정보 검색에 이르는 50개의 잘 확립된 supervised NLP task에서 SOTA 성능을 달성하였다.
우리의 모델은 in-context learning에서도 강력한 결과를 보여주며, zero-shot SuperGLUE에서 175B GPT-3를 능가하고, one-shot 요약(summarization)에서는 T5-XXL의 성능을 세 배로 높였다.
20B 모델에 대한 Flax 기반 T5X 모델 체크포인트는 다음 링크에서 공개한다: https://github.com/google-research/google-research/tree/master/ul2.

1 Introduction

요즘 NLP 연구자와 실무자들에게는 다양한 사전학습 모델 옵션이 존재한다 [Devlin et al., 2018; Brown et al., 2020; Raffel et al., 2019; Radford et al., 2019; Liu et al., 2019; Yang et al., 2019; Thoppilan et al., 2022; Fedus et al., 2021; Du et al., 2021; Chowdhery et al., 2022]. 어떤 모델을 사용해야 하는지에 대한 질문에 직면했을 때, 대답은 종종 "task에 따라 다르다"는 것이다.

이 질문에 답하는 것은 "encoder-only인가, encoder-decoder인가?", "span corruption인가, language model인가?"와 같은 여러 세분화된 후속 질문들로 인해 압도적일 수 있다. 더 깊이 파고들면, 그 대답은 항상 타겟 다운스트림 task에 달려 있는 것처럼 보인다. 본 논문은 이러한 사고 과정을 의문시하고 재고하며, 특히 사전학습된 LM의 선택이 왜 다운스트림 task에 의존해야 하는가? 그리고 많은 task에서 보편적으로 잘 작동하는 모델을 어떻게 사전학습할 수 있는가? 라는 질문에 답한다.

본 논문은 보편적으로 적용 가능한 language model을 만드는 방향으로 한 걸음 나아가는 것을 제안한다. 우리는 Unifying Language Learning Paradigms (줄여서 UL2) 프레임워크를 제시하며, 이는 매우 다양한 task 및 설정에서 일관되게 효과적이다. Figure 1은 UL2가 어떻게 보편적으로 잘 작동할 수 있는지의 예시를 보여주는데, 이는 종종 trade-off를 해야 하는 다른 모델들과는 다르다.

Figure 1: decoder-only 및 encoder-decoder 설정 모두에서, UL2는 이전 방법들보다 fine-tuned discriminative task와 prompt 기반 1-shot open-ended text generation 간의 성능 균형을 크게 개선한다. 참고: Dec 및 EncDec 모델은 연산량이 일치하지만, EncDec 모델은 파라미터 수가 두 배이다.

범용 모델의 매력은 분명하다. 이는 N개의 모델에 자원을 분산하는 대신, 단일 모델의 개선 및 확장에 노력을 집중할 수 있게 하기 때문이다. 더욱이, 제한된 자원 환경(예: 온디바이스)에서 소수의 모델만 서비스할 수 있는 경우, 다양한 유형의 task에서 잘 수행될 수 있는 단일 사전학습 모델을 갖는 것이 더 바람직할 것이다.

UL2의 핵심은 새롭게 제안된 Mixture-of-Denoisers (MoD) 이다. 이는 task 전반에 걸쳐 강력한 성능을 가능하게 하는 사전학습 objective이다. MoD는 여러 잘 확립된 denoising objective와 새로운 objective들의 혼합으로 구성된다. 구체적으로는 다음과 같다:

X-denoising (extreme denoising): 극단적인 span 길이와 corruption rate를 고려한다.
S-denoising (sequential denoising): 엄격하게 시퀀스 순서를 따른다.
R-denoising (regular denoising): [Raffel et al., 2019]에서 소개된 표준 span corruption objective이다.

우리는 MoD가 개념적으로는 간단하지만, 다양한 task에 대해 매우 효과적임을 보여준다.

우리의 접근 방식은 대부분의 (전부는 아닐지라도) 잘 연구된 사전학습 objective들이 모델이 조건화되는 context 유형에서 차이를 보인다는 점을 활용한다. 예를 들어, span corruption objective는 prefix language modeling (PLM) [Liu et al., 2018; Raffel et al., 2019]의 여러 영역을 호출하는 것과 유사하다. 여기서 prefix는 손상되지 않은 토큰의 연속적인 세그먼트이며, target은 모든 PLM 세그먼트의 prefix에 완전히 접근할 수 있다. span이 전체 시퀀스 길이에 가까워지는 설정은 장거리 context에 조건화된 language modeling objective와 거의 동일하다. 따라서 우리는 이러한 다양한 패러다임(span corruption vs language modeling vs prefix language modeling)을 부드럽게 보간하는 사전학습 objective를 설계할 수 있다. 또한 각 denoiser가 서로 다른 방식으로 어렵다는 것을 쉽게 알 수 있다. 이들은 외삽(extrapolation) 또는 보간(interpolation)의 본질에서도 차이를 보인다. 예를 들어, **양방향 context (또는 미래)로 모델을 제한하는 것(즉, span corruption)**은 task를 더 쉽게 만들고 사실 완성(fact completion)에 더 가깝게 만든다. 반면, **PrefixLM/LM objective는 일반적으로 더 'open ended'**이다. 이러한 행동은 다양한 denoising objective의 cross entropy loss를 모니터링함으로써 쉽게 관찰할 수 있다. MoD 공식을 바탕으로, 우리는 모델이 사전학습 중에 서로 다른 denoiser를 구별할 뿐만 아니라, 다운스트림 task를 학습할 때 적응적으로 모드를 전환하는 것이 유익하다고 추측한다. 우리는 mode switching이라는 새로운 개념을 도입한다. 이는 사전학습 task를 전용 sentinel token과 연결하고, 이산적인 prompting을 통해 동적 모드 전환을 허용한다. 우리 모델은 사전학습 후 요구에 따라 R, S, X denoiser 간에 모드를 전환할 수 있다. 그런 다음 우리는 아키텍처를 self-supervision scheme과 분리한다. Raffel et al. (2019)에서 이전에 언급되었듯이, 사전학습 모델이 백본 아키텍처(예: decoder-only vs. encoder-decoder)에 의해 강력하게 특징지어진다는 것은 일반적인 오해일 수 있지만, 우리는 denoiser의 선택이 훨씬 더 큰 영향을 미친다는 것을 발견했다. MoD는 T5의 span corruption이 decoder-only 모델로 학습될 수 있는 방식과 유사하게 어떤 백본도 지원한다. 따라서 UL2는 아키텍처에 구애받지 않는다. 우리는 백본 아키텍처의 선택이 주로 다양한 효율성 지표 간의 trade-off라고 주장한다. 우리는 다양한 문제 공식(supervised 및 prompt 기반 in-context few-shot learning)을 포착하도록 고안된 9가지 다양한 task 모음에 대해 체계적이고 ablation 실험을 수행한다. 우리는 SuperGLUE 모음 [Wang et al., 2019]과 GEM 벤치마크 [Gehrmann et al., 2021]의 세 가지 task로 실험한다. 또한, open text generation과 모든 task에 대한 prompt 기반 one-shot 설정을 평가한다. 이 ablation 설정에서 우리의 실험 결과는 UL2가 9가지 설정 모두에서 T5 및 GPT와 유사한 baseline을 능가함을 보여준다. 평균적으로 UL2는 T5 baseline보다 +43.6%, language model보다 +76.1% 더 우수한 성능을 보인다. 고려된 다른 모든 경쟁력 있는 baseline 중에서 UL2는 모든 task에서 T5 및 GPT와 유사한 모델을 능가하는 유일한 방법이다. 우리는 UL2를 약 20B (정확히는 19.5B) 파라미터의 중간 규모 설정으로 확장하고, language generation (자동 및 인간 평가 포함), language understanding, text classification, question answering, commonsense reasoning, long text reasoning, structured knowledge grounding 및 information retrieval에 이르는 50개 이상의 매우 다양한 NLP task 모음에 걸쳐 실험을 수행한다. 우리의 결과는 UL2가 대다수의 task 및 설정에서 SOTA를 달성함을 보여준다. 마지막으로, 우리는 UL2로 zero/few-shot 실험을 수행하고 UL2가 zero-shot SuperGLUE에서 GPT-3 175B를 능가함을 보여준다. GLaM [Du et al., 2021], PaLM [Chowdhery et al., 2022] 및 ST-MoE [Zoph et al., 2022]와 같은 최신 state-of-the-art 모델과 비교했을 때, UL2는 연산량이 일치하는 설정에서 경쟁력을 유지한다. 이는 UL2가 [Du et al., 2021; Chowdhery et al., 2022]에서 사용된 특별히 큐레이션된 데이터셋보다 덜 효과적인 것으로 알려진 C4 corpus로만 학습되었음에도 불구하고 달성한 성과이다. 우리는 zero-shot과 fine-tuning 성능 간의 trade-off를 이해하는 데 깊이 파고들며, UL2가 두 학습 패러다임 모두에 대해 Pareto-efficient임을 보여준다. one-shot 요약에서 UL2는 LM adapted T5 XXL 모델의 성능을 세 배로 높이며, 동일한 연산 비용으로 PaLM 및 LaMDA와 경쟁(또는 능가)하는 성능을 보인다. 우리는 학습된 UL2 모델의 T5X 기반 Flax 체크포인트를 공개한다.

2 Background: Pre-trained Language Models

이 섹션에서는 사전학습된 language model, 사전학습 objective, 그리고 다른 통합 사전학습 제안들에 대한 배경 지식을 논의한다.

2.1 Pre-trained Language Models

언어에 대한 사전학습된 표현(pre-trained representations)을 학습하는 것은 현대 NLP 연구의 광범위한 핵심 기둥이며, 그 역사는 (Mikolov et al., 2013; Pennington et al., 2014; Neumann et al., 2018; Dai & Le, 2015; Howard & Ruder, 2018)까지 거슬러 올라간다. 최초의 사전학습된 Transformer인 GPT는 (Radford et al., 2019)에 의해 제안되었으며, causal language model로 학습되었다. 이후 BERT (Devlin et al., 2018)는 많은 다운스트림 task에서 양방향 모델링(bidirectional modeling)의 중요성을 입증했다. BERT는 **masked language modeling (MLM)**을 도입했는데, 이는 양방향 receptive field를 사용하여 입력을 제자리에서 재구성하는 denoising objective이다. XLNet (Yang et al., 2019)은 학습 중 마스킹된 토큰 간의 종속성을 고려하기 위해 Permutation Language Modeling을 도입했다. 여러 추가 논문들 (예: RoBERTA (Liu et al., 2019), SpanBERT (Joshi et al., 2020))은 사전학습 과정에 대한 추가 개선 사항을 제안했다.

동시에, T5 (Raffel et al., 2019)와 같은 two-stack encoder-decoder 아키텍처는 분류 및 sequence-to-sequence ("seq2seq") task에서 향상된 성능으로 인기를 얻었다. 그러나 지금까지 이러한 모델들은 open-text generation 및 prompt 기반 추론 (즉, in-context learning)에서 제한적인 성능을 보여왔으며, 이는 다른 objective로 학습된 decoder-only 모델 (예: GPT-3 (Brown et al., 2020), GLaM (Du et al., 2021), LaMDa (Thoppilan et al., 2022), PaLM (Chowdhery et al., 2022))의 사용을 촉진하는 요인이 되었다. 본 연구에서는 두 아키텍처 모두에 적합한 일반적인 학습 패러다임을 통해 이들 간의 성능 격차를 해소하는 것을 목표로 한다.

Decoder-only vs Encoder-only
decoder-only 아키텍처와 encoder-only 아키텍처의 주요 유사점은, decoder-only 아키텍처가 PrefixLM 대신 CausalLM을 사용하는 경우 input-to-target 패러다임 또는 targets-only 패러다임으로 작동한다는 것이다. 두 아키텍처 모두에서 objective는 항상 다음 토큰을 예측하는 것 (LM) 이며, 따라서 autoregressive model이다. 이는 encoder-only BERT 스타일 모델에 의해 대중화된 **position-wise masked LM denoising (때로는 autoencoding으로 알려짐)**과는 다르다. 이러한 유형의 모델은 생성 능력(generative capabilities)이 매우 제한적이다. 게다가, 다운스트림 task를 위해 task-specific classification head가 일반적으로 사용된다. task-specific classification head의 번거로움 때문에, 우리는 이러한 유형의 autoencoding 모델을 앞으로 사용하지 않을 것을 강력히 권장하며, 다소 deprecated된 것으로 간주한다. 단, 예외는 적용될 수 있다. 예를 들어, **회귀(regression)**는 task-specific head를 추가하는 유일한 이유일 수 있으며 (Lees et al., 2022), 또는 전체 vocabulary를 제거하여 효율성 이득을 얻기 위함일 수 있다. 어떤 경우든, encoder-decoder 모델에서 시작하여 나중에 decoder를 잘라낼 수 있으므로 encoder-only 모델을 사용할 좋은 이유는 없다. 따라서 여기서 유일하게 실제적인 objective 고려 사항은 decoder-only 아키텍처와 encoder-decoder 아키텍처 사이이다.

Decoder-only vs Encoder-Decoder
decoder-only 모델과 encoder-decoder 모델 간의 경계는 덜 명확하다. PrefixLM 모델은 매개변수를 공유하는 encoder-decoder 모델과 거의 유사하다 (완전히 같지는 않지만). 귀납적 편향(inductive bias) 관점에서 여러 차이점이 있다. Encoder-Decoder 모델은 서로 다른 매개변수 세트를 사용하여 입력과 타겟을 독립적으로 처리한다. 이는 다른 토큰에 다른 매개변수 세트가 사용되는 희소성(sparsity)의 한 형태이다. Encoder-Decoder 모델은 또한 입력 토큰을 타겟 토큰에 연결하는 cross attention 구성 요소를 가지고 있다. 반면, decoder-only 모델은 입력과 타겟을 연결하여 처리한다. 따라서 입력/타겟이 네트워크를 통해 위로 전파됨에 따라 입력과 타겟의 표현이 layer별로 동시에 구축된다. 반대로, Encoder-Decoder 모델의 decoder는 일반적으로 완전히 처리된 encoder 입력만을 본다. 전반적으로, PrefixLM decoder-only 모델과 Encoder-Decoder 모델의 귀납적 편향은 위에서 언급된 미묘한 차이를 제외하면 상당히 유사할 수 있다. 뚜렷한 특징은 Encoder-Decoder 모델이 일반적으로 compute-matched 시 decoder-only 모델의 약 2배의 매개변수를 가진다는 것이다.

Sparse Models
한편, state-of-the-art 성능을 달성하는 sparse pretrained model의 새로운 트렌드도 나타나고 있다. Switch Transformer (Fedus et al., 2021), GLaM (Du et al., 2021) 및/또는 GShard (Lepikhin et al., 2020)와 같은 Sparse mixture-of-expert 모델도 많은 가능성을 보여주었다. 사전학습 objective와는 직교하지만, sparse 모델은 dense 모델과 비교하여 flop-per-parameter 비율이 매우 다르다. 이는 encoder-decoder 모델 대 decoder-only 모델 논쟁의 핵심 반복 모티프이다.

2.2 Pre-training Objectives for Large Language Models

최근 연구에서 대규모 supervised multi-task pre-training의 잠재력(Aribandi et al., 2021; Sanh et al., 2021; Wang et al., 2022)이 입증되었지만, 대부분의 pre-training objective는 방대한 양의 unsupervised 데이터 가용성에 의존하며 self-training 기법을 사용한다. 위에서 언급했듯이, 다른 아키텍처는 일반적으로 다른 objective를 활용한다. Decoder-only 모델은 일반적으로 auto-regressive generation을 모방하기 위해 causal language model objective로 학습된다(Radford et al., 2019). Raffel et al. (2019)는 encoder-decoder 모델에 대한 많은 objective를 탐색했으며 span corruption이 효과적임을 발견했다. Wang et al. (2022)은 세 가지 다른 pretraining objective(causal LM, prefixLM, span corruption)와 결합된 다른 아키텍처에 대한 체계적인 연구를 수행하고 zero-shot generalization에 미치는 영향을 분석했다. 우리가 제안하는 X-denoiser와 관련하여, Wettig et al. (2022)은 BERT 스타일의 masked language modeling에서 corruption rate의 효과를 연구하고, 이것이 sample efficiency를 향상시키고 더 큰 모델에 이점을 준다고 가정한다. 특히, Raffel et al. (2019)가 언급했듯이, 그리고 우리 자신의 ablation에서도 분명히 나타나듯이, 독립형 denoiser로서 높은 corruption rate의 이점은 여전히 불분명하다. Pre-training (또는 denoising)은 일반적으로 subword 수준에서 적용되지만(Raffel et al., 2019; Devlin et al., 2018), character 또는 byte 수준에서도 적용되었다는 점은 주목할 만하다(Xue et al., 2021; Tay et al., 2021c). 이러한 설정에서는 corrupted span이 일반적으로 subword 기반 denoising보다 훨씬 크다.

2.3 Unified Pre-training Proposals

UniLM (Dong et al., 2019)은 단일 Transformer 모델을 사용하여 여러 language modeling objective로 학습하는 방식을 제안했다. 구체적으로 UniLM은 unidirectional LM, bidirectional LM, seq2seq LM으로 학습한다. 이는 auto-regressive LM을 BERT 및 prefix-LM 모델과 결합하는 것과 상당히 유사하다. 특히 UniLM은 cloze-type formulation을 사용하여 학습하는데, 이는 입력에 명시적인 mask token을 추가한다. 이후 손실은 예측된 token과 목표 token의 차이를 위치별(position-wise)로 계산하여 얻는다.

사전학습(pretraining)의 통합 외에도, 최근에는 주제별 통합(thematic unification), 즉 공통 task들을 하나의 모델로 통합하는 경향이 나타나고 있다. 이러한 예시로는 다음과 같은 모델들이 있다:

UNICORN (Lourie et al., 2021): commonsense reasoning
UnifiedQA (Khashabi et al., 2020, 2022): question answering
Programming Puzzles (Schuster et al., 2021b): problem solving
UnifiedSKG (Xie et al., 2022): Structured Knowledge Grounding

3 Unifying Language Learning Paradigms (UL2)

이 섹션에서는 UL2 프레임워크와 본 논문의 나머지 부분에서 연구할 제안된 사전학습 objective에 대해 설명한다.

3.1 Pre-training

이 섹션에서는 제안된 사전학습(pre-training) objective에 대해 논의한다.

3.1.1 Unified Perspective for Pre-training Tasks

많은 사전학습 task는 단순히 'input-to-target' task로 공식화될 수 있다. 여기서 input은 모델이 조건으로 삼는 모든 형태의 메모리 또는 context를 의미하며, target은 모델의 예상 출력이다. Language model은 이전 모든 time-step을 input으로 사용하여 다음 token을 예측하는데, 이 다음 token이 target이 된다. Span corruption에서는 모델이 과거와 미래의 손상되지 않은 모든 token을 input으로 활용하여 손상된 span(target)을 예측한다. Prefix-LM은 과거 token을 input으로 사용하지만, input을 양방향으로 처리하는 LM이다. 이는 vanilla LM에서 input을 단방향으로 인코딩하는 것보다 더 강력한 모델링 능력을 제공한다.

이러한 관점에서, 우리는 하나의 사전학습 objective를 다른 objective로 대략적으로 환원할 수 있다. 예를 들어, span corruption objective에서 손상된 span, 즉 target이 전체 시퀀스와 동일할 때, 이 문제는 사실상 언어 모델링 문제로 귀결된다. 이를 염두에 두고,

Figure 2: UL2 사전학습 패러다임 개요. UL2는 다양한 다운스트림 task에서 잘 작동하는 새로운 사전학습 objective를 제안한다.

Figure 3: UL2 학습을 위한 denoiser 혼합. 회색으로 표시된 사각형은 예측을 위한 'target'으로 이동된 masked token이다.

span corruption에서 span 길이를 크게 설정함으로써, 우리는 지역적인 영역에서 LM objective를 효과적으로 모방할 수 있다.

우리는 본 논문에서 사용하는 모든 denoising task를 포괄하는 표기법을 정의한다. denoising task의 input과 target은 세 가지 값( $\mu, r, n$ )으로 매개변수화된 SpanCorrupt 함수에 의해 생성된다. 여기서 $\mu$ 는 평균 span 길이, $r$ 은 손상률(corruption rate), $n$ 은 손상된 span의 개수이다. $n$ 은 input 길이 $L$ 과 span 길이 $\mu$ 의 함수일 수 있다(예: $L/\mu$ ). 하지만 일부 경우에는 고정된 $n$ 값을 사용한다. input 텍스트가 주어지면, SpanCorrupt는 평균 $\mu$ 를 갖는 (정규 또는 균일) 분포에서 추출된 길이의 span에 손상을 도입한다. 손상 후, input 텍스트는 denoising task에 입력되고, 손상된 span은 복구될 target으로 사용된다.

예를 들어, 이 공식화를 사용하여 causal language modeling과 유사한 objective를 구성하려면, 단순히 ( $\mu=L, r=1.0, n=1$ )로 설정하면 된다. 즉, span 길이가 시퀀스 길이와 동일한 단일 span을 의미한다. Prefix LM objective와 유사한 것을 표현하려면, ( $\mu=L-P, r=1.0-P/L, n=1$ )로 설정하며, 여기서 $P$ 는 prefix의 길이이고, 단일 손상된 span이 항상 시퀀스의 끝까지 도달해야 한다는 추가 제약이 있다.

우리는 이러한 inputs-to-targets 공식화가 encoder-decoder 모델과 단일 스택 Transformer 모델(예: decoder 모델) 모두에 적용될 수 있음을 주목한다. 우리는 다음 target token을 예측하는 모델을 선택하는데, 이는 **in-place로 예측하는 모델(예: BERT에서 현재 masked token을 예측하는 모델)**보다 더 일반적이며, 특별한 "CLS" token과 task-specific projection head를 사용하는 대신 더 많은 task를 포괄할 수 있기 때문이다.

3.1.2 Mixture of Denoisers

우리는 강력한 범용 모델이 사전학습(pre-training) 동안 다양한 문제 해결에 노출되어야 한다고 추측한다. 사전학습이 self-supervision 방식으로 이루어진다는 점을 고려할 때, 이러한 다양성은 모델의 objective에 주입되어야 한다고 주장한다. 그렇지 않으면 모델은 일관성 있는 긴 텍스트 생성과 같은 특정 능력의 부족으로 어려움을 겪을 수 있다.

이러한 동기와 현재의 objective function들을 바탕으로, 우리는 사전학습 동안 사용되는 세 가지 주요 패러다임을 정의한다:

R-Denoiser: 일반적인 denoising은 Raffel et al. (2019)에서 소개된 표준 span corruption 방식이다. 이 방식은 2~5개의 토큰을 span 길이로 사용하며, 입력 토큰의 약 15%를 마스킹한다. 이러한 span은 짧아서 유창한 텍스트 생성 학습보다는 지식 습득에 유용할 수 있다.
S-Denoiser: denoising의 특정 경우로, 입력-대상(inputs-to-targets) task를 구성할 때 엄격한 순차적 순서(sequential order)를 관찰한다. 즉, prefix language modeling 방식이다. 이를 위해 우리는 입력 시퀀스를 context와 target이라는 두 개의 하위 시퀀스로 간단히 분할하며, 이때 target은 미래 정보에 의존하지 않도록 한다. 이는 context 토큰보다 더 이른 위치에 target 토큰이 있을 수 있는 표준 span corruption과는 다르다. Prefix-LM 설정과 유사하게, context(prefix)는 양방향 receptive field를 유지한다. 매우 짧은 메모리 또는 메모리가 없는 S-Denoising은 표준 causal language modeling과 유사한 개념이다.
X-Denoiser: denoising의 극단적인 버전으로, 모델은 입력의 작은 부분에서 중간 정도의 부분만 주어졌을 때, 입력의 대부분을 복구해야 한다. 이는 상대적으로 제한된 정보만을 가진 메모리로부터 긴 target을 생성해야 하는 상황을 시뮬레이션한다. 이를 위해 우리는 입력 시퀀스의 약 50%가 마스킹되는 공격적인 denoising 예시를 포함한다. 이는 span 길이를 늘리거나(또는) corruption rate를 높여서 달성된다. 우리는 긴 span(예: $\geq 12$ 토큰)을 가지거나 높은 corruption rate(예: $\geq 30\%$ )를 가질 경우 사전학습 task를 극단적(extreme)이라고 간주한다. X-denoising은 일반적인 span corruption과 language model과 같은 objective 사이의 보간(interpolation) 역할을 하도록 고안되었다.

이러한 denoiser 세트는 이전에 사용된 objective function들과 강한 연관성을 가진다: R-Denoising은 T5의 span corruption objective이며, S-Denoising은 GPT와 같은 causal language model과 연결되고, X-Denoising은 T5와 Causal LM의 objective 조합에 모델을 노출시킬 수 있다. 특히, X-denoiser는 각 샘플에서 더 많은 토큰을 예측하도록 학습되므로 LM과 유사하게 sample efficiency를 향상시키는 것과도 관련이 있다. 우리는 이 모든 task를 균일하게 혼합하여 하이브리드 self-supervised objective를 제안한다. 최종 objective는 다음과 같이 구성된 7개의 denoiser 혼합이다:

Denoiser	Setting
R	$(\mu=3, r=0.15, n) \cup(\mu=8, r=0.15, n)$
S	$(\mu=L / 4, r=0.25,1)$
X	$(\mu=3, r=0.5, n) \cup(\mu=8, r=0.5, n) \cup(\mu=64, r=$
	$0.15, n) \cup(\mu=64, r=0.5, n)$

Table 1: 본 논문에서 사용된 UL2의 mixture-of-denoisers 구성.

X- 및 R-Denoiser의 경우, span 길이는 평균 $\mu$ 를 갖는 정규 분포에서 샘플링된다. S-Denoiser의 경우, 균일 분포를 사용하고, 손상된 span의 개수를 1개로 고정하며, 손상된 span이 원래 입력 텍스트의 끝에서 끝나야 한다는 추가 제약 조건을 둔다. 즉, 손상된 부분 뒤에 잘리지 않은 토큰이 나타나지 않아야 한다. 이는 대략 seq2seq denoising 또는 Prefix LM 사전학습 objective와 동일하다.

Table 2: supervised 및 one-shot 설정 모두에서 언어 이해 및 생성 task 모음에 대한 실험 결과. 모델은 32B 토큰으로 사전학습되었다.

Obj	Arch	Params	Supervised Finetuning				In-context One-shot				LM
			SG	XS	SGD	TOT	SG	XS	SGD	TOT
CLM	Dec	167 M	62.24	28.18	55.44	59.40	39.22	1.16	1.40	0.20	-2.35
PLM	Dec	167 M	62.44	28.21	55.55	59.52	42.54	1.08	3.70	6.40	-2.54
SC	Dec	167 M	67.67	29.14	55.48	60.47	38.53	1.16	2.20	1.60	-3.62
SCLM	Dec	167 M	63.36	29.02	55.71	60.00	40.78	3.03	1.27	0.10	-2.38
UL2	Dec	167 M	65.50	28.90	55.80	60.39	42.30	8.01	6.30	5.80	-2.34
PLM	ED	335M	69.30	31.95	55.70	60.91	38.18	6.50	7.11	3.90	-2.42
SC	ED	335M	72.00	31.05	55.80	61.25	38.51	7.49	1.43	2.10	-7.23
SCLM	ED	335M	72.50	31.69	55.70	60.94	39.74	5.13	8.70	7.30	-2.40
UniLM	ED	335M	71.10	31.00	55.83	61.03	39.86	6.70	6.50	4.10	-2.65
UL2	ED	335M	73.10	31.86	56.10	61.50	41.30	11.51	6.63	6.50	-2.55

LM은 Prefix-LM의 특수한 경우이므로, causal LM task를 혼합에 포함할 필요는 없다고 판단했다. 모든 task는 혼합에서 대략적으로 동일한 참여율을 가진다. 우리는 또한 S-denoiser의 수를 혼합에서 50%까지 늘리고 나머지 denoiser들이 나머지를 차지하는 대안도 탐색한다. 다양한 설계 선택에 대한 자세한 ablation study는 이후 섹션에서 제시한다.

결론적으로, Mixture-of-Denoisers의 혼합 방식이 모델을 보편적으로 강력하게 만드는 핵심이다. 단독으로는 일부 denoiser 유형이 잘 작동하지 않는다. 예를 들어, 원래 T5 논문에서는 50% corruption rate(X-denoising) 옵션을 탐색했지만, 이는 잘 작동하지 않는 것으로 나타났다.

UL2의 denoiser 혼합 구현은 seqio와 같은 라이브러리 ${ }^{3}$ (Roberts et al., 2022)를 사용하여 간단하고 쉽게 구현할 수 있다. 구현에 대한 자세한 내용은 부록을 참조하라.

3.1.3 Mode Switching

우리는 모드 전환(mode switching)을 통한 패러다임 전환(paradigm-shifting) 개념을 소개한다. 사전학습(pre-training) 단계에서 우리는 모델에 추가적인 패러다임 토큰, 즉 $\{[\mathrm{R}],[\mathrm{S}],[\mathrm{X}]\}$ 를 입력으로 제공한다. 이 토큰은 모델이 모드를 전환하여 주어진 task에 더 적합한 방식으로 작동하도록 돕는다. fine-tuning 및 다운스트림 few-shot learning의 경우, 모델이 더 나은 솔루션을 학습하도록 유도하기 위해, 우리는 다운스트림 task의 설정 및 요구사항에 맞는 패러다임 토큰을 추가한다. 모드 전환은 사실상 다운스트림 동작을 업스트림 학습 시 사용했던 모드 중 하나에 연결시킨다.

3.2 Model Architecture

UL2는 아키텍처에 구애받지 않는(architecture-agnostic) 철학을 채택한다. 우리는 두 아키텍처(encoder-decoder vs decoder-only) 간의 선택이 효율성 trade-off에 가깝고, 아키텍처 선택이 사전학습(pretraining) objective와 혼동되어서는 안 된다고 주장한다. 따라서 우리는 모델당 여러 크기가 존재하듯이, UL2 decoder와 UL2 encoder-decoder를 모두 보유하고 있다. 이 효율성 trade-off에 대해서는 실험 섹션에서 자세히 논의한다. UL2는 표준적인 vanilla T5 Transformer를 채택하며, 이는 GLU layer (Shazeer, 2020) 및 T5 스타일의 relative attention과 같이 시간의 시험을 견뎌낸 수정 사항들로 강화되었다. 아키텍처 수정 사항과 사전학습 기여를 더 이상 혼동하지 않기 위해, 모델의 backbone은 T5와 유사한 모델과 동일하게 유지된다. 이는 (Narang et al., 2021)과 같은 연구 결과도 고려한 것이다.

4 Ablative Experiments

이 섹션에서는 우리의 ablation 실험 설정(예: baseline, 데이터셋, 구현 세부사항) 및 결과를 설명한다. 우리의 전반적인 연구 결과는 UL2가 9개 task 중 9개에서 T5-like 및 GPT-like 모델보다 우수한 성능을 보인다는 것을 보여준다.

4.1 Baselines

사전학습 목표(pre-training objectives)로, 우리는 다음 사전학습 baseline들과 비교한다:

Causal Language Model (CLM): 이는 표준적인 left-to-right auto-regressive language model 사전학습 방식으로, GPT (Radford et al., 2019; Brown et al., 2020)와 같은 많은 표준 사전학습 모델에서 사용된다. 우리는 실험에서 이 모델을 GPT-like라고 부른다.
Prefix LM (PLM): 이는 causal LM의 약간 변형된 형태로, (Liu et al., 2018; Raffel et al., 2019)에서 소개되었으며, $M$ 이 양방향 receptive field를 가진다. 우리는 $M$ 의 길이를 균일하게 샘플링하고 auto-regressive target에서만 loss를 계산한다.
Span Corruption (SC): 이는 T5 (Raffel et al., 2019)에서 제안된 표준 denoising objective이다. 특정 텍스트 부분을 비우고 sentinel token으로 대체하는 방식이다. sentinel token으로 대체된 텍스트는 target으로 복사되어 모델에 의해 auto-regressive하게 생성된다. 우리는 기본 T5 설정에 따라 평균 span 3과 denoising rate 15%를 사용한다.
Span Corruption + LM (SCLM): 우리는 CLM과 Span Corruption을 1:1 비율로 혼합하여 학습한다. 이 objective의 SC 구성 요소에 대해서는 SC와 동일한 하이퍼파라미터를 사용한다.
UniLM (ULM): 이는 Dong et al. (2019)에서 제안된 objective이다. 오리지널 UniLM과 유사하게, 우리는 causal language modeling, Prefix LM (sequence-to-sequence LM), 그리고 bidirectional i.i.d denoising을 혼합한다. UniLM을 cloze-style 또는 BERT-style로 학습하는 대신, 우리는 masked token을 생성하는 방식을 선택한다. 이를 통해 이 objective는 decoder-only 및 encoder-decoder 아키텍처 모두에 적용 가능하며, fine-tuning을 위한 task-specific linear head의 필요성을 없앤다.

모든 objective에 대해 우리는 single-stack 및 encoder-decoder 아키텍처를 모두 탐구한다. 모든 아키텍처는 inputs-to-targets 방식으로, encoder-decoder 또는 decoder-only 모델 구조로 구현된다. 이는 BERT-style masked language modeling 사전학습이 이미 이러한 스타일의 사전학습에 효과적으로 포함되었다고 간주하기 때문이다 (Raffel et al., 2019에서 경험적으로 입증됨). Task-specific classification head는 보편적인 모델이라는 원칙에 명백히 위배되며 (또한 매우 번거롭기 때문에) 권장되지 않는다.

4.2 Experimental Setup

우리는 다양한 supervised 및 prompt 기반 few-shot learning task에 대해 실험을 수행한다.

4.2.1 Datasets and Tasks

우리가 사용하는 데이터셋은 8개의 NLU sub-task로 구성된 SuperGLUE (Wang et al., 2019)이다. 또한, 언어 생성 문제에 초점을 맞춘 GEM 벤치마크 (Gehrmann et al., 2021)의 3개 데이터셋에 대해서도 실험을 수행한다. GEM 벤치마크에서 XSUM (요약), ToTTo (table-to-text generation) (Parikh et al., 2020), 그리고 Schema Guided Dialog (SGD) (Rastogi et al., 2019)를 임의로 선택하였다. 이 모든 task에 대해 supervised fine-tuning과 prompt 기반 one-shot learning을 모두 평가한다. 마지막으로, C4 validation set에서 perplexity 점수를 사용하여 모델의 일반적인 텍스트 생성 능력을 비교한다. 우리는 이러한 task 모음이 supervised 및 conditional few-shot learning을 포함하여 문헌의 다양한 설정들을 잘 포괄한다고 생각한다.

4.2.2 Metrics and Holistic Evaluation

SuperGLUE의 경우, 적절할 때마다 accuracy, F1 또는 Exact Match와 같은 잘 확립된 지표를 보고한다. GEM 벤치마크의 경우, Rouge-L 지표를 사용한다. 언어 모델링의 경우 negative log perplexity를 보고한다. 모델의 보편성, 즉 모든 task 범위에 걸친 집합적인 성능이 여기서 주요 평가 기준이다. 이러한 관점에서 모델 간의 비교를 가능하게 하려면 집계된 성능 점수가 필요하다. 그러나 우리가 포함하는 다양한 task의 지표들은 본질적으로 매우 다르다. 예를 들어, F1과 perplexity를 비교해보자. 이를 해결하기 위해 우리는 기준선(baseline)에 대한 정규화된 상대적 이득(normalized relative gain)을 전체 지표로 보고하고 사용하기로 결정했다. 이를 위해 표준 언어 모델(decoder-only) (GPT-like)과 표준 span denoising encoder-decoder (T5)를 주요 기준선으로 사용하고, 이러한 잘 확립된 후보들에 대한 상대적 성능을 모든 방법론에 대해 보고한다. 우리는 이것이 이러한 모델들을 비교하는 데 가장 적합한 방법이라고 생각한다.

Table 3: 표준 encoder-decoder span corruption 모델(T5) 대비 상대적 성능. 이 표의 결과는 기준선 대비 상대적인 백분율 개선으로 표현된다. $\star$ 표시가 있는 모델은 주요 비교 기준선을 나타낸다. Overall score 열은 task 전반에 걸쳐 동일하게 가중치가 부여되도록 정규화되었다.

Obj	Arch	SG	Supervised			One-shot			TOT	LM	All	Win
			XS	SGD	TOT	SGL	XS	SGD
CLM	Dec	-13.6	-9.2	-0.7	-3.0	+1.8	-91.7	-2.2	-90.5	+208	-31.7	2/9
PLM	Dec	-13.3	-9.2	-0.5	-2.8	+10.5	-85.6	+158	+205	+185	-11.0	4/9
SC	Dec	-5.6	-6.2	-0.6	-1.3	+0.05	-84.5	+54	-23.8	+99	-20.6	3/9
SCLM	Dec	-6.0	-6.5	-0.2	-2.0	+5.9	-59.6	-11.3	-95	+204	-16.1	2/9
UniLM	Dec	-10.1	-8.2	-0.2	-2.3	-5.3	-69.1	+382	+110	+200	-16.1	3/9
UL2	Dec	-9.0	-6.9	0.0	-1.4	+9.8	+6.9	+340	+176	+209	+14.1	5/9
PLM	ED	-3.7	+2.9	-0.2	-0.6	-0.86	-13.3	+397	+86	+199	+16.7	5/9
$\mathrm{SC}^{\star}$	ED	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	-
SCLM	ED	+0.7	+2.1	-0.2	-0.5	+3.2	-31.6	+508	+248	+201	+28.3	7/9
UniLM	ED	-1.2	-0.2	+0.1	-0.4	+3.5	-11.0	+355	+95	+173	+19.8	5/9
UL2	ED	+1.5	+2.6	+0.5	+0.4	+7.2	+53.6	+363	+210	+184	+43.6	9/9

새로운 모델이 인기 있는 설정(예: GPT 또는 T5-like)보다 일반적으로 얼마나 더 나은지 쉽게 추론할 수 있기 때문이다. 또한, 전체 이득(overall gain)이 정규화되어 있어, 벤치마크 복권 효과(benchmark lottery effects) (Dehghani et al., 2021b)에 취약하거나 이를 악용하기 어렵다는 점을 강조한다.

4.2.3 Implementation Details

우리의 모든 실험은 JAX/Flax (Bradbury et al., 2018) 환경에서 **오픈 소스 $55 \mathrm{X}^{4}$ 프레임워크 (Roberts et al., 2022)**와 **Flaxformer ${ }^{5}$ **를 사용하여 수행되었다.
모든 모델은 C4 코퍼스를 사용하여 500K 스텝 동안 사전학습되었으며, batch size는 128, sequence length는 입력 512, 타겟 512로 설정되었다. 사전학습 동안 모델이 본 총 토큰 수는 약 320억 개이다. 각 사전학습은 일반적으로 **64개에서 128개의 TPUv4 칩 (Jouppi et al., 2020)**을 사용하여 진행되었다.
모델 최적화에는 inverse square root learning rate를 사용하는 Adafactor (Shazeer & Stern, 2018) optimizer를 사용하였다.
다양한 backbone 아키텍처의 trade-off를 이해하기 위해, 우리는 decoder-only 아키텍처와 encoder-decoder 아키텍처 모두에 대해 모든 baseline 사전학습 objective를 실행하였다.
주요 실험 결과는 decoder 모델의 경우 약 167M 파라미터, encoder-decoder 모델의 경우 약 335M 파라미터를 가진 base 아키텍처를 사용하여 보고한다. 모든 모델은 (Shazeer, 2020)에 설명된 SwiGLU layer를 사용하는 표준 Transformer를 사용한다. 모든 모델에 대해 기본 T5 English 32K sentencepiece를 활용한다.
decoder-only 모델의 경우, causal LM으로 학습된 decoder 모델을 제외하고는, 우리의 실험은 항상 입력 세그먼트에서만 bidirectional receptive field를 사용하고 타겟 세그먼트에서는 autoregressive decoding을 사용한다. 이는 본질적으로 **PrefixLM-type 아키텍처 ${ }^{6}$ (Raffel et al., 2019)**이며, 우리는 이 방식이 완전한 causal decoder 모델보다 일관되게 더 우수함을 발견했다.

4.3 Overview of Ablative Experimental Results

Table 2는 모든 벤치마크 task 및 데이터셋에 대한 원시(raw) 결과를 보고한다. 다양한 설정 간의 비교를 용이하게 하기 위해, 우리는 T5 및 GPT 모델과 같은 잘 알려진 baseline에 대한 상대적 비교 결과도 함께 보고한다. 이 결과는 각각 Table 3과 Table 4에 제시되어 있다.

4.3.1 Decoder Vs Encoder-Decoder

이 섹션의 결과를 자세히 살펴보기 전에, decoder-only 모델과 encoder-decoder 모델을 비교하는 것이 쉽지 않다는 점을 독자들에게 다시 한번 상기시키고자 한다. 간단히 말해, 우리는 연산량(compute)을 맞추거나 파라미터 수를 맞추는 방식으로 비교할 수 있다. 따라서 이 결과 세트의 encoder-decoder 모델들은 decoder 모델들보다 약 두 배의 파라미터 수를 가지지만, 유사한 속도를 보인다.

Table 4: 표준 decoder causal language model (GPT-like) 대비 상대적 성능.
이 표의 결과는 **baseline 대비 상대적인 성능 향상률(백분율)**로 표현된다. $\star$ 표시된 모델은 주요 비교 baseline을 나타낸다. Overall score 열은 각 task에 대해 동일한 가중치로 정규화되었다.

Obj	Supervised					One-shot				LM	All	Win
	Arch	SG	XS	SGD	TOT	SG	XS	SGD	TOT
CLM ${ }^{\star}$	Dec	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	-
PLM	Dec	+0.3	+0.1	+0.2	+0.2	+8.5	+74.3	+164	+3100	-8.0	+21.4	8/9
UniLM	Dec	+4.0	+1.1	+0.5	+0.7	-7.0	+274	+393	+2100	-2.5	+21.0	7/9
SC	Dec	+8.7	+3.4	+0.1	+1.8	-1.8	+87.0	+57.1	+700	-54.2	+13.9	7/9
SCLM	Dec	+1.8	+3.0	+0.5	+1.0	+4.0	+387	-9.3	-50	-1.3	+15.8	6/9
UL2	Dec	+5.2	+2.6	+0.6	+1.7	+7.9	+1190	+350	+2800	+0.3	+45.7	9/9
PLM	ED	+11.3	+13.4	+0.5	+2.5	-2.6	+946	+408	+1850	-2.9	+48.6	7/9
SC	ED	+16.5	+10.2	+0.6	+3.1	-1.8	+1107	+2.3	+950	-208	+31.7	7/9
SCLM	ED	+15.7	+12.5	+0.5	+2.6	+1.3	+726	+522	+3550	-2.2	+60.3	8/9
UniLM	ED	+14.2	+10.0	+0.7	+2.7	+1.6	+974	+365	+1950	-12.9	+52.6	8/9
UL2	ED	+17.4	+13.1	+1.2	+3.5	+5.3	+1754	+373	+3150	-8.3	+76.1	8/9

이러한 비교 방식은 모델 희소성(sparsity)의 한 형태로 해석될 수 있으므로 encoder-decoder 모델에 약간 유리할 수 있다는 점을 언급한다.
다시 결과로 돌아와서, T5를 참조 baseline으로 사용했을 때, UL2 Decoder를 제외하고는 사전학습된 decoder 모델 중 T5를 능가하는 모델은 없었다. 또한, 전반적인 상대적 성능에서 10%에서 30%의 저하가 나타났다. 여기서 가장 좋은 decoder baseline 모델은 Prefix-LM decoder 모델이었지만, 이는 T5 baseline보다 약 10% 낮은 성능을 보였다.
이러한 결과로 볼 때, 저장 공간에 대한 우려가 없다면(즉, 파라미터 수가 실제 처리량보다 덜 중요할 경우), encoder-decoder 모델이 decoder-only 모델보다 선호되어야 함이 분명하다 (자세한 논의는 (Dehghani et al., 2021a) 참조).
파라미터 제약이 있는 경우, Prefix-LM decoder가 적절한 대안이 될 수 있다.
마지막으로 흥미로운 데이터 포인트는 UL2 decoder가 T5 encoder-decoder 설정보다 +14.6% 더 우수한 성능을 보이도록 만들 수 있었다는 점이다. 물론 이 UL2 decoder는 우리의 UL2 encoder-decoder를 능가하지는 못한다. 그러나 이는 self-supervision objective가 backbone 아키텍처보다 본질적으로 더 중요할 수 있으며, 아키텍처 선택은 주로 독립적으로 연구될 수 있는 효율성 trade-off에 관한 것이라는 우리의 주장을 뒷받침한다.

4.3.2 Is GPT and/or T5 the optimal setup?

GPT-like (causal LM + decoder) 및 T5-like (span corruption + encoder-decoder) 설정과의 상대적 비교를 통해, 우리는 기존의 잘 확립된 설정들이 실제로 최적인지, 아니면 이미 최적에 가까운지를 쉽게 파악할 수 있다.
첫째, causal LM (GPT-like) 설정은 모든 우리의 baseline보다 성능이 떨어지므로 가장 좋지 않은 구성으로 보인다. 따라서 우리는 가능하다면 항상 최소한 Prefix-LM 또는 UniLM으로 학습할 것을 권장한다.
**최고의 decoder-only 모델(UL2 제외)**은 언어 모델이 조건으로 삼을 수 있는 memory prefix를 유지하는 Prefix-LM 사전학습이다. Prefix-LM 사전학습과 관련하여, Prefix-LM이 T5 span corrupt 설정보다 실제로 +16.7% 더 우수한 성능을 보인다는 점은 흥미롭다.
Prefix-LM encoder-decoder 모델은 SuperGLUE에서 기본 T5 모델보다 덜 효과적이지만, 전반적으로 특히 one-shot 또는 open text-generation task에서 더 강력하다.
결론적으로, Prefix-LM과 span corruption encoder-decoder 모델(T5) 중 어느 것이 보편적으로 우수한 모델인지는 불분명하다. 다양한 하위 task에서 장단점이 있기 때문이다. 하지만 Prefix-LM EncDec 모델이 특정 task에서 약간의 성능 저하를 감수하고 다른 task에서 엄청난 다중 성능 향상을 이룬다는 점은 주목할 만하다.

4.3.3 On the Performance of UniLM and SCLM

encoder-decoder 설정에서 UniLM과 SCLM objective는 표준 span corruption objective보다 집계 및 정규화된 전체 이득(overall gain) 측면에서 더 나은 성능을 보인다. 이는 일반적으로 사전학습 objective를 혼합하는 것이 유용함을 시사한다. decoder 설정에서는 baseline causal LM과 비교하여 UniLM은 +9.4%, SCLM은 +16.1%의 전체 이득을 얻었다. 개별 task 측면에서 UniLM과 SCLM 모두 9개 task 중 6개에서 T5를 능가한다. 또한, SCLM이 1-shot generation (SGD 및 TOTTO)에서 모든 모델 중 가장 좋은 성능을 보인다는 점도 주목할 만하다.

Table 5: 7B 토큰으로 UL2를 사용하여 사전학습된 Encoder-Decoder 아키텍처에서 다양한 패러다임 prompt가 1-shot 평가에 미치는 영향.

Model/Prompt	1Shot XSum	1Shot SuperGLUE
Baseline T5	$6.9 / 0.6 / 6.1$	33.9
UL2 / None	$13.2 / 1.4 / 10.8$	38.3
UL2 / [R]	$\mathbf{13 . 5} / \mathbf{1 . 5} / \mathbf{1 1 . 1}$	38.5
UL2 / [S]	$11.6 / 1.2 / 10.0$	38.5
UL2 / [X]	$8.9 / 0.9 / 7.6$	$\mathbf{38 . 7}$

Table 6: Mixture-of-Denoisers에 대한 ablation study. Span, Rate, SD는 백분율(%)로 표시된다. SuperGLUE 점수(SG)와 XSUM Rouge-L(XS)을 보고한다.

Name	Ablation Method			Supervised		One-shot
	Span ( $\mu$ )	Rate (r)	SD%	SG	XS	SG	XS
A	-	-	100	69.3	31.1	38.2	6.5
B	3	50	0	72.0	32.0	38.5	7.5
C	3,8,12	15,50	14	71.9	32.1	38.6	4.1
D	3,8,12,32	15,50	11	71.0	32.2	42.7	10.6
E	3,8,32,64	15,50	11	73.1	32.2	40.7	10.4
F	3,8,64	15,50	17	70.6	31.6	41.3	11.5
G	3,8,32,64	15	25	69.2	31.6	42.4	10.1
H	8, 64	15	25	72.5	31.2	39.2	10.9
I	3,8,12, 32	15,50	50	71.2	32.0	38.1	11.7
J	3,8,64	15,50	50	71.3	31.6	38.1	11.8
K	3,8,12	15,50	0	73.7	32.0	39.3	2.6
L	3,8,64	15,50	0	70.1	32.1	38.0	7.3

4.3.4 On the Performance of the Proposed UL2

마지막으로, 우리는 UL2가 GPT-like 모델과 T5-like 모델 모두와 비교했을 때 가장 우수한 성능을 보인다는 점에 주목한다. 전반적으로 UL2는 T5보다 +43.4%, 그리고 GPT-like CLM decoder 모델보다 +76.2% 더 뛰어난 성능을 보여준다. 이는 다른 모든 대안들과 비교했을 때 가장 높은 상대적(전반적) 성능 향상이다. 또한, 우리는 모든 개별 task에서 UL2가 고려된 9개 task 중 9개 모두에서 T5를 능가한다는 점을 확인했다. 따라서 UL2는 span corruption T5 모델에 비해 보편적으로 더 나은 선택지이다. UL2가 모든 개별 task에서 항상 모든 baseline을 능가하는 것은 아니지만, UL2는 매우 일관적인 성능을 보인다. 다른 방법에 비해 특정 task에서 성능이 떨어지는 경우에도 그 차이는 상대적으로 미미하다 (예: one-shot TOTTO에서 6.5 대 7.3). 반대로, UL2가 T5와 같은 baseline을 능가할 때는 최대 +363%에 달하는 큰 폭의 성능 향상을 보일 수 있다. UL2는 가장 일관적으로 강력한 방법으로 남아 있다. 이러한 일관된 개선은 UL2가 T5 및 GPT-like 모델을 대체할 수 있는 보다 일관적인 대안으로 사용될 수 있음을 시사한다.

4.4 Mode Switching Ablations

우리는 모델의 모드 전환(mode switching) 기능이 성능에 효과적인지 확인하기 위해 ablation 실험을 수행한다. one-shot XSum과 one-shot SuperGLUE에 대해 실험을 진행했으며, Table 5는 모델에 주어지는 paradigm prompt를 변경했을 때의 결과를 보여준다.

첫째, 우리는 prompt가 모델 성능에 상당히 큰 영향을 미친다는 것을 관찰했다. 즉, 올바른 prompt를 사용하거나 잘못된 prompt를 사용함에 따라 성능이 최대 48%까지 차이 날 수 있다 (XSum, Rouge-1 기준). 반면, SuperGLUE는 prompting에 덜 민감하다. SuperGLUE에서는 one-shot 평가 시 prompt를 사용하는 것이 거의 항상 사용하지 않는 것보다 더 나은 성능을 보인다. 그러나 XSum의 경우, 올바른 prompt를 사용하는 것이 좋은 성능을 내는 데 결정적인 역할을 하는 것으로 보인다.

4.5 Mixture-of-Denoisers Ablations

우리는 MoD objective 내의 개별 objective들의 효과를 검증하기 위해 광범위한 실험을 수행한다. Table 6은 이러한 ablation 결과를 보고한다. 우리는 mean span, corruption rate, 그리고 S-denoising 사용 비율(표기: % SD)을 다양하게 변경하여 얻은 결과를 제시한다. 참고로, **혼합(mixture) 내의 총 denoiser 수는 $\|$ Span $\|\times\|$ Corrupt_Rate $\|+1$ **이다. 이러한 구성들을 쉽게 참조할 수 있도록 Var-A부터 Var-J까지 레이블을 붙였다.

X-Denoising은 상호 보완적으로 효과적이지만, 단독으로는 충분하지 않다.
우리는 Extreme Denoising을 혼합하는 것이 효과적임을 관찰한다. 전반적으로 최고의 결과 대부분은 긴 span(예: 32 또는 64)을 가진 혼합에서 나온다. 긴 span이 없는 변형(Var-D vs. Var-C)과 비교했을 때, Var-D가 명확히 더 우수하다는 것을 알 수 있다. 또한 독자들의 주의를 긴 span만 사용하는 변형인 Var-H에 집중시키고자 한다. 일반적으로 Var-H는 성능이 좋지 않으며, 이는 extreme denoising이 일반 denoising을 보완하지만, 단독으로는 충분하지 않음을 시사한다. 이는 또한 50%의 corruption rate가 좋은 성능을 보이지 않는다는 Raffel et al. (2019)의 결과와도 일치한다. 이는 (Wettig et al., 2022)의 발견과 약간 상충되지만, 우리의 아키텍처는 BERT-style masked language modeling 대신 inputs-to-targets 형태의 사전학습을 사용한다.

소량의 S-Denoiser가 선호된다.
우리는 S-denoiser를 전체 MoD 혼합의 50%로 확장하는 설정을 탐색한다. 그 결과, 이는 일반적으로 성능을 저해한다는 것을 발견했다. 따라서 우리는 S-denoiser가 필요하지만, 소량의 S-denoiser(약 20%)가 선호된다는 결론을 내린다. Var-K와 Var-L은 S-denoising이 전혀 없는 경우도 탐색한다. 한 task(SuperGLUE)에서는 성능이 크게 향상되지만, 다른 task(oneshot XSUM)에서는 크게 저하된다. 한편, Var-F와 동일하지만 S-denoising이 없는 Var-L은 전반적으로 훨씬 더 나쁜 성능을 보인다. 따라서 우리는 S-denoising이 매우 중요함을 입증했다.

4.6 Modestly Scaling Model Size and Pretraining Data

우리는 1) 모델 크기와 2) 사전학습 데이터셋 크기를 모두 확장하여 추가 실험을 수행하였다. 구체적으로, UL2 Encoder-Decoder 모델을 약 1B 파라미터까지 확장하고, 사전학습 토큰 수를 0.5조 개로 늘렸다. 우리의 목표는 제안된 공식화가 **다른 모델 규모에서도 작동하는지 건전성 검사(sanity check)**를 수행하고, 더 큰 규모에서 작동할 때의 차이점과 시사점을 관찰하는 것이었다. 또한, scaling law를 도출하는 것은 언어 모델 연구의 주요 과제가 되었다 (Kaplan et al., 2020; Tay et al., 2021b). Table 7은 이 확장된 설정에서의 결과를 보고한다. 대규모 설정에서도 제안된 UL2 encoder-decoder 모델은 여전히 경쟁력이 있음을 확인했다. 이제 주요 차이점은 UL2가 T5 (1B)에 비해 SuperGLUE 스위트에서 성능이 하락한다는 것이다. 그러나 이는 8개 task 중 7개에서 더 나은 성능을 보일 뿐만 아니라, one-shot 평가에서 성능을 2~4배 향상시킴으로써 상쇄된다. supervised fine-tuning에서의 이득은 더 작지만, XSUM, SGD, TOT 전반에 걸쳐 여전히 눈에 띄는 개선을 보인다.

Table 7: 모델 연산량(예: EncDec의 경우 1B, decoder-only의 경우 0.5B) 및 데이터셋 크기(0.5T 토큰) 측면에서 중간 규모로 확장된 모델을 사용한 실험 결과.

	Finetuning				In-context Learning
Model	SG	XS	SGD	TOT	SG	XS	SGD	TOT
GPT-like	62.3	$37.1 / 15.7 / 30.2$	56.0	60.3	36.4	$1.2 / 0.1 / 1.1$	3.5	0.0
T5	$\mathbf{8 4 . 7}$	$43.0 / 20.8 / 35.6$	56.0	62.1	29.4	$8.9 / 0.8 / 7.8$	2.1	1.4
UL2	83.3	$\mathbf{4 3 . 3 / 2 1 . 0 / 3 5 . 9}$	$\mathbf{5 6 . 5}$	$\mathbf{6 2 . 6}$	$\mathbf{45 . 4}$	$\mathbf{15 . 4 / 2 . 5 / 1 1 . 1}$	$\mathbf{9 . 6}$	$\mathbf{7 . 8}$

5 Scaling to 20B Parameters

우리는 또한 확장된(scaled up) 환경에서 UL2를 평가하는 데 관심을 가졌다. ablation 실험에서 얻은 통찰력을 바탕으로, 이 실행에서는 encoder-decoder 아키텍처를 사용한다. UL2는 아키텍처에 구애받지 않지만, 내재된 희소성(intrinsic sparsity) 때문에 encoder-decoder 아키텍처를 기본으로 사용하는 것이 좋다는 조언을 한다.

우리는 약 20B개의 총 파라미터 규모로 UL2를 학습시킨다. 진정한 대규모 language model (Du et al., 2021; Chowdhery et al., 2022)과 비교할 때, 20B는 중간 규모의 모델에 해당한다. 우리는 이 모델을 ablation 실험보다 상대적으로 큰 규모에서 UL2가 무엇을 할 수 있는지에 대한 힌트를 제공하는 개념 증명(proof-of-concept)으로 학습시켰다. 솔직히 말해, 이 모델의 정확한 파라미터 수에 대해서는 많은 고민을 하지 않았다. 즉, 우리는 이미 20B 모델을 한동안 학습시키고 있었고, 수렴까지 지켜보기로 결정했다. 또한, 모델을 확장할 때 데이터 손상, 간헐적인 하드웨어 문제(예: 선점) 등 잠재적인 여러 이유로 인해 spiking 및 불안정성이 흔히 발생한다는 점에 주목한다. 이 실행에서는 작업을 주의 깊게 모니터링하지 않았기 때문에 간헐적인 재시작과 같은 특정 제어 또는 완화 전략을 적용하지 않았다. 따라서 이 20B 모델의 학습에서 간헐적인 loss spike를 발견한다. 그러나 이러한 checkpoint를 사용한 많은 fine-tuning 실험에서 여전히 state-of-the-art (SOTA) 성능이 자주 나타나므로, 현재로서는 이를 그대로 두고 적절히 모니터링된 실행은 향후 연구로 남겨둔다. 50개 이상의 NLP 벤치마크에서 SOTA 성능을 달성했음에도 불구하고, 현재 제시된 결과는 모델의 진정한 잠재력을 여전히 과소평가한 것이라고 예상한다. UL2를 진정한 대규모로 확장하는 것은 향후 연구로 남겨둔다.

5.1 Pretraining and Model Configuration

우리는 이전 실험과 동일한 학습 프로토콜을 따르며, C4 코퍼스에서 사전학습을 수행하지만, 사전학습 중 모델이 보는 토큰의 수를 확장한다. 이 모델의 사전학습을 위해 batch size 1024와 512개의 TPUv4 칩을 사용한다. 모델은 C4에서 **총 1조 개의 토큰(2백만 스텝)**으로 학습된다. 입력 및 타겟의 시퀀스 길이는 $512/512$ 로 설정된다. 사전학습 중 Dropout은 0으로 설정된다. 사전학습은 약 1조 개의 토큰에 대해 한 달 조금 넘게 소요되었다. 우리는 이전 섹션과 동일한 denoiser 혼합을 사용한다. 모델은 32개의 encoder layer와 32개의 decoder layer를 가지며, $d_{\text {model }}$ 은 4096, $d_{f f}$ 는 16384이다. 각 head의 차원은 256이며, 총 16개의 head를 가진다. 우리 모델은 8의 model parallelism을 사용한다. 우리는 32k vocab size의 T5와 동일한 sentencepiece tokenizer를 유지한다. 따라서 UL20B는 T5와 상당히 유사하지만, 다른 objective와 약간 다른 scaling knob으로 학습된 모델로 해석될 수 있다. 이전 실험과 유사하게, UL20B는 Jax 및 T5X 인프라로 학습된다. 우리는 이 20B 모델의 T5X 기반 모델 체크포인트를 공개하고 오픈 소스로 제공한다.

5.2 Experiments at 20 B scale

이 섹션에서는 UL20B 실험을 위한 우리의 실험 설정을 설명한다.

5.2.1 Setup and Implementation Details

우리는 fine-tuning과 in-context learning 두 가지 방식 모두로 실험을 수행한다. Supervised fine-tuning의 경우, 모델은 일반적으로 50k에서 100k 사이의 사전학습(pretraining) 스텝 $N$ 이후에 계속해서 fine-tuning된다. 즉, $N$ k 스텝의 사전학습이 끝날 때마다 각 다운스트림 task에 대해 fine-tuning을 수행하고 그 결과를 기록한다. 이 과정은 일반적으로 수동으로 진행된다. 일부 task는 모델이 사전학습 중일 때 더 이른 시점의 checkpoint로 fine-tuning되었지만, 많은 task는 우리가 공개하는 수렴에 가까운 checkpoint로 fine-tuning되었다. 우리는 연속적으로 fine-tuning을 진행하면서, 특정 task가 state-of-the-art에 도달하면 연산 비용 절감을 위해 fine-tuning을 중단한다. Fine-tuning은 일반적으로 task별로 개별적으로 수행되며 co-training은 하지 않는다. co-training이 수행된 task에 대한 자세한 내용은 appendix에서 확인할 수 있다. 대규모 멀티태스크 학습(Aribandi et al., 2021)과 UL2의 결합은 향후 연구 과제로 남겨둔다.

Supervised fine-tuning을 위해 우리는 일반적으로 Adafactor optimizer를 사용하여 $\left\{5 \times 10^{-5}, 1 \times 10^{-5} 1 \times 10^{-4}\right\}$ 범위의 learning rate를 채택한다. 일반적인 방식은 Adafactor optimizer 상태를 재설정하거나, 실제 target token 수에 기반한 loss normalization을 적용하는 것이다. 이는 PaLM fine-tuning 설정(Chowdhery et al., 2022)과 유사하다. Batch size는 일반적으로 32에서 128 사이였지만, batch size가 fine-tuning 성능에 큰 영향을 미치지는 않는다는 것을 발견했다. 평가된 task 중 상당수는 많은 튜닝을 거치지 않았으며, leaderboard 제출 전에 한두 번만 실행되었다.

5.2.2 Datasets for Supervised Finetuning

접근 방식의 보편성을 입증하기 위해, 우리는 총 50개 이상의 NLP task를 고려한다. 아래에 task 분류를 나열한다. task 분류는 일반적으로 유동적이며, 일부 task는 여러 분류 경계를 넘나들 수 있음에 유의하라.

Language Generation - 우리는 요약(summarization) 및 데이터-투-텍스트(data-to-text) 생성 task를 고려한다. 모델 평가를 위해 **CNN/Dailymail (Hermann et al., 2015), XSUM (Narayan et al., 2018), MultiNews (Fabbri et al., 2019), SAMSum (Gliwa et al., 2019), WebNLG (Castro Ferreira et al., 2020) (영어), E2E (Dušek et al., 2019), CommonGen (Lin et al., 2020)**을 사용한다. WebNLG, E2E, CommonGen의 경우, GEM 벤치마크 (Gehrmann et al., 2021) 버전을 사용한다.
Language Generation with Human Evaluation - 우리는 **GENIE leaderboard (Khashabi et al., 2021)**를 통해 인간 평가를 사용하는 다양한 텍스트 생성 task를 평가한다. 이 task에는 **aNLG (Bhagavatula et al., 2019), ARC-DA (Clark et al., 2018), WMT19 (Foundation), XSUM (Narayan et al., 2018)**이 포함된다.
Language Understanding, Classification and Question Answering - 우리는 Reading Comprehension, Question Answering, Text Classification 및 자연어 추론 데이터셋을 사용한다. 구체적으로, **RACE (Reading comprehension) (Lai et al., 2017), QASC (Khot et al., 2020), OpenBookQA (Mihaylov et al., 2018), TweetQA (Xiong et al., 2019), QuAIL (Rogers et al., 2020), IMDB (Maas et al., 2011), Agnews (Zhang et al., 2015), DocNLI (Yin et al., 2021), Adversarial NLI (Nie et al., 2019), VitaminC (Schuster et al., 2021a), Civil Comments 및 Wikipedia Toxicity detection 데이터셋 (Borkan et al., 2019)**을 사용한다. 또한 표준 SuperGLUE (Wang et al., 2019) 및 GLUE (Wang et al., 2018) 데이터셋도 사용한다.
Commonsense Reasoning - 우리는 **HellaSwag (Zellers et al., 2019), SocialIQA/SIQA (Sap et al., 2019), PhysicalIQA/PIQA (Bisk et al., 2020), CosmosQA (Huang et al., 2019), AbductiveNLI (Bhagavatula et al., 2019), CommonsenseQA (Talmor et al., 2018), CommonsenseQA2 (Talmor et al., 2021)**를 사용한다.
Long Range Reasoning - 우리는 **GovReport (Huang et al., 2021), SumScr (Chen et al., 2021), QMSUm (Zhong et al., 2021), QASPER (Dasigi et al., 2021), NarrativeQA (Kočiský et al., 2018), QuaLITY (Pang et al., 2021), ContractNLI (Koreeda & Manning, 2021)**를 포함하는 **7개의 구성 task로 이루어진 Scrolls 벤치마크 (Shaham et al., 2022)**를 사용한다.
Structured Knowledge Grounding - 우리는 **UnifiedSKG (Xie et al., 2022)**의 여러 구성 task, 즉 **WikiTQ (Pasupat & Liang, 2015), CompWQ (Talmor & Berant, 2018), FetaQA (Nan et al., 2021), HybridQA (Chen et al., 2020), WikiSQL (Zhong et al., 2017), TabFat (Chen et al., 2019), Feverous (Aly et al., 2021), SQA (Iyyer et al., 2017), MTOP (Li et al., 2020), DART (Nan et al., 2020)**를 사용한다. 우리는 평가를 수행하기 비교적 편리하고, 모호하거나 상당한 도메인별 후처리가 필요한 metric 대신 정확도(accuracy) 또는 exact match와 같은 주류 metric을 사용하는 데이터셋을 선택한다.
Information Retrieval - IR은 쿼리가 주어졌을 때 관련 문서를 검색하는 task이다. 우리는 실험을 위해 최신 차세대 IR 패러다임인 differentiable search index (Tay et al., 2022)의 설정을 사용한다. DSI 논문과 동일한 NQ (Kwiatkowski et al., 2019) 분할을 사용한다.

각 데이터셋에 대해 이전의 최고 SOTA 결과를 보고한다. 생성 task의 경우, (Gehrmann et al., 2022)의 조언에 따라 일반적으로 ROUGE-2를 보고한다. 나머지 데이터셋의 경우, 이전 연구에서 보고된 주요 metric을 보고한다. BLEU 점수의 경우 sacrebleu를 사용한다. Commonsense reasoning task의 경우, 외부 지식 베이스를 사용하는 접근 방식과는 비교하지 않는다. 이는 본 논문의 범위 밖이며 직교적이기 때문이다. 대부분의 경우, GLUE는 이미 포화 상태로 간주되며 GLUE leaderboard에는 많은 미공개 결과가 있다. 이러한 이유로, 우리는 T5 모델 (Raffel et al., 2019) 이후 GLUE 벤치마크에서 실질적인 발전이 없었다고 판단하므로, (Raffel et al., 2019)를 state-of-the-art로 간주하는 매우 합리적인 결정을 내린다. GLUE 결과는 이미 포화 상태임을 감안하여 참고 자료로 제공되며, 어느 정도 감안하여 받아들여야 한다.

일반적으로, 우리는 모든 leaderboard (미공개 테스트 세트)에 점수를 제출하기 위해 최선을 다하지만, 제출 비용이 너무 많이 드는 경우 (특히 기존 SOTA 접근 방식이 dev 점수를 공개했거나, 특정 데이터셋에 대한 보고가 완전성을 위한 경우(예: GLUE))에는 제출을 자제한다. 독자들에게 dev/test의 차이에 대해 너무 깊이 생각하지 말 것을 권고한다. (1) 대부분의 학술 leaderboard에서 dev/test는 우리의 경험뿐만 아니라 경험적으로도 일치하며, (2) 진정한 테스트는 어차피 실제 프로덕션이기 때문이다. leaderboard에 보고할 때마다, 우리는 최고 성능을 보인 공개된 연구를 SOTA로 간주하며, 더 높은 점수를 받은 익명 제출이 있을 수 있음을 # 기호로 표시한다. 이를 위해 합리적인 품질 이상의 arxiv preprint도 공개된 연구로 간주한다. 이러한 결과 및 비교는 2022년 4월 15일 기준으로 정확하며, 이 시점에 우리는 이 논문을 다듬는 데 집중하기 위해 실험을 중단했다. 나중에 이 논문을 arxiv에 올릴 준비를 하면서, Scrolls 벤치마크에서 16k 시퀀스 길이를 사용하는 모델 (Guo et al., 2021)을 사용한 새로운 결과가 있었음을 알게 되었다. 우리의 모델은 SOTA를 달성한 후 2k 시퀀스 길이를 유지했다. 길이를 UL2로 늘리면 우리의 점수가 현재 SOTA를 훨씬 능가할 것으로 예상되지만, 물류 및 일정상의 이유로 이는 향후 연구로 남겨둔다.

5.2.3 Summary of Supervised Finetuning Results

이 섹션에서는 우리 실험의 전반적인 결과에 대해 설명한다.

Table 8: UL20B 결과와 state-of-the-art 비교 요약.
(l)은 리더보드 제출(leaderboard submission)을 나타낸다.
(#)은 리더보드에서 찾을 수 있는 최고의 공개된 성능을 나타낸다.
(e)는 SOTA가 앙상블(ensembled) 접근 방식을 사용했음을 나타낸다.
SuperGLUE의 경우 fine-tuning과 in-context trade-off를 평가하므로, SuperGLUE 점수는 아래 전용 섹션에서 다룬다.

Dataset	Metric	Eval	Sota Reference	SOTA	Ours
CNN/DM	Rouge-2	Test	Zoph et al.	21.7	21.9
XSUM	Rouge-2	Test	Zoph et al.	27.1	26.6
MultiNews	Rouge-2	Test	Xiao et al.	21.1	21.7
SAMSum	Rouge-2	Test	Narayan et al.	28.3	29.6
Gigaword	Rouge 2	Test	Aghajanyan et al.	20.7	20.7
WebNLG (en)	Rouge-2	Test	Bakshi et al.	53.5	55.4
E2E-NLG	Rouge-2	Test	Xue et al.	45.8	46.5
CommonGen	Rouge-2	Dev	Gehrmann et al.	32.5	37.4
Schema-Guided Dialog	Rouge-2	Test	Gehrmann et al.	36.8	44.1
GENIE - aNLG	Human (H)	Test	Khashabi et al.	76.0	77.0 $^{(l)}$
GENIE - ARC-DA (w/o IR)	Human	Test	Khashabi et al.	72.0	$\mathbf{72 . 0}^{(l)}$
GENIE - WMT19	Human	Test	Khashabi et al.	71.0	$67.0^{(l) 7}$
GENIE - XSUM	H-Overall	Test	Clive et al.	51.0	$50.0^{(l)}$
GENIE - XSUM	H-Concise	Test	Clive et al.	53.0	53.0 ${ }^{(l)}$
GENIE - XSUM	H-Fluency	Test	Clive et al.	51.0	$\mathbf{52 . 0}{ }^{(l)}$
GENIE - XSUM	H-No-Hallucination	Test	Clive et al.	53.0	$\mathbf{54 . 0}{ }^{(l)}$
GENIE - XSUM	H-Informativeness	Test	Clive et al.	49.0	$49.0^{(l)}$
SIQA	Accuracy	Test	Lourie et al.	83.2	$83.3{ }^{(l)}$
PIQA	Accuracy	Test	Lourie et al.	90.1	$90.7{ }^{(l)}$
CSQA	Accuracy	Dev	Lourie et al.	79.1	84.9
CSQA2	Accuracy	Test	Lourie et al.	$69.6{ }^{(\text {\# })}$	$70.1{ }^{(l)}$
QASC (w/o IR)	Accuracy	Dev	Khashabi et al.	81.8	83.8
QASC (w IR)	Accuracy	Test	Khashabi et al.	89.6	$90.7{ }^{(l)}$
TweetQA	BLEU-1	Dev	Khashabi et al.	77.5	78.4
QuAIL	Accuracy	Test	Khashabi et al.	74.2	87.2
AdversarialQA (Bert)	F1	Dev	Khashabi et al.	53.6	70.1
AdversarialQA (Roberta)	F1	Dev	Khashabi et al.	45.5	57.5
AdversarialQA (Bidaf)	F1	Dev	Khashabi et al.	71.5	77.5
MCScript	Accuracy	Test	Khashabi et al.	95.1	97.3
MCScript 2.0	Accuracy	Test	Khashabi et al.	94.6	97.9
RACE	Accuracy	Test	Shoeybi et al.	$90.9{ }^{(e)}$	90.9
DREAM	Accuracy	Test	Wan	91.8	91.8
OBQA	Accuracy	Test	Khashabi et al.	87.2	$\mathbf{87 . 2}^{(l)}$
CosmosQA	Accuracy	Test	Lourie et al.	91.8	$91.6^{(l)}$
Winogrande XL	Accuracy	Test	Lourie et al.	91.3	$90.1{ }^{(l)}$
DocNLI	Accuracy	Test	Qin et al.	76.9	88.2
AdversarialNLI (r3)	Accuracy	Test	Wang et al.	47.7	53.5
VitaminC	Accuracy	Test	Schuster et al.	90.8	91.1
Hellaswag	Accuracy	Test	Lourie et al.	93.9	$94.1{ }^{(l)}$
QQP	F1	Dev	Raffel et al.	90.1	90.6
Continued on next page

Table 8 - 이전 페이지에서 계속

QNLI	Accuracy	Dev	Raffel et al.	96.1	96.5
CoLA	Matthews	Dev	Raffel et al.	68.6	71.5
STSB	Spearman	Dev	Raffel et al.	92.1	92.3
AbductiveNLI	Accuracy	Test	He et al.	89.8 $^{(\text {\# })}$	$87.5^{(l)}$
MultiNLI	Accuracy	Dev	Raffel et al.	92.1	91.9
IMDB	Accuracy	Test	Yang et al.	96.2	97.3
AgNews	Error	Test	Yang et al.	4.45	4.42
Civil Comments	F1	Dev	Tay et al.	87.8	87.9
Wikipedia Toxicity	F1	Dev	Tay et al.	96.5	97.0
SST-2	Acc	Dev	Raffel et al.	97.3	97.0
Scrolls Challenge	Aggregate	Test	Shaham et al.	29.2	$\mathbf{37 . 9}^{(l)}$
SumScr	Rouge (Avg)	Test	Shaham et al.	16.3	$20.0{ }^{(l)}$
QMSum	Rouge (Avg)	Test	Shaham et al.	19.9	$20.0{ }^{(l)}$
QASPER	F1	Test	Shaham et al.	26.6	$\mathbf{37 . 6}^{(l)}$
NarrativeQA	F1	Test	Shaham et al.	18.5	$24.2{ }^{(l)}$
QUALITY	EM	Test	Shaham et al.	26.0	$45.8{ }^{(l)}$
ContractNLI	EM	Test	Shaham et al.	77.4	$\mathbf{8 8 . 7}^{(l)}$
GovRep	Rouge (Avg)	Test	Shaham et al.	37.2	$36.2^{(l)}$
WikiTQ	Accuracy	Test	Xie et al.	49.3	54.6
CompWebQ	Accuracy	Test	Xie et al.	73.3	75.9
FetaQA	BLEU-4	Test	Xie et al.	33.4	35.8
HybridQA	Accuracy	Dev	Eisenschlos et al.	60.8	61.0
WikiSQL	Accuracy	Test	Xie et al.	86.0	87.3
TabFat	Accuracy	Test	Xie et al.	83.4	87.1
Feverous	Accuracy	Dev	Xie et al.	82.4	85.6
SQA	Sent.Acc	Test	Xie et al.	62.4	70.5
MTOP	Match	Test	Xie et al.	86.8	87.5
DART	BLEU-4	Test	Aghajanyan et al.	47.2	50.4
DSI-NQ	HITS@10	Dev	Tay et al.	70.3	73.8

5.2.4 Results on Supervised Finetuning

우리의 실험 결과는 UL2가 약 50개 이상의 NLP task 및 설정에서 state-of-the-art (SOTA) 성능을 달성함을 보여준다. 많은 경우에 그 차이가 상당히 크며, UL2가 SOTA를 달성하지 못한 경우에도 UL2의 성능은 일반적으로 상당히 경쟁력이 있다. 각 벤치마크에서 SOTA를 달성하는 난이도는 매우 다양하다는 점에 주목할 필요가 있다. 일부 벤치마크의 SOTA 모델은 32B dense 모델에 해당한다 (Zoph et al., 2022). 다른 일부 벤치마크에서는 base 모델이 SOTA이다. 또한, 많은 벤치마크에서 기존 SOTA 모델이 3B 또는 11B T5, UnifiedQA (Khashabi et al., 2020) 또는 Unicorn (Lourie et al., 2021)과 같은 상대적으로 큰 모델이라는 점도 주목할 만하며, 이러한 모델들을 능가하는 것이 결코 쉬운 일은 아니다. 전반적으로, 우리는 독자들이 이러한 SOTA 결과의 가치를 스스로 판단하도록 권장한다. 마지막으로, UL2 20B는 GENIE task에 대한 인간 평가에서 상당히 좋은 성능을 보이며, 여러 지표에서 SOTA를 능가한다. 이는 UL2의 생성 품질이 상당히 견고하다는 것을 확인시켜 준다.

5.2.5 Tradeoffs between Finetuning and Prompt-based Zero-shot Learning (SuperGLUE)

이 섹션에서는 SuperGLUE 벤치마크에서 fine-tuning과 in-context learning 간의 trade-off를 탐구한다. 우리는 UL20B를 사용하여 SuperGLUE에 대한 실험을 수행했다. UL20B가 이 벤치마크에서 SOTA를 달성하지는 못했지만, UL20B가 T5-11B보다 경쟁력 있는 성능을 유지하거나 능가한다는 점에 주목한다. 이 섹션은 UL2가 실제로 스케일링되며 SuperGLUE에서 T5-11B와 유사하거나 약간 더 나은 성능을 보임을 재확인시켜 준다 (동시에 다른 많은 in-context task에서는 T5-XXL을 크게 능가한다). UL20B는 여전히 SOTA 모델인 ST-MoE-32B에 비해 뒤처지는데, 이는 주로 두 가지 이유 때문이다. 첫째, ST-MoE-32B는 200B 이상의 파라미터를 가지고 있으며, 이는 32B dense 모델과 동등한 비용이 든다. 둘째, ST-MoE-32B는 NLU fine-tuning에 매우 유리하다고 알려진 encoder-decoder 아키텍처를 사용하여 span corruption으로만 학습되었다.

Table 9: SuperGLUE dev set 결과. T5-11B (Raffel et al., 2019), ST-MoE-32B (Zoph et al., 2022) 및 PaLM-8B, PaLM-62B, PaLM-540B (Chowdhery et al., 2022)와 비교하였다. 보고된 점수는 각 task별 최고 validation 점수이다.

Model	BoolQ	CB	CoPA	MultiRC	Record	RTE	WiC	WSC	Avg
PaLM 62B	90.6	96.4/95.7	98.0	87.7/61.9	93.0/92.4	89.5	75.9	96.2	89.2
PaLM 540B	92.2	100/100	100	90.1/69.2	94.0/94.6	95.7	78.8	100	92.6
ST-MoE 32B ${ }_{269 B}$	93.1	100/100	100	90.4/69.9	95.0/95.6	95.7	81.0	100	93.2
PaLM 8B	87.6	96.4/92.1	86.0	81.6/64.0	89.7/89.3	84.5	73.4	88.5	83.4
T5 11B	90.8	94.9/96.4	98.0	87.4/66.1	93.8/93.2	93.9	77.3	96.2	89.9
UL2 20B	90.8	98.7/98.2	99.0	88.4/64.8	93.7/93.2	92.1	77.3	98.1	90.7

Table 10: SuperGLUE 데이터셋에 대한 zero-shot learning 결과. GPT-3, GLaM 및 PaLM (Chowdhery et al., 2022)과 비교하였다. 또한 LM adaptation을 사용한 T5-XXL (Lester et al., 2021), GPT-3 13B 및 GLaM-8B dense와 같이 UL20B와 상대적으로 연산량이 유사한 모델들도 포함하였다. 특히, UL20B는 평균 점수에서 GPT-3 175B 및 유사한 연산량 클래스의 다른 모든 모델들을 능가한다.

Model	BoolQ	CB	RTE	ReCORD	WSC	WiC	COPA	MultiRC	Avg
ST-MoE-32B (269B)	40.8	41.1	52.7	50.0	57.5	50.0	56.0	30.3	47.6
GPT-3 175B	60.5	46.4	63.5	90.2	65.4	0.0	91.0	72.9	61.2
GLaM-MoE 1.2T	83.0	33.9	68.8	90.3	84.9	50.5	90.0	45.1	68.3
PaLM 540B	88.0	51.8	72.9	92.9	89.1	59.1	93.0	83.5	78.8
T5-XXL	44.3	37.5	48.8	85.8	59.3	50.9	70.0	23.0	52.5
GPT-3 13B	66.2	19.6	62.8	89.0	64.4	0.0	84.0	71.4	57.2
GLaM-Dense 8B	73.6	33.9	44.0	89.2	80.7	44.0	86.0	39.0	61.3
GLaM-MoE 64E	72.2	40.7	60.3	88.9	81.8	49.5	86.0	52.4	66.5
PaLM-Dense 8B	68.3	41.1	54.2	87.8	78.9	47.0	86.0	47.5	63.9
UL2 20B (single ckpt)	63.1	41.1	60.7	88.1	79.9	49.8	85.0	36.2	63.0
UL2 20B (best)	63.1	50.0	60.7	88.1	80.6	55.2	88.0	36.2	65.2

5.2.6 Generative Few-shot: XSUM Summarization

마지막으로, 우리는 XSum 데이터셋을 사용하여 추가적인 few-shot in-context one-shot learning을 수행한다. 우리는 우리 모델을 baseline T5-XXL, LM Adaptation이 적용된 T5-XXL (Lester et al., 2021), LaMDA 137B (Thoppilan et al., 2022), 그리고 **PaLM (8B, 62B, 540B) (Chowdhery et al., 2022)**과 비교한다. T5-XXL은 동일한 실험 설정에서 직접 실행하여 결과를 보고하지만, 다른 모델들의 결과는 (Chowdhery et al., 2022)에서 인용한다.

Table 11: XSUM 데이터셋에 대한 One-Shot Summarization 결과.

Model	Rouge-1	Rouge-2	Rouge-L
LaMDA 137B	-	5.4	-
PaLM 62B	-	11.2	-
PaLM 540B	-	12.2	-
PaLM 8B	-	4.5	-
T5 XXL 11B	0.6	0.1	0.6
T5 XXL 11B + LM	13.3	2.3	10.7
UL2 20B	25.5	8.6	19.8

Table 11은 1-shot summarization 결과를 보고한다. 우리는 T5-XXL이 이 task에서 저조한 성능을 보인다는 점에 주목한다. LM adaptation을 적용하더라도 Rouge-2 점수는 2.3에 불과하며, 이는 decoder-only causal language model (예: PaLM 8B 모델)에 비해 현저히 낮은 수치이다. 특히, 별도의 fine-tuning 없이 바로 사용되는(off-the-shelf) T5-XXL은 span corruption 방식으로만 학습되었기 때문에 prompting을 사용하더라도 의미 있는 요약을 생성하지 못한다. 따라서 generative few-shot setting에서는 어떤 형태의 adaptation이 필요하다는 것이 직관적이다. 여기서 UL2 20B의 성능이 LM adapted T5 XXL 모델의 약 3배에 달한다는 점은 주목할 만하다. 또한, UL2 20B는 LaMDA 137B를 능가하며, PaLM 8B의 거의 두 배에 가까운 성능을 보인다. 그러나 가장 좋은 결과는 여전히 더 큰 540B 및 62B PaLM 모델에서 나타난다.

6 Conclusion

우리는 범용적으로 효과적인 모델을 학습하기 위한 새로운 패러다임을 제안한다. UL2는 두 가지 핵심 아이디어로 특징지어진다.
첫째, 우리는 다수의 사전학습 task를 span corruption으로 구성하고, 이를 다양화하여 혼합하는 새로운 Mixture of Denoisers (MoD) 사전학습 방식을 제안한다.
둘째, 우리는 다운스트림 task의 동작을 업스트림 사전학습과 연결하는 방식인 mode switching을 도입한다.
광범위한 ablation 실험 결과, UL2는 다양한 supervised 및 few-shot task에서 GPT-like 및 T5 모델을 일관되게 능가하며, 9개 중 9개 task에서 T5를 뛰어넘고, 정규화된 전체 성능에서 +76.1%의 향상을 보인다.
마지막으로, 우리는 UL2를 20B 파라미터 규모로 확장하고, 50~60개의 다양한 NLP task 및 설정에 대한 실험을 수행한다. UL2는 이 중 50개에서 state-of-the-art 성능을 달성한다.
사전학습된 체크포인트는 https://github.com/google-research/google-research/tree/master/ul2 에서 공개될 예정이다.