Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." Journal of machine learning research 21.140 (2020): 1-67.

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Colin Raffel* Noam Shazeer* Adam Roberts* Katherine Lee* Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu CRAFFEL@GMAIL.COM NOAM@GOOGLE.COM ADAROB@GOOGLE.COM KATHERINELEE@GOOGLE.COM SHARANNARANG@GOOGLE.COM MMATENA@GOOGLE.COM YANQIZ@GOOGLE.COM MWEILI@GOOGLE.COM PETERJLIU@GOOGLE.COM Google, Mountain View, CA 94043, USA

Editor: Ivan Titov

Abstract

Transfer learning은 모델을 **데이터가 풍부한 task에서 사전학습(pre-training)**한 후, 다운스트림 task에 대해 fine-tuning하는 방식으로, 자연어 처리(NLP) 분야에서 강력한 기술로 부상했다. Transfer learning의 효과는 다양한 접근 방식, 방법론, 그리고 실제 적용 사례를 낳았다. 본 논문에서는 모든 텍스트 기반 언어 문제를 text-to-text 형식으로 변환하는 통합 프레임워크를 도입하여 NLP를 위한 transfer learning 기술의 지형을 탐구한다. 우리는 수십 개의 언어 이해 task에 대해 사전학습 objective, 아키텍처, unlabeled 데이터셋, transfer 접근 방식 및 기타 요인들을 체계적으로 비교 연구한다. 이러한 탐구에서 얻은 통찰력을 **규모(scale)**와 새로운 **"Colossal Clean Crawled Corpus"**와 결합함으로써, 우리는 요약, 질문 응답, 텍스트 분류 등 다양한 벤치마크에서 state-of-the-art 결과를 달성한다. NLP를 위한 transfer learning의 향후 연구를 촉진하기 위해, 우리는 데이터셋, 사전학습된 모델, 그리고 코드를 공개한다.

Keywords: transfer learning, natural language processing, multi-task learning, attention-based models, deep learning

1. Introduction

머신러닝 모델을 자연어 처리(NLP) task에 맞게 학습시키려면, 모델이 다운스트림 학습에 적합한 방식으로 텍스트를 처리할 수 있어야 하는 경우가 많다. 이는 모델이 텍스트를 "이해"할 수 있도록 범용적인 지식을 개발하는 것으로 넓게 볼 수 있다. 이러한 지식은 **낮은 수준(예: 단어의 철자나 의미)**부터 **높은 수준(예: 튜바는 대부분의 백팩에 들어갈 수 없을 정도로 크다는 것)**에 이르기까지 다양하다. 현대 머신러닝에서는 이러한 지식을 명시적으로 제공하는 경우는 드물며, 대신 보조 task의 일부로 학습되는 경우가 많다. 예를 들어, 역사적으로 흔한 접근 방식은 단어 벡터(Mikolov et al., 2013b,a; Pennington et al., 2014)를 사용하여 단어의 정체성을 연속적인 표현으로 매핑하는 것이다. 이상적으로는 유사한 단어가 유사한 벡터로 매핑된다. 이러한 벡터는 예를 들어, 함께 나타나는 단어들이 연속적인 공간에서 가까이 위치하도록 유도하는 objective를 통해 학습되는 경우가 많다 (Mikolov et al., 2013b).

최근에는 데이터가 풍부한 task에서 전체 모델을 사전학습(pre-train)하는 방식이 점점 더 보편화되고 있다. 이상적으로는 이러한 사전학습을 통해 모델이 범용적인 능력과 지식을 개발하고, 이를 다운스트림 task로 전이(transfer)할 수 있게 된다. 컴퓨터 비전 분야의 전이 학습(transfer learning) 적용 사례(Oquab et al., 2014; Jia et al., 2014; Huh et al., 2016; Yosinski et al., 2014)에서는 일반적으로 ImageNet (Russakovsky et al., 2015; Deng et al., 2009)과 같은 대규모 레이블링된 데이터셋에서 supervised learning을 통해 사전학습이 이루어진다. 이와 대조적으로, NLP의 현대적인 전이 학습 기법은 레이블링되지 않은 데이터에 대해 unsupervised learning을 사용하여 사전학습하는 경우가 많다. 이러한 접근 방식은 최근 가장 일반적인 NLP 벤치마크들에서 state-of-the-art 결과를 얻는 데 사용되었다 (Devlin et al., 2018; Yang et al., 2019; Dong et al., 2019; Liu et al., 2019c; Lan et al., 2019). 경험적인 강점 외에도, NLP를 위한 unsupervised pre-training은 레이블링되지 않은 텍스트 데이터가 인터넷 덕분에 대량으로 사용 가능하다는 점에서 특히 매력적이다. 예를 들어, Common Crawl 프로젝트는 매달 웹페이지에서 추출한 약 20TB의 텍스트 데이터를 생성한다. 이는 놀라운 확장성(scalability)을 보이는 것으로 입증된 신경망에 자연스럽게 적합하다. 즉, 더 큰 모델을 더 큰 데이터셋으로 학습시키는 것만으로도 더 나은 성능을 달성하는 것이 종종 가능하다 (Hestness et al., 2017; Shazeer et al., 2017; Jozefowicz et al., 2016; Mahajan et al., 2018; Radford et al., 2019; Shazeer et al., 2018; Huang et al., 2018b; Keskar et al., 2019a).

이러한 시너지는 NLP를 위한 전이 학습 방법론을 개발하는 최근의 많은 연구로 이어졌으며, 이는 사전학습 objective (Howard and Ruder, 2018; Devlin et al., 2018; Yang et al., 2019; Dong et al., 2019), 레이블링되지 않은 데이터셋 (Yang et al., 2019; Liu et al., 2019c; Zellers et al., 2019), 벤치마크 (Wang et al., 2019b, 2018; Conneau and Kiela, 2018), fine-tuning 방법 (Howard and Ruder, 2018; Houlsby et al., 2019; Peters et al., 2019) 등 광범위한 분야를 아우르게 되었다. 이 급성장하는 분야의 빠른 발전 속도와 다양한 기술들은 서로 다른 알고리즘을 비교하고, 새로운 기여의 효과를 분리하며, 기존 전이 학습 방법들의 공간을 이해하는 것을 어렵게 만들 수 있다. 보다 엄격한 이해의 필요성에 동기 부여를 받아, 우리는 전이 학습에 대한 통합된 접근 방식을 활용하여 다양한 접근 방식을 체계적으로 연구하고 이 분야의 현재 한계를 뛰어넘고자 한다.

우리 연구의 기본 아이디어는 모든 텍스트 처리 문제를 "text-to-text" 문제로 취급하는 것이다. 즉, 텍스트를 입력으로 받아 새로운 텍스트를 출력으로 생성하는 방식이다. 이러한 접근 방식은 모든 텍스트 문제를 질문 응답(McCann et al., 2018), 언어 모델링(Radford et al., 2019), 또는 span extraction (Keskar et al., 2019b) task로 변환하는 것을 포함한 이전의 NLP task 통합 프레임워크에서 영감을 받았다. 결정적으로, text-to-text 프레임워크는 우리가 고려하는 모든 task에 동일한 모델, objective, 학습 절차 및 디코딩 프로세스를 직접 적용할 수 있게 한다. 우리는 이러한 유연성을 활용하여 질문 응답, 문서 요약, 감성 분류 등 다양한 영어 기반 NLP 문제에 대한 성능을 평가한다. 이 통합된 접근 방식을 통해 우리는 다양한 전이 학습 objective, 레이블링되지 않은 데이터셋 및 기타 요소들의 효과를 비교할 수 있으며, 이전에 고려되었던 것보다 모델과 데이터셋을 확장하여 NLP를 위한 전이 학습의 한계를 탐구할 수 있다.

Figure 1: 우리의 text-to-text 프레임워크 다이어그램. 번역, 질문 응답, 분류를 포함하여 우리가 고려하는 모든 task는 모델에 텍스트를 입력으로 제공하고 특정 타겟 텍스트를 생성하도록 학습시키는 방식으로 변환된다. 이를 통해 우리는 다양한 task에 걸쳐 동일한 모델, 손실 함수, 하이퍼파라미터 등을 사용할 수 있다. 또한, 이는 우리의 경험적 조사에 포함된 방법들을 위한 표준 테스트베드를 제공한다. "T5"는 우리의 모델을 지칭하며, 우리는 이를 "Text-to-Text Transfer Transformer"라고 부른다.

우리는 새로운 방법을 제안하는 것이 아니라, 이 분야의 현재 위치에 대한 포괄적인 관점을 제공하는 것이 목표임을 강조한다. 따라서 우리 연구는 주로 기존 기술에 대한 조사, 탐구 및 경험적 비교로 구성된다. 또한, 우리는 체계적인 연구에서 얻은 통찰력을 확장(최대 110억 개의 파라미터를 가진 모델 학습)하여 현재 접근 방식의 한계를 탐구하고, 고려하는 많은 task에서 state-of-the-art 결과를 얻는다. 이러한 규모의 실험을 수행하기 위해, 우리는 웹에서 스크랩한 수백 기가바이트의 깨끗한 영어 텍스트로 구성된 데이터셋인 "Colossal Clean Crawled Corpus" (C4)를 소개한다. 전이 학습의 주요 유용성이 데이터가 부족한 환경에서 사전학습된 모델을 활용할 수 있는 가능성에 있음을 인식하고, 우리는 코드, 데이터셋 및 사전학습된 모델을 공개한다.

본 논문의 나머지 부분은 다음과 같이 구성된다: 다음 섹션에서는 기본 모델과 그 구현, 모든 텍스트 처리 문제를 text-to-text task로 공식화하는 절차, 그리고 우리가 고려하는 task 모음에 대해 논의한다. Section 3에서는 NLP를 위한 전이 학습 분야를 탐구하는 대규모 실험 세트를 제시한다. 섹션의 끝(Section 3.7)에서는 체계적인 연구에서 얻은 통찰력을 결합하여 다양한 벤치마크에서 state-of-the-art 결과를 얻는다. 마지막으로, Section 4에서는 결과 요약과 미래에 대한 전망을 제시한다.

2. Setup

대규모 실증 연구 결과를 제시하기 전에, 우리의 결과를 이해하는 데 필요한 배경 지식들을 검토한다. 여기에는 Transformer 모델 아키텍처와 우리가 평가하는 다운스트림 task가 포함된다. 또한, 모든 문제를 text-to-text task로 처리하는 우리의 접근 방식을 소개하고, 레이블이 없는 텍스트 데이터 소스로 생성한 Common Crawl 기반 데이터셋인 "Colossal Clean Crawled Corpus" (C4) 에 대해 설명한다. 우리는 우리의 모델과 프레임워크를 "Text-to-Text Transfer Transformer" (T5) 라고 부른다.

2.1 Model

NLP를 위한 transfer learning에 대한 초기 연구는 recurrent neural network를 활용했지만 (Peters et al., 2018; Howard and Ruder, 2018), 최근에는 Transformer 아키텍처 기반 모델을 사용하는 것이 더 일반적이 되었다 (Vaswani et al., 2017). Transformer는 처음에는 기계 번역에 효과적인 것으로 나타났지만, 이후 다양한 NLP 환경에서 사용되었다 (Radford et al., 2018; Devlin et al., 2018; McCann et al., 2018; Yu et al., 2018). 그 유비쿼터스(ubiquity)가 증가함에 따라, 우리가 연구하는 모든 모델은 Transformer 아키텍처를 기반으로 한다. 아래에 언급된 세부 사항과 Section 3.2에서 탐구하는 변형을 제외하고는, 원래 제안된 아키텍처에서 크게 벗어나지 않는다. 이 모델에 대한 포괄적인 정의를 제공하는 대신, 더 자세한 소개를 위해 관심 있는 독자에게 원본 논문 (Vaswani et al., 2017) 또는 후속 튜토리얼을 참조하도록 권한다.

Transformer의 주요 구성 요소는 self-attention이다 (Cheng et al., 2016). Self-attention은 attention의 변형으로 (Graves, 2013; Bahdanau et al., 2015), 각 요소를 시퀀스의 나머지 부분의 가중 평균으로 대체하여 시퀀스를 처리한다. 원래 Transformer는 encoder-decoder 아키텍처로 구성되었으며 sequence-to-sequence (Sutskever et al., 2014; Kalchbrenner et al., 2014) task를 위해 고안되었다. 최근에는 단일 Transformer layer stack으로 구성된 모델을 사용하는 것도 일반적이 되었으며, 다양한 형태의 self-attention이 language modeling (Radford et al., 2018; Al-Rfou et al., 2019) 또는 classification 및 span prediction task (Devlin et al., 2018; Yang et al., 2019)에 적합한 아키텍처를 생성하는 데 사용된다. 우리는 Section 3.2에서 이러한 아키텍처 변형을 경험적으로 탐구한다.

전반적으로, 우리의 encoder-decoder Transformer 구현은 원래 제안된 형태 (Vaswani et al., 2017)를 밀접하게 따른다. 먼저, 토큰의 입력 시퀀스는 임베딩 시퀀스로 매핑된 다음 encoder로 전달된다. Encoder는 "블록" 스택으로 구성되며, 각 블록은 두 개의 하위 구성 요소로 이루어진다: self-attention layer와 그 뒤에 오는 작은 feed-forward network. Layer normalization (Ba et al., 2016)은 각 하위 구성 요소의 입력에 적용된다. 우리는 활성화가 재조정(rescaled)만 되고 가산 편향(additive bias)이 적용되지 않는 간소화된 버전의 layer normalization을 사용한다. Layer normalization 후, residual skip connection (He et al., 2016)은 각 하위 구성 요소의 입력을 출력에 더한다. Dropout (Srivastava et al., 2014)은 feed-forward network 내, skip connection, attention 가중치, 그리고 전체 스택의 입력 및 출력에 적용된다. Decoder는 구조적으로 encoder와 유사하지만, 각 self-attention layer 뒤에 encoder의 출력에 attention을 수행하는 표준 attention 메커니즘을 포함한다. Decoder의 self-attention 메커니즘 또한 autoregressive 또는 causal self-attention의 형태를 사용하며, 이는 모델이 과거 출력에만 attention을 수행하도록 허용한다. 최종 decoder 블록의 출력은 softmax 출력을 가진 dense layer로 공급되며, 이 dense layer의 가중치는 입력 임베딩 행렬과 공유된다. Transformer의 모든 attention 메커니즘은 독립적인 **"헤드"**로 분할되며, 이들의 출력은 추가 처리 전에 **연결(concatenated)**된다.

Self-attention은 순서에 독립적이기 때문에 (즉, 집합에 대한 연산), Transformer에 명시적인 위치 신호를 제공하는 것이 일반적이다. 원래 Transformer는 sinusoidal 위치 신호 또는 학습된 위치 임베딩을 사용했지만, 최근에는 상대 위치 임베딩 (Shaw et al., 2018; Huang et al., 2018a)을 사용하는 것이 더 일반적이 되었다. 각 위치에 대해 고정된 임베딩을 사용하는 대신, 상대 위치 임베딩은 self-attention 메커니즘에서 비교되는 "key"와 "query" 사이의 오프셋에 따라 다른 학습된 임베딩을 생성한다. 우리는 각 "임베딩"이 attention 가중치 계산에 사용되는 해당 logit에 단순히 더해지는 스칼라인 간소화된 형태의 위치 임베딩을 사용한다. 효율성을 위해, 우리는 모델의 모든 layer에서 위치 임베딩 파라미터를 공유하지만, 주어진 layer 내에서는 각 attention head가 다른 학습된 위치 임베딩을 사용한다. 일반적으로, 고정된 수의 임베딩이 학습되며, 각 임베딩은 가능한 key-query 오프셋 범위에 해당한다. 본 연구에서는 모든 모델에 대해 32개의 임베딩을 사용하며, 이들의 범위는 오프셋 128까지 로그적으로 증가하고, 그 이후의 모든 상대 위치는 동일한 임베딩에 할당된다. 주어진 layer는 128 토큰을 넘어서는 상대 위치에 둔감하지만, 후속 layer는 이전 layer의 로컬 정보를 결합하여 더 큰 오프셋에 대한 민감도를 구축할 수 있다. 요약하자면, 우리 모델은 Layer Norm bias를 제거하고, layer normalization을 residual path 외부에 배치하며, 다른 위치 임베딩 방식을 사용한다는 점을 제외하고는 Vaswani et al. (2017)이 제안한 원래 Transformer와 거의 동일하다. 이러한 아키텍처 변경은 transfer learning에 대한 우리의 경험적 조사에서 고려하는 실험적 요인들과 직교하므로, 그 영향에 대한 ablation은 향후 연구로 남겨둔다.

우리 연구의 일환으로, 우리는 이러한 모델의 확장성(scalability), 즉 파라미터나 layer가 많아짐에 따라 성능이 어떻게 변하는지를 실험한다. 대규모 모델을 학습하는 것은 단일 머신에 맞지 않고 많은 계산을 요구할 수 있으므로 쉽지 않다. 결과적으로, 우리는 모델 병렬화(model parallelism)와 데이터 병렬화(data parallelism)를 조합하여 Cloud TPU Pod의 "슬라이스"에서 모델을 학습시킨다. TPU pod는 고속 2D mesh interconnect로 연결된 1,024개의 TPU v3 칩과 지원 CPU 호스트 머신을 포함하는 멀티랙 ML 슈퍼컴퓨터이다. 우리는 모델 병렬화와 데이터 병렬화 (Krizhevsky, 2014)의 구현 용이성을 위해 Mesh TensorFlow 라이브러리 (Shazeer et al., 2018)를 활용한다.

2.2 The Colossal Clean Crawled Corpus

NLP를 위한 전이 학습(transfer learning)에 대한 기존 연구의 대부분은 대규모 비레이블 데이터셋을 비지도 학습(unsupervised learning)에 활용한다. 본 논문에서는 이러한 비레이블 데이터의 품질, 특성, 그리고 크기가 미치는 영향을 측정하는 데 관심을 둔다.
우리의 요구사항을 충족하는 데이터셋을 생성하기 위해, 우리는 웹에서 스크랩된 텍스트의 소스로 Common Crawl을 활용한다. Common Crawl은 이전에 NLP를 위한 텍스트 데이터 소스로 사용되어 왔다. 예를 들어, n-gram language model 학습 [Buck et al., 2014], 상식 추론(commonsense reasoning)을 위한 학습 데이터 [Trinh and Le, 2018], 기계 번역을 위한 병렬 텍스트 마이닝 [Smith et al., 2013], 사전학습 데이터셋 [Grave et al., 2018; Zellers et al., 2019; Liu et al., 2019c], 심지어 옵티마이저 테스트를 위한 거대한 텍스트 코퍼스 [Anil et al., 2019]로도 활용되었다.

Common Crawl은 공개적으로 이용 가능한 웹 아카이브로, 스크랩된 HTML 파일에서 마크업 및 기타 비텍스트 콘텐츠를 제거하여 "웹 추출 텍스트(web extracted text)"를 제공한다. 이 과정은 매달 약 20TB의 스크랩된 텍스트 데이터를 생성한다.
안타깝게도, 결과 텍스트의 대부분은 자연어가 아니다. 대신, 주로 **의미 없는 문자열(gibberish)**이나 메뉴, 오류 메시지, 중복 텍스트와 같은 상용구(boiler-plate) 텍스트로 구성된다. 더욱이, 스크랩된 텍스트 중 상당수는 우리가 고려하는 어떤 task에도 도움이 되지 않을 가능성이 있는 콘텐츠(예: 불쾌한 언어, placeholder 텍스트, 소스 코드 등)를 포함하고 있다. 이러한 문제들을 해결하기 위해, 우리는 Common Crawl의 웹 추출 텍스트를 정제(cleaning up)하기 위해 다음 휴리스틱을 사용했다:

구두점 규칙: 마침표, 느낌표, 물음표, 또는 끝 인용 부호와 같은 종결 구두점으로 끝나는 줄만 유지했다.
문장 및 단어 길이: 3문장 미만의 페이지는 모두 버렸고, 최소 5개 단어를 포함하는 줄만 유지했다.
유해 단어 필터링: "List of Dirty, Naughty, Obscene or Otherwise Bad Words"에 있는 단어가 포함된 페이지는 모두 제거했다.
Javascript 경고 제거: 스크랩된 페이지 중 상당수가 Javascript 활성화를 요구하는 경고를 포함하고 있었으므로, Javascript라는 단어가 포함된 줄은 모두 제거했다.
"lorem ipsum" 텍스트 제거: 일부 페이지에는 placeholder "lorem ipsum" 텍스트가 있었으므로, "lorem ipsum" 문구가 나타나는 페이지는 모두 제거했다.
코드 포함 페이지 제거: 일부 페이지에는 의도치 않게 코드가 포함되어 있었다. 중괄호 "{"는 많은 프로그래밍 언어(예: 웹에서 널리 사용되는 Javascript)에는 나타나지만 자연어 텍스트에는 나타나지 않으므로, 중괄호가 포함된 페이지는 모두 제거했다.
위키피디아 인용 마커 제거: 스크랩된 페이지 중 일부는 위키피디아에서 가져온 것으로 인용 마커(예: [1], [citation needed] 등)가 있었으므로, 이러한 마커는 모두 제거했다.
상용구 정책 고지 제거: 많은 페이지에 상용구 정책 고지(boilerplate policy notices)가 있었으므로, "terms of use", "privacy policy", "cookie policy", "uses cookies", "use of cookies", 또는 "use cookies" 문자열이 포함된 줄은 모두 제거했다.
데이터셋 중복 제거: 데이터셋 내에서 세 문장 단위의 스팬(span)이 두 번 이상 나타나는 경우, 하나를 제외한 나머지는 모두 제거하여 데이터셋의 중복을 제거했다.

또한, 우리의 다운스트림 task 대부분이 영어 텍스트에 초점을 맞추고 있기 때문에, langdetect를 사용하여 확률이 0.99 이상으로 영어로 분류되지 않은 페이지는 모두 필터링했다. 우리의 휴리스틱은 Common Crawl을 NLP 데이터 소스로 활용한 과거 연구들에서 영감을 받았다: 예를 들어, Grave et al. (2018)도 자동 언어 감지기를 사용하여 텍스트를 필터링하고 짧은 줄을 제거했으며, Smith et al. (2013)과 Grave et al. (2018)은 모두 줄 단위 중복 제거를 수행했다. 그러나 우리는 새로운 데이터셋을 생성하기로 결정했는데, 이는 기존 데이터셋들이 더 제한적인 필터링 휴리스틱을 사용하거나, 공개적으로 이용 가능하지 않거나, 범위가 다르기 때문이다 (예: 뉴스 데이터로 제한되거나 [Zellers et al., 2019; Liu et al., 2019c], Creative Commons 콘텐츠로만 구성되거나 [Habernal et al., 2016], 기계 번역을 위한 병렬 학습 데이터에 초점을 맞추거나 [Smith et al., 2013]).

우리의 기본 데이터셋을 구축하기 위해, 2019년 4월의 웹 추출 텍스트를 다운로드하고 앞서 언급된 필터링을 적용했다. 이로 인해 **사전학습에 사용되는 대부분의 데이터셋보다 몇 배나 더 큰 규모(약 750GB)**일 뿐만 아니라, 상당히 깨끗하고 자연스러운 영어 텍스트로 구성된 컬렉션이 생성되었다. 우리는 이 데이터셋을 "Colossal Clean Crawled Corpus" (줄여서 C4)라고 명명하고, TensorFlow Datasets의 일부로 공개한다. 우리는 Section 3.4에서 이 데이터셋의 다양한 대체 버전을 사용하는 영향에 대해 논의한다.

2.3 Downstream Tasks

본 논문의 목표는 일반적인 언어 학습 능력을 측정하는 것이다. 이를 위해 우리는 기계 번역, 질문 응답, 요약, 텍스트 분류를 포함한 다양한 벤치마크에서 다운스트림 성능을 연구한다. 구체적으로, 우리는 GLUE 및 SuperGLUE 텍스트 분류 메타-벤치마크, CNN/Daily Mail 요약, SQuAD 질문 응답, 그리고 WMT 영어-독일어, 프랑스어, 루마니아어 번역에 대한 성능을 측정한다. 모든 데이터는 TensorFlow Datasets에서 가져왔다.

GLUE (Wang et al., 2018)와 SuperGLUE (Wang et al., 2019b)는 각각 일반적인 언어 이해 능력을 테스트하기 위한 텍스트 분류 task 모음으로 구성된다:

문장 수용성 판단 (Sentence acceptability judgment): CoLA (Warstadt et al., 2018)
감성 분석 (Sentiment analysis): SST-2 (Socher et al., 2013)
패러프레이징/문장 유사성 (Paraphrasing/sentence similarity): MRPC (Dolan and Brockett, 2005), STS-B (Cer et al., 2017), QQP (Iyer et al., 2017)
자연어 추론 (Natural language inference): MNLI (Williams et al., 2017), QNLI (Rajpurkar et al., 2016), RTE (Dagan et al., 2005), CB (De Marneff et al., 2019)
공동 참조 해결 (Coreference resolution): WNLI 및 WSC (Levesque et al., 2012)
문장 완성 (Sentence completion): COPA (Roemmele et al., 2011)
단어 의미 중의성 해소 (Word sense disambiguation): WIC (Pilehvar and Camacho-Collados, 2018)
질문 응답 (Question answering): MultiRC (Khashabi et al., 2018), ReCoRD (Zhang et al., 2018), BoolQ (Clark et al., 2019)

우리는 GLUE 및 SuperGLUE 벤치마크에서 배포된 데이터셋을 사용한다. fine-tuning 시 단순화를 위해, 우리는 GLUE 벤치마크의 모든 task (SuperGLUE도 마찬가지)를 모든 구성 데이터셋을 연결하여 단일 task로 처리한다. Kocijan et al. (2019)의 제안에 따라, 우리는 결합된 SuperGLUE task에 Definite Pronoun Resolution (DPR) 데이터셋 (Rahman and Ng, 2012)도 포함한다.

CNN/Daily Mail (Hermann et al., 2015) 데이터셋은 원래 질문 응답 task로 도입되었으나, Nallapati et al. (2016)에 의해 텍스트 요약용으로 개조되었다. 우리는 See et al. (2017)의 비익명화된 버전을 요약(abstractive summarization) task로 사용한다. SQuAD (Rajpurkar et al., 2016)는 일반적인 질문 응답 벤치마크이다. 우리 실험에서 모델은 질문과 그 맥락을 입력받고, 답변을 token-by-token으로 생성하도록 요청받는다.

WMT 영어-독일어 번역의 경우, 우리는 (Vaswani et al., 2017)과 동일한 학습 데이터 (즉, News Commentary v13, Common Crawl, Europarl v7)와 newstest2013을 검증 세트로 사용한다 (Bojar et al., 2014). 영어-프랑스어 번역의 경우, 2015년의 표준 학습 데이터와 newstest2014를 검증 세트로 사용한다 (Bojar et al., 2015). 영어-루마니아어 번역은 표준적인 저자원 기계 번역 벤치마크이며, WMT 2016의 학습 및 검증 세트를 사용한다 (Bojar et al., 2016). 우리는 영어 데이터로만 사전학습하므로, 주어진 모델이 번역을 학습하려면 새로운 언어로 텍스트를 생성하는 방법을 배워야 한다는 점에 유의해야 한다.

2.4 Input and Output Format

위에서 설명한 다양한 task들을 단일 모델로 학습시키기 위해, 우리는 고려하는 모든 task를 "text-to-text" 형식으로 변환한다. 즉, 모델에 컨텍스트나 조건화를 위한 텍스트를 입력하고, 모델은 어떤 출력 텍스트를 생성하도록 요구받는 task이다. 이 프레임워크는 사전학습(pre-training)과 fine-tuning 모두에 일관된 학습 목표를 제공한다. 구체적으로, 모델은 task와 관계없이 최대 우도(maximum likelihood) 목표로 학습된다 (Williams and Zipser, 1989의 "teacher forcing" 사용). 모델이 어떤 task를 수행해야 하는지 지정하기 위해, 우리는 원본 입력 시퀀스에 task-specific (텍스트) prefix를 추가한 후 모델에 입력한다.

예를 들어, 모델에게 "That is good."이라는 문장을 영어에서 독일어로 번역하도록 요청하려면, 모델에는 "translate English to German: That is good."이라는 시퀀스가 입력되고, "Das ist gut."을 출력하도록 학습된다. 텍스트 분류 task의 경우, 모델은 단순히 대상 레이블에 해당하는 단일 단어를 예측한다. 예를 들어, MNLI 벤치마크 (Williams et al., 2017)에서는 전제(premise)가 가설(hypothesis)을 함의하는지("entailment"), 모순되는지("contradiction"), 또는 둘 다 아닌지("neutral")를 예측하는 것이 목표이다. 우리의 전처리 방식을 사용하면, 입력 시퀀스는 "mnli premise: I hate pigeons. hypothesis: My feelings towards pigeons are filled with animosity."가 되고, 해당하는 목표 단어는 "entailment"가 된다. 모델이 텍스트 분류 task에서 가능한 레이블 중 어느 것에도 해당하지 않는 텍스트를 출력하는 경우 (예를 들어, task의 가능한 레이블이 "entailment", "neutral", "contradiction"뿐인데 모델이 "hamburger"를 출력하는 경우) 문제가 발생할 수 있다. 이 경우, 우리는 모델의 출력을 항상 오답으로 간주하지만, 학습된 모델에서는 이러한 동작을 관찰한 적이 없다. 주어진 task에 사용되는 텍스트 prefix의 선택은 본질적으로 하이퍼파라미터이다. 우리는 prefix의 정확한 문구를 변경하는 것이 제한적인 영향을 미친다는 것을 발견했으며, 따라서 다른 prefix 선택에 대한 광범위한 실험은 수행하지 않았다. 몇 가지 입력/출력 예시를 포함한 우리의 text-to-text 프레임워크 다이어그램은 Figure 1에 나와 있다. 우리가 연구한 모든 task에 대한 전처리된 입력의 전체 예시는 Appendix D에 제공되어 있다.

우리의 text-to-text 프레임워크는 여러 NLP task를 공통 형식으로 변환하는 이전 연구들을 따른다: McCann et al. (2018)은 10가지 NLP task 모음에 대해 일관된 질문-답변 형식을 사용하는 벤치마크인 "Natural Language Decathlon"을 제안한다. Natural Language Decathlon은 또한 모든 모델이 멀티태스킹이어야 한다고 규정한다. 즉, 모든 task를 동시에 처리할 수 있어야 한다. 우리는 대신 각 개별 task에 대해 모델을 별도로 fine-tuning하는 것을 허용하고, 명시적인 질문-답변 형식 대신 짧은 task prefix를 사용한다. Radford et al. (2019)은 모델에 입력을 prefix로 제공한 다음 autoregressive하게 출력을 샘플링하여 언어 모델의 zero-shot 학습 능력을 평가한다. 예를 들어, 자동 요약은 문서 뒤에 "TL;DR:" (흔한 약어인 "too long, didn't read"의 줄임말) 텍스트를 입력한 다음, autoregressive decoding을 통해 요약을 예측하는 방식으로 수행된다. 우리는 주로 별도의 decoder로 출력을 생성하기 전에 encoder로 입력을 명시적으로 처리하는 모델을 고려하며, zero-shot 학습보다는 전이 학습(transfer learning)에 중점을 둔다. 마지막으로, Keskar et al. (2019b)은 많은 NLP task를 "span extraction"으로 통합한다. 여기서 가능한 출력 선택에 해당하는 텍스트가 입력에 추가되고, 모델은 올바른 선택에 해당하는 입력 span을 추출하도록 학습된다. 이와 대조적으로, 우리의 프레임워크는 기계 번역 및 추상적 요약과 같이 가능한 모든 출력 선택을 열거할 수 없는 생성 task도 허용한다.

우리는 고려한 모든 task를 text-to-text 형식으로 쉽게 변환할 수 있었지만, STS-B는 예외였다. STS-B는 1에서 5 사이의 유사도 점수를 예측하는 회귀(regression) task이다. 우리는 대부분의 점수가 0.2 단위로 주석되어 있음을 발견했으므로, 단순히 모든 점수를 가장 가까운 0.2 단위로 반올림하고 그 결과를 숫자의 문자열 표현으로 변환했다 (예: 부동 소수점 값 2.57은 문자열 "2.6"으로 매핑됨). 테스트 시, 모델이 1에서 5 사이의 숫자에 해당하는 문자열을 출력하면, 이를 부동 소수점 값으로 변환한다. 그렇지 않으면, 모델의 예측을 오답으로 처리한다. 이는 STS-B 회귀 문제를 효과적으로 21개 클래스 분류 문제로 재구성한다.

별도로, 우리는 Winograd task (GLUE의 WNLI, SuperGLUE의 WSC, 그리고 SuperGLUE에 추가한 DPR 데이터셋)도 text-to-text 프레임워크에 더 적합한 간단한 형식으로 변환한다. Winograd task의 예시는 지문 내에서 둘 이상의 명사구를 지칭할 수 있는 모호한 대명사를 포함하는 텍스트 구절로 구성된다. 예를 들어, "The city councilmen refused the demonstrators a permit because they feared violence."라는 구절에는 "city councilmen" 또는 "demonstrators"를 지칭할 수 있는 모호한 대명사 "they"가 포함되어 있다. 우리는 WNLI, WSC, DPR task를 text-to-text 문제로 변환하는데, 텍스트 구절에서 모호한 대명사를 강조하고 모델에게 그것이 지칭하는 명사를 예측하도록 요청한다. 위에 언급된 예시는 "The city councilmen refused the demonstrators a permit because they feared violence."라는 입력으로 변환되고, 모델은 "The city councilmen"이라는 목표 텍스트를 예측하도록 학습된다.

WSC의 경우, 예시에는 구절, 모호한 대명사, 후보 명사, 그리고 후보가 대명사와 일치하는지 여부를 나타내는 True/False 레이블이 포함된다 (관사는 무시). 우리는 "False" 레이블이 있는 예시에 대한 올바른 명사 대상을 알 수 없으므로, "True" 레이블이 있는 예시만으로 학습한다. 평가를 위해, 모델 출력의 단어들이 후보 명사구의 단어들의 부분집합인 경우 (또는 그 반대) "True" 레이블을 할당하고, 그렇지 않으면 "False" 레이블을 할당한다. 이로 인해 WSC 학습 세트의 약 절반이 제거되지만, DPR 데이터셋은 약 1,000개의 대명사 해결 예시를 추가한다. DPR의 예시들은 올바른 지칭 명사로 주석되어 있어, 이 데이터셋을 위에서 언급된 형식으로 쉽게 사용할 수 있다.

WNLI 학습 및 검증 세트는 WSC 학습 세트와 상당한 중복이 있다. 검증 예시가 학습 데이터로 유출되는 것을 방지하기 위해 (특히 Section 3.5.2의 멀티태스킹 실험에서 문제가 됨), 우리는 WNLI로 학습하지 않으며 WNLI 검증 세트에 대한 결과도 보고하지 않는다. WNLI 검증 세트에 대한 결과를 생략하는 것은 표준 관행이다 (Devlin et al., 2018). 이는 검증 세트가 학습 세트에 대해 "적대적"이기 때문이다. 즉, 검증 예시들은 모두 반대 레이블을 가진 학습 예시들의 약간 변형된 버전이다. 따라서, 우리는 검증 세트에 대한 보고를 할 때 (테스트 세트에 대한 결과가 제시되는 Section 3.7을 제외한 모든 섹션) WNLI를 평균 GLUE 점수에 포함하지 않는다. WNLI의 예시를 위에서 설명한 "지칭 명사 예측" 변형으로 변환하는 것은 조금 더 복잡하다. 이 과정은 Appendix B에 설명되어 있다.

3. Experiments

NLP 분야의 **전이 학습(transfer learning)**은 새로운 사전학습(pre-training) 목표, 모델 아키텍처, 비레이블 데이터셋 등 다양한 발전으로부터 진보해왔다. 이 섹션에서는 이러한 기술들의 기여와 중요성을 파악하기 위해 **경험적 조사(empirical survey)**를 수행한다. 그런 다음, 얻은 통찰력을 결합하여 우리가 고려하는 많은 task에서 state-of-the-art를 달성한다. NLP를 위한 전이 학습은 빠르게 성장하는 연구 분야이므로, 우리의 경험적 연구에서 가능한 모든 기술이나 아이디어를 다루는 것은 불가능하다. 더 넓은 문헌 검토를 위해서는 Ruder et al. (2019)의 최근 조사를 추천한다.

우리는 합리적인 baseline(Section 3.1에서 설명)을 설정하고, 한 번에 하나의 설정 측면만 변경하여 이러한 기여들을 체계적으로 연구한다. 예를 들어, Section 3.3에서는 나머지 실험 파이프라인을 고정한 채로 다양한 비지도 학습 목표(unsupervised objectives)의 성능을 측정한다. 이러한 "coordinate ascent" 접근 방식은 **2차 효과(second-order effects)**를 놓칠 수 있지만(예를 들어, 특정 비지도 학습 목표가 우리의 baseline 설정보다 더 큰 모델에서 가장 잘 작동할 수 있음), 연구의 모든 요소를 조합하여 탐색하는 것은 엄청나게 비용이 많이 들 것이다. 향후 연구에서는 우리가 연구하는 접근 방식들의 조합을 더 철저히 고려하는 것이 유익할 것으로 예상한다.

우리의 목표는 다양한 task에서 가능한 한 많은 요소를 고정한 채로 다양한 접근 방식들을 비교하는 것이다. 이 목표를 달성하기 위해, 일부 경우에는 기존 접근 방식들을 정확히 재현하지 않는다. 예를 들어, BERT (Devlin et al., 2018)와 같은 "encoder-only" 모델은 입력 토큰당 하나의 예측 또는 전체 입력 시퀀스에 대한 하나의 예측을 생성하도록 설계되었다. 이는 분류 또는 span prediction task에는 적용 가능하지만, 번역이나 요약과 같은 생성(generative) task에는 적용할 수 없다. 따라서 우리가 고려하는 모델 아키텍처 중 어느 것도 BERT와 동일하거나 encoder-only 구조로 구성되어 있지 않다. 대신, 우리는 정신적으로 유사한 접근 방식들을 테스트한다. 예를 들어, Section 3.3에서는 BERT의 "masked language modeling" 목표와 유사한 목표를 고려하고, Section 3.2에서는 텍스트 분류 task에서 BERT와 유사하게 동작하는 모델 아키텍처를 고려한다.

다음 하위 섹션에서 우리의 baseline 실험 설정을 설명한 후, **모델 아키텍처(Section 3.2), 비지도 학습 목표(Section 3.3), 사전학습 데이터셋(Section 3.4), 전이 접근 방식(Section 3.5), 그리고 스케일링(Section 3.6)**에 대한 경험적 비교를 수행한다. 이 섹션의 마지막에는 연구에서 얻은 통찰력을 스케일과 결합하여 우리가 고려하는 많은 task에서 **state-of-the-art 결과(Section 3.7)**를 얻는다.

3.1 Baseline

우리의 baseline 목표는 전형적인 최신 관행을 반영하는 것이다. 우리는 간단한 denoising objective를 사용하여 표준 Transformer(Section 2.1에 설명)를 사전학습한 다음, 각각의 다운스트림 task에 대해 개별적으로 fine-tuning한다. 이 실험 설정에 대한 자세한 내용은 다음 하위 섹션에서 설명한다.

3.1.1 Model

우리 모델에서는 Vaswani et al. (2017)이 제안한 표준 encoder-decoder Transformer를 사용한다. NLP 분야의 전이 학습(transfer learning)을 위한 많은 최신 접근 방식들이 단일 "스택(stack)"으로 구성된 Transformer 아키텍처를 사용하는 반면 (예: language modeling (Radford et al., 2018; Dong et al., 2019) 또는 classification 및 span prediction (Devlin et al., 2018; Yang et al., 2019)), 우리는 표준 encoder-decoder 구조가 생성(generative) 및 분류(classification) task 모두에서 좋은 결과를 얻는다는 것을 발견했다. 다양한 모델 아키텍처의 성능은 Section 3.2에서 탐구한다.

우리의 baseline 모델은 encoder와 decoder가 각각 "BERT $_{\text{BASE}}$ " (Devlin et al., 2018) 스택과 유사한 크기 및 구성을 가지도록 설계되었다. 구체적으로, encoder와 decoder는 각각 12개의 블록으로 구성된다 (각 블록은 self-attention, 선택적 encoder-decoder attention, 그리고 feed-forward network로 이루어진다). 각 블록의 feed-forward network는 출력 차원이 $d_{\mathrm{ff}}=3072$ 인 dense layer와 ReLU 비선형성, 그리고 또 다른 dense layer로 구성된다. 모든 attention mechanism의 "key" 및 "value" 행렬은 **내부 차원이 $d_{\mathrm{kv}}=64$ **이며, 모든 attention mechanism은 12개의 head를 가진다. 다른 모든 sub-layer와 embedding은 $d_{\text{model}}=768$ 의 차원을 가진다. 총체적으로, 이는 약 2억 2천만 개의 파라미터를 가진 모델이 된다. 이는 우리의 baseline 모델이 단일 layer 스택 대신 두 개의 layer 스택을 포함하므로 BERT $_{\text{BASE}}$ 의 약 두 배에 해당하는 파라미터 수이다. 정규화를 위해, 모델에서 dropout이 적용되는 모든 곳에 0.1의 dropout 확률을 사용한다.

3.1.2 Training

Section 2.4에서 설명했듯이, 모든 task는 text-to-text task로 정식화된다. 이를 통해 우리는 항상 표준 최대 우도(maximum likelihood) 학습, 즉 teacher forcing (Williams and Zipser, 1989)과 cross-entropy loss를 사용하여 학습할 수 있다. 최적화에는 **AdaFactor (Shazeer and Stern, 2018)**를 사용한다. 테스트 시에는 greedy decoding (즉, 매 timestep마다 가장 높은 확률의 logit을 선택)을 사용한다.

우리는 fine-tuning 전에 C4 데이터셋에서 각 모델을 $2^{19}=524,288$ 스텝 동안 사전학습한다. 최대 시퀀스 길이는 512, 배치 크기는 128 시퀀스로 설정한다. 가능한 경우, 각 배치 항목에 여러 시퀀스를 "packing"하여 ${ }^{10}$ 배치가 대략 $2^{16}=65,536$ 토큰을 포함하도록 한다. 총 배치 크기와 스텝 수는 약 $2^{35} \approx 34 \mathrm{~B}$ 토큰에 해당하는 사전학습량이다. 이는 약 137B 토큰을 사용한 BERT (Devlin et al., 2018)나 약 2.2T 토큰을 사용한 RoBERTa (Liu et al., 2019c)에 비해 상당히 적은 양이다. $2^{35}$ 토큰만 사용함으로써 합리적인 계산 예산을 유지하면서도 허용 가능한 성능을 위한 충분한 사전학습을 제공한다. 사전학습 스텝 수 증가의 효과는 Section 3.6과 3.7에서 다룬다. $2^{35}$ 토큰은 전체 C4 데이터셋의 일부만을 포함하므로, 사전학습 중에는 데이터를 반복하지 않는다.

사전학습 중에는 "inverse square root" learning rate schedule을 사용한다: $1 / \sqrt{\max (n, k)}$ 여기서 $n$ 은 현재 학습 iteration이고 $k$ 는 warm-up 스텝 수이다 (모든 실험에서 $10^{4}$ 로 설정). 이는 처음 $10^{4}$ 스텝 동안 0.01의 상수 learning rate를 설정한 후, 사전학습이 끝날 때까지 learning rate를 지수적으로 감소시킨다. 우리는 또한 **삼각 learning rate (Howard and Ruder, 2018)**를 사용하는 실험도 진행했는데, 이는 약간 더 나은 결과를 보였지만 전체 학습 스텝 수를 미리 알아야 한다는 단점이 있다. 일부 실험에서는 학습 스텝 수를 변경할 예정이므로, 더 일반적인 inverse square root schedule을 선택한다.

우리의 모델은 모든 task에 대해 $2^{18}=262,144$ 스텝 동안 fine-tuning된다. 이 값은 추가 fine-tuning에서 이점을 얻는 **고자원 task (즉, 대규모 데이터셋을 가진 task)**와 빠르게 과적합되는 저자원 task (소규모 데이터셋) 사이의 trade-off를 고려하여 선택되었다. Fine-tuning 중에도 128개의 길이 512 시퀀스 (즉, 배치당 $2^{16}$ 토큰)를 가진 배치를 계속 사용한다. Fine-tuning 시에는 0.001의 상수 learning rate를 사용한다. 5,000 스텝마다 체크포인트를 저장하고, 가장 높은 validation 성능을 보인 모델 체크포인트에 대한 결과를 보고한다. 여러 task에 대해 fine-tuning된 모델의 경우, 각 task에 대해 독립적으로 최적의 체크포인트를 선택한다. Section 3.7의 실험을 제외한 모든 실험에서는 테스트 세트에서 모델 선택을 수행하는 것을 피하기 위해 validation 세트의 결과를 보고한다.

3.1.3 Vocabulary

우리는 **SentencePiece (Kudo and Richardson, 2018)**를 사용하여 텍스트를 **WordPiece token (Sennrich et al., 2015; Kudo, 2018)**으로 인코딩한다. 모든 실험에서 32,000개의 wordpiece로 구성된 vocabulary를 사용한다. 최종적으로 모델을 영어-독일어, 영어-프랑스어, 영어-루마니아어 번역에 fine-tuning하기 때문에, 우리의 vocabulary는 이러한 비영어권 언어들도 포함해야 한다. 이를 위해, C4에서 사용된 Common Crawl 데이터 중 독일어, 프랑스어, 루마니아어로 분류된 페이지들을 식별하였다. 그런 다음, 영어 C4 데이터 10개 부분과 독일어, 프랑스어, 루마니아어로 분류된 데이터 각 1개 부분을 혼합하여 SentencePiece 모델을 학습시켰다. 이 vocabulary는 모델의 입력과 출력 모두에서 공유되었다. 우리의 vocabulary는 모델이 미리 정해진 고정된 언어 집합만 처리할 수 있도록 한다는 점에 유의해야 한다.

3.1.4 Unsupervised Objective

모델을 사전학습하기 위해 레이블이 없는 데이터를 활용하려면, 레이블을 필요로 하지 않으면서도 (느슨하게 말해) 다운스트림 task에 유용할 일반화 가능한 지식을 모델에 가르치는 objective가 필요하다.

Figure 2: 우리의 baseline 모델에서 사용하는 objective의 개략도. 이 예시에서는 "Thank you for inviting me to your party last week."이라는 문장을 처리한다. "for", "inviting", "last" (×로 표시) 단어들이 무작위로 선택되어 손상된다. 손상된 토큰의 각 연속적인 스팬은 해당 예시 내에서 고유한 sentinel token( <X> 및 <Y>로 표시)으로 대체된다. "for"와 "inviting"이 연속적으로 나타나므로, 이들은 단일 sentinel <X>로 대체된다. 그러면 출력 시퀀스는 입력에서 이들을 대체하는 데 사용된 sentinel token과 최종 sentinel token <Z>로 구분된, 제거된 스팬들로 구성된다.

NLP 문제에 사전학습(pre-training) 및 fine-tuning이라는 transfer learning 패러다임을 적용한 초기 연구들은 사전학습을 위해 causal language modeling objective를 사용했다 (Dai and Le, 2015; Peters et al., 2018; Radford et al., 2018; Howard and Ruder, 2018). 그러나 최근에는 "denoising" objective (Devlin et al., 2018; Taylor, 1953) (일명 "masked language modeling")가 더 나은 성능을 생성하며, 그 결과 빠르게 표준으로 자리 잡았다. denoising objective에서 모델은 입력에서 누락되거나 손상된 토큰을 예측하도록 학습된다.

BERT의 "masked language modeling" objective와 "word dropout" regularization 기법 (Bowman et al., 2015)에서 영감을 받아, 우리는 입력 시퀀스에서 15%의 토큰을 무작위로 샘플링하여 제거하는 objective를 설계했다. 제거된 토큰의 모든 연속적인 스팬은 단일 sentinel token으로 대체된다. 각 sentinel token에는 시퀀스 내에서 고유한 토큰 ID가 할당된다. 이 sentinel ID는 우리의 vocabulary에 추가되는 특수 토큰이며, 어떤 wordpiece에도 해당하지 않는다. 타겟(target)은 제거된 토큰의 모든 스팬에 해당하며, 입력 시퀀스에서 사용된 동일한 sentinel token과 타겟 시퀀스의 끝을 표시하는 최종 sentinel token으로 구분된다.

연속적인 토큰 스팬을 마스킹하고 제거된 토큰만 예측하도록 선택한 이유는 사전학습의 계산 비용을 줄이기 위함이다. 우리는 Section 3.3에서 사전학습 objective에 대한 철저한 조사를 수행한다. 이 objective를 적용하여 발생하는 변환의 예시는 Figure 2에 나와 있다. 우리는 Section 3.3에서 이 objective를 다른 많은 변형들과 경험적으로 비교한다.

3.1.5 Baseline Performance

이 섹션에서는 **기준 실험 절차(baseline experimental procedure)**를 사용하여 다운스트림 task 스위트에서 예상되는 성능을 파악한 결과를 제시한다. 이상적으로는 결과에 대한 신뢰 구간을 얻기 위해 연구의 모든 실험을 여러 번 반복해야 한다. 그러나 우리가 수행하는 실험의 수가 많기 때문에 이는 엄청난 비용이 들 것이다.

	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
* Baseline average	$\mathbf{8 3 . 2 8}$	$\mathbf{1 9 . 2 4}$	$\mathbf{8 0 . 8 8}$	$\mathbf{7 1 . 3 6}$	$\mathbf{2 6 . 9 8}$	$\mathbf{3 9 . 8 2}$	$\mathbf{27 . 6 5}$
Baseline standard deviation	0.235	0.065	0.343	0.416	0.112	0.090	0.108
No pre-training	66.22	17.60	50.31	53.04	25.86	$\mathbf{39 . 7 7}$	24.04

Table 1: 우리의 baseline 모델 및 학습 절차로 달성한 점수의 평균 및 표준 편차. 비교를 위해, baseline 모델을 fine-tuning하는 데 사용된 것과 동일한 스텝 수로 각 task를 scratch부터 학습했을 때(즉, 사전학습 없이)의 성능도 보고한다. 이 표(및 Table 14를 제외한 본 논문의 모든 표)의 모든 점수는 각 데이터셋의 validation set에서 보고된다.

더 저렴한 대안으로, 우리는 baseline 모델을 scratch부터 10번 학습한다(즉, 다른 무작위 초기화 및 데이터셋 셔플링 사용). 그리고 이러한 기본 모델 실행 간의 분산이 각 실험 변형에도 적용된다고 가정한다. 우리가 만드는 대부분의 변경 사항이 실행 간 분산에 극적인 영향을 미칠 것이라고 예상하지 않으므로, 이는 다양한 변경 사항의 유의미성을 합리적으로 나타낼 것이다. 별도로, 우리는 사전학습 없이 모든 다운스트림 task에 대해 $2^{18}$ 스텝(fine-tuning에 사용하는 스텝 수와 동일) 동안 모델을 학습했을 때의 성능도 측정한다. 이는 baseline 설정에서 사전학습이 우리 모델에 얼마나 많은 이점을 제공하는지에 대한 아이디어를 제공한다.

본문에서 결과를 보고할 때, 공간을 절약하고 해석을 용이하게 하기 위해 모든 벤치마크에 걸쳐 점수의 일부만 보고한다. GLUE와 SuperGLUE의 경우, 모든 하위 task에 대한 평균 점수를 "GLUE" 및 "SGLUE" 제목 아래에 보고한다(공식 벤치마크에서 규정된 바와 같이). 모든 번역 task의 경우, SacreBLEU v1.3.0 (Post, 2018)에서 제공하는 BLEU 점수(Papineni et al., 2002)를 "exp" 스무딩 및 "intl" 토큰화와 함께 보고한다. WMT 영어-독일어, 영어-프랑스어, 영어-루마니아어 점수는 각각 EnDe, EnFr, EnRo로 지칭한다. CNN/Daily Mail의 경우, ROUGE-1-F, ROUGE-2-F, ROUGE-L-F 메트릭(Lin, 2004)에 대한 모델 성능이 높은 상관관계를 보이므로 "CNNDM" 제목 아래에 ROUGE-2-F 점수만 보고한다. 마찬가지로, SQuAD의 경우 "exact match" 및 "F1" 점수 성능이 높은 상관관계를 보이므로 "exact match" 점수만 보고한다. 모든 실험에서 각 task에 대해 달성한 모든 점수는 Appendix E의 Table 16에 제공한다.

우리의 결과 표는 각 행이 특정 실험 구성에 해당하고 열은 각 벤치마크에 대한 점수를 제공하도록 모두 포맷되어 있다. 대부분의 표에는 baseline 구성의 평균 성능을 포함할 것이다. baseline 구성이 나타나는 곳마다 $\star$ 로 표시할 것이다(Table 1의 첫 번째 행과 같이). 또한, 주어진 실험에서 최대(최고) 점수의 두 표준 편차 이내에 있는 모든 점수는 굵게 표시할 것이다.

우리의 baseline 결과는 Table 1에 나와 있다. 전반적으로, 우리의 결과는 유사한 크기의 기존 모델과 비교할 만하다. 예를 들어, BERT $_{\text{BASE}}$ 는 SQuAD에서 80.8의 exact match 점수를, MNLI-matched에서 84.4의 정확도를 달성한 반면, 우리는 각각 80.88과 84.24를 달성했다(Table 16 참조). 우리의 baseline은 encoder-decoder 모델이며 약 1/4의 스텝 수로 사전학습되었기 때문에 BERT $_{\text{BASE}}$ 와 직접 비교할 수 없다는 점에 유의하라. 놀랍게도, 사전학습이 거의 모든 벤치마크에서 상당한 이득을 제공한다는 것을 발견했다. 유일한 예외는 WMT 영어-프랑스어인데, 이는 사전학습으로 인한 이득이 미미한 경향이 있는 충분히 큰 데이터셋이다. 우리는 이 task를 실험에 포함하여 고자원(high-resource) 환경에서의 전이 학습(transfer learning) 동작을 테스트한다. 최고 성능의 체크포인트를 선택하여 조기 중단(early stopping)을 수행하기 때문에, 우리의 baseline과 "사전학습 없음" 간의 큰 차이는 사전학습이 제한된 데이터가 있는 task에서 성능을 얼마나 향상시키는지를 강조한다. 이 논문에서 데이터 효율성의 개선을 명시적으로 측정하지는 않지만, 이것이 전이 학습 패러다임의 주요 이점 중 하나임을 강조한다.

실행 간 분산에 관해서는, 대부분의 task에서 실행 간 표준 편차가 task의 baseline 점수의 1%보다 작다는 것을 발견했다. 이 규칙의 예외로는 CoLA, CB, COPA가 있는데, 이들은 모두 GLUE 및 SuperGLUE 벤치마크의 저자원(low-resource) task이다. 예를 들어, CB에서 우리의 baseline 모델은 평균 F1 점수 91.22에 표준 편차 3.237을 보였다(Table 16 참조). 이는 CB의 validation set에 56개의 예시만 포함되어 있기 때문일 수 있다. GLUE 및 SuperGLUE 점수는 각 벤치마크를 구성하는 task들의 점수 평균으로 계산된다는 점에 유의하라. 결과적으로, CoLA, CB, COPA의 높은 실행 간 분산은 GLUE 및 SuperGLUE 점수만으로 모델을 비교하기 어렵게 만들 수 있음을 경고한다.

3.2 Architectures

Transformer는 원래 encoder-decoder 아키텍처로 소개되었지만, NLP 분야의 transfer learning에 대한 많은 최신 연구에서는 대체 아키텍처를 사용한다. 이 섹션에서는 이러한 아키텍처 변형들을 검토하고 비교한다.

3.2.1 Model Structures

다양한 아키텍처를 구분하는 주요 요소는 모델의 다양한 attention 메커니즘에서 사용되는 "mask"이다. Transformer의 self-attention 연산은 시퀀스를 입력으로 받아 동일한 길이의 새로운 시퀀스를 출력한다. 출력 시퀀스의 각 항목은 입력 시퀀스 항목들의 가중 평균을 계산하여 생성된다. 구체적으로, $y_i$ 를 출력 시퀀스의 $i$ 번째 요소라고 하고 $x_j$ 를 입력 시퀀스의 $j$ 번째 항목이라고 하자. $y_i$ 는 $\sum_j w_{i,j}x_j$ 로 계산되며, 여기서 $w_{i,j}$ 는 $x_i$ 와 $x_j$ 의 함수로서 self-attention 메커니즘에 의해 생성되는 스칼라 가중치이다. attention mask는 주어진 출력 시점에서 입력의 어떤 항목에 attend할 수 있는지를 제한하기 위해 특정 가중치를 0으로 만드는 데 사용된다. 우리가 고려할 mask의 다이어그램은 Figure 3에 나와 있다. 예를 들어, causal mask(Figure 3, 가운데)는 $j>i$ 인 모든 $w_{i,j}$ 를 0으로 설정한다.

우리가 고려하는 첫 번째 모델 구조는 encoder-decoder Transformer이며, 이는 두 개의 레이어 스택으로 구성된다: 입력 시퀀스를 받는 encoder와 새로운 출력 시퀀스를 생성하는 decoder이다. 이 아키텍처 변형의 개략도는 Figure 4의 왼쪽 패널에 나와 있다.

encoder는 "fully-visible" attention mask를 사용한다. Fully-visible masking은 self-attention 메커니즘이 출력의 각 항목을 생성할 때 입력의 어떤 항목에도 attend할 수 있도록 허용한다. 이 마스킹 패턴은 Figure 3의 왼쪽에 시각화되어 있다. 이러한 형태의 마스킹은 "prefix", 즉 모델에 제공되어 나중에 예측을 할 때 사용되는 일부 컨텍스트에 대해 attend할 때 적절하다. BERT (Devlin et al., 2018) 또한 fully-visible masking 패턴을 사용하며 입력에 특별한 "classification" 토큰을 추가한다. BERT의 출력

Figure 3: 다양한 attention mask 패턴을 나타내는 행렬. self-attention 메커니즘의 입력과 출력은 각각 $x$ 와 $y$ 로 표시된다. 행 $i$ 와 열 $j$ 의 어두운 셀은 self-attention 메커니즘이 출력 시점 $i$ 에서 입력 요소 $j$ 에 attend할 수 있음을 나타낸다. 밝은 셀은 self-attention 메커니즘이 해당 $i$ 와 $j$ 조합에 attend할 수 없음을 나타낸다. 왼쪽: fully-visible mask는 self-attention 메커니즘이 모든 출력 시점에서 전체 입력에 attend할 수 있도록 허용한다. 가운데: causal mask는 $i$ 번째 출력 요소가 "미래"의 어떤 입력 요소에도 의존하는 것을 방지한다. 오른쪽: prefix를 사용한 causal masking은 self-attention 메커니즘이 입력 시퀀스의 일부에 대해 fully-visible masking을 사용할 수 있도록 허용한다.

classification 토큰에 해당하는 시점에서의 출력은 입력 시퀀스를 분류하기 위한 예측을 하는 데 사용된다.

Transformer의 decoder에 있는 self-attention 연산은 "causal" masking 패턴을 사용한다. 출력 시퀀스의 $i$ 번째 항목을 생성할 때, causal masking은 모델이 $j>i$ 인 입력 시퀀스의 $j$ 번째 항목에 attend하는 것을 방지한다. 이는 모델이 출력을 생성할 때 "미래를 볼 수 없도록" 학습 중에 사용된다. 이 마스킹 패턴에 대한 attention 행렬은 Figure 3의 가운데에 나와 있다.

encoder-decoder Transformer의 decoder는 출력 시퀀스를 autoregressive하게 생성하는 데 사용된다. 즉, 각 출력 시점에서 모델의 예측 분포에서 토큰이 샘플링되고, 이 샘플은 다음 출력 시점에 대한 예측을 생성하기 위해 모델에 다시 입력되는 식으로 진행된다. 따라서 Transformer decoder (encoder 없이)는 language model (LM), 즉 다음 단계 예측만을 위해 학습된 모델로 사용될 수 있다 (Liu et al., 2018; Radford et al., 2018; Al-Rfou et al., 2019). 이것이 우리가 고려하는 두 번째 모델 구조이다. 이 아키텍처의 개략도는 Figure 4의 가운데에 나와 있다. 실제로 NLP를 위한 전이 학습에 대한 초기 연구에서는 이 아키텍처를 언어 모델링 목표와 함께 사전 학습 방법으로 사용했다 (Radford et al., 2018).

Language model은 일반적으로 압축 또는 시퀀스 생성에 사용된다 (Graves, 2013). 그러나 입력과 타겟을 단순히 연결하여 text-to-text 프레임워크에서도 사용될 수 있다. 예를 들어, 영어-독일어 번역의 경우를 생각해보자: 입력 문장 "That is good."과 타겟 "Das ist gut."을 가진 학습 데이터 포인트가 있다면, 우리는 단순히 연결된 입력 시퀀스 "translate English to German: That is good. target: Das ist gut."에 대해 다음 단계 예측으로 모델을 학습시킬 것이다. 만약 우리가

Figure 4: 우리가 고려하는 Transformer 아키텍처 변형의 개략도. 이 다이어그램에서 블록은 시퀀스의 요소를 나타내고 선은 attention 가시성을 나타낸다. 다른 색상의 블록 그룹은 다른 Transformer 레이어 스택을 나타낸다. 짙은 회색 선은 fully-visible masking에 해당하고 옅은 회색 선은 causal masking에 해당한다. 우리는 "."를 예측의 끝을 나타내는 특별한 시퀀스 끝 토큰으로 사용한다. 입력 및 출력 시퀀스는 각각 $x$ 와 $y$ 로 표시된다. 왼쪽: 표준 encoder-decoder 아키텍처는 encoder와 encoder-decoder attention에서 fully-visible masking을 사용하며, decoder에서는 causal masking을 사용한다. 가운데: language model은 단일 Transformer 레이어 스택으로 구성되며, 입력과 타겟의 연결을 받아들이고 전체적으로 causal mask를 사용한다. 오른쪽: language model에 prefix를 추가하는 것은 입력에 대해 fully-visible masking을 허용하는 것에 해당한다.

이 예시에 대한 모델의 예측을 얻고 싶다면, 모델은 "translate English to German: That is good. target:"이라는 prefix를 입력받고, 나머지 시퀀스를 autoregressive하게 생성하도록 요청받을 것이다. 이러한 방식으로 모델은 입력이 주어졌을 때 출력 시퀀스를 예측할 수 있으며, 이는 text-to-text task의 요구 사항을 충족한다. 이 접근 방식은 최근에 language model이 감독 없이 일부 text-to-text task를 수행하는 방법을 학습할 수 있음을 보여주는 데 사용되었다 (Radford et al., 2019).

text-to-text 설정에서 language model을 사용하는 것의 근본적이고 자주 인용되는 단점은 causal masking이 입력 시퀀스의 $i$ 번째 항목에 대한 모델의 표현이 $i$ 까지의 항목에만 의존하도록 강제한다는 것이다. 이것이 왜 잠재적으로 불리한지 이해하기 위해, 모델이 예측을 하기 전에 prefix/컨텍스트를 제공받는 text-to-text 프레임워크를 고려해보자 (예: prefix는 영어 문장이고 모델은 독일어 번역을 예측하도록 요청받음). 완전한 causal masking을 사용하면, prefix 상태에 대한 모델의 표현은 prefix의 이전 항목에만 의존할 수 있다. 따라서 출력의 항목을 예측할 때, 모델은 불필요하게 제한된 prefix 표현에 attend할 것이다. 유사한 주장이 sequence-to-sequence 모델에서 단방향 recurrent neural network encoder를 사용하는 것에 대해서도 제기되었다 (Bahdanau et al., 2015).

이 문제는 Transformer 기반 language model에서 마스킹 패턴을 변경하는 것만으로 피할 수 있다. causal mask를 사용하는 대신, 시퀀스의 prefix 부분 동안 fully-visible masking을 사용한다. 이 마스킹 패턴과 그 결과로 생성되는 "prefix LM" (우리가 고려하는 세 번째 모델 구조)의 개략도는 각각 Figure 3과 Figure 4의 가장 오른쪽 패널에 나와 있다. 위에서 언급된 영어-독일어 번역 예시에서, fully-visible masking은 "translate English to German: That is good. target:"이라는 prefix에 적용될 것이고, "Das ist gut."이라는 타겟을 예측하기 위한 학습 중에는 causal masking이 사용될 것이다. text-to-text 프레임워크에서 prefix LM을 사용하는 것은 원래 Liu et al. (2018)에 의해 제안되었다. 최근에는 Dong et al. (2019)이 이 아키텍처가 다양한 text-to-text task에서 효과적임을 보여주었다. 이 아키텍처는 encoder와 decoder 간에 파라미터를 공유하고 encoder-decoder attention이 입력 및 타겟 시퀀스 전반에 걸친 완전한 attention으로 대체된 encoder-decoder 모델과 유사하다.

우리는 text-to-text 프레임워크를 따를 때, prefix LM 아키텍처가 분류 task를 위한 BERT (Devlin et al., 2018)와 매우 유사하다는 점에 주목한다. 그 이유를 이해하기 위해, MNLI 벤치마크의 예시를 고려해보자. 전제는 "I hate pigeons.", 가설은 "My feelings towards pigeons are filled with animosity."이고 올바른 레이블은 "entailment"이다. 이 예시를 language model에 입력하려면, 이를 "mnli premise: I hate pigeons. hypothesis: My feelings towards pigeons are filled with animosity. target: entailment" 시퀀스로 변환할 것이다. 이 경우, fully-visible prefix는 "target:"이라는 단어까지의 전체 입력 시퀀스에 해당하며, 이는 BERT에서 사용되는 "classification" 토큰과 유사하다고 볼 수 있다. 따라서 우리 모델은 전체 입력에 대한 완전한 가시성을 가지며, 그 다음 "entailment"라는 단어를 출력하여 분류를 수행하는 task를 맡게 될 것이다. 모델이 task prefix (이 경우 "mnli")가 주어졌을 때 유효한 클래스 레이블 중 하나를 출력하도록 학습하는 것은 쉽다. 따라서 prefix LM과 BERT 아키텍처의 주요 차이점은 분류기가 단순히 prefix LM의 Transformer decoder의 출력 레이어에 통합된다는 점이다.

3.2.2 Comparing Different Model Structures

이러한 아키텍처 변형들을 실험적으로 비교하기 위해, 우리는 고려하는 각 모델이 어떤 의미 있는 방식으로 동등해야 한다고 생각한다. 우리는 두 모델이 동일한 수의 파라미터를 가지거나, 주어진 (입력 시퀀스, 타겟 시퀀스) 쌍을 처리하는 데 대략 동일한 양의 연산이 필요할 때 동등하다고 말할 수 있다.
불행히도, encoder-decoder 모델과 language model 아키텍처(단일 Transformer 스택으로 구성)를 이 두 가지 기준에 따라 동시에 비교하는 것은 불가능하다.
그 이유를 설명하자면, 먼저 encoder에 $L$ 개, decoder에 $L$ 개의 layer를 가진 encoder-decoder 모델은 $2L$ 개의 layer를 가진 language model과 대략 동일한 수의 파라미터를 가진다.
그러나 동일한 $L+L$ encoder-decoder 모델은 단 $L$ 개의 layer를 가진 language model과 대략 동일한 연산 비용을 가진다. 이는 language model의 $L$ 개 layer가 입력 및 출력 시퀀스 모두에 적용되어야 하는 반면, encoder는 입력 시퀀스에만, decoder는 출력 시퀀스에만 적용되기 때문이다.
이러한 동등성은 근사치이다. encoder-decoder attention으로 인해 decoder에 일부 추가 파라미터가 존재하며, attention layer에는 시퀀스 길이에 대해 이차적인 연산 비용도 발생한다. 하지만 실제로는 $L$ -layer language model과 $L+L$ -layer encoder-decoder model에서 거의 동일한 step time을 관찰했으며, 이는 대략적인 연산 비용의 동등성을 시사한다.
또한, 우리가 고려하는 모델 크기에서 **encoder-decoder attention layer의 파라미터 수는 전체 파라미터 수의 약 10%**에 불과하므로, 우리는 $L+L$ -layer encoder-decoder 모델이 $2L$ -layer language model과 동일한 수의 파라미터를 가진다는 단순화된 가정을 사용한다.

합리적인 비교 수단을 제공하기 위해, 우리는 encoder-decoder 모델에 대해 여러 구성을 고려한다. 우리는 BERT $_{\text{BASE}}$ 크기의 layer 스택에 있는 layer 수를 $L$ 로, 파라미터 수를 $P$ 로 지칭할 것이다. 주어진 input-target 쌍을 처리하는 데 필요한 FLOPs 수를 $M$ 으로 지칭할 것이다.
총체적으로, 우리는 다음 모델들을 비교할 것이다:

encoder에 $L$ 개, decoder에 $L$ 개의 layer를 가진 encoder-decoder 모델. 이 모델은 $2P$ 개의 파라미터를 가지며, $M$ FLOPs의 연산 비용을 가진다.
위와 동등한 모델이지만, encoder와 decoder 간에 파라미터를 공유하여 $P$ 개의 파라미터와 $M$ FLOPs의 연산 비용을 가진다.
encoder와 decoder 각각에 $L/2$ 개의 layer를 가진 encoder-decoder 모델. 이는 $P$ 개의 파라미터와 $M/2$ FLOPs의 연산 비용을 가진다.
$L$ 개의 layer와 $P$ 개의 파라미터를 가진 decoder-only language model. 결과적으로 $M$ FLOPs의 연산 비용을 가진다.
동일한 아키텍처(따라서 동일한 수의 파라미터와 연산 비용)를 가진 decoder-only prefix LM. 단, 입력에 대해 fully-visible self-attention을 수행한다.

3.2.3 Objectives

비지도 학습 objective로서, 우리는 기본적인 language modeling objective와 Section 3.1.4에서 설명된 baseline denoising objective를 모두 고려할 것이다. 우리가 language modeling objective를 포함하는 이유는 사전학습 objective로서의 역사적인 사용 (Dai and Le, 2015; Ramachandran et al., 2016; Howard and Ruder, 2018; Radford et al., 2018; Peters et al., 2018)과, 우리가 고려하는 language model 아키텍처에 자연스럽게 적합하기 때문이다. 예측을 수행하기 전에 **prefix를 입력받는 모델(encoder-decoder 모델 및 prefix LM)**의 경우, 우리는 레이블이 없는 데이터셋에서 텍스트 스팬(span)을 샘플링하고, 임의의 지점을 선택하여 이를 prefix와 target 부분으로 분할한다. 표준 language model의 경우, 모델이 전체 스팬을 처음부터 끝까지 예측하도록 학습시킨다. 우리의 비지도 denoising objective는 text-to-text 모델을 위해 설계되었으며, 이를 **language model에 사용하기 위해 Section 3.2.1에서 설명된 대로 입력과 target을 연결(concatenate)**한다.

3.2.4 Results

우리가 비교한 각 아키텍처의 점수는 Table 2에 제시되어 있다. 모든 task에서 denoising objective를 사용한 encoder-decoder 아키텍처가 가장 좋은 성능을 보였다. 이 변형은 가장 많은 파라미터 수( $2P$ )를 가지지만, $P$ 파라미터의 decoder-only 모델과 동일한 계산 비용을 가진다. 놀랍게도, 우리는 encoder와 decoder 간에 파라미터를 공유하는 것이 거의 동일한 성능을 보인다는 것을 발견했다. 반대로, encoder와 decoder 스택의 layer 수를 절반으로 줄이는 것은 성능을 크게 저해했다.

Architecture	Objective	Params	Cost	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
Encoder-decoder	Denoising	$2 P$	M	83.28	19.24	80.88	71.36	26.98	39.82	27.65
Enc-dec, shared	Denoising	$P$	M	82.81	18.78	80.63	70.73	26.72	39.03	27.46
Enc-dec, 6 layers	Denoising	$P$	$M / 2$	80.88	18.97	77.59	68.42	26.38	38.40	26.95
Language model	Denoising	$P$	$M$	74.70	17.93	61.14	55.02	25.09	35.28	25.86
Prefix LM	Denoising	$P$	M	81.82	18.61	78.94	68.11	26.43	37.98	27.39
Encoder-decoder	LM	$2 P$	M	79.56	18.59	76.02	64.29	26.27	39.17	26.86
Enc-dec, shared	LM	$P$	$M$	79.60	18.13	76.35	63.50	26.62	39.17	27.05
Enc-dec, 6 layers	LM	$P$	$M / 2$	78.67	18.26	75.32	64.06	26.13	38.42	26.89
Language model	LM	$P$	$M$	73.78	17.54	53.81	56.51	25.23	34.31	25.38
Prefix LM	LM	$P$	$M$	79.68	17.84	76.87	64.86	26.28	37.51	26.76

Table 2: Section 3.2.2에 설명된 다양한 아키텍처 변형의 성능. $P$ 는 12-layer base Transformer layer 스택의 파라미터 수를, $M$ 은 encoder-decoder 모델을 사용하여 시퀀스를 처리하는 데 필요한 FLOPs를 나타낸다. 각 아키텍처 변형은 denoising objective (Section 3.1.4에 설명)와 autoregressive objective (language model 학습에 일반적으로 사용됨)를 사용하여 평가되었다.

동시 연구(Lan et al., 2019)에서도 Transformer 블록 간에 파라미터를 공유하는 것이 성능을 크게 희생하지 않으면서 전체 파라미터 수를 줄이는 효과적인 방법이 될 수 있음을 발견했다. XLNet 또한 denoising objective를 사용한 공유 encoder-decoder 접근 방식과 유사한 점을 보인다 (Yang et al., 2019). 우리는 또한 파라미터를 공유하는 encoder-decoder가 decoder-only prefix LM보다 우수한 성능을 보인다는 점에 주목하며, 이는 명시적인 encoder-decoder attention의 추가가 유익함을 시사한다. 마지막으로, denoising objective를 사용하는 것이 language modeling objective에 비해 항상 더 나은 다운스트림 task 성능을 가져온다는 널리 받아들여지는 개념을 확인했다. 이러한 관찰은 Devlin et al. (2018), Voita et al. (2019), Lample and Conneau (2019) 등에 의해 이전에 제시된 바 있다. 다음 섹션에서는 비지도 학습 objective에 대해 더 자세히 탐구할 것이다.

3.3 Unsupervised Objectives

비지도 학습 목적 함수(unsupervised objective)의 선택은 매우 중요하다. 이는 모델이 다운스트림 task에 적용할 수 있는 범용적인 지식을 습득하는 메커니즘을 제공하기 때문이다. 이러한 중요성으로 인해 다양한 사전학습 목적 함수들이 개발되어 왔다 (Dai and Le, 2015; Ramachandran et al., 2016; Radford et al., 2018; Devlin et al., 2018; Yang et al., 2019; Liu et al., 2019b; Wang et al., 2019a; Song et al., 2019; Dong et al., 2019; Joshi et al., 2019).
이 섹션에서는 비지도 학습 목적 함수의 공간을 절차적으로 탐색한다. 많은 경우, 우리는 기존 목적 함수를 정확히 재현하지는 않을 것이다. 일부는 우리의 text-to-text encoder-decoder 프레임워크에 맞게 수정될 것이며, 다른 경우에는 여러 일반적인 접근 방식의 개념을 결합한 목적 함수를 사용할 것이다.

전반적으로, 우리의 모든 목적 함수는 레이블이 없는 텍스트 데이터셋에서 토큰화된 텍스트 스팬에 해당하는 토큰 ID 시퀀스를 입력으로 받는다. 이 토큰 시퀀스는 (손상된) 입력 시퀀스와 해당 타겟을 생성하도록 처리된다. 그런 다음, 모델은 최대 우도(maximum likelihood)를 사용하여 타겟 시퀀스를 예측하도록 일반적인 방식으로 학습된다. 우리가 고려하는 많은 목적 함수들의 예시는 Table 3에 제시되어 있다.

Objective	Inputs	Targets
Prefix language modeling	Thank you for inviting	me to your party last week .
BERT-style Devlin et al. (2018)	Thank you <M> <M> me to your party apple week .	(original text)
Deshuffling	party me for your to . last fun you inviting week Thank	(original text)
MASS-style Song et al. (2019)	Thank you <M> <M> me to your party <M> week .	(original text)
I.i.d. noise, replace spans	Thank you <X> me to your party <Y> week .	<X> for inviting <Y> last <Z>
I.i.d. noise, drop tokens	Thank you me to your party week .	for inviting last
Random spans	Thank you <X> to <Y> week .	<X> for inviting me <Y> your party last <Z>

Table 3: 입력 텍스트 "Thank you for inviting me to your party last week ."에 적용된, 우리가 고려하는 일부 비지도 학습 목적 함수들이 생성하는 입력 및 타겟 예시. 우리의 모든 목적 함수는 토큰화된 텍스트를 처리한다. 이 특정 문장의 경우, 모든 단어는 우리의 어휘집에 의해 단일 토큰으로 매핑되었다. 타겟으로 (original text)라고 표기된 것은 모델이 전체 입력 텍스트를 재구성하는 task를 수행함을 나타낸다. <M>은 공유 마스크 토큰을 나타내고, <X>, <Y>, <Z>는 고유한 토큰 ID가 할당된 sentinel 토큰을 나타낸다. BERT-style 목적 함수(두 번째 행)에는 일부 토큰이 임의의 토큰 ID로 대체되는 손상(corruption)이 포함되어 있으며, 이는 회색으로 표시된 단어 apple을 통해 보여진다.

3.3.1 Disparate High-Level Approaches

우선, 우리는 일반적으로 사용되는 objective에서 영감을 받았지만 접근 방식에서 크게 다른 세 가지 기술을 비교한다. 첫째, Section 3.2.3에서 사용된 기본적인 "prefix language modeling" objective를 포함한다. 이 기술은 텍스트의 한 span을 두 가지 구성 요소로 나눈다. 하나는 encoder의 입력으로 사용하고, 다른 하나는 decoder가 예측할 target 시퀀스로 사용한다. 둘째, BERT (Devlin et al., 2018)에서 사용된 "masked language modeling (MLM)" objective에서 영감을 받은 objective를 고려한다. MLM은 텍스트의 한 span을 가져와 **토큰의 15%를 손상(corrupt)**시킨다. 손상된 토큰의 90%는 특수 mask 토큰으로 대체되고, 10%는 무작위 토큰으로 대체된다. BERT는 encoder-only 모델이므로, 사전학습 동안의 목표는 encoder의 출력에서 masked 토큰을 재구성하는 것이다. encoder-decoder의 경우, 우리는 손상되지 않은 전체 시퀀스를 target으로 사용한다. 이는 손상된 토큰만을 target으로 사용하는 우리의 baseline objective와 다르며, 이 두 가지 접근 방식은 Section 3.3.2에서 비교한다. 마지막으로, (Liu et al., 2019a) 등에서 denoising sequential autoencoder에 적용된 기본적인 deshuffling objective도 고려한다. 이 접근 방식은 토큰 시퀀스를 가져와 섞은(shuffle) 다음, 원래의 섞이지 않은(deshuffled) 시퀀스를 target으로 사용한다. 이 세 가지 방법에 대한 입력 및 target 예시는 Table 3의 첫 세 행에 제시되어 있다.

이 세 가지 objective의 성능은 Table 4에 나타나 있다. 전반적으로 BERT-style objective가 가장 좋은 성능을 보이지만, prefix language modeling objective도 번역 task에서는 유사한 성능을 달성한다. 실제로 BERT objective의 동기는 language model 기반 사전학습을 능가하는 것이었다. deshuffling objective는 prefix language modeling과 BERT-style objective 모두보다 상당히 낮은 성능을 보인다.

Objective	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
Prefix language modeling	80.69	18.94	77.99	65.27	$\mathbf{26 . 8 6}$	39.73	$\mathbf{27 . 4 9}$
BERT-style (Devlin et al., 2018)	$\mathbf{8 2 . 9 6}$	$\mathbf{1 9 . 1 7}$	$\mathbf{8 0 . 6 5}$	$\mathbf{6 9 . 8 5}$	$\mathbf{2 6 . 7 8}$	$\mathbf{4 0 . 0 3}$	$\mathbf{27 . 4 1}$
Deshuffling	73.17	18.59	67.61	58.47	26.11	39.30	25.62

Table 4: Section 3.3.1에 설명된 세 가지 상이한 사전학습 objective의 성능.

Objective	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
BERT-style (Devlin et al., 2018)	82.96	19.17	80.65	69.85	26.78	40.03	27.41
MASS-style (Song et al., 2019)	82.32	19.16	80.10	69.28	26.79	39.89	27.55
$\star$ Replace corrupted spans	83.28	19.24	80.88	71.36	26.98	39.82	27.65
Drop corrupted tokens	84.44	19.31	80.52	68.67	27.07	39.76	27.82

Table 5: BERT-style 사전학습 objective의 변형 비교. 처음 두 변형에서는 모델이 원래의 손상되지 않은 텍스트 세그먼트를 재구성하도록 학습된다. 후자의 두 변형에서는 모델이 손상된 토큰 시퀀스만 예측한다.

3.3.2 Simplifying the BERT Objective

이전 섹션의 결과를 바탕으로, 이제 BERT-style denoising objective의 수정 사항을 탐구하는 데 집중할 것이다. 이 objective는 원래 분류 및 span prediction을 위해 학습된 encoder-only 모델의 사전학습 기법으로 제안되었다. 따라서, 우리의 encoder-decoder text-to-text 설정에서 더 나은 성능을 보이거나 더 효율적이도록 수정하는 것이 가능할 수 있다.

첫째, BERT-style objective의 간단한 변형을 고려한다. 여기서는 무작위 토큰 교환(random token swapping) 단계를 포함하지 않는다. 결과적인 objective는 단순히 입력 토큰의 15%를 mask 토큰으로 대체하고, 모델은 원래의 손상되지 않은 시퀀스를 재구성하도록 학습된다. 유사한 마스킹 objective는 Song et al. (2019)에 의해 사용되었으며, "MASS"라고 불렸으므로, 우리는 이 변형을 "MASS-style" objective라고 부른다. 둘째, 우리는 decoder에서 긴 시퀀스에 대한 self-attention이 필요하기 때문에, 전체 손상되지 않은 텍스트 span을 예측하는 것을 피할 수 있는지에 관심이 있었다. 이를 달성하기 위한 두 가지 전략을 고려한다:

각 손상된 토큰을 mask 토큰으로 대체하는 대신, 연속된 손상된 토큰의 각 span 전체를 고유한 mask 토큰으로 대체한다. 그런 다음, 대상 시퀀스는 "손상된" span들의 연결이 되며, 각 span은 입력에서 해당 span을 대체하는 데 사용된 mask 토큰이 접두사로 붙는다. 이것이 Section 3.1.4에서 설명된 우리의 baseline에서 사용하는 사전학습 objective이다.
손상된 토큰을 입력 시퀀스에서 완전히 제거하고, 모델에게 제거된 토큰들을 순서대로 재구성하는 task를 부여하는 변형도 고려한다.

이러한 접근 방식의 예시는 Table 3의 다섯 번째 및 여섯 번째 행에 나와 있다.

원래의 BERT-style objective와 이 세 가지 대안에 대한 경험적 비교는 Table 5에 나와 있다. 우리는 우리의 설정에서 이러한 모든 변형들이 유사한 성능을 보인다는 것을 발견했다. 유일한 예외는 손상된 토큰을 완전히 제거하는 것이 CoLA에서 상당히 높은 점수(60.04, 우리의 baseline 평균 53.84와 비교, Table 16 참조) 덕분에 GLUE 점수에서 작은 개선을 가져왔다는 것이다. 이는 CoLA가 주어진 문장이 문법적으로나 구문적으로 허용 가능한지 분류하는 것을 포함하며, 토큰이 누락되었을 때 이를 감지하는 능력과 허용 가능성을 감지하는 것이 밀접하게 관련되어 있기 때문일 수 있다. 그러나 손상된 토큰을 완전히 제거하는 것은 SuperGLUE에서 sentinel 토큰으로 대체하는 것보다 성능이 좋지 않았다. 전체 원본 시퀀스를 예측할 필요가 없는 두 가지 변형("replace corrupted spans" 및 "drop corrupted spans")은 대상 시퀀스를 더 짧게 만들고 결과적으로 학습을 더 빠르게 만들기 때문에 잠재적으로 매력적이다. 앞으로 우리는 **손상된 span을 sentinel 토큰으로 대체하고 손상된 토큰만 예측하는 변형(우리의 baseline objective와 같이)**을 탐구할 것이다.

Corruption rate	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
$10 \%$	$\mathbf{8 2 . 8 2}$	19.00	$\mathbf{8 0 . 3 8}$	69.55	$\mathbf{26 . 8 7}$	39.28	$\mathbf{27 . 4 4}$
$\star 15 \%$	$\mathbf{8 3 . 2 8}$	19.24	$\mathbf{8 0 . 8 8}$	$\mathbf{7 1 . 3 6}$	$\mathbf{26 . 9 8}$	$\mathbf{3 9 . 8 2}$	$\mathbf{27 . 6 5}$
$25 \%$	$\mathbf{8 3 . 0 0}$	$\mathbf{19 . 5 4}$	$\mathbf{8 0 . 9 6}$	70.48	$\mathbf{27 . 0 4}$	$\mathbf{39 . 8 3}$	$\mathbf{27 . 4 7}$
$50 \%$	81.27	19.32	79.80	70.33	$\mathbf{27 . 0 1}$	$\mathbf{39 . 9 0}$	$\mathbf{27 . 4 9}$

Table 6: i.i.d. corruption objective의 다양한 corruption rate에 따른 성능.

3.3.3 Varying the Corruption Rate

지금까지 우리는 BERT에서 사용된 값인 **15%의 토큰을 손상(corrupt)**시켜 왔다 (Devlin et al., 2018). 다시 한번 강조하지만, 우리의 text-to-text 프레임워크는 BERT와 다르기 때문에, 다른 손상 비율이 더 나은 성능을 가져올지 확인하는 데 관심이 있었다. 우리는 10%, 15%, 25%, 50%의 손상 비율을 Table 6에서 비교하였다. 전반적으로, 손상 비율이 모델 성능에 미치는 영향은 제한적임을 발견했다. 유일한 예외는 우리가 고려한 가장 큰 손상 비율(50%)이 GLUE와 SQuAD에서 성능을 크게 저하시킨다는 점이다. 더 큰 손상 비율을 사용하면 더 긴 target이 생성되어 학습 속도가 느려질 수 있다. 이러한 결과와 BERT가 설정한 선례를 바탕으로, 우리는 앞으로 15%의 손상 비율을 사용할 것이다.

3.3.4 Corrupting Spans

이제 우리는 더 짧은 target을 예측하여 학습 속도를 높이는 목표로 전환한다. 지금까지 사용한 접근 방식은 각 입력 token에 대해 독립적이고 동일하게 분포된(i.i.d.) 방식으로 손상 여부를 결정하는 것이었다. 여러 개의 연속된 token이 손상된 경우, 이들은 "span"으로 처리되며, 단일의 고유한 mask token이 전체 span을 대체하는 데 사용된다. 전체 span을 단일 token으로 대체하면 레이블이 없는 텍스트 데이터가 더 짧은 시퀀스로 처리된다.
우리가 i.i.d. 손상 전략을 사용하기 때문에, 상당수의 손상된 token이 항상 연속적으로 나타나는 것은 아니다. 결과적으로, i.i.d. 방식으로 개별 token을 손상시키는 대신, 특정 span의 token을 손상시킴으로써 추가적인 속도 향상을 얻을 수 있다. Span 손상은 이전에 BERT의 사전학습 목표로도 고려되었으며, 성능 향상에 기여하는 것으로 밝혀졌다 (Joshi et al., 2019).

이 아이디어를 테스트하기 위해, 우리는 연속적이고 무작위로 간격을 둔 token span을 특정하여 손상시키는 목표를 고려한다. 이 목표는 손상시킬 token의 비율과 손상된 span의 총 개수로 매개변수화될 수 있다. Span 길이는 이러한 지정된 매개변수를 충족하도록 무작위로 선택된다.

Span length	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
Baseline (i.i.d.)	83.28	19.24	80.88	71.36	26.98	39.82	27.65
2	83.54	19.39	82.09	72.20	26.76	39.99	27.63
3	83.49	19.62	81.84	72.53	26.86	39.65	27.62
5	83.40	19.24	82.05	72.23	26.88	39.40	27.53
10	82.85	19.33	81.84	70.44	26.79	39.49	27.69

Table 7: Span-corruption objective (Joshi et al. (2019)에서 영감)의 다양한 평균 span 길이에 따른 성능. 모든 경우에 원본 텍스트 시퀀스의 15%를 손상시킨다.

예를 들어, 500개의 token으로 구성된 시퀀스를 처리하고 있으며, token의 15%를 손상시키고 총 25개의 span이 있어야 한다고 지정했다면, 손상된 token의 총 개수는 $500 \times 0.15 = 75$ 가 되고 평균 span 길이는 $75 / 25 = 3$ 이 된다. 원본 시퀀스 길이와 손상률이 주어지면, 이 목표를 평균 span 길이 또는 총 span 개수로 동등하게 매개변수화할 수 있다는 점에 유의하라.

Table 7에서 span-corruption objective와 i.i.d-corruption objective를 비교한다. 모든 경우에 15%의 손상률을 사용하며, 평균 span 길이 2, 3, 5, 10을 비교한다. 다시 한번, 이들 목표 간의 제한적인 차이를 발견했지만, 평균 span 길이 10인 버전은 일부 경우에 다른 값들보다 약간 낮은 성능을 보였다. 또한, 특히 평균 span 길이 3을 사용하는 것이 대부분의 비번역 벤치마크에서 i.i.d. 목표보다 약간(그러나 유의미하게) 더 나은 성능을 보인다는 것을 발견했다. 다행히도, span-corruption objective는 i.i.d. 노이즈 접근 방식에 비해 학습 중 일부 속도 향상을 제공하는데, 이는 span corruption이 평균적으로 더 짧은 시퀀스를 생성하기 때문이다.

3.3.5 Discussion

Figure 5는 비지도 학습 목적 함수(unsupervised objectives) 탐색 과정에서 이루어진 선택들의 흐름도를 보여준다. 전반적으로, 우리가 관찰한 가장 중요한 성능 차이는 denoising objective가 사전학습(pre-training)에서 language modeling 및 deshuffling보다 우수했다는 점이다. 우리가 탐색한 다양한 denoising objective 변형들 간에는 눈에 띄는 성능 차이가 관찰되지 않았다. 그러나 다른 objective(또는 objective의 parameterization)는 다른 시퀀스 길이를 유발할 수 있으며, 이는 다른 학습 속도로 이어진다. 이는 우리가 고려한 denoising objective들 중에서 선택할 때 주로 계산 비용을 기준으로 결정해야 함을 시사한다. 우리의 결과는 또한, 우리가 여기서 고려한 것과 유사한 objective들을 추가로 탐색하는 것이 우리가 다루는 task와 모델에 대해 큰 성능 향상을 가져오지 않을 수 있음을 시사한다. 대신, 레이블 없는 데이터를 활용하는 완전히 다른 방식을 탐색하는 것이 더 유익할 수 있다.

3.4 Pre-training Data set

비지도 학습 objective와 마찬가지로, 사전학습 데이터셋 자체도 전이 학습(transfer learning) 파이프라인의 핵심 구성 요소이다. 그러나 objective나 벤치마크와는 달리, 새로운 사전학습 데이터셋은 그 자체로 중요한 기여로 간주되지 않는 경향이 있으며, 사전학습 모델 및 코드와 함께 공개되지 않는 경우가 많다. 대신, 새로운 방법론이나 모델을 소개하는 과정에서 함께 제시되는 것이 일반적이다. 그 결과, 다양한 사전학습 데이터셋 간의 비교 연구가 상대적으로 부족하며, 사전학습에 사용되는 "표준" 데이터셋도 부재한 상황이다.

최근 몇몇 주목할 만한 예외 연구들(Baevski et al., 2019; Liu et al., 2019c; Yang et al., 2019)에서는 새로운 대규모 데이터셋(주로 Common Crawl 기반)으로 사전학습하는 것과 기존의 더 작은 데이터셋(주로 Wikipedia)을 사용하는 것을 비교하였다. 사전학습 데이터셋이 성능에 미치는 영향을 더 깊이 탐구하기 위해, 이 섹션에서는 우리의 C4 데이터셋 변형들과 다른 잠재적인 사전학습 데이터 소스들을 비교한다. 우리는 고려하는 모든 C4 데이터셋 변형들을 TensorFlow Datasets의 일부로 공개한다.

Figure 5: 비지도 학습 objective 탐색에 대한 흐름도. 먼저 Section 3.3.1에서 몇 가지 이질적인 접근 방식을 고려한 결과, BERT 스타일의 denoising objective가 가장 우수한 성능을 보였다. 다음으로 Section 3.3.2에서는 BERT objective를 단순화하여 더 짧은 target sequence를 생성하는 다양한 방법들을 고려한다. 드롭아웃된(dropped-out) span을 sentinel token으로 대체하는 방식이 좋은 성능을 보이고 짧은 target sequence를 생성한다는 점을 고려하여, Section 3.3.3에서는 다양한 corruption rate를 실험한다. 마지막으로 Section 3.3.4에서는 의도적으로 연속적인 token span을 손상시키는 objective를 평가한다.

3.4.1 Unlabeled Data Sets

C4를 생성하는 과정에서 우리는 Common Crawl에서 추출한 웹 텍스트를 필터링하기 위한 다양한 휴리스틱을 개발했다 (자세한 내용은 Section 2.2 참조). 우리는 이러한 필터링이 다운스트림 task에서 성능 향상을 가져오는지, 그리고 다른 필터링 접근 방식 및 일반적인 사전학습 데이터셋과 비교하여 어떤지 측정하는 데 관심이 있다. 이를 위해 우리는 다음 데이터셋들로 사전학습한 후, 우리의 baseline 모델 성능을 비교한다:

C4
baseline으로서, 우리는 먼저 Section 2.2에서 설명된 제안된 unlabeled 데이터셋으로 사전학습하는 것을 고려한다.

Unfiltered C4
C4 생성 시 사용된 휴리스틱 필터링(중복 제거, 부적절한 단어 제거, 문장만 유지 등)의 효과를 측정하기 위해, 이러한 필터링을 생략한 C4의 대체 버전을 생성한다. 우리는 여전히 langdetect를 사용하여 영어 텍스트를 추출한다. 그 결과, 우리의 "unfiltered" 버전에도 langdetect가 비자연스러운 영어 텍스트에 낮은 확률을 할당하는 경우가 있어 일부 필터링이 포함된다.

RealNews-like
최근 연구에서는 뉴스 웹사이트에서 추출한 텍스트 데이터를 사용했다 (Zellers et al., 2019; Baevski et al., 2019). 이 접근 방식과 비교하기 위해, 우리는 C4를 추가로 필터링하여 "RealNews" 데이터셋 (Zellers et al., 2019)에 사용된 도메인 중 하나에서 온 콘텐츠만 포함하도록 하여 또 다른 unlabeled 데이터셋을 생성한다. 비교의 용이성을 위해 C4에서 사용된 휴리스틱 필터링 방법은 유지한다. 유일한 차이점은 뉴스 관련 콘텐츠가 아닌 모든 것을 명백히 제외했다는 점이다.

WebText-like
유사하게, WebText 데이터셋 (Radford et al., 2019)은 콘텐츠 집계 웹사이트 Reddit에 제출되어 최소 3점 이상의 "점수"를 받은 웹페이지의 콘텐츠만 사용한다. Reddit에 제출된 웹페이지의 점수는 해당 웹페이지를 지지(upvote)하거나 반대(downvote)하는 사용자 비율을 기반으로 계산된다. Reddit 점수를 품질 신호로 사용하는 아이디어는 사이트 사용자들이 고품질 텍스트 콘텐츠에만 upvote를 할 것이라는 가정에 기반한다. 비교 가능한 데이터셋을 생성하기 위해, 우리는 먼저 OpenWebText 프로젝트에서 준비한 목록에 나타나지 않은 URL에서 온 C4의 모든 콘텐츠를 제거하려고 시도했다. 그러나 대부분의 페이지가 Reddit에 나타나지 않기 때문에 이는 비교적 적은 콘텐츠(약 2GB)만을 남겼다. C4는 Common Crawl 데이터의 한 달치를 기반으로 생성되었다는 점을 상기하라. 따라서 지나치게 작은 데이터셋을 사용하는 것을 피하기 위해, 우리는 2018년 8월부터 2019년 7월까지 12개월치의 Common Crawl 데이터를 다운로드하고, C4에 사용된 휴리스틱 필터링을 적용한 다음, Reddit 필터를 적용했다. 이를 통해 17GB의 WebText-like 데이터셋이 생성되었으며, 이는 원본 40GB WebText 데이터셋 (Radford et al., 2019)과 비슷한 크기이다.

Wikipedia
Wikipedia 웹사이트는 수백만 개의 협업으로 작성된 백과사전 기사로 구성되어 있다. 이 사이트의 콘텐츠는 엄격한 품질 가이드라인을 따르므로 깨끗하고 자연스러운 텍스트의 신뢰할 수 있는 출처로 사용되어 왔다. 우리는 TensorFlow Datasets에서 제공하는 영어 Wikipedia 텍스트 데이터를 사용하며, 이는 기사에서 모든 마크업이나 참조 섹션을 제외한다.

Wikipedia + Toronto Books Corpus
Wikipedia에서 사전학습 데이터를 사용하는 한 가지 단점은 자연어 텍스트의 한 가지 가능한 도메인(백과사전 기사)만을 나타낸다는 점이다. 이를 완화하기 위해 BERT (Devlin et al., 2018)는 Wikipedia 데이터와 Toronto Books Corpus (TBC) (Zhu et al., 2015)를 결합했다. TBC는 eBook에서 추출한 텍스트를 포함하며, 이는 자연어의 다른 도메인을 나타낸다. BERT의 인기로 인해 Wikipedia + TBC 조합은 많은 후속 연구에서 사용되었다.

각 데이터셋으로 사전학습한 후 달성된 결과는 Table 8에 나와 있다. 첫 번째 명백한 결론은 C4에서 휴리스틱 필터링을 제거하면 성능이 일관되게 저하되며, 필터링되지 않은 버전이 모든 task에서 최악의 성능을 보인다는 것이다. 이 외에도, 우리는 어떤 경우에는 더 제한된 도메인을 가진 사전학습 데이터셋이 다양한 C4 데이터셋보다 더 나은 성능을 보였다는 것을 발견했다. 예를 들어, Wikipedia + TBC 코퍼스를 사용하면 SuperGLUE 점수가 73.24로, 우리의 baseline(C4 사용) 점수 71.36을 능가했다. 이는 MultiRC의 Exact Match 점수에서 25.78(baseline, C4)에서 50.93(Wikipedia + TBC)으로 성능이 향상된 덕분이다 (Table 16 참조). MultiRC는 독해 데이터셋으로, 가장 큰 데이터 출처가 소설책이며, 이는 TBC가 다루는 도메인과 정확히 일치한다. 유사하게, RealNews-like 데이터셋을 사전학습에 사용하면 뉴스 기사에 대한 독해를 측정하는 데이터셋인 ReCoRD의 Exact Match 점수가 68.16에서 73.72로 증가했다. 마지막 예시로, Wikipedia 데이터를 사용하면 SQuAD에서 상당한(하지만 덜 극적인) 이득을 얻었다. SQuAD는 Wikipedia에서 가져온 구절을 사용하는 질문-답변 데이터셋이다. 유사한 관찰은 이전 연구에서도 이루어졌다. 예를 들어, Beltagy et al. (2019)은 연구 논문 텍스트로 BERT를 사전학습하면 과학 관련 task에서 성능이 향상된다는 것을 발견했다. 이러한 발견의 주요 교훈은 in-domain unlabeled 데이터로 사전학습하면 다운스트림 task에서 성능을 향상시킬 수 있다는 것이다. 이는 놀라운 일은 아니지만, 우리의 목표가 임의의 도메인에서 언어 task에 빠르게 적응할 수 있는 모델을 사전학습하는 것이라면 만족스럽지 않다. Liu et al. (2019c) 또한 더 다양한 데이터셋으로 사전학습하면 다운스트림 task에서 개선이 이루어진다는 것을 관찰했다. 이러한 관찰은 자연어 처리의 도메인 적응에 대한 병렬 연구 라인도 동기를 부여한다. 이 분야에 대한 조사는 Ruder (2019); Li (2012) 등을 참조하라.

단일 도메인으로만 사전학습하는 것의 단점은 결과적으로 생성되는 데이터셋이 종종 상당히 작다는 것이다. 유사하게, WebText-like 버전이 우리의 baseline 설정에서 C4 데이터셋만큼 또는 그 이상으로 좋은 성능을 보였지만, Reddit 기반 필터링은 Common Crawl에서 12배 더 많은 데이터를 기반으로 했음에도 불구하고 C4보다 약 40배 작은 데이터셋을 생성했다. 그러나 우리의 baseline 설정에서는 $2^{35} \approx 34 \mathrm{~B}$ 토큰만 사전학습하며, 이는 우리가 고려하는 가장 작은 사전학습 데이터셋보다 약 8배만 크다는 점에 유의하라. 다음 섹션에서는 더 작은 사전학습 데이터셋을 사용하는 것이 언제 문제가 되는지 조사한다.

Data set	Size	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
C4	745 GB	83.28	19.24	80.88	71.36	26.98	39.82	27.65
C4, unfiltered	6.1 TB	81.46	19.14	78.78	68.04	26.55	39.34	27.21
RealNews-like	35 GB	83.83	19.23	80.39	72.38	26.75	39.90	27.48
WebText-like	17GB	84.03	19.31	81.42	71.40	26.80	39.74	27.59
Wikipedia	16GB	81.85	19.31	81.29	68.01	26.94	39.69	27.67
Wikipedia + TBC	20 GB	83.65	19.28	82.08	73.24	26.77	39.63	27.57

Table 8: 다른 데이터셋으로 사전학습한 결과 성능. 처음 네 가지 변형은 우리의 새로운 C4 데이터셋을 기반으로 한다.

3.4.2 Pre-training Data set Size

C4를 생성하는 데 사용된 파이프라인은 매우 큰 사전학습 데이터셋을 생성할 수 있도록 설계되었다. 이렇게 많은 데이터에 접근할 수 있다는 점은 우리가 예시를 반복하지 않고도 모델을 사전학습할 수 있게 해준다. 사전학습 과정에서 예시를 반복하는 것이 다운스트림 성능에 도움이 될지 해로울지는 명확하지 않다. 왜냐하면 우리의 사전학습 objective 자체가 확률적이며, 모델이 동일한 데이터를 여러 번 보는 것을 방지하는 데 도움이 될 수 있기 때문이다.

Number of tokens	Repeats	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
Full data set	0	83.28	19.24	80.88	71.36	26.98	39.82	27.65
$2^{29}$	64	82.87	19.19	80.97	72.03	26.83	39.74	27.63
$2^{27}$	256	82.62	19.20	79.78	69.97	27.02	39.71	27.33
$2^{25}$	1,024	79.55	18.57	76.27	64.76	26.38	39.56	26.80
$2^{23}$	4,096	76.34	18.33	70.92	59.29	26.37	38.84	25.81

Table 9: 사전학습 중 데이터 반복의 효과 측정. 이 실험에서는 C4에서 처음 $N$ 개의 토큰만 사용하지만(첫 번째 열에 다양한 $N$ 값 표시), 여전히 $2^{35}$ 개의 토큰에 대해 사전학습을 수행한다. 이로 인해 사전학습 과정에서 데이터셋이 반복된다(두 번째 열에 각 실험의 반복 횟수 표시). 이는 암기(memorization)로 이어질 수 있다(Figure 6 참조).

제한된 unlabeled 데이터셋 크기의 영향을 테스트하기 위해, 우리는 C4의 인위적으로 잘린(truncated) 버전으로 baseline 모델을 사전학습했다. 우리는 baseline 모델을 $2^{35} \approx 34 \mathrm{~B}$ 토큰(C4 전체 크기의 작은 부분)으로 사전학습했음을 상기하라. 우리는 $2^{29}, 2^{27}, 2^{25}, 2^{23}$ 토큰으로 구성된 C4의 잘린 변형으로 학습하는 것을 고려했다. 이 크기들은 사전학습 과정에서 데이터셋을 각각 64, 256, 1,024, 4,096번 반복하는 것에 해당한다.

그 결과로 나타난 다운스트림 성능은 Table 9에 제시되어 있다. 예상대로, 데이터셋 크기가 줄어들수록 성능이 저하된다. 우리는 이것이 모델이 사전학습 데이터셋을 암기하기 시작하기 때문일 수 있다고 추측한다. 이것이 사실인지 측정하기 위해, 우리는 Figure 6에 각 데이터셋 크기에 대한 학습 손실(training loss)을 플로팅했다. 실제로, 사전학습 데이터셋의 크기가 줄어들수록 모델은 훨씬 더 작은 학습 손실을 달성하며, 이는 암기 가능성을 시사한다. Baevski et al. (2019)도 유사하게 사전학습 데이터셋 크기를 줄이면 다운스트림 task 성능이 저하될 수 있음을 관찰했다.

우리는 사전학습 데이터셋이 64번만 반복될 때 이러한 효과가 제한적이라는 점에 주목한다. 이는 사전학습 데이터의 어느 정도 반복은 해롭지 않을 수 있음을 시사한다. 그러나 추가적인 사전학습이 유익할 수 있고(Section 3.6에서 보여줄 예정), 추가적인 unlabeled 데이터를 얻는 것이 저렴하고 쉽다는 점을 고려할 때, 우리는 가능한 한 큰 사전학습 데이터셋을 사용할 것을 제안한다. 또한, 이러한 효과는 더 큰 모델 크기에서 더 두드러질 수 있다. 즉, 더 큰 모델은 더 작은 사전학습 데이터셋에 과적합될 가능성이 더 높을 수 있다.

3.5 Training Strategy

지금까지 우리는 모델의 모든 파라미터가 개별 supervised task에 fine-tuning되기 전에 unsupervised task로 사전학습되는 설정을 고려했다. 이러한 접근 방식은 간단하지만, 다운스트림/supervised task에서 모델을 학습시키기 위한 다양한 대안적인 방법들이 제안되어 왔다. 이 섹션에서는 모델을 여러 task에서 동시에 학습시키는 접근 방식 외에, fine-tuning을 위한 다양한 scheme들을 비교한다.

Exploring the Limits of Transfer Learning

Figure 6: 원본 C4 데이터셋과 인위적으로 잘라낸 4가지 버전의 사전학습 손실(pre-training loss). 나열된 크기는 각 데이터셋의 토큰 수를 나타낸다. 고려된 네 가지 크기는 사전학습 과정에서 데이터셋을 64회에서 4,096회 반복하는 것에 해당한다. 더 작은 데이터셋 크기를 사용하면 더 작은 학습 손실 값이 나타나는데, 이는 레이블이 없는 데이터셋의 일부 **암기(memorization)**를 시사할 수 있다.

3.5.1 Fine-tuning Methods

모델의 모든 파라미터를 fine-tuning하는 것이 특히 low-resource task에서 최적화되지 않은 결과를 초래할 수 있다는 주장이 제기되어 왔다 (Peters et al., 2019). 텍스트 분류 task를 위한 transfer learning에 대한 초기 연구들은 고정된 사전학습 모델이 생성한 문장 embedding을 입력으로 받는 작은 classifier의 파라미터만 fine-tuning할 것을 제안했다 (Subramanian et al., 2018; Kiros et al., 2015; Logeswaran and Lee, 2018; Hill et al., 2016; Conneau et al., 2017). 이 접근 방식은 우리의 encoder-decoder 모델에는 덜 적용 가능하다. 왜냐하면 전체 decoder가 주어진 task에 대한 target sequence를 출력하도록 학습되어야 하기 때문이다. 대신, 우리는 encoder-decoder 모델의 파라미터 중 일부만 업데이트하는 두 가지 대안적인 fine-tuning 접근 방식에 초점을 맞춘다.

첫 번째는 "adapter layers" (Houlsby et al., 2019; Bapna et al., 2019)이다. 이는 fine-tuning 시 원본 모델의 대부분을 고정하려는 목표에서 비롯되었다. Adapter layers는 Transformer의 각 블록에 있는 기존 feed-forward network 뒤에 추가되는 dense-ReLU-dense 블록이다. 이 새로운 feed-forward network는 출력 차원이 입력 차원과 일치하도록 설계되어 있다. 이를 통해 구조나 파라미터에 추가적인 변경 없이 네트워크에 삽입될 수 있다. fine-tuning 시에는 adapter layer와 layer normalization 파라미터만 업데이트된다. 이 접근 방식의 주요 하이퍼파라미터는 **feed-forward network의 내부 차원 $d$ **이며, 이는 모델에 추가되는 새로운 파라미터 수를 변경한다. 우리는 $d$ 에 대한 다양한 값을 실험한다.

우리가 고려하는 두 번째 대안적인 fine-tuning 방법은 "gradual unfreezing" (Howard and Ruder, 2018)이다. gradual unfreezing에서는 시간이 지남에 따라 모델의 파라미터가 점점 더 많이 fine-tuning된다. gradual unfreezing은 원래 단일 layer 스택으로 구성된 language model 아키텍처에 적용되었다. 이 설정에서 fine-tuning 시작 시에는 마지막 layer의 파라미터만 업데이트되고, 특정 업데이트 횟수만큼 학습한 후에는 두 번째 마지막 layer의 파라미터도 포함되며, 전체 네트워크의 파라미터가 fine-tuning될 때까지 이 과정이 반복된다. 이 접근 방식을 우리의 encoder-decoder 모델에 적용하기 위해, 우리는 encoder와 decoder의 layer를 병렬로 점진적으로 unfreeze하며, 두 경우 모두 가장 상위 layer부터 시작한다. 우리의 input embedding matrix와 output classification matrix의 파라미터는 공유되므로, fine-tuning 전반에 걸쳐 이들을 업데이트한다. 우리의 baseline 모델은 encoder와 decoder에 각각 12개의 layer로 구성되어 있으며, $2^{18}$ 스텝 동안 fine-tuning된다. 따라서 우리는 fine-tuning 프로세스를 각각 $2^{18} / 12$ 스텝의 12개 에피소드로 세분화하고, $n$ 번째 에피소드에서는 $12-n$ 부터 12까지의 layer를 학습한다. Howard와 Ruder (2018)는 각 epoch 학습 후 추가 layer를 fine-tuning할 것을 제안했지만, 우리의 supervised 데이터셋은 크기가 매우 다양하고 일부 다운스트림 task는 실제로 여러 task의 혼합(GLUE 및 SuperGLUE)이므로, 우리는 대신 $2^{18} / 12$ 스텝마다 추가 layer를 fine-tuning하는 더 간단한 전략을 채택한다.

Fine-tuning method	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
All parameters	83.28	19.24	80.88	71.36	26.98	39.82	27.65
Adapter layers, $d=32$	80.52	15.08	79.32	60.40	13.84	17.88	15.54
Adapter layers, $d=128$	81.51	16.62	79.47	63.03	19.83	27.50	22.63
Adapter layers, $d=512$	81.54	17.78	79.18	64.30	23.45	33.98	25.81
Adapter layers, $d=2048$	81.51	16.62	79.47	63.03	19.83	27.50	22.63
Gradual unfreezing	82.50	18.95	79.17	70.79	26.71	39.02	26.93

Table 10: 모델 파라미터의 일부만 업데이트하는 다양한 대안 fine-tuning 방법들의 성능 비교. adapter layers의 경우, $d$ 는 adapter의 내부 차원을 나타낸다.

이러한 fine-tuning 접근 방식들의 성능 비교는 Table 10에 나와 있다. adapter layers의 경우, 우리는 내부 차원 $d$ 를 32, 128, 512, 2048로 설정했을 때의 성능을 보고한다. 이전 결과 (Houlsby et al., 2019; Bapna et al., 2019)와 일치하게, SQuAD와 같은 low-resource task는 작은 $d$ 값에서 잘 작동하는 반면, high-resource task는 합리적인 성능을 달성하기 위해 큰 차원을 필요로 한다는 것을 발견했다. 이는 adapter layers가 task 크기에 따라 차원이 적절하게 조정되는 한, 더 적은 파라미터로 fine-tuning하는 유망한 기술이 될 수 있음을 시사한다. 우리의 경우, GLUE와 SuperGLUE를 구성 데이터셋을 연결하여 각각 단일 "task"로 취급하므로, 일부 low-resource 데이터셋을 포함하더라도 결합된 데이터셋은 큰 $d$ 값을 필요로 할 만큼 충분히 크다는 점에 유의해야 한다. 우리는 gradual unfreezing이 모든 task에서 성능을 약간 저하시켰지만, fine-tuning 중 일부 속도 향상을 제공한다는 것을 발견했다. unfreezing 스케줄을 더 신중하게 튜닝하면 더 나은 결과를 얻을 수 있을 것이다.

3.5.2 Multi-task Learning

지금까지 우리는 각 다운스트림 task에 개별적으로 fine-tuning하기 전에 단일 비지도 학습 task로 모델을 사전학습해왔다. "멀티태스크 학습(multitask learning)" (Ruder, 2017; Caruana, 1997)이라고 불리는 대안적인 접근 방식은 모델을 한 번에 여러 task로 학습시키는 것이다. 이 접근 방식은 일반적으로 단일 모델이 동시에 여러 task를 수행할 수 있도록 학습시키는 것을 목표로 한다. 즉, 모델과 대부분의 파라미터가 모든 task에 걸쳐 공유된다. 우리는 이 목표를 다소 완화하고, 대신 각 개별 task에서 잘 수행되는 별도의 파라미터 설정을 최종적으로 생성하기 위해 한 번에 여러 task를 학습하는 방법을 연구한다. 예를 들어, 우리는 단일 모델을 여러 task로 학습시킬 수 있지만, 성능을 보고할 때는 각 task에 대해 다른 checkpoint를 선택할 수 있다. 이는 멀티태스크 학습 프레임워크를 완화하고, 우리가 지금까지 고려했던 사전학습-후-fine-tuning 접근 방식과 더 동등한 위치에 놓이게 한다. 또한, 우리의 통합된 text-to-text 프레임워크에서 "멀티태스크 학습"은 단순히 데이터셋을 함께 혼합하는 것에 해당한다. 따라서 비지도 task를 혼합되는 task 중 하나로 취급함으로써 멀티태스크 학습을 사용할 때도 레이블이 없는 데이터로 학습할 수 있다. 대조적으로, NLP에 대한 대부분의 멀티태스크 학습 적용은 task-specific 분류 네트워크를 추가하거나 각 task에 대해 다른 손실 함수를 사용한다 (Liu et al., 2019b).

Arivazhagan et al. (2019)이 지적했듯이, 멀티태스크 학습에서 매우 중요한 요소는 각 task의 데이터를 모델이 얼마나 학습해야 하는지이다. 우리의 목표는 모델을 과소 학습(under-train)하거나 과대 학습(over-train)하지 않는 것이다. 즉, 모델이 주어진 task를 잘 수행할 수 있을 만큼 충분한 데이터를 보게 하되, 학습 세트를 암기할 정도로 너무 많은 데이터를 보지 않도록 하는 것이다. 각 task에서 오는 데이터의 비율을 정확히 어떻게 설정할지는 데이터셋 크기, task 학습의 "난이도" (즉, 모델이 task를 효과적으로 수행하기 전에 얼마나 많은 데이터를 봐야 하는지), 정규화 등 다양한 요인에 따라 달라질 수 있다. 추가적인 문제는 "task 간섭(task interference)" 또는 "부정적 전이(negative transfer)"의 가능성인데, 이는 한 task에서 좋은 성능을 달성하는 것이 다른 task의 성능을 저해할 수 있음을 의미한다. 이러한 우려를 고려하여, 우리는 각 task에서 오는 데이터의 비율을 설정하기 위한 다양한 전략을 탐색하는 것으로 시작한다. 유사한 탐색은 Wang et al. (2019a)에 의해 수행되었다.

Examples-proportional mixing
모델이 주어진 task에 얼마나 빨리 과적합되는지에 대한 주요 요인 중 하나는 task의 데이터셋 크기이다. 따라서 혼합 비율을 설정하는 자연스러운 방법은 각 task 데이터셋의 크기에 비례하여 샘플링하는 것이다. 이는 모든 task의 데이터셋을 연결하고 결합된 데이터셋에서 예시를 무작위로 샘플링하는 것과 동일하다. 그러나 우리는 다른 모든 task보다 몇 배나 큰 데이터셋을 사용하는 비지도 denoising task를 포함하고 있음에 유의해야 한다. 따라서 단순히 각 데이터셋의 크기에 비례하여 샘플링하면, 모델이 보는 데이터의 대부분은 레이블이 없게 되고, 모든 지도 학습 task에서 과소 학습될 것이다. 비지도 task가 없더라도, 일부 task(예: WMT 영어-프랑스어 번역)는 너무 커서 대부분의 배치를 차지할 것이다. 이 문제를 해결하기 위해, 우리는 비율을 계산하기 전에 데이터셋 크기에 인위적인 "제한"을 설정한다. 구체적으로, $N$ 개 task의 각 데이터셋에 있는 예시의 수가 $e_{n}, n \in\{1, \ldots, N\}$ 이라면, 학습 중에 $m$ 번째 task에서 예시를 샘플링할 확률을 $r_{m}=\min \left(e_{m}, K\right) / \sum \min \left(e_{n}, K\right)$ 로 설정하며, 여기서 $K$ 는 인위적인 데이터셋 크기 제한이다.

Temperature-scaled mixing
데이터셋 크기 간의 엄청난 불균형을 완화하는 또 다른 방법은 혼합 비율의 "온도(temperature)"를 조정하는 것이다. 이 접근 방식은 다국어 BERT에서 모델이 저자원 언어에 충분히 학습되도록 하는 데 사용되었다. ${ }^{14}$ 온도 $T$ 를 사용하여 온도 스케일링을 구현하기 위해, 우리는 각 task의 혼합 비율 $r_{m}$ 을 $\frac{1}{T}$ 의 거듭제곱으로 올리고, 비율의 합이 1이 되도록 재정규화한다. $T=1$ 일 때, 이 접근 방식은 examples-proportional mixing과 동일하며, $T$ 가 증가함에 따라 비율은 **균등 혼합(equal mixing)**에 가까워진다. 우리는 데이터셋 크기 제한 $K$ (온도 스케일링 전에 $r_{m}$ 을 얻기 위해 적용됨)를 유지하지만, 이를 $K=2^{21}$ 의 큰 값으로 설정한다. $K$ 에 큰 값을 사용하는 이유는 온도를 높이면 가장 큰 데이터셋의 혼합 비율이 감소하기 때문이다.

https://github.com/google-research/bert/blob/master/multilingual.md

Equal mixing
이 경우, 우리는 각 task에서 동일한 확률로 예시를 샘플링한다. 구체적으로, 각 배치에 있는 각 예시는 우리가 학습하는 데이터셋 중 하나에서 균등하게 무작위로 샘플링된다. 이는 모델이 저자원 task에서 빠르게 과적합되고 고자원 task에서 과소 학습될 것이기 때문에 최적의 전략이 아닐 가능성이 높다. 우리는 주로 비율이 최적이 아닐 때 발생할 수 있는 문제의 참고 지점으로 이를 포함한다.

이러한 혼합 전략을 우리의 기준선인 사전학습-후-fine-tuning 결과와 동등하게 비교하기 위해, 우리는 **동일한 총 스텝 수(2^19 + 2^18 = 786,432)**로 멀티태스크 모델을 학습시킨다. 결과는 Table 11에 나와 있다.

일반적으로, 우리는 멀티태스크 학습이 대부분의 task에서 사전학습 후 fine-tuning보다 성능이 떨어진다는 것을 발견한다. 특히 "equal" 혼합 전략은 성능을 극적으로 저하시키는데, 이는 저자원 task가 과적합되었거나, 고자원 task가 충분한 데이터를 보지 못했거나, 모델이 범용 언어 능력을 학습하기에 충분한 레이블 없는 데이터를 보지 못했기 때문일 수 있다. examples-proportional mixing의 경우, 대부분의 task에서 모델이 최상의 성능을 얻는 ** $K$ 의 "최적 지점(sweet spot)"**이 있으며, $K$ 값이 크거나 작으면 성능이 더 나빠지는 경향이 있음을 발견한다. 예외(우리가 고려한 $K$ 값의 범위에서)는 WMT 영어-프랑스어 번역이었는데, 이는 매우 고자원 task여서 항상 더 높은 혼합 비율에서 이점을 얻었다. 마지막으로, temperature-scaled mixing도 대부분의 task에서 합리적인 성능을 얻는 수단을 제공하며, $T=2$ 가 대부분의 경우에 가장 좋은 성능을 보였다. 멀티태스크 모델이 각 개별 task로 학습된 별도의 모델보다 성능이 떨어진다는 발견은 이전에 Arivazhagan et al. (2019) 및 McCann et al. (2018)에 의해 관찰되었지만, 멀티태스크 설정이 매우 유사한 task들 간에 이점을 제공할 수 있음이 입증되었다 (Liu et al., 2019b; Ratner et al., 2018). 다음 섹션에서는 멀티태스크 학습과 사전학습-후-fine-tuning 접근 방식 간의 격차를 줄이는 방법을 탐색한다.

3.5.3 Combining Multi-Task Learning with Fine-Tuning

우리는 단일 모델을 여러 task의 혼합으로 학습시키지만, 모델의 성능 평가 시에는 다른 파라미터 설정(checkpoint)을 사용할 수 있도록 허용하는, 완화된 형태의 multi-task learning을 연구하고 있음을 상기하자.
이러한 접근 방식은 모델을 모든 task에 대해 한 번에 사전학습한 후, 개별 supervised task에 대해 fine-tuning하는 경우로 확장될 수 있다. 이는 **MT-DNN (Liu et al., 2015, 2019b)**에서 사용된 방법으로, 도입 당시 GLUE 및 다른 벤치마크에서 state-of-the-art 성능을 달성했다.
우리는 이 접근 방식의 세 가지 변형을 고려한다:

첫 번째 변형에서는, 인위적인 데이터셋 크기 제한 $K=2^{19}$ 를 두어 examples-proportional mixture로 모델을 사전학습한 후, 각 개별 다운스트림 task에 대해 fine-tuning한다. 이는 사전학습 시 unsupervised objective와 함께 supervised task를 포함하는 것이 다운스트림 task에 대한 유익한 초기 노출을 제공하는지 여부를 측정하는 데 도움이 된다. 우리는 또한 많은 종류의 supervision을 혼합하는 것이 모델이 개별 task에 적응하기 전에 더 일반적인 "기술" (느슨하게 말해서)을 습득하는 데 도움이 될 수 있기를 기대한다.

Mixing strategy	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
$\star$ Baseline (pre-train/fine-tune)	83.28	19.24	80.88	71.36	26.98	39.82	27.65
Equal	76.13	19.02	76.51	63.37	23.89	34.31	26.78
Examples-proportional, $K=2^{16}$	80.45	19.04	77.25	69.95	24.35	34.99	27.10
Examples-proportional, $K=2^{17}$	81.56	19.12	77.00	67.91	24.36	35.00	27.25
Examples-proportional, $K=2^{18}$	81.67	19.07	78.17	67.94	24.57	35.19	27.39
Examples-proportional, $K=2^{19}$	81.42	19.24	79.78	67.30	25.21	36.30	27.76
Examples-proportional, $K=2^{20}$	80.80	19.24	80.36	67.38	25.66	36.93	27.68
Examples-proportional, $K=2^{21}$	79.83	18.79	79.50	65.10	25.82	37.22	27.13
Temperature-scaled, $T=2$	81.90	19.28	79.42	69.92	25.42	36.72	27.20
Temperature-scaled, $T=4$	80.56	19.22	77.99	69.54	25.04	35.82	27.45
Temperature-scaled, $T=8$	77.21	19.10	77.14	66.07	24.55	35.35	27.17

Table 11: 다양한 혼합 전략을 사용한 multi-task training 비교. Examples-proportional mixing은 각 데이터셋의 총 크기에 따라 각 데이터셋에서 예시를 샘플링하며, 최대 데이터셋 크기에 대한 인위적인 제한( $K$ )을 둔다. Temperature-scaled mixing은 온도 $T$ 에 따라 샘플링 비율을 재조정한다. Temperature-scaled mixing의 경우, 인위적인 데이터셋 크기 제한 $K=2^{21}$ 을 사용한다.

이를 직접 측정하기 위해, 두 번째 변형에서는 동일한 examples-proportional mixture ( $K=2^{19}$ )로 모델을 사전학습하되, 이 사전학습 혼합에서 하나의 다운스트림 task를 제외한다. 그런 다음, 사전학습 중에 제외된 task에 대해 모델을 fine-tuning한다. 우리는 고려하는 각 다운스트림 task에 대해 이 과정을 반복한다. 우리는 이 접근 방식을 "leave-one-out" multi-task training이라고 부른다. 이는 사전학습된 모델이 사전학습 중에 보지 못했던 task에 대해 fine-tuning되는 실제 시나리오를 시뮬레이션한다. multi-task pre-training은 다양한 supervised task의 혼합을 제공한다는 점에 주목하라. 다른 분야(예: 컴퓨터 비전 (Oquab et al., 2014; Jia et al., 2014; Huh et al., 2016; Yosinski et al., 2014))에서는 사전학습을 위해 supervised 데이터셋을 사용하므로, 우리는 multi-task pre-training 혼합에서 unsupervised task를 제외하더라도 좋은 결과가 나오는지 궁금했다. 따라서 세 번째 변형에서는 $K=2^{19}$ 로 우리가 고려하는 모든 supervised task의 examples-proportional mixture로 사전학습한다. 이 모든 변형에서, 우리는 $2^{19}$ 스텝 동안 사전학습한 후 $2^{18}$ 스텝 동안 fine-tuning하는 표준 절차를 따른다.

이러한 접근 방식의 결과를 Table 12에서 비교한다. 비교를 위해, 우리의 baseline (사전학습 후 fine-tuning) 및 $K=2^{19}$ 를 사용한 examples-proportional mixture에서의 표준 multi-task learning (fine-tuning 없음) 결과도 포함한다. 우리는 multi-task pre-training 후 fine-tuning하는 것이 우리의 baseline과 유사한 성능을 보인다는 것을 발견했다. 이는 multi-task learning 후 fine-tuning을 사용하는 것이 Section 3.5.2에서 설명된 다양한 혼합 비율 간의 trade-off 중 일부를 완화하는 데 도움이 될 수 있음을 시사한다. 흥미롭게도, "leave-one-out" training의 성능은 약간만 더 나빴는데, 이는 다양한 task로 학습된 모델이 새로운 task에도 여전히 적응할 수 있음을 시사한다 (즉, multi-task pre-training이 극적인 task 간섭을 초래하지 않을 수 있음). 마지막으로, supervised multi-task pre-training은 번역 task를 제외한 모든 경우에서 훨씬 더 나쁜 성능을 보였다.

Training strategy	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
Unsupervised pre-training + fine-tuning	83.28	19.24	80.88	71.36	26.98	39.82	27.65
Multi-task training	81.42	19.24	79.78	67.30	25.21	36.30	27.76
Multi-task pre-training + fine-tuning	83.11	19.12	80.26	71.03	27.08	39.80	28.07
Leave-one-out multi-task training	81.98	19.05	79.97	71.68	26.93	39.79	27.87
Supervised multi-task pre-training	79.93	18.96	77.38	65.36	26.81	40.13	28.04

Table 12: Unsupervised pre-training, multi-task learning, 그리고 다양한 형태의 multi-task pre-training 비교.

이는 번역 task가 (영어) 사전학습으로부터 덜 이점을 얻는 반면, unsupervised pre-training이 다른 task에서는 중요한 요소임을 시사할 수 있다.

3.6 Scaling

머신러닝 연구의 "쓴 교훈(bitter lesson)"은 추가적인 연산 자원을 활용할 수 있는 일반적인 방법들이 결국 인간의 전문 지식에 의존하는 방법들보다 우위를 점한다고 주장한다 (Sutton, 2019; Hestness et al., 2017; Shazeer et al., 2017; Jozefowicz et al., 2016; Mahajan et al., 2018; Shazeer et al., 2018, 2017; Huang et al., 2018b; Keskar et al., 2019a). 최근 결과들은 이러한 경향이 NLP의 transfer learning에서도 유효할 수 있음을 시사한다 (Liu et al., 2019c; Radford et al., 2019; Yang et al., 2019; Lan et al., 2019). 즉, 더욱 신중하게 설계된 방법들보다 모델의 규모를 확장(scaling up)하는 것이 반복적으로 성능 향상을 가져온다는 것이 입증되었다.
그러나 확장하는 방법에는 다양한 방식이 있다:

더 큰 모델 사용
더 많은 step 동안 모델 학습
앙상블(ensembling)

이 섹션에서는 다음 전제를 다루면서 이러한 다양한 접근 방식들을 비교한다: "4배 더 많은 연산 자원이 주어졌을 때, 어떻게 활용해야 하는가?"

우리는 2억 2천만 개의 파라미터를 가지며, 각각 $2^{19}$ step과 $2^{18}$ step 동안 사전학습 및 fine-tuning된 baseline 모델로 시작한다. encoder와 decoder는 모두 "BERT ${ }_{\text {BASE }}$ "와 유사한 크기이다. 모델 크기를 늘리는 실험을 위해, 우리는 "BERT ${ }_{\text {LARGE }}$ " Devlin et al. (2018)의 가이드라인을 따르며, $d_{\mathrm{ff}}=4096, d_{\text {model }}=1024, d_{\mathrm{kv}}=64$ 및 16-head attention mechanism을 사용한다.
그 다음, encoder와 decoder에 각각 16개 및 32개의 layer를 가진 두 가지 변형 모델을 생성하여, 원래 모델보다 2배 및 4배 많은 파라미터를 가진 모델을 만든다. 이 두 변형 모델은 또한 연산 비용도 대략 2배 및 4배이다.
우리의 baseline 모델과 이 두 개의 더 큰 모델을 사용하여, 4배 더 많은 연산을 사용하는 세 가지 방법을 고려한다:

4배 더 많은 step 동안 학습
2배 더 큰 모델로 2배 더 많은 step 동안 학습
4배 더 큰 모델로 "baseline" 학습 step 수만큼 학습

학습 step을 늘릴 때는 단순화를 위해 사전학습(pre-train) 및 fine-tune step을 모두 비례하여 늘린다. 사전학습 step 수를 늘릴 때, C4 데이터셋이 매우 커서 $2^{23}$ step 동안 학습해도 한 번의 데이터 순회를 완료하지 못하므로, 사실상 더 많은 사전학습 데이터를 포함하게 된다는 점에 유의해야 한다.

모델이 4배 더 많은 데이터를 보는 또 다른 방법은 batch size를 4배 늘리는 것이다. 이는 더 효율적인 병렬화로 인해 학습 속도를 높일 수 있는 잠재력이 있다. 그러나 4배 더 큰 batch size로 학습하는 것은 4배 더 많은 step 동안 학습하는 것과는 다른 결과를 낳을 수 있다 (Shallue et al., 2018). 우리는 이 두 경우를 비교하기 위해 baseline 모델을 4배 더 큰 batch size로 학습하는 추가 실험을 포함한다.

우리가 고려하는 많은 벤치마크에서 모델 앙상블(ensemble)을 사용하여 추가 성능을 끌어내는 것은 일반적인 관행이다. 이는 추가 연산을 사용하는 직교적인(orthogonal) 방법을 제공한다. 다른 확장 방법들과 앙상블을 비교하기 위해, 우리는 별도로 사전학습 및 fine-tuning된 4개의 모델 앙상블 성능도 측정한다. 우리는 앙상블 전체의 logits를 평균한 후 출력 softmax 비선형 함수에 입력하여 통합된 예측을 얻는다.
4개의 별도 모델을 사전학습하는 대신, 단일 사전학습 모델을 가져와 4개의 별도 fine-tuned 버전을 생성하는 것이 더 저렴한 대안이다. 비록 이 방법은 우리의 전체 4배 연산 예산을 사용하지는 않지만, 다른 확장 방법들과 경쟁력 있는 성능을 내는지 확인하기 위해 이 방법도 포함한다.

이러한 다양한 확장 방법을 적용한 후 달성된 성능은 Table 13에 나와 있다. 예상대로, 학습 시간 및/또는 모델 크기를 늘리는 것은 baseline 성능을 꾸준히 향상시킨다. 4배 더 많은 step 동안 학습하는 것과 4배 더 큰 batch size를 사용하는 것 사이에는 명확한 승자가 없었지만, 둘 다 유익했다. 일반적으로 모델 크기를 늘리는 것이 단순히 학습 시간이나 batch size를 늘리는 것보다 추가적인 성능 향상을 가져왔다. 우리가 연구한 어떤 task에서도 2배 더 큰 모델을 2배 더 오래 학습하는 것과 4배 더 큰 모델을 "baseline" 학습 step 수만큼 학습하는 것 사이에 큰 차이는 관찰되지 않았다. 이는 학습 시간을 늘리는 것과 모델 크기를 늘리는 것이 성능 향상을 위한 상호 보완적인 수단이 될 수 있음을 시사한다.
우리의 결과는 또한 앙상블이 규모 확장을 통해 성능을 향상시키는 직교적이고 효과적인 수단을 제공한다는 것을 시사한다. 일부 task (CNN/DM, WMT English to German, WMT English to Romanian)에서는 완전히 별도로 학습된 4개의 모델을 앙상블하는 것이 다른 모든 확장 접근 방식을 크게 능가했다. 함께 사전학습되었지만 별도로 fine-tuning된 모델들을 앙상블하는 것도 baseline 대비 상당한 성능 향상을 가져왔으며, 이는 더 저렴한 성능 향상 수단을 시사한다. 유일한 예외는 SuperGLUE였는데, 여기서는 어떤 앙상블 접근 방식도 baseline 대비 크게 향상되지 않았다.

Scaling strategy	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
Baseline	83.28	19.24	80.88	71.36	26.98	39.82	27.65
$1 \times$ size, $4 \times$ training steps	85.33	19.33	82.45	74.72	27.08	40.66	27.93
$1 \times$ size, $4 \times$ batch size	84.60	19.42	82.52	74.64	27.07	40.60	27.84
$2 \times$ size, $2 \times$ training steps	86.18	19.66	84.18	77.18	27.52	41.03	28.19
$4 \times$ size, $1 \times$ training steps	85.91	19.73	83.86	78.04	27.47	40.71	28.10
$4 \times$ ensembled	84.77	20.10	83.09	71.74	28.05	40.53	28.57
$4 \times$ ensembled, fine-tune only	84.05	19.57	82.36	71.55	27.55	40.22	28.09

Table 13: baseline 모델의 다양한 확장 방법 비교. 앙상블 fine-tuned 모델을 제외한 모든 방법은 baseline 대비 4배의 연산을 사용한다. "Size"는 모델의 파라미터 수를, "training time"은 사전학습 및 fine-tuning에 사용된 step 수를 나타낸다.

우리는 다양한 확장 방법들이 성능과는 별개로 다른 trade-off를 가진다는 점에 주목한다. 예를 들어, 더 큰 모델을 사용하는 것은 다운스트림 fine-tuning 및 추론 비용을 증가시킬 수 있다. 반대로, 작은 모델을 더 오래 사전학습하는 비용은 여러 다운스트림 task에 적용될 경우 효과적으로 상각될 수 있다. 별도로, N개의 개별 모델을 앙상블하는 것은 N배 더 높은 연산 비용을 가진 모델을 사용하는 것과 유사한 비용을 가진다는 점에 주목한다. 결과적으로, 확장 방법을 선택할 때 모델의 최종 사용 목적을 고려하는 것이 중요하다.

3.7 Putting It All Together

이제 우리는 체계적인 연구를 통해 얻은 통찰력을 활용하여 주요 NLP 벤치마크에서 성능을 얼마나 끌어올릴 수 있는지를 결정한다. 또한, 대규모 데이터로 더 큰 모델을 학습시켜 NLP를 위한 transfer learning의 현재 한계를 탐색하는 데에도 관심이 있다. 우리는 baseline 학습 접근 방식에서 시작하여 다음과 같은 변경 사항을 적용한다:

Objective
우리는 baseline의 i.i.d. denoising objective를 Section 3.3.4에서 설명된 span-corruption objective로 교체했다. 이 objective는 SpanBERT (Joshi et al., 2019)에서 영감을 받았다. 구체적으로, 우리는 평균 span 길이 3을 사용하고 **원본 시퀀스의 15%를 손상(corrupt)**시켰다. 이 objective가 약간 더 짧은 target sequence 길이 덕분에 계산 효율성이 더 높으면서도 미미하게 더 나은 성능(Table 7)을 보였다는 것을 확인했다.

Longer training
우리의 baseline 모델은 상대적으로 적은 양의 사전학습(BERT (Devlin et al., 2018)의 1/4, XLNet (Yang et al., 2019)의 1/16, RoBERTa (Liu et al., 2019c)의 1/64 등)을 사용한다. 다행히 C4는 데이터를 반복하지 않고도 상당히 오랫동안 학습할 수 있을 만큼 충분히 크다 (Section 3.4.2에서 보여주듯이 데이터 반복은 해로울 수 있다). 우리는 Section 3.6에서 추가적인 사전학습이 실제로 도움이 될 수 있으며, batch size를 늘리거나 학습 step 수를 늘리는 것이 이러한 이점을 제공할 수 있음을 확인했다. 따라서 우리는 길이 512의 $2^{11}$ 시퀀스 batch size로 100만 step 동안 모델을 사전학습했으며, 이는 총 약 1조 개의 사전학습 토큰에 해당한다 (baseline의 약 32배). Section 3.4.1에서 우리는 RealNews-like, WebText-like, Wikipedia + TBC 데이터셋으로 사전학습하는 것이 몇몇 다운스트림 task에서 C4로 사전학습하는 것보다 더 나은 성능을 보였다는 것을 보여주었다. 그러나 이러한 데이터셋 변형들은 1조 개의 토큰에 대한 사전학습 과정에서 수백 번 반복될 만큼 충분히 작다. Section 3.4.2에서 이러한 반복이 해로울 수 있음을 보여주었기 때문에, 우리는 대신 C4 데이터셋을 계속 사용하기로 결정했다.

Model sizes
Section 3.6에서 우리는 baseline 모델 크기를 확장하는 것이 성능을 어떻게 향상시키는지도 보여주었다. 그러나 더 작은 모델은 fine-tuning 또는 inference에 사용할 수 있는 계산 자원이 제한적인 환경에서 유용할 수 있다. 이러한 요인들을 바탕으로 우리는 다양한 크기의 모델을 학습시켰다:

Base. 이는 Section 3.1.1에서 하이퍼파라미터가 설명된 우리의 baseline 모델이다. 약 2억 2천만 개의 파라미터를 가진다.
Small. 우리는 더 작은 모델을 고려했는데, 이는 $d_{\text {model }}=512, d_{\mathrm{ff}}=2,048,8$ -headed attention, 그리고 encoder와 decoder에 각각 6개의 layer만 사용하여 baseline을 축소한 것이다. 이 변형은 약 6천만 개의 파라미터를 가진다.
Large. 우리의 baseline은 $\mathrm{BERT}_{\mathrm{BASE}}$ -sized encoder와 decoder를 사용하므로, 우리는 encoder와 decoder가 모두 $\mathrm{BERT}_{\mathrm{LARGE}}$ 와 유사한 크기와 구조를 가진 변형도 고려했다. 구체적으로, 이 변형은 $d_{\text {model }}=1,024, d_{\mathrm{ff}}=4,096, d_{\mathrm{kv}}=64,16$ -headed attention, 그리고 encoder와 decoder에 각각 24개의 layer를 사용하여 약 7억 7천만 개의 파라미터를 가진다.
3B 및 11B. 더 큰 모델을 사용할 때 어떤 종류의 성능이 가능한지 추가로 탐색하기 위해 두 가지 추가 변형을 고려했다. 두 경우 모두 $d_{\text {model }}=1024$ , 24 layer encoder 및 decoder, 그리고 $d_{\mathrm{kv}}=128$ 을 사용했다. "3B" 변형의 경우, $d_{\mathrm{ff}}=16,384$ 에 32-headed attention을 사용하여 약 28억 개의 파라미터를 가진다; "11B"의 경우 $d_{\mathrm{ff}}=65,536$ 에 128-headed attention을 사용하여 약 110억 개의 파라미터를 가진 모델을 생성한다. 우리는 $d_{\mathrm{ff}}$ 를 확장하기로 결정했는데, 이는 최신 가속기(우리가 모델을 학습시키는 TPU와 같은)가 Transformer의 feed-forward network와 같은 대규모 dense matrix multiplication에 가장 효율적이기 때문이다.

Multi-task pre-training
Section 3.5.3에서 우리는 fine-tuning 전에 비지도 학습(unsupervised) 및 지도 학습(supervised) task의 multi-task mixture로 사전학습하는 것이 비지도 학습 task만으로 사전학습하는 것만큼 잘 작동함을 보여주었다. 이는 "MT-DNN" (Liu et al., 2015, 2019b)이 옹호하는 접근 방식이다. 또한, 이는 fine-tuning 시뿐만 아니라 학습 전체 기간 동안 "다운스트림" 성능을 모니터링할 수 있다는 실용적인 이점도 있다. 따라서 우리는 최종 실험 세트에서 multi-task pre-training을 사용했다. 우리는 더 큰 모델이 더 긴 시간 동안 학습될 때 더 많은 비율의 unlabeled data로부터 이점을 얻을 수 있다고 가정한다. 이는 더 작은 학습 데이터셋에 과적합될 가능성이 더 높기 때문이다. 그러나 우리는 Section 3.5.3의 결과가 multi-task pre-training 후 fine-tuning이 unlabeled data의 suboptimal한 비율 선택으로 인해 발생할 수 있는 일부 문제를 완화할 수 있음을 시사한다는 점도 주목한다. 이러한 아이디어를 바탕으로, 우리는 표준 example-proportional mixing (Section 3.5.2에서 설명)을 사용하기 전에 unlabeled data에 대해 다음 인위적인 데이터셋 크기를 대체했다: Small의 경우 710,000, Base의 경우 2,620,000, Large의 경우 8,660,000, 3B의 경우 33,500,000, 그리고 11B의 경우 133,000,000. 모든 모델 변형에 대해, 우리는 사전학습 동안 WMT English to French 및 WMT English to German 데이터셋의 유효 데이터셋 크기를 1M 예시로 제한했다.

Fine-tuning on individual GLUE and SuperGLUE tasks
지금까지 GLUE 및 SuperGLUE에서 fine-tuning할 때, 우리는 각 벤치마크의 모든 데이터셋을 연결하여 GLUE에 대해 한 번, SuperGLUE에 대해 한 번만 모델을 fine-tuning했다. 이 접근 방식은 우리의 연구를 물류적으로 더 간단하게 만들지만, task별로 fine-tuning하는 것에 비해 일부 task에서 약간의 성능 손실이 발생한다는 것을 발견했다. 개별 task에 fine-tuning할 때 발생할 수 있는 잠재적인 문제는, 모든 task를 한 번에 학습함으로써 완화될 수 있는 문제인데, 저자원 task에 빠르게 과적합될 수 있다는 것이다. 예를 들어, 우리의 큰 batch size인 $2^{11}$ 길이-512 시퀀스는 많은 저자원 GLUE 및 SuperGLUE task에서 각 batch에 전체 데이터셋이 여러 번 나타나게 할 것이다. 따라서 우리는 각 GLUE 및 SuperGLUE task에 대해 fine-tuning 동안 더 작은 batch size인 8 길이-512 시퀀스를 사용한다. 또한, 모델이 과적합되기 전에 모델의 파라미터에 접근할 수 있도록 5,000 step마다 대신 1,000 step마다 checkpoint를 저장한다.

Beam search
우리의 모든 이전 결과는 greedy decoding을 사용하여 보고되었다. 긴 출력 시퀀스를 가진 task의 경우, beam search (Sutskever et al., 2014)를 사용하면 성능이 향상된다는 것을 발견했다. 구체적으로, 우리는 WMT 번역 및 CNN/DM 요약 task에 대해 **beam width 4와 length penalty $\alpha=0.6$ (Wu et al., 2016)**을 사용한다.

Test set
이것이 우리의 최종 실험 세트이므로, 우리는 validation set 대신 test set에 대한 결과를 보고한다. CNN/Daily Mail의 경우, 데이터셋과 함께 배포되는 표준 test set을 사용한다. WMT task의 경우, 이는 English-German에 대해 newstest2014, English-French에 대해 newstest2015, English-Romanian에 대해 newstest2016을 사용하는 것에 해당한다. GLUE 및 SuperGLUE의 경우, 우리는 벤치마크 평가 서버를 사용하여 공식 test set 점수를 계산했다. SQuAD의 경우, test set에 대한 평가는 벤치마크 서버에서 inference를 실행해야 한다. 불행히도, 이 서버의 계산 자원은 우리의 가장 큰 모델에서 예측을 얻기에 불충분하다. 결과적으로, 우리는 대신 SQuAD validation set에 대한 성능을 계속 보고한다. 다행히도, SQuAD test set에서 가장 높은 성능을 보인 모델도 validation set에 대한 결과를 보고했으므로, 우리는 여전히 명백한 state-of-the-art와 비교할 수 있다.

위에 언급된 변경 사항 외에는, 우리는 baseline과 동일한 학습 절차 및 하이퍼파라미터(AdaFactor optimizer, 사전학습을 위한 inverse square root learning rate schedule, fine-tuning을 위한 constant learning rate, dropout regularization, vocabulary 등)를 사용한다. 참고로, 이러한 세부 사항은 Section 2에 설명되어 있다.

이 최종 실험 세트의 결과는 Table 14에 나와 있다. 전반적으로, 우리는 고려한 24개 task 중 18개에서 state-of-the-art 성능을 달성했다. 예상대로, 우리의 가장 큰 (110억 파라미터) 모델이 모든 task에서 우리의 모델 크기 변형 중 가장 좋은 성능을 보였다. 우리의 T5-3B 모델 변형은 몇몇 task에서 이전 state-of-the-art를 능가했지만, 모델 크기를 110억 파라미터로 확장하는 것이 최고의 성능을 달성하는 데 가장 중요한 요소였다. 이제 각 개별 벤치마크에 대한 결과를 분석한다.

우리는 90.3의 state-of-the-art 평균 GLUE 점수를 달성했다. 특히, 우리의 성능은 자연어 추론 task인 MNLI, RTE, WNLI에서 이전 state-of-the-art보다 상당히 우수했다. RTE와 WNLI는 기계 성능이 역사적으로 인간 성능에 뒤처졌던 task 중 두 가지이며, 각각 93.6과 95.9이다 (Wang et al., 2018). 파라미터 수 측면에서, 우리의 11B 모델 변형은 GLUE 벤치마크에 제출된 모델 중 가장 큰 모델이다. 그러나 대부분의 최고 점수 제출은 예측을 생성하기 위해 많은 양의 ensembling과 계산을 사용한다. 예를 들어, ALBERT (Lan et al., 2019)의 최고 성능 변형은 우리의 3B 변형과 유사한 크기와 아키텍처를 가진 모델을 사용한다 (그러나 영리한 파라미터 공유 덕분에 파라미터 수가 훨씬 적다). GLUE에서 인상적인 성능을 내기 위해 ALBERT 저자들은 task에 따라 "6개에서 17개"의 모델을 ensembling했다. 이는 ALBERT 앙상블로 예측을 생성하는 것이 T5-11B로 예측을 생성하는 것보다 계산 비용이 더 많이 들 가능성이 높다.

SQuAD의 경우, 우리는 Exact Match 점수에서 이전 state-of-the-art (ALBERT (Lan et al., 2019))를 1점 이상 능가했다. SQuAD는 3년 이상 전에 만들어진 오랜 벤치마크이며, 최근 개선 사항은 state-of-the-art를 1% 미만으로만 증가시켰다. 우리는 test set에 대한 결과가 보고될 때, 일반적으로 모델 앙상블을 기반으로 하거나 외부 데이터셋(예: TriviaQA (Joshi et al., 2017) 또는 NewsQA (Trischler et al., 2016))을 활용하여 작은 SQuAD 학습 세트를 보강한다는 점에 주목한다. SQuAD에서 인간 성능은 Exact Match 및 F1 metric에 대해 각각 82.30 및 91.22로 추정된다 (Rajpurkar et al., 2016). 따라서 이 벤치마크에서 추가적인 개선이 의미가 있는지 불분명하다.

[^3]| Model | GLUE Average | CoLA Matthew's | | SST-2 Accuracy | | MRPC F1 | MRPC Accuracy | STS-B Pearson | STS-B Spearman | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | Previous best | $89.4^{a}$ | $69.2{ }^{\text {b }}$ | | $97.1^{a}$ | | $93.6{ }^{\text {b }}$ | $91.5^{b}$ | $92.7^{b}$ | $92.3{ }^{\text {b }}$ | | T5-Small | 77.4 | 41.0 | | 91.8 | | 89.7 | 86.6 | 85.6 | 85.0 | | T5-Base | 82.7 | 51.1 | | 95.2 | | 90.7 | 87.5 | 89.4 | 88.6 | | T5-Large | 86.4 | 61.2 | | 96.3 | | 92.4 | 89.9 | 89.9 | 89.2 | | T5-3B | 88.5 | 67.1 | | 97.4 | | 92.5 | 90.0 | 90.6 | 89.8 | | T5-11B | 90.3 | 71.6 | | 97.5 | | 92.8 | 90.4 | 93.1 | 92.8 | | Model | QQP F1 | QQP Accuracy | MNLI-m Accuracy | | | MNLI-mm Accuracy | QNLI Accuracy | RTE Accuracy | WNLI Accuracy | | Previous best | $74.8{ }^{\text {c }}$ | $\mathbf{9 0 . 7}^{\text {b }}$ | $91.3^{a}$ | | | $91.0^{a}$ | $\mathbf{9 9 . 2}^{a}$ | $89.2^{a}$ | $91.8^{a}$ | | T5-Small | 70.0 | 88.0 | 82.4 | | | 82.3 | 90.3 | 69.9 | 69.2 | | T5-Base | 72.6 | 89.4 | 87.1 | | | 86.2 | 93.7 | 80.1 | 78.8 | | T5-Large | 73.9 | 89.9 | 89.9 | | | 89.6 | 94.8 | 87.2 | 85.6 | | T5-3B | 74.4 | 89.7 | 91.4 | | | 91.2 | 96.3 | 91.1 | 89.7 | | T5-11B | 75.1 | 90.6 | 92.2 | | | 91.9 | 96.9 | 92.8 | 94.5 | | Model | SQuAD EM | SQuAD F1 | | SuperGLUE Average | | BoolQ Accuracy | CB F1 | CB Accuracy | COPA Accuracy | | Previous best | $90.1^{a}$ | $95.5{ }^{a}$ | | $84.6^{d}$ | | $87.1^{d}$ | $90.5{ }^{\text {d }}$ | $95.2{ }^{\text {d }}$ | $90.6{ }^{\text {d }}$ | | T5-Small | 79.10 | 87.24 | | 63.3 | | 76.4 | 56.9 | 81.6 | 46.0 | | T5-Base | 85.44 | 92.08 | | 76.2 | | 81.4 | 86.2 | 94.0 | 71.2 | | T5-Large | 86.66 | 93.79 | | 82.3 | | 85.4 | 91.6 | 94.8 | 83.4 | | T5-3B | 88.53 | 94.95 | | 86.4 | | 89.9 | 90.3 | 94.4 | 92.0 | | T5-11B | 91.26 | 96.22 | | 88.9 | | 91.2 | 93.9 | 96.8 | 94.8 | | Model | MultiRC F1a | MultiRC EM | | ReCoRD F1 | | ReCoRD Accuracy | RTE Accuracy | WiC Accuracy | WSC Accuracy | | Previous best | $84.4^{d}$ | $52.5^{d}$ | | $90.6^{d}$ | | $90.0{ }^{\text {d }}$ | $88.2^{d}$ | $69.9{ }^{\text {d }}$ | $89.0^{d}$ | | T5-Small | 69.3 | 26.3 | | 56.3 | | 55.4 | 73.3 | 66.9 | 70.5 | | T5-Base | 79.7 | 43.1 | | 75.0 | | 74.2 | 81.5 | 68.3 | 80.8 | | T5-Large | 83.3 | 50.7 | | 86.8 | | 85.9 | 87.8 | 69.3 | 86.3 | | T5-3B | 86.8 | 58.3 | | 91.2 | | 90.4 | 90.7 | 72.1 | 90.4 | | T5-11B | 88.1 | 63.3 | | 94.1 | | 93.4 | 92.5 | 76.9 | 93.8 | | Model | WMT EnDe BLEU | WMT EnFr BLEU | | WMT EnRo BLEU | | | CNN/DM ROUGE-1 | CNN/DM ROUGE-2 | CNN/DM ROUGE-L | | Previous best | $33.8{ }^{\text {e }}$ | $43.8{ }^{\text {e }}$ | | | $\mathbf{38 . 5}^{\text {f }}$ | | $43.47^{g}$ | $20.30^{g}$ | $40.63^{g}$ | | T5-Small | 26.7 | 36.0 | | | 26.8 | | 41.12 | 19.56 | 38.35 | | T5-Base | 30.9 | 41.2 | | | 28.0 | | 42.05 | 20.34 | 39.40 | | T5-Large | 32.0 | 41.5 | | | 28.1 | | 42.50 | 20.68 | 39.75 | | T5-3B | 31.8 | 42.6 | | | 28.2 | | 42.72 | 21.02 | 39.94 | | T5-11B | 32.1 | 43.4 | | | 28.1 | | 43.52 | 21.55 | 40.69 |

Table 14: 우리가 연구한 모든 task에 대한 T5 변형 모델의 성능. Small, Base, Large, 3B, 11B는 각각 6천만, 2억 2천만, 7억 7천만, 30억, 110억 파라미터를 가진 모델 구성을 나타낸다. 각 테이블의 첫 번째 행에는 task에 대한 state-of-the-art (2019년 10월 24일 기준)가 보고되어 있으며, 위첨자는 이 캡션 끝에 나열된 참조와 함께 출처를 나타낸다. SQuAD를 제외한 모든 결과는 test set에 대해 보고된다. (Lan et al., 2019) (Wang et al., 2019c) (Zhu et al., 2019) (Liu et al., 2019c) (Edunov et al., 2018) (Lample and Conneau, 2019) (Dong et al., 2019)

SuperGLUE의 경우, 우리는 state-of-the-art를 큰 폭으로 개선했다 (평균 점수 84.6 (Liu et al., 2019c)에서 88.9로). SuperGLUE는 "현재 state-of-the-art 시스템의 범위를 넘어서지만, 대부분의 대졸 영어 사용자가 해결할 수 있는" task를 포함하도록 설계되었다 (Wang et al., 2019b). 우리는 인간 성능인 89.8 (Wang et al., 2019b)에 거의 근접했다. 흥미롭게도, 독해 task (MultiRC 및 ReCoRD)에서는 인간 성능을 크게 초과했는데, 이는 이 task에 사용된 평가 지표가 기계 생성 예측에 편향될 수 있음을 시사한다. 반면에, 인간은 COPA와 WSC 모두에서 100% 정확도를 달성했는데, 이는 우리 모델의 성능보다 훨씬 우수하다. 이는 우리 모델이 완벽하게 수행하기 어려운 언어 task, 특히 저자원 환경에서 여전히 존재함을 시사한다.

우리는 어떤 WMT 번역 task에서도 state-of-the-art 성능을 달성하지 못했다. 이는 부분적으로 영어 전용 unlabeled data set을 사용했기 때문일 수 있다. 또한, 이러한 task에서 최고의 결과 대부분은 backtranslation (Edunov et al., 2018; Lample and Conneau, 2019)과 같은 정교한 데이터 증강 기법을 사용한다는 점에 주목한다. 저자원 English to Romanian 벤치마크에서 state-of-the-art는 추가적인 형태의 cross-lingual unsupervised training (Lample and Conneau, 2019)도 사용한다. 우리의 결과는 규모와 영어 언어 사전학습만으로는 이러한 더 정교한 방법의 성능을 따라잡기에 불충분할 수 있음을 시사한다. 더 구체적으로, English to German newstest2014 세트에서 최고의 결과는 WMT 2018의 훨씬 더 큰 학습 세트 (Edunov et al., 2018)를 사용하므로, 우리의 결과와 직접적인 비교는 어렵다.

마지막으로, CNN/Daily Mail에서 우리는 state-of-the-art 성능을 달성했지만, ROUGE-2-F 점수에서만 상당한 양으로 개선되었다. ROUGE 점수의 개선이 반드시 더 일관성 있는 요약으로 이어지는 것은 아님이 밝혀졌다 (Paulus et al., 2017). 또한, CNN/Daily Mail이 추상적 요약 벤치마크로 제시되었지만, 순수하게 추출적인 접근 방식도 잘 작동하는 것으로 나타났다 (Liu, 2019). 최대 우도(maximum likelihood)로 학습된 생성 모델이 반복적인 요약을 생성하는 경향이 있다는 주장도 제기되었다 (See et al., 2017). 이러한 잠재적인 문제에도 불구하고, 우리는 우리 모델이 일관성 있고 대체로 정확한 요약을 생성한다는 것을 발견했다. Appendix C에 일부 비선별적인 validation set 예시를 제공한다.

강력한 결과를 달성하기 위해 T5는 우리의 실험 연구에서 얻은 통찰력과 전례 없는 규모를 결합한다. Section 3.6에서 우리는 사전학습 양 또는 baseline 모델 크기를 확장하는 것이 상당한 이득을 가져온다는 것을 발견했다. 이를 바탕으로, 우리는 T5에 도입한 "비확장(non-scaling)" 변경 사항이 강력한 성능에 얼마나 기여했는지 측정하는 데 관심이 있었다. 따라서 우리는 다음 세 가지 구성을 비교하는 최종 실험을 수행했다: 첫째, $2^{35} \approx 34 \mathrm{~B}$ 토큰으로 사전학습된 표준 baseline 모델; 둘째, 약 1조 토큰으로 대신 학습된 baseline (즉, T5에 사용된 것과 동일한 양의 사전학습), 이를 "baseline-1T"라고 부른다; 셋째, T5-Base. baseline-1T와 T5-Base의 차이는 T5를 설계할 때 우리가 만든 "비확장" 변경 사항을 포함한다. 따라서 이 두 모델의 성능을 비교하는 것은 우리의 체계적인 연구에서 얻은 통찰력의 영향을 구체적으로 측정하는 것이다.

Model	GLUE	CNNDM	SQuAD	SGLUE	EnDe	EnFr	EnRo
* Baseline	83.28	19.24	80.88	71.36	26.98	39.82	27.65
Baseline-1T	84.80	19.62	83.01	73.90	27.46	40.30	28.34
T5-Base	$\mathbf{8 5 . 9 7}$	$\mathbf{20 . 9 0}$	$\mathbf{8 5 . 4 4}$	$\mathbf{7 5 . 6 4}$	$\mathbf{28 . 3 7}$	$\mathbf{4 1 . 3 7}$	$\mathbf{28 . 9 8}$

Table 15: T5-Base와 본 논문의 나머지 부분에서 사용된 baseline 실험 설정의 성능 비교. 결과는 validation set에 대해 보고된다. "Baseline-1T"는 baseline 모델을 $2^{35} \approx 34 \mathrm{~B}$ 토큰 (baseline에 사용된 것) 대신 1조 토큰 (T5 모델 변형에 사용된 것과 동일한 수)으로 사전학습하여 달성된 성능을 나타낸다.

이 세 가지 모델 구성의 성능은 Table 15에 나와 있다. Section 3.6의 결과와 일치하게, 추가적인 사전학습이 baseline보다 성능을 향상시킨다는 것을 발견했다. 그럼에도 불구하고, T5-Base는 모든 다운스트림 task에서 baseline-1T를 상당히 능가한다. 이는 규모가 T5의 성공에 기여하는 유일한 요소가 아님을 시사한다. 우리는 더 큰 모델이 증가된 크기뿐만 아니라 이러한 비확장 요인으로부터도 이점을 얻는다고 가정한다.

4. Reflection

체계적인 연구를 마친 후, 우리는 가장 중요한 발견들을 요약하며 마무리하고자 한다. 우리의 결과는 어떤 연구 방향이 더 유망하거나 덜 유망할지에 대한 높은 수준의 관점을 제공한다. 결론적으로, 우리는 이 분야를 더욱 발전시키는 데 효과적인 접근 방식을 제공할 수 있다고 생각하는 몇 가지 주제를 제시한다.

4.1 Takeaways

Text-to-text
우리의 text-to-text 프레임워크는 동일한 loss function과 decoding 절차를 사용하여 다양한 텍스트 task에 대해 단일 모델을 학습시키는 간단한 방법을 제공한다. 우리는 이 접근 방식이 추상적 요약(abstractive summarization)과 같은 생성 task, 자연어 추론(natural language inference)과 같은 분류 task, 심지어 STS-B와 같은 회귀(regression) task에도 성공적으로 적용될 수 있음을 보여주었다. 이러한 단순성에도 불구하고, text-to-text 프레임워크는 task-specific 아키텍처와 유사한 성능을 얻었으며, 규모(scale)와 결합되었을 때 궁극적으로 state-of-the-art 결과를 도출했다.

아키텍처 (Architectures)
NLP를 위한 전이 학습(transfer learning)에 대한 일부 연구는 Transformer의 아키텍처 변형을 고려했지만, 우리는 원래의 encoder-decoder 형태가 우리의 text-to-text 프레임워크에서 가장 잘 작동함을 발견했다. encoder-decoder 모델은 "encoder-only" (예: BERT) 또는 "decoder-only" (language model) 아키텍처보다 두 배 많은 파라미터를 사용하지만, 유사한 계산 비용을 가진다. 우리는 또한 encoder와 decoder에서 파라미터를 공유하는 것이 전체 파라미터 수를 절반으로 줄이면서도 상당한 성능 저하를 초래하지 않음을 보여주었다.

비지도 학습 목표 (Unsupervised objectives)
전반적으로, 우리는 무작위로 손상된 텍스트를 재구성하도록 모델을 학습시키는 대부분의 "denoising" 목표가 text-to-text 설정에서 유사한 성능을 보임을 발견했다. 결과적으로, 우리는 짧은 target sequence를 생성하는 목표를 사용하여 비지도 사전학습이 더욱 계산적으로 효율적이도록 제안한다.

데이터셋 (Data sets)
우리는 Common Crawl 웹 덤프에서 **휴리스틱하게 정제된 텍스트로 구성된 "Colossal Clean Crawled Corpus" (C4)**를 소개했다. C4를 추가 필터링을 사용하는 데이터셋과 비교했을 때, 우리는 in-domain의 레이블 없는 데이터로 학습하는 것이 일부 다운스트림 task에서 성능을 향상시킬 수 있음을 발견했다. 그러나 단일 도메인으로 제한하면 일반적으로 더 작은 데이터셋이 된다. 우리는 레이블 없는 데이터셋이 사전학습 과정에서 여러 번 반복될 정도로 작을 경우 성능이 저하될 수 있음을 별도로 보여주었다. 이는 일반적인 언어 이해 task를 위해 C4와 같이 크고 다양한 데이터셋을 사용하는 것의 중요성을 시사한다.

학습 전략 (Training strategies)
우리는 fine-tuning 동안 사전학습된 모델의 모든 파라미터를 업데이트하는 기본적인 접근 방식이 더 적은 파라미터를 업데이트하도록 설계된 방법들보다 우수하다는 것을 발견했다. 비록 모든 파라미터를 업데이트하는 것이 가장 비용이 많이 들지만 말이다. 우리는 또한 여러 task를 한 번에 학습시키는 다양한 접근 방식을 실험했는데, 우리의 text-to-text 설정에서는 이는 단순히 batch를 구성할 때 다른 데이터셋의 예시를 혼합하는 것에 해당한다. 멀티태스크 학습의 주요 관심사는 각 task의 학습 비율을 설정하는 것이다. 우리는 궁극적으로 비지도 사전학습 후 지도 fine-tuning을 수행하는 기본적인 접근 방식의 성능과 일치하는 혼합 비율 설정 전략을 찾지 못했다. 그러나 task 혼합에 대한 사전학습 후 fine-tuning을 수행하는 것이 비지도 사전학습과 유사한 성능을 보임을 발견했다.

확장 (Scaling)
우리는 추가적인 연산 자원을 활용하기 위한 다양한 전략을 비교했는데, 여기에는 더 많은 데이터로 모델 학습, 더 큰 모델 학습, 모델 앙상블 사용 등이 포함된다. 우리는 각 접근 방식이 성능에 상당한 향상을 가져왔음을 발견했지만, 더 많은 데이터로 작은 모델을 학습시키는 것보다 더 적은 단계로 큰 모델을 학습시키는 것이 종종 더 나은 성능을 보였다. 우리는 또한 모델 앙상블이 단일 모델보다 훨씬 더 나은 결과를 제공할 수 있음을 보여주었으며, 이는 추가적인 연산을 활용하는 직교적인 수단을 제공한다. 동일한 기본 사전학습 모델에서 fine-tuning된 모델들을 앙상블하는 것은 모든 모델을 완전히 별도로 사전학습하고 fine-tuning하는 것보다 성능이 떨어졌지만, fine-tune-only 앙상블은 여전히 단일 모델보다 훨씬 우수했다.

한계 돌파 (Pushing the limits)
우리는 위의 통찰력을 결합하여 **상당히 더 큰 모델(최대 110억 개의 파라미터)**을 학습시켜 우리가 고려한 많은 벤치마크에서 state-of-the-art 결과를 달성했다. 비지도 학습을 위해 우리는 C4 데이터셋에서 텍스트를 추출하고 연속적인 토큰 스팬을 손상시키는 denoising 목표를 적용했다. 우리는 개별 task에 fine-tuning하기 전에 멀티태스크 혼합으로 사전학습을 수행했다. 전반적으로, 우리 모델은 1조 개 이상의 토큰으로 학습되었다. 우리 결과의 재현, 확장 및 적용을 용이하게 하기 위해 코드, C4 데이터셋, 그리고 각 T5 변형에 대한 사전학습된 모델 가중치를 공개한다.

4.2 Outlook

대형 모델의 불편함
우리의 연구에서 예상 가능했지만 중요한 결과는 모델이 클수록 성능이 더 우수하다는 점이다. 이러한 모델을 실행하는 데 사용되는 하드웨어가 지속적으로 저렴해지고 강력해지고 있다는 사실은 규모를 확장하는 것이 더 나은 성능을 달성하기 위한 유망한 방법으로 계속될 수 있음을 시사한다 (Sutton, 2019). 그러나 더 작거나 저렴한 모델을 사용하는 것이 유용한 애플리케이션 및 시나리오는 항상 존재할 것이다. 예를 들어, **클라이언트 측 추론(client-side inference) 또는 연합 학습(federated learning)**을 수행할 때 그렇다 (Konečnỳ et al., 2015, 2016). 이와 관련하여, 전이 학습(transfer learning)의 유익한 활용 중 하나는 저자원(low-resource) task에서 좋은 성능을 달성할 가능성이다. 저자원 task는 (정의상) 더 많은 데이터를 레이블링할 자산이 부족한 환경에서 자주 발생한다. 따라서 저자원 애플리케이션은 추가 비용을 발생시킬 수 있는 컴퓨팅 자원에 대한 접근도 제한적인 경우가 많다. 결과적으로, 우리는 더 저렴한 모델로 더 강력한 성능을 달성하는 방법에 대한 연구를 지지하며, 이를 통해 전이 학습이 가장 큰 영향을 미 미칠 수 있는 곳에 적용될 수 있도록 해야 한다. 이러한 방향의 현재 연구에는 증류(distillation) (Hinton et al., 2015; Sanh et al., 2019; Jiao et al., 2019), 파라미터 공유(parameter sharing) (Lan et al., 2019), 조건부 계산(conditional computation) (Shazeer et al., 2017) 등이 있다.

더 효율적인 지식 추출
사전학습(pre-training)의 목표 중 하나는 (대략적으로 말해) 모델에 다운스트림 task의 성능을 향상시키는 범용적인 "지식"을 제공하는 것임을 상기하자. 현재 일반적인 관행인 본 연구에서 사용하는 방법은 손상된 텍스트 구간을 복원하도록 모델을 학습시키는 것이다. 우리는 이러한 단순한 기술이 모델에 범용적인 지식을 가르치는 매우 효율적인 방법이 아닐 수 있다고 생각한다. 더 구체적으로 말하면, 먼저 1조 개의 텍스트 토큰으로 모델을 학습시킬 필요 없이 좋은 fine-tuning 성능을 달성할 수 있다면 유용할 것이다. 이러한 방향의 일부 동시 연구는 실제 텍스트와 기계 생성 텍스트를 구별하도록 모델을 사전학습하여 효율성을 향상시킨다 (Clark et al., 2020).

Task 간 유사성 공식화
우리는 레이블이 없는 in-domain 데이터로 사전학습하는 것이 다운스트림 task의 성능을 향상시킬 수 있음을 관찰했다 (Section 3.4). 이 발견은 주로 SQuAD가 Wikipedia의 데이터를 사용하여 생성되었다는 사실과 같은 기본적인 관찰에 의존한다. 사전학습 task와 다운스트림 task 간의 "유사성"에 대한 더 엄격한 개념을 공식화하여, 어떤 레이블 없는 데이터 소스를 사용할지에 대해 더 원칙적인 선택을 할 수 있다면 유용할 것이다. 컴퓨터 비전 분야에서는 이러한 방향의 초기 실증 연구가 있다 (Huh et al., 2016; Kornblith et al., 2018; He et al., 2018). task 간의 관련성에 대한 더 나은 개념은 supervised 사전학습 task를 선택하는 데도 도움이 될 수 있으며, 이는 GLUE 벤치마크에 유용한 것으로 나타났다 (Phang et al., 2018).

언어 불가지론적 모델 (Language-agnostic models)
우리는 영어 전용 사전학습이 우리가 연구한 번역 task에서 state-of-the-art 결과를 달성하지 못했다는 점을 발견하고 실망했다. 우리는 또한 어떤 언어를 어휘가 인코딩할 수 있는지 미리 지정해야 하는 물류적 어려움을 피하는 데 관심이 있다. 이러한 문제들을 해결하기 위해, 우리는 언어 불가지론적 모델(language-agnostic models), 즉 텍스트의 언어에 관계없이 주어진 NLP task를 좋은 성능으로 수행할 수 있는 모델에 대해 더 깊이 연구하는 데 관심이 있다. 이는 영어가 세계 인구의 대다수에게 모국어가 아니라는 점을 고려할 때 특히 적절한 문제이다.
본 논문의 동기는 NLP를 위한 전이 학습에 대한 최근 연구의 활발한 흐름이었다. 우리가 이 작업을 시작하기 전에도 이러한 발전은 학습 기반 방법이 아직 효과적이지 않은 것으로 나타났던 환경에서 이미 돌파구를 마련했다. 우리는 현대 전이 학습 파이프라인에 어렵도록 특별히 설계된 task인 SuperGLUE 벤치마크에서 인간 수준의 성능에 거의 근접하는 등 이러한 추세를 계속할 수 있게 되어 기쁘다. 우리의 결과는 직관적이고 통합된 text-to-text 프레임워크, 새로운 C4 데이터셋, 그리고 체계적인 연구에서 얻은 통찰력의 조합에서 비롯되었다. 또한, 우리는 이 분야에 대한 실증적 개요와 현재 위치에 대한 관점을 제공했다. 우리는 일반적인 언어 이해라는 목표를 향한 전이 학습을 사용하는 지속적인 연구를 기대한다.

Acknowledgments

Grady Simon, Noah Fiedel, Samuel R. Bowman, Augustus Odena, Daphne Ippolito, Noah Constant, Orhan Firat, Ankur Bapna, Sebastian Ruder에게 본 원고에 대한 의견을 주셔서 감사드립니다. Zak Stone과 TFRC 팀의 지원에 감사드립니다. 데이터셋 생성에 대한 Austin Tarango의 지도에 감사드립니다. Melvin Johnson, Dima Lepikhin, Katrin Tomanek, Jeff Klingner, Naveen Arivazhagan에게 multi-task machine translation에 대한 통찰력을 주셔서 감사드립니다. Neil Houlsby에게 adapter layer에 대한 의견을 주셔서 감사드립니다. Olga Wichowska, Ola Spyra, Michael Banfield, Yi Lin, Frank Chen에게 인프라 지원에 감사드립니다. Etienne Pot, Ryan Sepassi, Pierre Ruyssen에게 TensorFlow Datasets 협업에 감사드립니다. Rohan Anil에게 Common Crawl 다운로드 파이프라인 지원에 감사드립니다. Robby Neale과 Taku Kudo에게 SentencePiece 작업에 감사드립니다. Jeffrey Li에게 C4 생성에 대한 누락된 세부 정보를 알려주셔서 감사드립니다. 그리고 Google Brain 팀의 다른 많은 구성원들에게 토론과 통찰력을 주셔서 감사드립니다.

Appendix A. Contributions

Colin은 본 프로젝트의 범위(scope)를 설계하고 논문을 작성했으며, Section 3.1부터 3.6까지의 모든 실험을 수행하고 코드베이스의 많은 부분을 기여했다. Noam은 text-to-text 프레임워크, 비지도 학습 objective, 데이터셋 혼합 전략을 포함한 많은 아이디어를 제공했으며, 기본 Transformer 모델과 그 아키텍처 변형을 구현하고 Section 3.7의 실험을 수행했다. Adam은 본 프로젝트의 모든 엔지니어링 측면을 총괄했으며, C4 데이터셋을 생성하고 데이터셋 파이프라인을 구현했으며, 다양한 벤치마크 데이터셋을 추가했다. Katherine은 실험을 조율하고, 문서를 작성 및 업데이트했으며, baseline 설계를 돕기 위한 실험을 수행하고 코드베이스의 여러 부분에 기여했다. Sharan은 필요한 데이터셋과 전처리기를 일부 기여하고 다양한 예비 실험을 수행했으며, 코드베이스의 오픈 소싱을 공동으로 이끌었다. Michael은 Winograd 데이터셋의 모든 측면을 담당했으며, 우리가 사용한 많은 데이터셋을 수집하고 인프라에 다양한 개선 및 수정 사항을 기여했으며, 일부 예비 실험을 수행했다. Yanqi는 합리적인 baseline을 결정하는 데 도움이 되는 실험을 수행하고 방법을 구현했으며, Section 3.7의 모델 최종 fine-tuning을 도왔다. Wei 또한 최종 fine-tuning을 돕고 일부 전처리기를 개선했다. Peter는 사전학습 데이터셋의 초기 버전을 프로토타입으로 제작하고 SQuAD 및 CNN/DM task와 관련된 문제를 해결했다. 모든 저자는 본 연구에서 따랐던 범위와 연구 방향을 설정하는 데 기여했다.

Appendix B. Converting WNLI to Our Text-to-Text Format

Section 2.4에서 논의했듯이, 우리는 WNLI 데이터로 학습하지 않는다. 대신, WNLI 테스트 세트를 평가할 때(Section 3.7의 결과), WNLI 테스트 세트를 "referent noun prediction" 텍스트-투-텍스트 형식으로 변환하여 WSC 및 DPR로 학습된 모델을 사용하여 평가할 수 있도록 한다. 우리의 WNLI 전처리기는 He et al. (2019)이 제안한 방식에서 영감을 받았다.
WNLI의 예시는 전제(premise), 가설(hypothesis), 그리고 가설이 참(True)인지 거짓(False)인지를 나타내는 레이블로 구성된다. Section 2.4의 예시를 사용하면, 가설은 "The city councilmen refused the demonstrators a permit because they feared violence."이고, 전제는 "The demonstrators feared violence."이며, 레이블은 False이다.
우리는 먼저 전제 내의 모든 대명사 위치를 찾는다(예시에서는 "they"). 그런 다음, 각 대명사를 앞뒤로 둘러싸는 단어들 중 가설의 부분 문자열(substring)이 되는 최대 단어 수를 찾는다(예시에서는 "feared violence"). 이때 대소문자와 구두점은 무시한다. 전제에 여러 개의 후보 대명사가 있을 경우, 가설의 가장 큰 부분 문자열에 의해 앞뒤로 둘러싸인 대명사를 선택한다.
그 후, 전제 내의 해당 대명사를 별표(*)로 감싸서 강조한다. 후보 명사(모델의 예측과 비교하여 True 또는 False 레이블을 얻는 데 사용됨)의 경우, 가설에서 일치하는 부분 문자열을 제거하고 선택적으로 소유격이 아닌 형태로 변환한다(결과적으로 "the demonstrators"가 됨).

Appendix C. Example Predictions on CNN/Daily Mail

우리 모델이 유창한 요약을 생성하는지 보여주기 위해, **최고 성능 모델(T5-11B)이 validation set에서 생성한 몇 가지 예시 요약(decode)**을 ground-truth 요약과 함께 제시한다. 이 예시들은 무작위로 선택되었으며, 특정 결과를 의도적으로 고른 것이 아니다.

Ground-truth: leopard gave up after spiky creature refused to back down in fight in kruger national park, south africa . wildlife enthusiast lisl moolman, 41, caught the bizarre battle while out on the road and armed with her camera. the leopard and porcupine tumbled out of the bushes and began to fight by roadside - watched by ms moolman . Prediction: leopard tried to make lunch out of a plucky porcupine in kruger national park, south africa . but the predator was put firmly in its place after the spiky creature refused to back down during a fight . wildlife enthusiast lisl moolman, 41, caught the bizarre battle while out on the road and armed with her camera .
Ground-truth: researchers say homes are a hotbed of undiscovered species - study of 40 north carolina homes found 8,000 bacterial and archaeal taxa - 11 houses in california revealed a great variety of fungus among us .

Prediction: researchers estimate that the indoor biome makes up about 0.5 percent of ice-free land, or about 247,000 square miles, almost the size of texas . a study of 40 houses in north carolina used genomic technologies to document more than 8,000 bacterial and archaeal taxa . another study of 50 houses in the same state described more than 750 types of arthropods, including insects and spiders . an examination of 11 houses in california found a great variety of fungus among us . 3. Ground-truth: executions have been temporarily halted in the state after the drug used for lethal injections appeared faulty on monday night . kelly gissendaner had her death delayed for a second time when it was found that the lethal pentobarbital dose appeared cloudy . state officials dithered over the decision, changing their mind three times before deciding not to take the risk that it wouldn't work . it is 'essential that executions are carried out in a constitutional manner,' said georgia attorney general sam olens .

Prediction: the execution of kelly gissendaner, the only woman on georgia's death row, was delayed for a second time on monday . the execution team found that the lethal pentobarbital dose appeared cloudy . the cloudy drug bolstered death penalty opponents, who have been vocal in their opposition after three botched executions in other parts of the country. 4. Ground-truth: dani alves was not selected for the brazil squad to face france and chile . barcelona defender was filmed serving up hot dogs to people on saturday . this week alves released a charity single with former team-mat jose pinto . alves looks set to leave barcelona on a free transfer this summer . reports in spanish press claim he will sign for paris saint-germain -

Prediction: dani alves was not selected for brazil's friendlies against france and chile. the barcelona right back has released a charity single with jose pinto . alves was filmed serving up snacks from behind the counter of a hot dog bar on saturday . alves is yet to be offered a new deal at the nou camp . click here for all the latest barcelona news.

Appendix D. Preprocessed Examples

이 섹션에서는 우리가 고려하는 각 데이터셋에 대한 전처리(preprocessing) 예시를 제공한다.

D. 1 CoLA

Original input:

Sentence: John made Bill master of himself. Processed input: cola sentence: John made Bill master of himself. Original target: 1 Processed target: acceptable

D. 2 RTE

Sentence 1: 유고슬라비아 이탈리아인 중 소수가 슬로베니아에 정착했다 (1991년 인구 조사에서 슬로베니아 주민 약 3000명이 스스로를 이탈리아계라고 밝혔다).

Sentence 2: 슬로베니아에는 3,000명의 주민이 있다. Processed input: rte sentence1: A smaller proportion of Yugoslavia's Italians were settled in Slovenia (at the 1991 national census, some 3000 inhabitants of Slovenia declared themselves as ethnic Italians). sentence2: Slovenia has 3,000 inhabitants.

Original target: 1 Processed target: not_entailment

D. 3 MNLI

Original input:

Hypothesis: The St. Louis Cardinals have always won. Premise: yeah well losing is i mean i'm i'm originally from Saint Louis and Saint Louis Cardinals when they were there were uh a mostly a losing team but

Processed input: mnli hypothesis: The St. Louis Cardinals have always won. premise: yeah well losing is i mean i'm i'm originally from Saint Louis and Saint Louis Cardinals when they were there were uh a mostly a losing team but

Original target: 2 Processed target: contradiction

D. 4 MRPC

Original input:

Sentence 1: 우리는 9월 11일의 경험이라는 프리즘을 통해 기존 증거를 새로운 시각으로 보았기 때문에 행동했습니다. Sentence 2: 오히려 미국은 행정부가 "9월 11일의 경험이라는 프리즘을 통해 기존 증거를 새로운 시각으로 보았기" 때문에 행동했다.

Processed input: mrpc sentence1: We acted because we saw the existing evidence in a new light, through the prism of our experience on 11 September, " Rumsfeld said . sentence2: Rather, the US acted because the administration saw " existing evidence in a new light, through the prism of our experience on September 11 " .

Original target: 1 Processed target: equivalent

D. 5 QNLI

Original input:

질문: Jebe는 어디서 죽었는가? 문장: 칭기즈칸은 곧 수부타이를 몽골로 소환했고, 제베는 사마르칸트로 돌아오는 길에 죽었다.

처리된 입력: qnli question: Where did Jebe die? sentence: Genghis Khan recalled Subutai back to Mongolia soon afterwards, and Jebe died on the road back to Samarkand.

원문 타겟: 0 처리된 타겟: entailment

D. 6 QQP

질문 1: 고대 로마에서 당신을 매우 매력적으로 만들었을 특성은 무엇입니까? 질문 2: 신입으로서 IT 회사에 합류할 기회를 어떻게 얻을 수 있습니까? 처리된 입력: qqp question1: What attributes would have made you highly desirable in ancient Rome? question2: How I GET OPPERTINUTY TO JOIN IT COMPANY AS A FRESHER?

원문 타겟: 0 처리된 타겟: not_duplicate

D. 7 SST2

Original input:

Sentence: it confirms fincher 's status as a film maker who artfully bends technical know-how to the service of psychological insight .

Processed input: sst2 sentence: it confirms fincher 's status as a film maker who artfully bends technical know-how to the service of psychological insight -

Original target: 1 Processed target: positive

D. 8 STSB

Original input:

Sentence 1: Puretunes 측 대표들은 수요일에 즉시 연락이 닿지 않아 논평을 들을 수 없었다. Sentence 2: Puretunes 측 대표들은 목요일에 소송에 대해 논평하기 위해 찾을 수 없었다.

Processed input: stsb sentence1: Representatives for Puretunes could not immediately be reached for comment Wednesday. sentence2: Puretunes representatives could not be located Thursday to comment on the suit.

Original target: 3.25 Processed target: 3.2

D. 9 CB

Original input:

Hypothesis: Valence was helping Premise: Valence the void-brain, Valence the virtuous valet. Why couldn't the figger choose his own portion of titanic anatomy to shaft? Did he think he was helping?

Processed input: cb hypothesis: Valence was helping premise: Valence the void-brain, Valence the virtuous valet. Why couldn't the figger choose his own portion of titanic anatomy to shaft? Did he think he was helping?

Original target: 1 Processed target: contradiction

D. 10 COPA

Original input:

Question: effect Premise: Political violence broke out in the nation. Choice 1: Many citizens relocated to the capitol. Choice 2: Many citizens took refuge in other territories. Processed input: copa choice1: Many citizens relocated to the capitol. choice2: Many citizens took refuge in other territories. premise: Political violence broke out in the nation. question: effect

Original target: 1 Processed target: True

D. 11 MultiRC

Original input:

Answer: 전통적인 아침 식사 대신 파이만 있었다. Paragraph: Sent 1: 옛날 옛적에 조이(Joey)라는 이름의 다람쥐가 살았습니다. Sent 2: 조이는 밖에 나가 사촌 지미(Jimmy)와 노는 것을 좋아했습니다. Sent 3: 조이와 지미는 함께 재미있는 게임을 하며 항상 웃었습니다. Sen 4: 어느 날, 조이와 지미는 줄리 이모의 연못으로 함께 수영을 갔습니다. Sent 5: 조이는 떠나기 전에 음식을 먹기 위해 아침 일찍 일어났습니다. Sent 6: 그는 파이 외에는 아무것도 찾을 수 없었습니다! Sent 7: 보통 조이는 아침 식사로 시리얼, 과일(배), 또는 오트밀을 먹었습니다. Sent 8: 식사를 마친 후, 그와 지미는 연못으로 갔습니다. Sent 9: 가는 길에 그들은 친구 잭 래빗(Jack Rabbit)을 만났습니다. Sent 10: 그들은 물속으로 뛰어들어 몇 시간 동안 수영했습니다. Sent 11: 해는 떠 있었지만, 바람은 차가웠습니다. Sent 12: 조이와 지미는 물에서 나와 집으로 걸어가기 시작했습니다. Sent 13: 그들의 털은 젖어 있었고, 바람이 그들을 춥게 만들었습니다. Sent 14: 집에 도착하자 그들은 몸을 말렸고, 지미는 그가 가장 좋아하는 보라색 셔츠를 입었습니다. Sent 15: 조이는 빨간색과 녹색 점이 있는 파란색 셔츠를 입었습니다. Sent 16: 두 다람쥐는 조이의 엄마 재스민(Jasmine)이 만든 음식을 먹고 잠자리에 들었습니다. Question: 조이가 아침 식사를 위해 일어났을 때 왜 놀랐나요? Processed input: multirc question: Why was Joey surprised the morning he woke up for breakfast? answer: There was only pie to eat, rather than traditional breakfast foods paragraph: Sent 1: Once upon a time, there was a squirrel named Joey. Sent 2: Joey loved to go outside and play with his cousin Jimmy. Sent 3: Joey and Jimmy played silly games together, and were always laughing. Sent 4: One day, Joey and Jimmy went swimming together

at their Aunt Julie's pond.<br><b>Sent 5: </b>Joey woke up early in the morning
to eat some food before they left.<br><b>Sent 6: </b>He couldn't find anything
to eat except for pie!<br><b>Sent 7: </b>Usually, Joey would eat cereal, fruit
(a pear), or oatmeal for breakfast.<br><b>Sent 8: </b>After he ate, he and
Jimmy went to the pond.<br><b>Sent 9: </b>On their way there they saw their
friend Jack Rabbit.<br><b>Sent 10: </b>They dove into the water and swam for
several hours.<br><b>Sent 11: </b>The sun was out, but the breeze was cold.<br><b>Sent
12: </b>Joey and Jimmy got out of the water and started walking home.<br><b>Sent
13: </b>Their fur was wet, and the breeze chilled them.<br><b>Sent 14: </b>When
they got home, they dried off, and Jimmy put on his favorite purple shirt.<br><b>Sent
15: </b>Joey put on a blue shirt with red and green dots.<br><b>Sent 16: </b>The
two squirrels ate some food that Joey's mom, Jasmine, made and went off to
bed.<br>

D. 12 WiC

Original input:

POS: N Sentence 1: 그의 행동의 숙고가 모욕적이었다. Sentence 2: 배심원단의 심의. Word: deliberation Processed input: wic pos: $N$ sentence1: It was the deliberation of his act that was insulting . sentence2: The deliberations of the jury . word: deliberation

Original target: 0 Processed target: False

D. 13 WSC and DPR

Span 2 text: it Span 1 text: stable Span 2 index: 20 Span 1 index: 1 Text: The stable was very roomy, with four good stalls; a large swinging window opened into the yard, which made it pleasant and airy.

Processed input: wsc: The stable was very roomy, with four good stalls; a large swinging window opened into the yard, which made it pleasant and airy.

Original target: 1

Processed target: stable

D. 14 CNN/Daily Mail

Original input: marouane fellaini and adnan januzaj continue to show the world they are not just teammates but also best mates. the manchester united and belgium duo both posted pictures of themselves out at a restaurant on monday night ahead of their game against newcastle on wednesday . januzaj poses in the middle of fellaini and a friend looking like somebody who failed to receive the memo about it being a jackson 5 themed night. premier league duo adnan januzaj and marouane fellaini pose with a friend on the dance floor . manchester united and belgium duo fellaini and januzaj are good friends both on and off the pitch . manchester united ace fellaini runs over to the bench to celebrate his goal against qpr with friend januzaj . the disco effect in the background adds to the theory, but januzaj doesn't seem to mind as they later pose on the dance floor with other friends. united haven't had too many reasons to have a song and dance this season so it seems they may be hitting the discotheques as another form of release. however, victory against newcastle on wednesday would leave manager louis van gaal at least tapping his toes as they continue to fight for a champions league spot this season. januzaj and robin van persie join fellaini in celebrating in front of the manchester united fans at west brom . januzaj receives some words of wisdom from manchester united's dutch manager louis van gaal . januzaj and fellaini are joined by some friends as they take to the dance floor ahead of the newcastle game .

Processed input: summarize: marouane fellaini and adnan januzaj continue to show the world they are not just teammates but also best mates. the manchester united and belgium duo both posted pictures of themselves out at a restaurant on monday night ahead of their game against newcastle on wednesday . januzaj poses in the middle of fellaini and a friend looking like somebody who failed to receive the memo about it being a jackson 5 themed night. premier league duo adnan januzaj and marouane fellaini pose with a friend on the dance floor . manchester united and belgium duo fellaini and januzaj are good friends both on and off the pitch . manchester united ace fellaini runs over to the bench to celebrate his goal against qpr with friend januzaj . the disco effect in the background adds to the theory, but januzaj doesn't seem to mind as they later pose on the dance floor with other friends. united haven't had too many reasons to have a song and dance this season so it seems they may be hitting the discotheques as another form of release. however, victory against newcastle on wednesday would leave manager louis van gaal at least tapping his toes as they continue to fight for a champions league spot this season. januzaj and robin van persie join fellaini in celebrating in front of the manchester united fans at west brom . januzaj receives some words of wisdom from manchester united's dutch manager louis van gaal . januzaj and fellaini are joined by some friends as they take to the dance floor ahead of the newcastle game .

Original target: the belgian duo took to the dance floor on monday night with some friends . manchester united face newcastle in the premier league on wednesday . red devils will be looking for just their second league away win in seven . louis van gaal's side currently sit two points clear of liverpool in fourth.

Processed target: the belgian duo took to the dance floor on monday night with some friends . manchester united face newcastle in the premier league on wednesday . red devils will be looking for just their second league away win in seven . louis van gaal's side currently sit two points clear of liverpool in fourth.

D. 15 SQuAD

Original input:

질문: 환자의 폐에 증가된 산소 농도는 무엇을 대체하는가? 본문: 고압(hyperbaric) 의학은 특수 산소 챔버를 사용하여 환자 주변의 O2 부분압을 증가시키고, 필요시 의료진 주변의 O2 부분압도 증가시킨다. 일산화탄소 중독, 가스 괴저, 감압병('잠수병')은 때때로 이러한 장치를 사용하여 치료된다. 폐의 O2 농도 증가는 헤모글로빈의 헴(heme) 그룹에서 일산화탄소를 대체하는 데 도움이 된다. 산소 가스는 가스 괴저를 유발하는 혐기성 박테리아에 유독하므로, 산소 부분압을 증가시키는 것은 이들을 죽이는 데 도움이 된다. 감압병은 잠수 후 너무 빨리 감압하는 다이버에게 발생하며, 주로 질소와 헬륨과 같은 불활성 기포가 혈액에 형성된다. 가능한 한 빨리 O2 압력을 증가시키는 것이 치료의 일부이다.

정답: 일산화탄소

D. 16 WMT English to German

Original input: "Luigi often said to me that he never wanted the brothers to end up in court," she wrote.

Processed input: translate English to German: "Luigi often said to me that he never wanted the brothers to end up in court," she wrote.

Original target: "Luigi sagte oft zu mir, dass er nie wollte, dass die Brüder vor Gericht landen", schrieb sie.

Processed target: "Luigi sagte oft zu mir, dass er nie wollte, dass die Brüder vor Gericht landen", schrieb sie.

D. 17 WMT English to French

Original input: This image section from an infrared recording by the Spitzer telescope shows a "family portrait" of countless generations of stars: the oldest stars are seen as blue dots, while more difficult to identify are the pink-coloured "new-borns" in the star delivery room.

Processed input: This image section from an infrared recording by the Spitzer telescope shows a "family portrait" of countless generations of stars: the oldest stars are seen as blue dots, while more difficult to identify are the pink-coloured "new-borns" in the star delivery room.

Original target: 스피처 망원경의 적외선 기록에서 가져온 이 이미지 섹션은 수많은 세대의 별들의 "가족 초상화"를 보여줍니다. 가장 오래된 별들은 파란색 점으로 보이며, 식별하기 더 어려운 것은 별 탄생실에 있는 분홍색 "신생아"들입니다.

Processed target: 스피처 망원경의 적외선 기록에서 가져온 이 이미지 섹션은 수많은 세대의 별들의 "가족 초상화"를 보여줍니다. 가장 오래된 별들은 파란색 점으로 보이며, 식별하기 더 어려운 것은 별 탄생실에 있는 분홍색 "신생아"들입니다.

D. 18 WMT English to Romanian

[Korean Translation] Original input: Taco Bell said it plans to add 2,000 locations in the US by 2022. Processed input: translate English to Romanian: Taco Bell said it plans to add 2,000 locations in the US by 2022.

Original target: Taco Bell a afirmat că, până în 2022, intenționează să deschidă 2000 de restaurante în SUA.

Processed target: 타코벨은 2022년까지 미국 내에 2,000개의 매장을 추가할 계획이라고 밝혔다.

Appendix E. Scores on Every Task for All Experiments

다음 표는 Section 3.2부터 3.6까지 설명된 실험에서 각 task별로 달성된 점수를 나열한 것이다.

Table Experiment	Score	CoLA	SST-2	MRPC	MRPC	STSB	QNLI										SQuAD		Score	BoolQ <br> BoolQ Acc	CB <br> CB	CB	COPA	F1				RTE		WSC	EnDe		WMT BLEU		EnRo
															R-2-F	R-L-F	EM	F1	Average						EM	F1	EM
1 1 $\quad \begin{gathered}\text { * Baseline average } \\ \text { Baseline standard deviation }\end{gathered}$ <br> No pre-training	0.235	53.84	92.68	92.07	88.92	0.374	87.94	88.67	91.56	84.24	84.57	90.48	76.28	41.33	0.065	38.77	80.88	0.226	71.36	76.62	3.237	91.96	66.20	66.13	25.78	69.05	68.16	75.34	68.04	78.56	26.98		39.82		27.65
	66.22	12.29	80.62	81.42	73.04	72.58	72.97	81.94	86.62	68.02	67.98	75.69	58.84	39.19	17.60	36.69	50.31	61.97	53.04	65.38	71.61	76.79	62.00	59.10	0.84	20.33	17.95	54.15	54.08	65.38	25.86		39.77		24.04
2 * Enc/dec, denoising <br> Enc/dec, shared, denoising <br> Enc/dec, 6 layers, denoising <br> Language model, denoising <br> Prefix LM, denoising <br> Enc/dec, LM <br> Enc/dec, shared, LM <br> $\begin{array}{ll}2 & \text { Enc/dec, } 6 \text { layers, LM } \\ 2 & \text { Language model, LM } \\ & \text { Prefix LM, LM }\end{array}$ <br> Enc/dec, 6 layers, LM <br> Language model, LM <br> Prefix LM, LM	80.88	53.84	92.68	92.07	88.92	88.02	87.94	88.67	91.56	84.24	84.57	90.48	76.28	41.33	41.11	38.77	80.88	88.81	71.36	76.62	91.22	91.96	66.20	66.13	25.78	69.05	68.16	75.34	68.04	78.56	26.98		39.82		27.65
	74.70	24.50	90.60	86.08	78.92	85.22	85.42	85.40	88.99	76.72	77.05	86.02	64.62	39.49	40.46	36.91	61.14	71.37	55.02	65.47	60.08	71.43	58.00	43.03	2.94	53.35	52.31	53.07	58.62	63.46	25.09		35.28		25.86
	79.56	42.03	91.86	91.64	88.24	87.13	87.00	88.21	91.15	81.68	81.66	88.54	65.70	40.67	4.07	38.13	76.02	84.85	64.29	72.23	85.74	89.29	57.00	60.53	16.26	59.28	58.30	65.34	64.89	70.19	26.27		39.17		26.86
	79.60	44.83	92.09	1.64	88.24	86.03	85.87	87.77	91.02	81.74	82.29	89.16	65.34	40.16	40.29	37.59	76.35	84.86	63.50	70.49	91.41	87.50	55.00	60.51	16.89	57.83	56.73	63.54	64.89	7.19	26.2		38.42		27.05
	73.78	28.53	89.79	85.23	78.68	84.22	86.32	84.88	88.70	74.94	75.77	84.84	58.84	39.66	38.97	37.70 36.37	76.87	64.55	56.51	64.22	93.37	91.07	64.00	53.04	1.05	46.81	45.78	58.84	56.74	71.15	25.23		34.31		26.76
Language modeling with prefix BERT-style (Devlin et al., 2018) Deshuffling	82.96	44.22	93.00	91.68	88.48	87.20	87.18	88.39	91.41	82.66	83.09	89.29	68.95	40.71	41.27	38.15	77.99	88.24	65.27	73.55	83.95	87.50	55.00	59.65	18.89	61.76	60.76	68.59	65.67	73.08	26.86		39.73		27.49
		22.82	87.16	86.88	81.13	84.03	83.82	86.38	89.90	76.30	76.34	84.18	58.84	40.75	18.59	38.10	67.61	76.76	58.47	69.17	63.70	78.57	56.00	59.85	12.70	45.52	44.36	57.04	64.89	68.27	26.11		40.03 39.30		27.41 25.62
5 BERT-style (Devlin et al., 2018) 5 MASS-style (Song et al., 2019) $\star$ Replace corrupted spans	82.96	52.49	92.55	92.79	89.95	88.21	87.66	88.47	91.44	83.60	84.05	90.33	75.45	41.27	41.16	38.72	80.65	88.24	69.85	76.48	94.37	94.64	61.00	63.29	25.08	66.76	65.85	72.20	69.12	75.00	26.78		40.03		27.41
	83.28	53.84	92.68	92.07	88.92	88.02	86.85	88.56	91.56	84.24	84.57	90.48	79.42	41.33	41.27	38.77	80.88	88.28	71.36	76.62	91.22	94.64	66.20	66.13	25.78	69.05	68.16	75.34	68.04	74.04	27.07		39.82		27.65
6 6 $\quad \begin{aligned} \text { Corruption rate }=10 \% \\ \text { - Corruption rate }=15 \%\end{aligned}$ Corruption rate $=25 \%$ Corruption rate $=50 \%$	.	52.71	92.09	91.55	88.24	88.19	88.15	88.47	91.40	83.50	84.51	90.33	75.45	41.05	41.33	38.53	80.38	88.36	69.55	74.98	92.37	92.86	62.00	66.04	24.66	67.93	67.09	70.76	67.24	75.96	26.87		39.28	39.82	27.44
	83.00	53.47	93.00	92.44	89.46	87.36	87.36	88.68	91.53	84.44	84.15	90.77	74.01	41.69	19.54	39.14	80.96	88.61	70.48	76.39	93.02	92.86	68.00	65.46	24.66	68.20	67.39	73.65	67.87	72.12	27.04				27.47 27.49
																																	39.83
7 7 7 7 <br> $\star$ Baseline (i.i.d.) 2 <br> Average span length $=3$ <br> Average span length $=5$ <br> Average span length $=10$	83.28	46.26	91.63	91.11	87.99	87.87	87.64	88.70	91.57	83.64	84.10	90.24	70.76	41.51	19.32	38.89	79.80	87.76	70.33	75.02	93.05	92.86	68.00	62.97	24.13	64.94	64.13	72.20	68.50	77.88	27.01	26.98	39.90		27.49
	83.49	53.82	92.20	93.05	90.44	87.85	87.71	88.42	91.40	84.28	84.46	90.88	77.62	41.23	41.50	38.69	82.09	89.66	72.20	77.06	90.43	91.07	70.00	66.28	26.13	71.34 70.84	70.61	75.45	68.34	78.85	26.76 26.86		39.65		27.62
	83.40	52.12	93.12	92.63	89.71	88.70	88.47	88.84	91.64	84.32	84.29	90.79	76.90	41.39	41.39		82.05	89.79	72.23	77.06	83.06				30.12	71.36	70.53	75.81	69.91	79.81	26.88		39.40		27.53
	82.85	53.84		91.95	88.92	88.02			91.63		84.57		76.17	41.38	19.24 <br> 19.33	38.80 <br> 38.80	81.84	89.39	70.44	76.45	87.40	89.29 <br> 89.29	69.00 <br> 65.00	6687 <br> 66.87	29.59		68.16	72.56	6755	75.86	26.79
8 8 8 <br> $\star \mathrm{C} 4$ <br> C4, unfiltered <br> RealNews-like <br> WebText-like <br> Wikipedia	83.28		92.68	92.07					91.56	84.24

논문 요약: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Abstract

1. Introduction

2. Setup

2.1 Model

2.2 The Colossal Clean Crawled Corpus

2.3 Downstream Tasks

2.4 Input and Output Format

3. Experiments

3.1 Baseline

3.1.1 Model

3.1.2 Training

3.1.3 Vocabulary

3.1.4 Unsupervised Objective

3.1.5 Baseline Performance

3.2 Architectures

3.2.1 Model Structures

3.2.2 Comparing Different Model Structures

3.2.3 Objectives

3.2.4 Results

3.3 Unsupervised Objectives

3.3.1 Disparate High-Level Approaches

3.3.2 Simplifying the BERT Objective

3.3.3 Varying the Corruption Rate

3.3.4 Corrupting Spans

3.3.5 Discussion

3.4 Pre-training Data set

3.4.1 Unlabeled Data Sets

3.4.2 Pre-training Data set Size

3.5 Training Strategy

Exploring the Limits of Transfer Learning

3.5.1 Fine-tuning Methods

3.5.2 Multi-task Learning

3.5.3 Combining Multi-Task Learning with Fine-Tuning

3.6 Scaling

3.7 Putting It All Together

4. Reflection

4.1 Takeaways

4.2 Outlook

Acknowledgments

Appendix A. Contributions

Appendix B. Converting WNLI to Our Text-to-Text Format

Appendix C. Example Predictions on CNN/Daily Mail

Appendix D. Preprocessed Examples

D. 1 CoLA

Original input:

D. 2 RTE

D. 3 MNLI

Original input:

D. 4 MRPC

Original input:

D. 5 QNLI

Original input:

D. 6 QQP

D. 7 SST2

Original input:

D. 8 STSB

Original input:

D. 9 CB

Original input:

D. 10 COPA

Original input:

D. 11 MultiRC

Original input:

D. 12 WiC

Original input:

D. 13 WSC and DPR

D. 14 CNN/Daily Mail

D. 15 SQuAD

Original input:

D. 16 WMT English to German

D. 17 WMT English to French

D. 18 WMT English to Romanian

Appendix E. Scores on Every Task for All Experiments