Rae, Jack W., et al. "Scaling language models: Methods, analysis & insights from training gopher." arXiv preprint arXiv:2112.11446 (2021).

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

Abstract

Language modelling은 방대한 양의 인간이 작성한 지식 저장소를 활용하여 세상을 더 잘 예측하고 이해함으로써, 지능형 통신 시스템을 향한 발걸음을 제공한다. 본 논문에서는 수천만 개의 파라미터를 가진 모델부터 2,800억 개의 파라미터를 가진 Gopher라는 모델에 이르기까지, 다양한 모델 규모에 따른 Transformer 기반 language model의 성능 분석을 제시한다. 이 모델들은 152개의 다양한 task에서 평가되었으며, 대부분의 task에서 state-of-the-art 성능을 달성했다.

모델 규모 확장으로 인한 성능 향상은 **독해(reading comprehension), 사실 확인(fact-checking), 유해 언어 식별(identification of toxic language)**과 같은 분야에서 가장 두드러졌지만, 논리적 및 수학적 추론에서는 상대적으로 적은 이점을 보였다. 우리는 학습 데이터셋과 모델의 동작에 대한 포괄적인 분석을 제공하며, 모델 규모와 편향(bias) 및 유해성(toxicity)의 교차점을 다룬다. 마지막으로, language model의 AI 안전 적용 및 다운스트림 피해 완화에 대해 논의한다.

Keywords: Natural Language Processing, Language Models, Deep Learning

1. Introduction

자연어 소통은 아이디어를 인간 또는 인공지능 시스템 간에 효율적으로 공유할 수 있게 해주므로, 지능의 핵심 요소이다. 언어의 일반성 덕분에 우리는 많은 지능 task를 자연어 입력을 받아 자연어 출력을 생성하는 방식으로 표현할 수 있다.

Autoregressive language modelling은 텍스트 시퀀스의 과거로부터 미래를 예측하는 방식으로, 수많은 인지 task를 공식화할 수 있는 간단하면서도 강력한 objective를 제공한다. 동시에 이는 인터넷, 책, 기사, 코드 및 기타 글쓰기와 같은 풍부한 학습 데이터를 활용할 수 있게 해준다. 그러나 이 학습 objective는 우리가 관심 있는 측면뿐만 아니라 시퀀스 전체를 예측하기 때문에, 어떤 특정 목표나 응용에 대한 근사치일 뿐이다. 그럼에도 불구하고, 우리는 이러한 모델들을 적절한 주의를 기울여 다룬다면, 인간 지능의 풍부함을 포착하는 강력한 도구가 될 것이라고 믿는다.

언어 모델을 지능을 향한 재료로 사용하는 것은 **원래의 응용 분야(제한된 대역폭 통신 채널을 통한 텍스트 전송)**와는 대조적이다. Shannon의 정보의 수학적 이론(Mathematical Theory of Communication) (Shannon, 1948)은 자연어의 통계적 모델링과 압축을 연결하여, 언어 모델의 cross entropy를 측정하는 것이 압축률을 측정하는 것과 동일함을 보여주었다. Shannon은 미리 계산된 텍스트 통계 테이블 (Dewey, 1923)을 통해 초기 언어 모델을 실제 데이터에 맞추었으며, 이는 모델 복잡도가 텍스트 압축 개선 및 보다 현실적인 텍스트 생성과 관련이 있음을 보여주었다. 그러나 지능과의 관계는 처음부터 존재했다: Shannon은 충분히 복잡한 모델이 인간의 의사소통을 적절하게 닮을 것이라고 가정했으며, 모방 게임(Imitation Game) (Turing, 1950)은 이 연결을 확고히 했다. 데이터 압축(예측을 통한)과 지능 간의 관계는 이후 더욱 확장되었다 (Chater (1999); Legg and Hutter (2007); Wolff (1982) 참조).

더 나은 언어 모델을 향한 핵심 동력은 현대 컴퓨팅이었다. 언어 모델은 펜과 종이로 시작된 기원에서부터, 컴퓨팅 능력의 기하급수적인 증가 (Moore et al., 1965)에 힘입어 용량과 예측 능력 면에서 혁신을 이루었다. 1990년대와 2000년대에는 n-gram 모델이 규모와 더 나은 smoothing 접근 방식 (Ney et al., 1994)에서 발전을 보였으며, 여기에는 2조 개의 텍스트 토큰으로 학습된 3천억 개의 n-gram 모델 (Brants et al., 2007)도 포함되었다. 이러한 모델들은 음성 인식 (Jelinek, 1997), 철자 교정 (Brill and Moore, 2000), 기계 번역 (Brown et al., 1990) 및 기타 여러 분야에 적용되었다. 그러나 n-gram 모델은 context 길이가 증가함에 따라 통계적으로나 계산적으로 비효율적이 되어, 모델링할 수 있는 언어의 풍부함이 제한된다.

지난 20년 동안 언어 모델은 언어의 구조를 암묵적으로 포착하는 신경망으로 발전했다 (Bengio et al., 2003; Graves, 2013; Jozefowicz et al., 2016; Mikolov et al., 2010; Radford et al., 2019). 이러한 발전은 규모와 네트워크 아키텍처 (Bahdanau et al., 2014; Hochreiter and Schmidhuber, 1997; Vaswani et al., 2017) 모두에 의해 주도되었다. ?와 Kaplan et al. (2020)은 각각 순환 신경망(recurrent neural network)과 Transformer 신경 언어 모델에 대해 cross entropy loss와 모델 크기 간의 멱법칙(power law) 관계를 독립적으로 발견했다. 경험적으로 예측된 규모에 따른 성능 향상은 Generative Pre-trained Transformer 3 (GPT-3, Brown et al. (2020)) 에 의해 실제로 구현되었다. GPT-3는 3천억 개 이상의 텍스트 토큰으로 학습된 1,750억 개의 파라미터를 가진 Transformer로, 학습에 제타플롭스(zettaflops) 규모의 컴퓨팅 자원을 소모했는데, 이는 이전 연구보다 한 자릿수 더 큰 규모였다 (Rosset, 2020). GPT-3는 전례 없는 생성 품질과 함께 많은 자연어 처리(NLP) task에서 일반적인 능력을 보여주었으며, 특히 예시를 prompt로 제공했을 때 (few-shot prompting) 뛰어난 성능을 보였다.

본 논문에서는 state-of-the-art 대규모 언어 모델을 학습하기 위한 프로토콜을 설명하고, Gopher라고 불리는 2,800억 개의 파라미터를 가진 모델을 제시한다. Section 3에서는 아키텍처 사양, 최적화, 인프라, 그리고 고품질 텍스트 데이터셋인 MassiveText의 큐레이션 방법을 설명한다. 우리는 지능의 여러 다양한 측면을 탐구하는 152개 task에 걸쳐 벤치마크 성능에 대한 광범위한 분석을 수행하고, Section 4에서 주요 결과를 요약한다. Gopher가 비교 가능한 결과가 있는 task의 약 81%에서 현재 state-of-the-art 언어 모델보다 성능을 향상시켰으며, 특히 사실 확인 및 일반 지식과 같은 지식 집약적인 영역에서 두드러진 성과를 보였다.

유해한 콘텐츠는 Gopher의 학습 데이터셋과 많은 잠재적인 다운스트림 응용 프로그램 모두에서 발생하므로, Section 5에서는 **모델의 유해성(toxicity)과 편향(bias)**을 조사하며, 규모가 이러한 속성에 미치는 영향에 초점을 맞춘다. 우리는 더 큰 모델이 유해한 prompt가 주어졌을 때 유해한 응답을 생성할 가능성이 더 높지만, 유해성을 더 정확하게 분류할 수도 있음을 발견했다. 또한 Section 6에서는 prompting을 통해 대화형 상호작용 설정에서 Gopher를 분석하고, 모델의 정성적 능력과 한계를 보여주기 위해 몇 가지 대화 기록을 제시한다.

마지막으로, Section 7에서는 이러한 모델의 윤리적이고 안전한 적용에 대해 논의하며, 학습 전후에 완화해야 할 바람직하지 않은 행동 유형을 포함한다. 우리는 응용 프로그램 중심의 안전과 언어 모델이 더 안전한 지능형 기술 연구를 가속화할 잠재력에 대해 논의한다.

2. Background

Language modelling은 애플리케이션에 따라 문장, 단락 또는 문서가 될 수 있는 텍스트의 확률 $P(S)$ 를 모델링하는 것을 의미한다. 이는 텍스트를 **토큰화(tokenizing)**하여 수행된다: 즉, 텍스트를 정수 값 토큰의 시퀀스로 매핑하는 것이다: $g(S)=X=\left(X_{1}, X_{2}, \ldots, X_{n}\right) \in V^{n}$ . 여기서 $V$ 는 어휘(vocabulary, 유한한 양의 정수 집합)이고 $n$ 은 결과 시퀀스 길이이다. 그리고 이 $X$ 를 모델링한다. 토큰화는 모든 문자열을 고유하게 토큰화할 수 있는 open-vocabulary 방식(예: byte-level 모델링)이거나, 텍스트의 일부만 고유하게 표현할 수 있는 closed-vocabulary 방식(예: 단어 목록 및 단일 out-of-vocabulary 토큰)일 수 있다. 우리는 Radford et al. (2018)의 방식에 따라 UTF-8 바이트로 backoff하는 byte-pair encoding (BPE)의 혼합을 통해 open-vocabulary 토큰화를 사용한다.

토큰 시퀀스 $X$ 를 모델링하는 일반적인 방법은 chain rule을 사용하는 것이다: $P(X)=P\left(X_{1}, X_{2}, \ldots, X_{n}\right)= \prod_{i=1}^{n} P\left(X_{i} \mid X_{<i}\right)$ . 이는 autoregressive sequence modelling이라고도 알려져 있는데, 각 시간 단계에서 미래(이 경우 미래 토큰)가 과거 컨텍스트를 기반으로 예측되기 때문이다. 시퀀스를 모델링하는 다른 목적 함수들(예: 양방향 컨텍스트가 주어진 masked token 모델링 (Devlin et al., 2019; Mikolov et al., 2013) 및 시퀀스의 모든 순열 모델링 (Yang et al., 2019))이 있지만, 우리는 강력한 성능과 단순성 때문에 autoregressive modelling에 집중한다. 우리는 여기서 language model을 다음 토큰 예측을 수행하는 함수 근사기로 지칭할 것이다.

Transformer라고 알려진 신경망 클래스 (Vaswani et al., 2017)는 최근 몇 년간 state-of-the-art language model 성능을 보여주었다 (Dai et al., 2019; Radford et al., 2018, 2019). 그리고 이것이 본 논문에서 우리가 집중하는 아키텍처이다. 학계 및 산업 벤치마크 전반에 걸쳐 향상된 성능을 가진 모델을 얻기 위해 학습 데이터, 모델 크기(파라미터 수로 측정), 학습 연산의 조합을 확장하는 추세가 있었다. 이러한 발전 과정에서 주목할 만한 모델로는 다음과 같다:

3억 4,500만 개의 파라미터를 가진 BERT (Devlin et al., 2019): 광범위한 언어 분류 task 벤치마크에서 강력한 성능을 보였다.
15억 개의 파라미터를 가진 GPT-2 (Radford et al., 2018) 및 83억 개의 파라미터를 가진 Megatron (Shoeybi et al., 2019): 점진적으로 우수한 zero-shot language model 성능을 보여주었다.
110억 개의 파라미터를 가진 T5 (Raffel et al., 2020a): 전이 학습(transfer learning)과 여러 closed-book 질문 답변 task에서 성능을 향상시켰다.
앞서 언급된 1,750억 개의 파라미터를 가진 GPT-3.

**Large Language Models (LLMs)**라는 별칭은 이러한 대규모 모델 세대를 설명하는 데 널리 사용되고 있다.

GPT-3 이후에는 1,780억 개의 파라미터를 가진 Transformer language model인 Jurassic-1 (Lieber et al., 2021)이 등장했는데, 이는 다양한 학습 데이터셋과 더 큰 토크나이저 어휘 크기를 사용한다. 또한 5,300억 개의 Megatron-Turing NLG (Kharya and Alvi, 2021)가 발표되었는데, 이는 공개된 데이터셋(The Pile, Gao et al. (2020))으로 학습되었으며 (우리가 평가하는 데이터셋), 일부 잠정적인 성능 수치를 보고했다. 또한 sparse mixture of experts를 통합하여 모델 크기를 (어떤 경우에는 수조 개의 파라미터까지) 늘리면서도 더 적당한 연산 예산을 사용하는 Transformer 변형들도 있었다 (Fedus et al., 2021; Roller et al., 2021b). 다른 최근 LLM으로는 다양한 다운스트림 task에 대한 지시(instruction)로 fine-tuning된 두 모델(FLAN 및 T0) (Sanh et al., 2021; Wei et al., 2021)이 있는데, 이는 보지 못한 task에 대한 성능을 향상시킨다. 이러한 아이디어들은 강력한 language model을 구축하는 초기 task와 상호 보완적이지만, 우리는 가능한 경우 성능을 비교한다.

3. Method

3.1. Models

본 논문에서는 4,400만 개에서 2,800억 개에 이르는 파라미터를 가진 6개의 Transformer language model에 대한 결과를 제시하며, 아키텍처 세부 사항은 Table 1에 나타나 있다. 우리는 가장 큰 모델을 Gopher라고 부르며, 전체 모델 세트를 Gopher family라고 칭한다.

Model	Layers	Number Heads	Key/Value Size	$\mathbf{d}_{\text {model }}$	Max LR	Batch Size
44M	8	16	32	512	$6 \times 10^{-4}$	0.25 M
117M	12	12	64	768	$6 \times 10^{-4}$	0.25 M
417M	12	12	128	1,536	$2 \times 10^{-4}$	0.25 M
1.4 B	24	16	128	2,048	$2 \times 10^{-4}$	0.25 M
7.1B	32	32	128	4,096	$1.2 \times 10^{-4}$	2M
Gopher 280B	80	128	128	16,384	$4 \times 10^{-5}$	$3 \mathrm{M} \rightarrow 6 \mathrm{M}$

Table 1: 모델 아키텍처 세부 사항. 각 모델에 대해 layer 수, key/value 크기, bottleneck activation 크기 $\mathrm{d}_{\text {model }}$ , 최대 learning rate, 그리고 batch size를 나열하였다. feed-forward 크기는 항상 $4 \times \mathrm{d}_{\text {model }}$ 이다.

우리는 Radford et al. (2019)에 상세히 설명된 autoregressive Transformer 아키텍처를 사용하며, 두 가지 수정 사항을 적용했다: (i) LayerNorm (Ba et al., 2016) 대신 **RMSNorm (Zhang and Sennrich, 2019)**을 사용했고, (ii) absolute positional encoding 대신 Dai et al. (2019)의 relative positional encoding 방식을 사용했다. Relative encoding은 학습 시 사용된 시퀀스보다 더 긴 시퀀스에 대해 평가할 수 있도록 해주며, Section D.6에서 보여주듯이 기사나 책과 같은 긴 텍스트의 모델링 성능을 향상시킨다. 텍스트는 **SentencePiece (Kudo and Richardson, 2018)**를 사용하여 **32,000개의 어휘(vocabulary)**로 토큰화했으며, open-vocabulary 모델링을 지원하기 위해 byte-level backoff를 사용한다. Gopher 모델 카드 (Mitchell et al., 2019)는 Appendix B에 포함되어 있다.

3.2. Training

우리는 모든 모델을 2048 토큰의 context window를 사용하여 3000억 토큰 동안 학습시켰으며, **Adam optimizer (Kingma and Ba, 2014)**를 사용하였다. 학습률(learning rate)은 처음 1500 스텝 동안 $10^{-7}$ 에서 최대 학습률까지 warm-up한 후, cosine schedule을 사용하여 10배 감소시켰다. 모델 크기가 증가함에 따라 최대 학습률은 감소시키고, 각 batch의 토큰 수는 증가시켰다 (Table 1 참조). 또한, Gopher 모델의 경우 학습 중 batch size를 batch당 300만 토큰에서 600만 토큰으로 증가시켰다. gradient는 clipping 값 1을 사용하여 global gradient norm을 기반으로 clipping하였다. 그러나 7.1B 모델과 Gopher의 경우 안정성 향상을 위해 이 값을 0.25로 줄였다.

우리는 메모리 사용량을 줄이고 학습 처리량(throughput)을 높이기 위해 bfloat16 수치 형식을 도입하였다. 7.1B보다 작은 모델들은 float32 파라미터와 bfloat16 activation을 사용하는 mixed precision으로 학습되었고 (Micikevicius et al., 2018), 7.1B 및 280B 모델은 bfloat16 activation과 파라미터를 사용하였다. bfloat16 파라미터는 안정성을 유지하기 위해 stochastic rounding을 사용하여 업데이트되었다 (Gupta et al., 2015). 이후 우리는 stochastic rounding이 mixed precision 학습 성능을 완전히 회복시키지 못한다는 것을 발견했으며, 자세한 내용은 Appendix C에서 확인할 수 있다.

3.3. Infrastructure

우리는 JAX (Bradbury et al., 2018)와 Haiku (Hennigan et al., 2020)를 사용하여 학습 및 평가 코드베이스를 구축하였다. 특히, JAX의 pmap 변환을 활용하여 데이터 병렬 처리(data parallelism)와 모델 병렬 처리(model parallelism)를 효율적으로 구현하였다. 모든 모델은 TPUv3 칩 (Jouppi et al., 2020)에서 학습 및 평가되었다.

Gopher 모델의 half-precision 파라미터와 single-precision Adam state는 2.5 TiB를 차지하는데, 이는 각 TPUv3 코어에서 사용 가능한 16 GiB 메모리를 훨씬 초과한다. 이러한 메모리 문제를 해결하기 위해 우리는 optimiser state partitioning (Rajbhandari et al., 2020), model parallelism (Shoeybi et al., 2019), rematerialisation (Griewank and Walther, 2000) 기법을 사용하여 모델 state를 분할하고 activation을 줄여 TPU 메모리에 맞도록 하였다.

	Disk Size	Documents	Tokens	Sampling proportion
MassiveWeb	1.9 TB	604 M	506B	48%
Books	2.1 TB	4M	560B	27%
C4	0.75 TB	361 M	182B	10%
News	2.7 TB	1.1 B	676B	10%
GitHub	3.1 TB	142 M	422B	3%
Wikipedia	0.001 TB	6M	4B	2%

Table 2 | MassiveText 데이터 구성. MassiveText의 각 하위 데이터셋에 대해 총 디스크 크기, 문서 수, SentencePiece 토큰 수를 나열하였다. 학습 중에는 가장 오른쪽 열에 표시된 샘플링 비율을 사용하여 MassiveText에서 비균일적으로 샘플링한다.

우리는 TPUv3의 빠른 칩 간 통신 덕분에 데이터 병렬 처리와 모델 병렬 처리 모두 오버헤드가 낮으며, Gopher 학습 시 단 10%의 오버헤드만 발생한다는 것을 확인했다. 따라서 학습 규모가 1024-칩 "pod"를 초과하기 전까지는 TPU에서 pipelining (Huang et al., 2019)이 필요하지 않으며, 이는 중간 규모 모델 학습을 크게 단순화한다. 그러나 pipelining은 통신량이 적기 때문에 상용 네트워크에서 효율적인 병렬 처리 방법이며, 따라서 여러 TPU pod를 연결하는 데 적합하다. 요약하자면, 우리는 TPU pod 내에서는 모델 및 데이터 병렬 처리를 사용하고, pod 간에는 pipelining을 사용하여 Gopher를 학습시킨다. 우리는 시뮬레이션을 통해 이러한 토폴로지가 우리 하드웨어에 적합하다는 것을 확인했다 (Schaarschmidt et al., 2021); 자세한 내용은 Table A27을 참조하라.

3.4. Training Dataset

우리는 Gopher 모델 계열을 MassiveText로 학습시킨다. MassiveText는 웹 페이지, 서적, 뉴스 기사, 코드 등 다양한 출처에서 수집된 대규모 영어 텍스트 데이터셋 모음이다. Table 2는 구성 데이터셋을 자세히 보여준다.
우리의 데이터 파이프라인(Section A.1.1)은 텍스트 품질 필터링, 반복적인 텍스트 제거, 유사 문서 중복 제거, 그리고 테스트 세트와 상당한 중복이 있는 문서 제거를 포함한다. 우리는 이러한 파이프라인의 연속적인 단계들이 언어 모델의 다운스트림 성능을 향상시킨다는 것을 발견했으며(Section A.3.2), 이는 데이터셋 품질의 중요성을 강조한다.

전체적으로 MassiveText는 23.5억 개의 문서를 포함하며, 이는 약 10.5 TB의 텍스트에 해당한다. 우리는 Gopher를 **3,000억 개의 토큰(데이터셋 전체 토큰의 12.8%)**으로 학습시키기 때문에, MassiveText에서 각 서브셋(서적, 뉴스 등)별로 지정된 샘플링 비율에 따라 서브샘플링을 수행한다. 우리는 다운스트림 성능을 최대화하기 위해 이러한 샘플링 비율을 튜닝한다(자세한 내용은 Section A.3.1 참조).
가장 큰 샘플링 서브셋은 우리가 큐레이션한 웹 텍스트 코퍼스인 MassiveWeb이다. 우리는 MassiveWeb이 Figure A5에서 C4 (Raffel et al., 2020b)와 같은 기존 웹 텍스트 데이터셋에 비해 다운스트림 성능을 향상시킨다는 것을 확인했다. MassiveText에 대한 추가 세부 정보는 Appendix A에, MassiveText 데이터시트는 Table A3에 제공되어 있다.

4. Results

우리는 Gopher와 그보다 작은 모델 계열의 성능을 152개 task에 걸쳐 종합적으로 분석한다. 이 결과들을 기존 language model의 state-of-the-art (SOTA) 성능 (공개된 LM 성능이 있는 124개 task), task-specific 데이터를 활용하는 supervised 접근 방식, 그리고 가능한 경우 인간의 성능과 비교한다. 이 섹션에서는 주요 발견 사항을 요약하여 제시하며, 전체 결과 및 task별 방법론은 Appendix D를 참조한다.

	# Tasks	Examples
Language Modelling	20	WikiText-103, The Pile: PG-19, arXiv, FreeLaw, ...
Reading Comprehension	3	RACE-m, RACE-h, LAMBADA
Fact Checking	3	FEVER (2-way & 3-way), MultiFC
Question Answering	3	Natural Questions, TriviaQA, TruthfulQA
Common Sense	4	HellaSwag, Winogrande, PIQA, SIQA
MMLU	57	High School Chemistry, Atronomy, Clinical Knowledge, ...
BIG-bench	62	Causal Judgement, Epistemic Reasoning, Temporal Sequences, . . .

Table 3 | 평가 Task. 우리는 Gopher 모델 계열의 결과를 152개 task에 대해 종합하였다.

4.1. Task Selection

우리는 수학, 상식, 논리적 추론, 일반 지식, 과학적 이해, 윤리, 독해력을 아우르는 언어 모델 성능 프로파일을 구축하며, 여기에 기존의 언어 모델링 벤치마크도 포함한다. 우리는 **다양한 task가 혼합된 복합 벤치마크(예: BIG-bench collaboration (2021))**와 함께, 독해력을 위한 RACE (Lai et al., 2017), 사실 확인을 위한 FEVER (Thorne et al., 2018) 등 여러 기존의 특정 목적 벤치마크들을 포함한다. task 출처는 Table 3에 명시되어 있다.

우리는 모델이 타겟 텍스트의 확률을 추정하도록 요구하는 task들을 선택했는데, 이는 지식 및 추론 능력을 탐색하는 데 적합한 일반적인 인터페이스라고 판단했기 때문이다. 언어 모델링 task의 경우, **bits per byte (BPB)**를 계산한다. BPB는 압축 측정치로, 값이 낮을수록 올바른 이어지는 텍스트에 더 높은 확률을 부여했음을 나타낸다. 다른 모든 task는 객관식(multiple-choice) 형식을 따르며, 모델은 주어진 맥락과 질문에 대해 각 객관식 응답에 확률을 출력하고, 우리는 가장 높은 확률을 가진 응답을 선택한다. 여기서 우리는 **정답 응답의 정확도(accuracy)**를 측정한다.

우리는 MassiveText (2020년 11월) 이전에 생성된 task에 대해, 테스트 세트 인스턴스와 매우 유사한 학습 문서를 필터링했다 (Table A.1.1 참조). 또한, BIG-bench와 같이 기존 텍스트 데이터로부터 이점을 얻지 않도록 고유한 테스트 세트 문제 설명을 사용하도록 설계된 task도 있다. 그러나 학습 세트 내에 테스트 세트 유출(leakage)이 있을 수 있음을 경고하며, 테스트 세트 유출 및 일반화의 어려움에 대해서는 Section D.4에서 논의한다.

4.2. Comparisons with State of the Art

Figure 1에서는 Gopher의 결과와 state-of-the-art language model 성능을 비교한 개요를 제시한다. 124개 task에 걸쳐 결과를 비교했으며, Gopher와 현재 LM SOTA의 성능 지표 변화율(높을수록 좋음)을 플로팅했다. Gopher는 100개 task(전체 task의 81%)에서 현재 state-of-the-art를 능가한다. 베이스라인 모델에는 GPT-3 (175B 파라미터) (Brown et al., 2020), Jurassic-1 (Lieber et al., 2021) (178B 파라미터), Megatron-Turing NLG (530B 파라미터) (Kharya and Alvi, 2021)와 같은 LLM이 포함되며, 정확한 베이스라인은 Figure A8에 task별로 명시되어 있다.

Figure 1 | Gopher (280B) vs LM SOTA. Gopher와 state-of-the-art language model 성능을 124개 task에 걸쳐 비교한 성능 지표 변화율(높을수록 좋음) 개요. 각 막대는 task를 나타내며, 최대 상대적 개선율은 120%로 제한했다. 총 124개 task 중 100개에서 Gopher가 개선을 보였다. 공개된 최고 성능에는 (175B) GPT-3, (178B) Jurassic-1, (530B) Megatron-Turing NLG가 포함된다. supervised 및 인간 성능을 포함한 전체 비교는 Figure A8을 참조하라.

우리는 Gopher가 독해, 인문학, 윤리, STEM, 의학 분야에서 가장 균일한 개선을 보인다는 것을 발견했다. 사실 확인(fact-checking)에서는 전반적인 개선을 보였다. 상식 추론, 논리 추론, 수학에서는 훨씬 작은 성능 개선을 보였으며, 일부 task에서는 성능 저하도 나타났다. 전반적인 추세는 추론 중심 task(예: Abstract Algebra)에서는 개선이 적고, 지식 집약적 task(예: General Knowledge)에서는 더 크고 일관된 개선을 보인다는 것이다. 다음은 몇 가지 특정 결과 세트에 대한 논의이다.

language model 벤치마크의 경우, Figure 2에서 Gopher와 현재 178B SOTA 모델인 Jurassic-1 및 175B GPT-3의 상대적 성능 결과를 확장하여 보여준다. Jurassic-1은 대규모 어휘 학습에 중점을 두고 훈련된 LLM으로, 매우 유사한 파라미터 크기에서 일반적으로 GPT-3를 능가했다. Gopher는 19개 task 중 8개에서 state-of-the-art를 능가하지 못했으며, 특히 Ubuntu IRC와 DM Mathematics에서는 성능이 저조했는데, 이는 숫자에 대한 tokenizer 표현이 좋지 않기 때문일 수 있다. Gopher는 19개 task 중 11개에서 개선된 모델링을 보여주었으며, 특히 책과 기사(Books3, PG-19, arXiv 등)에서 큰 개선을 보였다. 이러한 성능 향상은 MassiveText에서 책 데이터를 많이 사용했기 때문일 수 있으며, 총 샘플링 비율은 27%이다(예: GPT-3의 16% 대비).

우리는 중학교 및 고등학교 수준의 객관식 시험인 RACE-m과 RACE-h라는 두 가지 독해 task를 강조한다. Table 4에서 정확도를 살펴보면, Gopher가 고등학교 독해(47.9% Megatron-Turing NLG → 71.6% Gopher)와 중학교 독해 정확도(58.1% GPT-3 → 75.1% Gopher)에서 현재 LM SOTA를 확장하는 것을 볼 수 있다. 고등학교 독해 수준은 인간 평가자 성능에 근접한다. Gopher 계열의 더 작은 모델들은 이러한 task에서 성능이 좋지 않은데, 이는 데이터만으로는 성능 차이를 설명할 수 없으며, 규모와 데이터의 조합이 중요하다는 것을 시사한다. 모든 모델은 여전히 인간 최고 성능(약 95%)과 supervised state-of-the-art(>90%)에 훨씬 못 미치는데, supervised state-of-the-art는 데이터셋에 fine-tuning된 더 작은 223M 파라미터 ALBERT-XXL 모델을 사용하여 얻어졌다 (Jiang et al., 2020). supervised fine-tuning이 더 나은 독해 능력을 가져올 수도 있지만, 데이터셋에 높은 정확도를 유도할 수 있는 악용 가능한 통계가 포함되어 있을 가능성도 있다. 이는 최근 여러 상식 추론 벤치마크에서 발견된 바 있다 (Li et al., 2021).

	417M	1.4B	7.1B	Gopher 280B	GPT-3 175B	Megatron-Turing 530B	ALBERT (ensemble)	Amazon Turk	Human Ceiling
RACE-h	27.2	26.0	30.6	71.6	46.8	47.9	90.5	69.4	94.2
RACE-m	26.2	25.0	31.8	75.1	58.1	n/a	93.6	85.1	95.4

Table 4 | RACE 독해. few-shot 모델인 Gopher, GPT-3 (Brown et al., 2020), Megatron-Turing (Kharya and Alvi, 2021)의 정확도. Gopher는 성능을 크게 확장한다. supervised SOTA와의 비교: Jiang et al. (2020)의 ALBERT (ensemble) 결과. Lai et al. (2017)의 Amazon Turk 및 Human Ceiling (정확하게 레이블링된 답변이 있는 모호하지 않은 질문으로 제한하여 얻음) 정확도.

Figure 2 | SOTA와의 Language Modelling 비교. Gopher와 The Pile (Gao et al., 2020)의 많은 부분을 포함한 다양한 language modelling task에서 현재 SOTA 모델들과의 비교. 위첨자 (1)은 이전 SOTA가 Jurassic-1이었음을 나타내고, (2)는 GPT-3였음을 나타낸다. Gopher는 19개 데이터셋 중 11개에서 state-of-the-art 성능을 달성했으며, 책과 기사에서 가장 큰 개선을 보였다.

Figure 3 | FEVER의 스케일링 곡선. claim-only 설정(closed-book)에서는 파라미터 규모에 따라 3가지 분류 정확도에 지속적인 추세가 있다. 3가지 클래스를 2쌍으로 나누면, 규모는 주로 SUPPORTED와 REFUTED를 구별하는 능력에 도움이 되지만, REFUTED와 NOTENOUGHINFO를 구별하는 능력에는 도움이 되지 않는다. gold evidence가 제공될 때(open-book)는 7.1B에서 280B Gopher로 갈수록 작은 이점이 있으며, 성능은 supervised SOTA (Kruengkrai et al., 2021)를 약간 초과한다.

가장 잘 연구된 상식 추론 task 중 일부인 Winogrande, HellaSwag, PIQA에서 Gopher는 더 큰 Megatron-Turing NLG에 약간 뒤처진다(각각 1.2%, 0.2%, 4.1%). 그러나 모든 LM 접근 방식은 인간 수준 성능에 크게 미치지 못한다(Section D.13). 수학 task와 마찬가지로, 이는 이러한 모델의 추론 능력이 제한적임을 시사한다.

다음으로 사실 확인(fact-checking)을 강조한다. 이는 잘못된 정보에 대처하는 중요한 문제이다. 우리는 Gopher가 증거가 제공될 때 잘 연구된 FEVER 사실 확인 벤치마크에서 supervised SOTA 접근 방식을 능가한다는 것을 발견했다. Figure 3에서 모델 크기에 따라

Random	25.0%
GPT-2	32.4%
Average human rater	34.5%
GPT-3 5-shot	43.9%
UnifiedQA	48.9%
Gopher 5-shot	60.0%
Average human expert performance	89.8%
June 2022 Forecast	57.1%
June 2023 Forecast	63.4%

Table 5 | Massive Multitask Language Understanding (MMLU). 57개 task에 대한 평균 정확도와 모델 및 인간 정확도 비교 (1: Hendrycks et al. (2020)에서 발췌). 인간 평가자 성능은 Mechanical Turk를 사용하여 얻었으며, 평균 인간 전문가 성능은 공개된 시험 결과를 기반으로 task별로 추정하여 평균을 냈다. Gopher는 이전 supervised SOTA 모델보다 상당한 차이(>30%)로 개선되었지만, 인간 전문가 수준에는 훨씬 못 미친다. 또한 73명의 경쟁력 있는 인간 예측가들이 예측한 2022년 6월과 2023년 6월 SOTA 정확도 평균 예측치도 포함했다 (2: Steinhardt (2021)). Gopher는 2022년과 2023년 예측치 사이에 위치한다.

규모가 gold evidence가 주어진 사실 확인과 claim만 있는 'closed book' 사실 확인 모두를 개선한다는 것을 알 수 있다. 그러나 더 큰 규모는 알 수 없는 사실과 거짓 사실을 분류하는 데는 도움이 되지 않는데, 이는 더 큰 모델이 이 단계에서 잘못된 정보에 대한 더 깊은 이해를 형성하기보다는 더 많은 사실을 앎으로써 사실 확인 성능을 향상시킨다는 것을 의미한다.

task별 성능을 넘어, MMLU의 57개 task에 대한 평균 정확도를 Table 5에 표시한다. 이 task들은 다양한 학문 분야를 다루는 실제 인간 시험으로 구성된다. GPT-3 (Brown et al., 2020) 및 UnifiedQA (Khashabi et al., 2020)라고 불리는 질문 task에 fine-tuning된 11B T5 모델과의 비교가 있다. 이러한 베이스라인 모델 결과와 인간 평가자 및 전문가 성능은 Hendrycks et al. (2020)에 의해 수집되었다. Table 5에서 Gopher는 GPT-3의 43.9%와 UnifiedQA의 48.9%를 훨씬 뛰어넘는 60%의 전체 정확도를 달성하는 것을 볼 수 있다. 이는 순수 language model 접근 방식의 알려진 성능을 높이지만, 여전히 89.8%로 추정되는 인간 전문가 성능에는 미치지 못한다. 우리는 또한 이 성능이 인간의 기대치와 어떻게 대비되는지 보여준다. 경쟁적인 예측 플랫폼인 Hypermind에서 인간 예측가들은 상금을 위해 정해진 날짜까지 이 벤치마크에서 머신러닝 시스템의 정확도를 예측하는 것을 목표로 한다. 2021년 9월 평균 예측에 따르면, Gopher 수준의 성능은 2022년 6월에서 2023년 6월 사이에 예상되었다.

결론적으로, Gopher는 광범위한 task에서 language model 접근 방식의 베이스라인 성능을 향상시킨다. 일부 설정(예: RACE 독해 및 FEVER 사실 확인)에서는 Gopher가 인간 평가자 성능 또는 특정 문제 도메인을 위해 설계된 supervised 모델의 성능에 근접한다. 그러나 몇 가지 task 범주(예: 수학적 추론 및 상식)에서는 개선이 적으며, 이는 대규모 language model 접근 방식의 한계를 나타낼 수 있다. 다음으로, 모델 규모라는 주제를 단독으로 고려한다.

4.3. Performance Improvements with Scale

다음으로, 우리는 어떤 유형의 task가 모델 크기 확장의 이점을 얻는지 조사한다. 이 섹션에서는 Gopher (280B)와 더 작은 모델들 (≤ 7.1B)의 성능을 비교한다. Gopher 계열의 모델들은 모두 동일한 데이터셋으로 동일한 수의 토큰에 대해 학습되었기 때문에, 이를 통해 각 task에 대한 파라미터 및 학습 연산량 확장의 효과를 분리하여 분석할 수 있다.

Figure 4 | 280B 모델과 7.1B 이하 모델 중 최고 성능 비교 (다양한 task에 걸쳐). 우리는 Gopher의 성능을 7.1B 이하의 더 작은 모델들 중 최고 성능과 비교한다. 거의 모든 경우에 Gopher는 더 작은 모델들의 최고 성능을 능가한다. 작은 성능 향상은 스케일이 결과를 크게 개선하지 못했거나, 더 작은 모델들이 이미 매우 뛰어난 성능을 보였기 때문일 수 있다. Language modelling 개선은 BPB 단위로 측정되었고, 나머지는 정확도(accuracy)로 측정되었다.

우리는 152개 task 전체에 걸쳐 Gopher (280B)와 7.1B 이하 모델 중 최고 성능 간의 상대적 성능 향상을 계산했다. 가장 성능이 좋은 작은 Gopher 계열 모델은 일반적으로 7.1B 모델이었지만, 항상 그런 것은 아니었다. 우리는 Gopher가 대다수의 task에서 성능 향상을 보였다는 것을 발견했다. 단 16개 (10.5%)의 task에서만 성능 향상이 없거나 미미했다. 반면, 57개 (37.5%)의 task에서는 최대 25%의 상대적 성능 향상을 보였고, 79개 (51.2%)의 task에서는 25% 이상의 상당한 성능 향상을 보였다. 이어서 Figure 4에서는 task 카테고리별 상대적 성능 향상을 시각화했다.

스케일의 가장 큰 이점은 Medicine, Science, Technology, Social Sciences, Humanities task 카테고리에서 나타났다. 이 카테고리들은 이전 섹션에서 설명했듯이 LM SOTA 대비 가장 큰 성능 향상을 보인 곳이기도 하다. 몇 가지 특정 task를 살펴보면, BIG-bench의 Figure of Speech Detection에서 가장 큰 이득을 얻었는데, 314% 증가를 기록했다. Gopher는 52.7%의 인상적인 정확도를 달성한 반면, 7.1B 모델은 16.8%의 정확도에 그쳤다. Gopher는 또한 Logical Args, Marketing, Medical Genetics에서 더 작은 모델들보다 극적으로 개선된 성능을 보였다. **TruthfulQA 벤치마크 (Lin et al., 2021b)**의 경우, **GPT-J, GPT-2, T5, GPT-3와 같은 다른 여러 모델 계열에서는 스케일이 성능을 저해하는 것처럼 보였음에도 불구하고, Gopher는 스케일에 따른 성능 향상 (1.4B에서 280B로)**을 보였다. 더욱이, 280B 모델은 multiple-choice TruthfulQA task 형식에서 무작위 추측을 훨씬 뛰어넘는 성능을 보여준 최초의 모델이다 (자세한 내용은 Section D.10 참조). 이러한 결과는 일부 task에서 스케일이 모델의 특정 task에 대한 성능을 크게 향상시키는 능력을 "해제"하는 것처럼 보인다는 것을 강조한다.

반면에, 우리는 Maths, Logical Reasoning, Common Sense 카테고리의 task에서는 스케일의 이점이 감소한다는 것을 발견했다. 우리의 결과는 특정 유형의 수학적 또는 논리적 추론 task의 경우, 스케일만으로는 성능의 획기적인 발전이 어렵다는 것을 시사한다. 일부 경우 Gopher는 더 작은 모델보다 낮은 성능을 보였는데, 예를 들어 BIG-bench의 Abstract Algebra 및 Temporal Sequences, MMLU의 High School Mathematics 등이 있다. 반면, 상식(common sense) task에서의 미미한 성능 향상은 주로 더 작은 모델들의 상대적으로 강력한 성능에서 비롯되었으며, 이는 상대적 개선의 여지를 제한한다. Language modelling task는 평균적으로 가장 작은 개선을 보였지만, 이는 정확도 대신 BPB로 측정되는 성능 지표 때문이며, 가능한 상대적 이득을 크게 제한한다.

Gopher를 더 작은 모델들과 비교함으로써, 우리는 모델 스케일의 영향에 대한 질문을 구체적으로 던질 수 있었다. 우리는 모델 스케일이 대다수의 task에서 성능 향상에 중요한 역할을 하지만, 그 이득이 균등하게 분포되어 있지는 않다고 결론 내린다. 많은 학문 분야와 일반 지식 분야에서는 스케일만으로도 큰 성능 향상을 보인다. 그러나 이 분석은 또한 모델 스케일만으로는 충분하지 않거나, 스케일의 이득이 더 미미한 영역, 특히 일부 수학적 및 논리적 추론 task를 강조한다. 이러한 스케일링 결과와 Gopher를 LM SOTA와 비교한 결과를 결합하면, 스케일과 데이터셋 모두가 이러한 영역에서 Gopher의 강력한 성능에 기여하고 있음을 알 수 있다. 다음 섹션에서는 유해 콘텐츠 생성 및 분류, 편향 모델링, 방언 표현과 관련된 모델의 다양한 속성을 조사한다.

5. Toxicity and Bias Analysis

언어 모델의 규모 확장(scaling)이 가져오는 이점과 더불어, 규모가 잠재적으로 유해한 행동에 어떤 영향을 미치는지 분석하는 것이 중요하다. 본 연구에서는 문제성 있는 출력(problematic output) 및 편향(bias)과 관련하여 우리 언어 모델의 행동을 연구한다. 우리는 모델이 유해한 텍스트를 생성하는 경향, 유해한 텍스트를 인식하는 능력, 다양한 집단에 대한 담론에서 분포적 편향(distributional bias)을 보이는 경향, 그리고 하위 집단 방언(subgroup dialect)을 모델링하는 능력을 조사한다. 각 질문에 대해 모델 규모에 따른 변화를 고려한다.

우리는 해당 분야에서 일반적으로 사용되는 평가 및 측정 지표를 선택하였다. 그러나 여러 연구에서 현재 지표 및 평가의 한계점에 대해 논의해왔으며 (Blodgett et al., 2020, 2021; Sheng et al., 2019; Welbl et al., 2021; Xu et al., 2021a), 우리의 분석 또한 추가적인 주의사항을 발견하였다. 이에 대해서는 다음 섹션들과 Section 7.2에서 강조할 것이다. 우리는 이러한 측정 지표들의 단점에도 불구하고, 이러한 문제들을 해결하는 것의 중요성을 강조하고 향후 연구를 위한 특정 영역을 부각시키기 위해 이들을 포함시켰다. 특정 접근 방식들을 최선의 관행으로 확립하려는 의도는 아니다.

5.1. Toxicity

Section 5.1.1과 5.1.2에서는 LM이 생성한 텍스트의 유해성(toxicity)을 연구하기 위해 널리 사용되고 상업적으로 배포된 Perspective API 분류기를 활용하며, 모델의 유해 텍스트 감지 능력을 연구하기 위해 관련 CivilComments 데이터셋을 사용한다. 이에 따라 우리는 **유해성(toxicity)을 "누군가가 토론을 떠나게 만들 가능성이 있는 무례하고, 불손하며, 불합리한 댓글"**로 정의한다.

5.1.1. Generation Analysis

우리의 LM이 생성한 텍스트의 toxicity 분석은 Gehman et al. (2020) 및 Welbl et al. (2021)에서 사용된 방법론을 따른다. 우리는 Perspective API를 사용하여 LM prompt와 continuation에 대한 toxicity 점수를 얻는다. Welbl et al. (2021)과 유사하게, 우리는 prompt에 조건을 부여했을 때(conditional)와 조건을 부여하지 않았을 때(unconditional, 즉 unprompted)의 LM 출력 toxicity를 분석한다. Conditional generation을 통해 모델이 다양한 toxicity 점수를 가진 prompt에 어떻게 반응하는지를 분석할 수 있다. Prompt는 RealToxicityPrompts (RTP) 데이터셋 (Gehman et al., 2020)에서 가져왔으며, 이 데이터셋은 대규모 영어 웹 텍스트 코퍼스에서 파생된 10만 개의 자연 발생적인 문장 수준 prompt를 포함한다. 우리는 효율성을 위해 10만 개의 RTP prompt 중 10%를 샘플링하고, 각 prompt당 25개의 continuation을 생성한다.

더 큰 모델의 continuation toxicity는 작은 모델보다 prompt toxicity와 더 일관된 경향을 보인다 (Figure 5a). Prompt가 주어졌을 때, 입력 toxicity가 증가함에 따라 더 큰 모델은 더 높은 toxicity로 반응하며, 이는 약 7.1B 파라미터 부근에서 **정체(plateauing)**된다. 이는 파라미터 수가 많아질수록 모델이 입력에 대해 유사하게 반응하는 능력이 증가함을 시사한다.

Figure 5 | Toxicity 분석. (a) RTP 데이터셋을 사용하여 prompt toxicity별로 분류된 LM이 생성한 텍스트의 toxicity. 오차 막대는 99% 신뢰 구간을 나타낸다. (b) CivilComments 데이터셋에 대한 few-shot toxicity 분류. 더 큰 모델이 toxic 텍스트를 더 잘 분류한다.

Unprompted 샘플의 경우, toxicity는 낮으며 모델 크기에 따라 증가하지 않는다. 그 수준은 학습 데이터보다 약간 낮다 (Figure A22b 참조). 즉, unprompted 상태에서는 LM이 학습 데이터의 toxicity를 증폭시키지 않는다. toxicity 평가 방법론, 결과 및 측정 항목에 대한 자세한 내용은 Section E.1에서 확인할 수 있다.

5.1.2. Classification Analysis

우리는 Schick et al. (2021)과 유사한 방식으로 **CivilComments 데이터셋 (Borkan et al., 2019)**을 사용하여 few-shot 설정에서 모델의 유해 텍스트 감지 능력을 평가한다 (자세한 내용은 Section E.2 참조). 우리는 few-shot 설정에서 텍스트의 유해성(toxicity)을 분류하는 모델의 능력이 모델 규모(scale)에 따라 증가함을 관찰한다 (Figure 5b). 작은 모델들은 무작위 분류기(AUC 0.5 달성)와 비슷하거나 더 낮은 성능을 보인다. 가장 큰 모델은 20-shot 설정에서 약 0.76의 AUC를 달성하여, 작은 모델들보다 크게 향상된 성능을 보여준다 (Figure 5b). few-shot 설정에서 유해성 감지(toxicity detection)의 state-of-the-art가 아직 명확히 확립되지 않았지만, 우리의 성능은 유해성 감지를 위해 특별히 학습된 state-of-the-art 분류기 (Borkan et al., 2019)보다는 훨씬 낮은 수준임을 밝힌다.

Section E.2에서는 few-shot 유해성 분류에 사용되는 대형 language model이 하위 그룹 편향(subgroup bias)을 보이는지 여부를 추가로 탐구한다. 우리는 280B 모델을 사용하여 Borkan et al. (2019)에서 소개된 지표를 통해 **의도치 않은 분류기 편향(unintended classifier bias)**을 측정했으며, 그 결과 모델이 다양한 방식으로 하위 그룹에 대한 편향에 취약함을 발견했다. 따라서, language model이 few-shot 분류를 위한 강력한 도구가 될 수 있지만 (특히 주석 달기 어려운 데이터가 있는 task에서 중요함), 그 결과가 반드시 모든 하위 그룹에 걸쳐 공정하지는 않다. 이러한 편향을 가장 잘 완화하는 방법을 이해하기 위한 추가 연구가 필요하며, 유해성 분류 능력 향상을 위해 최적화할 때에는 신중을 기해야 한다.

5.2. Distributional Bias

우리는 **분포적 편향(distributional biases)**을 단일 샘플에서는 명확하게 드러나지 않지만, 많은 샘플을 통해 나타나는 편향으로 정의한다. 예를 들어, "그 여성은 간호사이다"라는 문장 자체는 문제가 없지만, 모델이 여성을 특정 직업과 불균형적으로 연관시킨다면 문제가 될 수 있다. Sheng et al. (2021)에서 논의된 바와 같이, 언어 모델의 분포적 편향은 부정적인 재현적 영향(representational impacts) (예: Kay et al. (2015))과 할당적 영향(allocational impacts) (예: Dastin (2018))을 모두 가질 수 있다.
우리 모델의 분포적 편향을 조사하기 위해, 우리는 다음을 측정한다:

성별과 직업 간의 고정관념적 연관성,
다양한 사회 집단에 따라 조건화된 샘플에서의 감성 분포,
다양한 방언에 대한 perplexity.

많은 언어 task에서 성능이 모델 규모에 따라 증가하는 반면, 우리는 단순히 모델 크기를 늘리는 것만으로는 편향된 언어가 제거되지 않음을 발견했다. 실제로, 우리는 표준 cross-entropy objective로 학습된 모델이 학습 데이터의 편향을 반영할 것으로 예상한다.

Figure 6 | 우리 모델의 성별 및 직업 편향 분석. (a) 두 가지 템플릿에 대한 **성별 편향 지표(gender bias metric)**를 모델 크기에 따라 나타낸 그래프. 높은 값은 전반적으로 더 높은 편향을 의미한다. 우리는 모델 크기와 편향 사이에 일관된 상관관계를 발견하지 못했다. (b) **성별 고정관념에 반대되는 예시("gotcha" examples)**와 **성별 고정관념을 강화하는 예시("not gotcha" examples)**에 대한 Winogender 정확도를 모델 크기에 따라 나타낸 그래프. "not gotcha" 예시에 비해, "gotcha" 예시의 성능은 여전히 낮으며, 남성 대명사와 여성 대명사 간에 차이가 있다. 두 결과 모두 편향의 지표이다.

이러한 결과와 Section 7.2에서 논의된 다음 방법들의 상당한 한계가 보여주듯이, 이 분야의 진전은 바람직한 행동을 정의하고, 모델 출력을 측정 및 해석하며, 새로운 완화 전략을 설계하기 위한 도전적인 학제 간 연구를 필요로 할 것이다.

5.2.1. Gender and Occupation Bias

우리는 두 가지 다른 평가를 통해 **성별 및 직업 편향(gender and occupation bias)**을 연구한다. 첫째, 우리는 다양한 직업 맥락(occupation context)에 이어지는 성별 단어의 확률을 측정한다. 둘째, Winogender coreference resolution 데이터셋 (Rudinger et al., 2018)을 사용하여 평가한다. 이 데이터셋에서는 서로 다른 대명사(pronoun)에 걸쳐 유사한 coreference 정확도가 나타날수록 성별 편향이 적음을 의미한다. 우리의 평가에서는 주로 남성 및 여성 성별 용어 간의 성능을 비교하지만, 이러한 용어들이 모든 가능한 성별 정체성을 대표하지는 않음을 인지한다 (Cao and Daumé, 2021).

성별 단어 확률 (Gender Word Probability)
다양한 직업 맥락에서 서로 다른 성별 단어의 확률이 얼마나 높은지 측정하기 위해, 우리는 Brown et al. (2020)과 유사한 설정을 따른다. 우리는 모델에 "The {occupation} was a"와 같은 직업 prompt를 입력하고, prompt 뒤에 남성 또는 여성 성별 용어가 이어질 확률을 비교하여 성별 편향 지표를 계산한다.

Figure 6a는 두 가지 다른 템플릿("The {occupation} was a {gender}" 및 "The {occupation} is a {gender}")에 대한 모델 크기 함수로서의 확률 기반 성별 편향 지표를 보고한다. 전반적으로, 우리는 모델 크기와 편향 사이에 일관된 상관관계를 찾지 못했다. 또한, 템플릿의 겉보기에는 관련 없는 선택("was"를 "is"로 변경)이 측정된 편향을 변경할 수 있음을 발견했다. 추가적으로, 성별 단어의 선택 또한 결과에 영향을 미친다. 만약 우리가 "male"과 "female"이라는 용어만 사용한다면, 성별 편향은 많은 성별 용어들을 합산할 때보다 상당히 낮다 (Figure A24a). Section E.3.1에는 구현, 지표 및 결과에 대한 추가 세부 정보가 포함되어 있다.

Winogender
우리는 Winogender 데이터셋 (Rudinger et al., 2018)을 사용하여 zero-shot coreference task에서 편향을 탐구한다. 모델은 대명사를 직업 단어 또는 관련 distractor 단어로 올바르게 해결할 수 있는지 여부에 따라 평가된다. 우리는 편향되지 않은 모델이 대명사의 성별에 관계없이 유사한 coreference resolution 성능을 가질 것으로 예상한다. 이 평가는 다음과 유사하다.

Figure 7 | 그룹별 평균 연속 감성 점수. 막대는 99% 신뢰 구간을 나타낸다. 높을수록 긍정적인 감성, 낮을수록 부정적인 감성이다. 종교 및 직업 결과는 Figure A26을 참조하라.

BIG-bench 결과 (Section D.8.3)에 보고된 "disambiguation_q" 모호한 대명사 성별 편향 task와 유사하다. 그러나 여기서는 zero-shot 설정에서 성능을 측정한다.

BIG-bench 분석과 유사하게, 우리는 전반적인 성능이 모델 크기에 따라 증가함을 관찰한다 (Figure A24b). Rudinger et al. (2018)을 따라, 우리는 **성별 편향 모델에 어려울 것으로 예상되는 문장("gotchas"라고 불림)**에 대한 성능도 Figure 6b에 보고한다. "gotcha" 예시는 올바른 coreference resolution이 고정관념(노동 통계 ${ }^{6}$ 기반)과 다른 경우이다. "gotchas"와 "not gotchas" 모두에서 성능은 모델 크기에 따라 증가하지만, "gotchas"에 대한 성능은 상당히 낮다. "gotcha" 예시에서는 남성 및 여성 대명사에 대한 성능에 상당한 차이가 있다. 따라서, 전반적인 task에 대한 coreference resolution 성능은 크기에 따라 상당히 증가하지만, 우리의 분석은 Gopher가 여전히 성별 및 직업 편향의 영향을 받는다는 것을 시사한다. 설정 및 결과에 대한 전체 세부 정보는 Section E.3.1에 있다.

**감성 편향(Sentiment bias)**은 생성된 텍스트가 다양한 정체성과 사회 집단을 어떻게 묘사하는지를 정량화하는 한 가지 방법이다. 이전 연구에서는 감성 분포의 차이를 사용하여 **생성형 언어 모델의 개인 및 집단 공정성(individual and group fairness)**을 측정했다 (Huang et al., 2020). 본 연구에서는 다양한 직업, 국가, 인종, 종교에 대한 모델 출력의 감성을 측정한다. 여기서는 개요를 제시하며, 측정 지표 정의, 용어 및 템플릿 목록, 전체 결과에 대한 자세한 내용은 Section E.3.2에 있다.

측정 지표 (Metrics)
Huang et al. (2020)을 따라, 우리는 템플릿화된 prompt를 기반으로 완성된 텍스트(completion)를 샘플링한다. 각 prompt에서 단일 수식어 또는 명사를 변경하여 **다른 속성(attribute)**을 참조하도록 한다. 예를 들어, "The {attribute} person could"라는 템플릿은 "Christian", "Jewish", "Muslim" 등으로 채워질 수 있다. 각 prompt에 대한 샘플은 **감성 분류기(sentiment classifier)**에 의해 0(부정)에서 1(긍정) 사이의 점수로 평가된다.

템플릿 및 용어 선택 (Selection of templates and terms)
Brown et al. (2020) 및 Huang et al. (2020)을 따라, 우리는 인종, 종교, 국가, 직업에 대한 감성을 측정한다. 또한, 종교와 인종에 대한 용어 세트를 확장하여 속성 단어가 없는 "unspecified" 옵션을 포함했다 ("The {attribute} person could"가 "The person could"로 변경됨). 우리는 이 unspecified 옵션을 포함했는데, 이는 특정 문화나 맥락에서 기본값으로 가정되는 속성(예: 다수 또는 고위층 속성)이 언어에서 종종 표시되지 않기 때문이다 (Waugh, 1982).

결과 (Results)
Figure 7과 Figure A26에서 우리는 각 속성에 대한 모든 prompt의 모든 완성된 텍스트에 대한 정규화된 감성 점수 분포를 플로팅하고, Figure A25에서 집계된 그룹 공정성 지표를 보고한다. 성별 및 직업 편향과 마찬가지로, 규모에 따른 명확한 경향은 보이지 않는다. 이는 특히 국가와 직업에서 두드러지며, 인종과 종교 내의 특정 속성이 평균 감성에서 약간의 하향 추세를 보이는 이유를 이해하기 위해서는 추가 분석이 필요하다.

감성 분포에 대해, 우리는 특정 속성들이 현저히 낮은 평균 감성 점수를 가지고 있음을 관찰한다. 이를 더 잘 이해하기 위해, 우리는 속성 쌍에 대한 단어 동시 발생(word co-occurrence)을 분석한다 (Table A25). 이를 통해 우리 모델이 특정 그룹에 대한 역사적 및 현대적 담론의 특징을 계승하고 있음을 관찰한다 (Mohamed et al., 2020). 둘째, 성별 및 직업 결과와 유사하게, 인구통계학적 용어의 선택은 신중하게 고려해야 한다. 더 깊은 논의는 Section E.3.2를 참조하라.

Figure 8 | Perplexity by dialect.
(왼쪽) 아프리카계 미국인 및 백인 영어로 분류된 Tweet에 대한 Perplexity.
(오른쪽) 44M 모델 대비 Perplexity의 상대적 감소.

5.2.3. Perplexity on Dialects

Gopher는 언어 벤치마크에서 인상적인 성능을 보이지만, 학습 데이터에 반영된 텍스트만 모델링할 수 있다. 만약 특정 방언이 학습 코퍼스에서 충분히 대표되지 않는다면, 그러한 언어를 이해하는 데 있어 모델 성능에 차이가 발생할 가능성이 높다. 이러한 격차를 확인하기 위해, 우리는 Blodgett et al. (2016)이 큐레이션한 아프리카계 미국인(AA)-aligned 코퍼스와 백인-aligned 코퍼스의 트윗에 대한 모델의 perplexity를 측정했다.
우리의 결과는 모든 모델 크기에서 AA-aligned 코퍼스에 대한 perplexity가 더 높게 나타남을 보여준다. 모델의 규모가 커질수록 두 방언 모두에 대한 perplexity는 개선되지만, 거의 동일한 속도로 개선되어 규모가 커져도 격차는 줄어들지 않는다.

이러한 결과는 언어 모델에서 편향이 나타나는 뚜렷한 방식을 강조한다. 앞서 언급된 지표들은 다른 그룹이 출력의 대상이 될 때 모델의 출력이 어떻게 달라지는지를 정량화하며, 이는 더 부정적이거나 고정관념적일 때 representational harm을 구성할 수 있다 (Blodgett et al., 2020). 그러나 모델은 또한 방언을 모델링하는 능력에서도 차이를 보이는데, 이는 다른 방언을 사용하는 사용자가 있는 애플리케이션에서 allocational harm으로 이어질 수 있다.

6. Dialogue

지금까지 우리는 정량적인 방법을 통해 Gopher의 능력과 한계점을 탐구해왔다. 이 섹션에서는 직접적인 상호작용을 통해 모델을 조사한다. 우리는 Brown et al. (2020)의 few-shot 방식과 유사한 dialogue prompt로부터 조건부 샘플링을 수행함으로써, 우리의 Dialogue-Prompted Gopher가 대화 형식(conversational format)을 상당한 품질로 모방할 수 있음을 발견했다. 여기에 예시 대화록을 제공하며, 더 많은 내용은 Section H.5에 수록되어 있다. 우리는 이를 대화 데이터에 대한 fine-tuning이라는 보다 전통적인 방법과 대조하여, fine-tuning이 소규모 인간 연구에서 유의미하게 선호되는 응답을 제공하지 못했음을 확인했다. Section 5.1.1과 달리, Dialogue-Prompted Gopher 응답의 독성(toxicity)은 독성 질문으로 prompt를 주었을 때조차도 모델 규모에 따라 증가하지 않았다 (Figure 9).

6.1. Prompting For Dialogue

Prompt	Generation
What am I thinking?	It's Friday night and I'm in bed and awake at 12:37 am. "I woke up from a dream where I was standing next to...
	The Golden Globes are over and now I need to make a list of films that I must see, most likely in the coming months
	Where am I headed? Is there another place where I can get away? Can I use my smartphone to play? How do I think I can do this?

Table 6: 세 가지 seed에 대해 Gopher에 질문을 단순하게 prompt했을 때의 응답.

Language model은 대화에 참여하도록 학습된 것이 아니라, 입력 분포를 재현하도록 학습된다. 질문을 prompt로 주었을 때, 모델이 1인칭 서술, 블로그 게시물과 유사한 텍스트, 그리고 일반적인 실존적 질문 목록을 생성하는 것을 볼 수 있다 (Table 6). 이러한 행동은 Gopher가 학습된 콘텐츠와 일치한다.

대화형 모델을 만들기 위해, 우리는 Gopher의 역할과 Gopher와 가상의 User 간의 대화를 설명하는 prompt를 사용한다. 이 prompt에는 공격적인 언어에 대한 회피, 특정 질문 유형을 거부할 수 있는 능력과 같은 행동이 포함된다. 전체 prompt는 Table A30을 참조하라. Table 7은 Dialogue-Prompted Gopher와 세포 생물학 및 박테리아에 대한 대화 기록을 보여준다. 여기서 모델은 주제를 유지하고, 일부 기술적인 세부 사항을 논의하며, 올바른 인용 링크를 제공한다. 그러나 일부 경우에는 미묘하게 부정확한 응답을 제공한다 (예: prokaryotes가 유일한 단세포 유기체는 아니다). Table 8은 사실적 오류를 자신감 있게 표현하는 실패한 대화 기록을 보여준다. 흥미로운 행동과 실패 모드에 대한 더 많은 대화 기록은 Section H.5를 참조하라. 여기에는 검색을 주장하면서도 미묘하게 그럴듯하지만 사실과 다른 대화 (Table A32), 유해한 텍스트 생성 (Table A35), 또는 자기모순적이며 일반적인 상식 부족을 보여주는 대화 (Table A37) 등이 포함된다.

경험적으로, 우리는 성공과 실패 모두 흔하다는 것을 발견했지만, Dialogue-Prompted Gopher는 여전히 단순한 language model이라는 점을 강조한다. prompt는 모델의 응답에 대한 사전 분포를 조건화하지만, 일관되게 신뢰할 수 있거나 사실적인 대화 모델을 만들어내지는 못한다. 대화에 특정한 language model의 해악에 대한 자세한 논의는 Weidinger et al. (2021)을 참조하고, 신뢰할 수 있는 시스템 구축에 대한 몇 가지 아이디어는 Section 7.3에서 논의한다.

6.2. Fine-tuning for Dialogue

대화(dialogue)에 대한 최근 연구는 종종 대화 전용 데이터로 supervised training에 초점을 맞춘다 (Chen et al., 2017). 예를 들어, Google의 Meena (Adiwardana et al., 2020)와 Facebook의 BlenderBot (Roller et al., 2021a)이 그러하다. 우리는 이러한 접근 방식을 탐구하기 위해 MassiveWeb에서 선별된 대화 데이터셋을 생성하고, 이 데이터셋으로 Gopher를 약 50억 토큰 동안 fine-tuning하여 Dialogue-Tuned Gopher를 만들었다.
그 후, 인간 평가자들에게 Dialogue-Tuned Gopher와 Dialogue-Prompted Gopher의 응답에 대한 선호도를 평가하도록 요청했으며, 두 모델 모두에 우리의 대화 prompt (Table A30)를 사용했다. 놀랍게도, 1400개의 평가 결과 **선호도는 $(50 \pm 0.04) \%$ **로 나타났는데, 이는 유의미한 차이가 없다는 것을 의미한다. 이 방법론은 Section H.3에 자세히 설명되어 있다. 우리는 이것을 흥미로운 초기 결과로 간주한다. 향후 연구에서는 대규모 모델을 사용한 대화에서 fine-tuning과 prompting의 장단점을 엄격하게 검토하고, 모델 크기의 큰 차이를 고려하여 Gopher를 기존 대화 시스템과 비교하는 것이 중요할 것이다.

Figure 9 | Dialogue-Prompted 모델의 독성(Toxicity) 분석.
(왼쪽) RTP 질문이 주어졌을 때, Dialogue-Prompted LM이 생성한 텍스트의 독성을 prompt 독성별로 분류한 그래프. 생성된 텍스트의 독성은 모델 규모에 따라 증가하지 않는다.
(오른쪽) "높은" 독성 prompt ( $>66 \%$ )의 경우, RTP 질문에 대한 Dialogue-Prompted Gopher 모델의 독성과 RTP에 대한 Gopher 모델의 독성을 44M 모델과 비교한 그래프.

6.3. Dialogue & Toxicity

우리는 **Dialogue-Prompted Gopher의 유해성(toxicity)**을 조사한다. 우리는 RTP 방법론을 대화 설정에 맞게 조정하였다 (이를 RTP questions라고 부르며, 자세한 내용은 Section H.4 참조).
Figure 9 (왼쪽)에서 우리는 Dialogue-Prompted Gopher가 Gopher와 동일한 경향(모델 규모에 따른 유해성 증가)을 따르지 않음을 관찰한다.
unprompted 설정에서는 모델 규모에 따라 continuation toxicity가 단조롭게 증가하는 반면 (Figure 5a), Dialogue-Prompted Gopher의 toxicity는 모델 규모가 증가함에 따라 약간 감소하는 경향을 보인다 (117M 파라미터 모델부터, 가장 유해한 bucket의 prompt는 제외).
이는 더 큰 모델이 주어진 prompt (존중하고, 예의 바르며, 포괄적이어야 한다는 지침 포함)를 더 잘 반영할 수 있기 때문일 수 있다.
특히, Figure 9 오른쪽에서는 높은 toxicity를 가진 prompt에 대해 Gopher (RTP로 테스트)와 Dialogue-Prompted Gopher (RTP questions로 테스트) 모델의 continuation toxicity를 44M 모델과 비교한다.
다시 한번, 대화 prompting을 사용하면 continuation toxicity가 44M 모델과 유사한 수준을 유지하며, unprompted language model에서 관찰된 상승 추세와는 대조적임을 확인한다.

RTP는 상당히 직관적인 스트레스 테스트이다: 사용자가 유해한 발언을 하면 시스템이 어떻게 반응하는지 관찰하는 것이다. 이 연구와 병행하여, Perez et al. (2022)는 Gopher가 생성한 adversarial attack을 통해 Dialogue-Prompted Gopher를 추가적으로 조사했다. 이 접근 방식은 모델이 학습 데이터에서 차별적인 농담을 암송하거나, 사용자를 모욕하거나, 부적절한 욕구를 상세히 설명하는 등 다양한 공격적인 행동을 유발한다. 때때로 Dialogue-Prompted Gopher의 응답은 "정치적, 사회적, 종교적 문제에 대해 논의하지 말라는 요청을 무시하고 있습니다." 와 같이, 자신의 지침이 특정 행동을 금지한다는 사실을 언급한 후 해당 행동을 보이는 경우도 있었다. 현재까지 자동 adversarial attack은 안전 완화 조치(safety mitigations) 이후에도 모델에서 유해한 언어를 지속적으로 유발하며 (Wallace et al., 2019; Yu and Sagae, 2021), Xu et al. (2021b)와 같은 수동 adversarial attack의 유용한 보완책 역할을 한다.

Askell et al. (2021)의 최근 연구에서도 prompting만으로도 language model을 흥미롭지만 견고하지 않은(non-robust) 조수로 만들기에 충분하다는 유사한 결과를 발견했다. 그들은 prompt-only 경우와 인간의 demonstration 또는 선호도 학습과 같은 더 강력한 개입(intervention)의 경우 모두에 대해 시스템에 대한 다양한 인간 평가를 수행했다. 특히, 그들은 prompting이 RTP에서 모델 규모에 따른 toxicity 증가를 방지한다는 사실도 발견했다 (그들의 논문 Section 2.2.2). 이는 이러한 효과가 서로 다른 language model과 toxicity classifier에 걸쳐 신뢰할 수 있음을 보여주는 증거이다.

User	What can you tell me about cell biology?
Gopher	Sure, I can tell you some basic facts. The nucleus is the central part of the cell, and it contains the DNA. Each chromosome contains many genes. Cells divide when they reproduce, and the DNA is duplicated before this happens. A group of similar cells is called a tissue.
User	What is the technical name for single-cell organisms?
Gopher	They're known as prokaryotes.
User	Are humans prokaryotes?
Gopher	No, they're eukaryotes.
User	What's an example of a prokaryote?
Gopher	Well, bacteria and archaea are prokaryotes.
User	What's a common species of bacteria that lives in the gut?
Gopher	Well, I believe it's Escherichia coli.
User	Is E. Coli always dangerous?
Gopher	Not always - but in some cases, it can be pathogenic. That means it can cause harm to the body.
User	Which strains are dangerous?
Gopher	The most dangerous ones are serotype O157:H7 and serotype O111:H.
User	Can you give me a link where I can learn more?
Gopher	Yes, here you go:
	https://en.wikipedia.org/wiki/Escherichia_coli_O157:H7

Table 7 | 혼합된 사실성(Mixed Factuality)의 예시.
여기서 제공된 정보는 일부 응답(E. Coli에 대한 논의)에서는 정확하지만, 다른 응답(단세포 진핵생물도 존재함)에서는 부정확하다. 모델은 일부 진술을 올바른 Wikipedia 링크를 생성하여 뒷받침한다. 사실적 응답과 비사실적 응답의 혼합은 미묘한 잘못된 정보(misinformation)로 이어질 수 있다. 추가 대화 기록은 Table 8과 Appendix H를 참조하라.

User	Can you confidently tell me who won the Women's US Open in 2021?
Gopher	Sure! It was Naomi Osaka.
User	Are there any French-speaking countries in South America?
Gopher	No.
User	Do you know the result of $e^{i \pi}+1$ ?
Gopher	Yes it's 2.
User	Do you have any uncertainty about your answers so far?
Gopher	No.

Table 8 | 비사실적 대화(non-factual Dialogue)의 예시.
모델은 틀린 답변을 자신감 있게 제공한다. 올바른 답변은 각각 'Emma Raducanu', '예' (프랑스령 기아나), '0'이다.

7. Discussion

7.1. Towards Efficient Architectures

본 연구에서는 잘 확립된 아키텍처를 기반으로 모델 규모를 확장하는 데 집중했다. 이러한 스케일링 연구를 더 진행하려면, 더 큰 Transformer를 학습시키기 위한 에너지와 연산량을 늘리거나, 더 효율적인 아키텍처로 전환해야 한다.

우리는 Gopher 학습 시의 연산 비용을 Table A26과 Appendix F에서 분석했으며, 대부분의 비용이 linear map에 소모됨을 확인했다. 이는 Appendix G에 자세히 설명된 sparse-parameter training 연구로 이어졌지만, 현재까지 전반적인 효율성 향상으로 이어지지는 않았다. linear map을 희소화(sparsifying)하는 또 다른 접근 방식은 이를 별도의 조건부 활성화 전문가(conditionally-activated experts)로 분할하는 것이다 (Fedus et al., 2021; Lepikhin et al., 2021; Lin et al., 2021a). 이 접근 방식은 1.7조 개의 파라미터를 가진 Switch Transformer (Fedus et al., 2021)와 최근의 1.2조 개 파라미터를 가진 GLaM (?)으로 확장되었으며, GLaM은 GPT-3보다 29개 언어 task에서 더 뛰어난 성능을 보이면서도 학습에 필요한 FLOPs는 3배 더 적다.

우리는 별도로 사전학습(pre-training) 중에 학습 데이터셋에서 관련 추출물(relevant extracts)을 검색하는 retrieval mechanism (Borgeaud et al., 2021)을 고려했다. 이는 네트워크 가중치에 지식을 암기할 필요성을 부분적으로 회피한다. 이 접근 방식은 70억 개의 파라미터 모델로 GPT-3 수준의 언어 모델 성능을 달성했으며, 학습 연산량을 10배 이상 절감했다. 따라서 본 논문은 Transformer 모델에 초점을 맞추었지만, 더 효율적인 아키텍처가 개발됨에 따라 이는 과도기적인 단계일 가능성이 높다.

7.2. Challenges in Toxicity and Bias

우리는 toxicity 및 bias 평가 지표에서 발견된 몇 가지 한계점을 강조하고, 미래 평가 벤치마크에 필요한 속성이 무엇인지 제시하고자 한다.

분류기 사용의 어려움
Perspective API는 유능한 toxicity 분류기이지만 (평가 AUC 0.97), toxicity 분류기는 사회적 편향에 취약하여 특정 정체성 그룹에 대한 무해한 언급에도 더 높은 toxicity 점수를 부여할 수 있다 (Dixon et al., 2018; Röttger et al., 2021). toxicity 분류기가 한 가지 유형의 해악을 정량화하지만, 자동 평가에 지나치게 의존하면 의도치 않은 사회적 편향을 초래할 수 있다 (Welbl et al., 2021; Xu et al., 2021a). Sentiment 분류기 또한 편향에 취약하다 (Kiritchenko and Mohammad, 2018). Sheng et al. (2019)은 bias 분석을 위해 sentiment 분류기를 재활용하는 대안으로 regard 분류기를 제안한다. 이들은 특정 인구 통계 그룹에 대한 regard를 측정하지만, 일부 그룹에 대해서만 사용 가능하다는 한계가 있다.

분포적 편향(distributional bias) 측정의 어려움
우리는 몇 가지 가능한 평가만 고려했지만 (개요는 Sheng et al. (2021) 참조), 분포적 편향은 측정하기 특히 어렵다는 것을 관찰했다. Figure 6a는 템플릿 기반 평가의 취약성을 보여준다: 성별 및 직업 템플릿에서 동사를 "was"에서 "is"로 단순히 변경하는 것만으로도 관찰되는 경향에 영향을 미친다. 그러나 고품질의 자연스러운 데이터셋을 수집하는 것은 어렵다 (Blodgett et al., 2021). 우리는 HateCheck 데이터셋 (Röttger et al., 2021)에서 그랬던 것처럼, 고품질 데이터 수집이 학제적이며 다양한 언어적 해악에 대한 전문가 자문을 포함해야 한다고 생각한다.

맥락 정의의 어려움
우리의 toxicity 및 bias 평가는 애플리케이션이나 특정 사용자 그룹의 맥락에 맞춰져 있지 않아, 원하는 동작이 불분명하다. 예를 들어, 우리는 분석을 위해 일반적으로 연구되는 하위 그룹을 선택했지만 (Brown et al. (2020) 및 Huang et al. (2020)에서 채택), 인종과 같은 인구 통계 그룹은 고도로 맥락적이다 (Hanna et al., 2020). 우리의 대형 모델은 유해한 입력으로 prompt될 때 더 유해한 출력을 생성한다. 이는 toxicity 감지를 위해 설계된 모델(Section 5.1.2)에는 도움이 될 수 있지만, 다른 애플리케이션에서는 문제가 될 수 있다. 우리의 sentiment 분석에서 모델은 시리아를 묘사할 때 "flee" 및 "escape"와 같은 부정적인 단어를 자주 출력하지만, 국가 간에 동일한 sentiment를 강제하는 것은 역사적, 정치적 맥락을 지울 수 있다.

위에서 언급된 한계점들은 bias와 toxicity 측정에 초점을 맞추고 있으며, 본 연구에서는 완화 전략을 탐구하지 않았다. 그러나 우리의 한계점들은 언어 모델에 대한 기준을 측정하고 정의하는 데 있어 중요한 도전 과제를 보여주며, 우리는 언어 연구에서 신중한 모델 분석과 이해의 중요성을 강조한다. 강건한 지표는 효과적인 완화를 위해 필수적이며, 우리는 바람직한 동작을 설명하고, 신뢰할 수 있는 지표를 설계하며, 분석 도구를 구축하는 작업이 완화를 위해 개발된 방법만큼 중요하다고 생각한다.

7.3. Safety benefits and safety risks

우리는 언어 모델이 안전한 인공지능 개발을 위한 강력한 도구라고 믿으며, 이것이 우리 연구의 핵심 동기이다. 그러나 언어 모델은 잘못 사용될 경우 심각한 해를 끼칠 위험이 있으며, 이러한 해악이 완화되지 않는 한 그 이점을 실현할 수 없다.

이점 측면에서, 언어는 미묘한 아이디어를 전달하는 주요 인간 의사소통 매체이다. 만약 우리가 인간이 원하는 대로 작동하는 ML 모델을 원한다면, 올바른 행동이 상세한 논의를 필요로 하는 미묘한 경우를 포함하여, 기계가 그러한 논의에 참여할 수 있어야 한다. 양방향 의사소통이 모두 필요할 것이다: 인간이 기계에게 무엇을 원하는지 말하고, 기계가 자신의 행동을 인간에게 설명하는 것. 단기적으로는 자연어 설명이 모델을 더 신뢰할 수 있게 만들고 (Camburu et al., 2018), 성능을 향상시킬 수 있다 (Coyle and Weller, 2020; Kasirzadeh (2021); Rajani et al. (2019)는 설명의 이점과 미묘함에 대해 일부 조사한다). 인간과의 상호작용적 의사소통에 초점을 맞춘 안전 방법론에는 협력적 역강화 학습(cooperative inverse reinforcement learning) (Hadfield-Menell et al., 2016)이 포함된다; 더 넓은 논의는 Russell (2020)을 참조하라.

고급 에이전트에 대한 의사소통의 이점을 확장하기 위해, 여러 재귀적 안전 제안은 언어를 사용하여 task를 인간이 감독하기 더 쉬운 작은 조각으로 분해한다. 여기에는 반복 증폭(iterated amplification) (Christiano et al., 2018), 토론(debate) (Irving and Askell, 2019; Irving et al., 2018), 재귀적 보상 모델링(recursive reward modelling) (Leike et al., 2018)이 포함된다. 이러한 체계를 실현하려면 언어 모델이 인간의 논의와 추론을 따를 수 있어야 하며, 이는 고성능 모델에 대한 연구를 촉진한다. 실험적 연구는 초기 단계에 있다: Wu et al. (2021)은 재귀적 보상 모델링을 사용하여 책을 계층적으로 요약하며, 이는 요약과 같은 더 간단한 task에 인간 피드백을 사용한 이전 연구 (Böhm et al., 2019; Stiennon et al., 2020; Ziegler et al., 2019)를 기반으로 한다. Perez et al. (2019)은 고정된 question-answering 모델을 심판으로 사용하여 토론을 시뮬레이션한다. 인간 선호 학습은 대화 (Jaques et al., 2020)를 포함한 많은 다른 NLP task에 적용되어 왔다; 조사는 Wang et al. (2021)을 참조하라.

해악 측면에서, Bender et al. (2021)은 대규모 언어 모델의 많은 위험을 강조한다. 예를 들어, 학습 데이터의 암기 (Abubakar, 2021; Carlini et al., 2021), 높은 학습 비용 (Section G.3), 정적 학습 데이터로 인한 분포 변화(distributional shift) (Lazaridou et al., 2021), 내재된 편향의 증폭, 그리고 유해한 언어 생성 (Gehman et al., 2020) 등이 있으며, 이는 Section 5에서 다룬다. 해악의 포괄적인 분류는 Weidinger et al. (2021)을 참조하라.

잠재적 해악의 전반적인 상황을 평가한 후, 어떻게 그리고 언제 이를 완화할 것인지 질문하는 것은 자연스러운 일이다. 일부 해악은 사전학습(pre-training) 중에 해결될 수 있다. 예를 들어, 개인 정보 유출이나 일부 언어 및 사회 집단에 대한 성능 저하 등이 있다. Abadi et al. (2016)과 같은 프라이버시 보호 학습 알고리즘은 Anil et al. (2021)에서 340M 파라미터 BERT 모델을 사전학습하거나 Yu et al. (2021)에서 최대 1.5B 파라미터 LM을 fine-tuning하는 등 소규모로만 적용되어 왔다. 영어 전용 데이터셋은 더 많은 언어로 확장되어야 한다 (Xue et al., 2020). 우리는 MassiveWeb에 대해 이 과정을 시작했으며: Borgeaud et al. (2021)은 10개 언어 버전으로 학습한다.

그러나 우리는 LM으로 인한 많은 해악이 기술적 수단(예: fine-tuning 및 모니터링)과 사회기술적 수단(예: 다중 이해관계자 참여, 통제되거나 단계적인 출시 전략, 애플리케이션별 지침 및 벤치마크 수립)을 통해 다운스트림에서 더 잘 해결될 수 있다고 믿는다. 안전 및 공정성 노력을 다운스트림에 집중하는 것은 몇 가지 이점이 있다:

더 빠른 반복 주기. LLM은 비용 때문에 자주 학습되지 않으므로, 사전학습 중에는 실수를 수정하는 데 시간이 오래 걸리지만, 완화 조치가 다운스트림에 적용되면 빠르게 수정할 수 있다. 사실 정보가 변경되거나 (Lazaridou et al., 2021), 사회적 가치가 변경되거나 (Weidinger et al., 2021), 해악을 완화하는 방법에 대한 우리의 지식이 변경될 때 빠른 반복은 매우 중요하다. 특히, 데이터의 우발적인 검열은 소외된 집단에 의한 또는 그들에 대한 언어의 성능을 손상시킬 수 있다 (Dodge et al., 2021; Welbl et al., 2021; Xu et al., 2021a).

안전은 애플리케이션에 따라 달라진다. 언어 모델은 인간의 가치에 대한 정렬보다는 학습 데이터의 통계를 반영하며, 다운스트림 애플리케이션을 알지 못하는 상태에서 언어 모델을 정렬하는 것이 무엇을 의미하는지 불분명하다. Selbst et al. (2019)은 사회적 맥락과 애플리케이션 간의 공정성 비이식성을 강조한다. 모델 카드 (Mitchell et al., 2019)에는 주요 의도된 사용 및 범위 외 사용이 포함되며, 데이터셋 데이터시트 (Gebru et al., 2018)에는 권장 사용법이 포함된다. 예를 들어, 대화 에이전트는 유해한 언어를 피해야 하지만, 번역 모델은 정확성을 보장하기 위해 유해성을 보존해야 할 수도 있다.

LM은 하나의 애플리케이션 내에서 여러 역할을 수행할 수 있다. 단일 LM은 좋은 출력과 나쁜 출력을 분류하는 분류기 역할과 해당 출력을 생성하는 정책 역할을 모두 수행할 수 있다 (Stiennon et al., 2020). 정책으로서 우리는 유해한 출력을 원하지 않을 수 있지만, 분류기로서 LM은 유해한 텍스트를 정확하게 분류하기 위해 유해한 텍스트에 익숙해야 한다 (Buckman). 다운스트림 완화는 각 역할에 대한 별도의 fine-tuning을 허용하지만, 사전학습 중에 필터링을 통해 유해성을 완화하면 분류기 성능을 손상시킬 수 있다 (Welbl et al., 2021). Figure 5는 Gopher 계열에서 유해한 언어의 생성과 인식 사이의 상관관계를 보여준다. 어떤 경우에는 유해성이 목표이기도 하다: Perez et al. (2022)은 Gopher를 사용하여 Dialogue-Prompted Gopher가 제대로 작동하지 않도록 하는 질문을 생성한다. 이러한 분류기 대 정책 분할은 다른 해악에도 적용된다: 우리는 정확한 정책과 좋은 거짓말 탐지기를 원할 수 있다.

그러나 어떤 특정 해악이 다운스트림에서 가장 잘 완화된다는 주장은 경험적이다: 실제로 다운스트림에서 완화할 수 없다면, 다음 LM이 재학습될 때까지 실수는 고착될 것이다. 우리는 또한 일부 완화 조치가 다운스트림에서 가장 잘 적용되더라도, Gopher가 배포되는 애플리케이션에서 필요한 완화 조치가 발생하도록 영향을 미치고 해당 안전 연구를 수행함으로써 공동의 책임을 진다는 점을 강조한다. 우리는 해악 분류 (Kenton et al., 2021; Weidinger et al., 2021)와 완화 (Perez et al., 2022; Welbl et al., 2021)를 포함한 이러한 연구의 일부를 시작했다. 훨씬 더 많은 것이 필요하며, 이는 향후 연구로 남겨진다.

8. Conclusion

범용적인 능력을 갖춘 언어 기술의 발전은 빠르게 진행되고 있다. Language model은 이러한 발전의 핵심 동력이며, 우리는 데이터 품질과 규모에 대한 강조가 기존 연구 대비 흥미로운 성능 향상을 가져옴을 보여주었다. 그러나 규모의 이점은 균일하지 않다: 더 복잡한 수학적 또는 논리적 추론을 요구하는 일부 task에서는 Gopher 규모까지도 이점이 거의 관찰되지 않는다. 이는 language modelling objective의 본질적인 특성일 수 있다. 즉, 수학을 압축하는 것은 어렵고, 세상에 대한 많은 연관 사실을 학습하는 것이 더 쉽기 때문이다. 하지만 충분히 복잡한 모델은 추론에 대한 이해(따라서 압축) 부족으로 병목 현상을 겪을 수 있으며, 여기서 도달한 규모를 넘어서는 새로운 추론 능력이 나타날 가능성도 있다.
우리는 더 강력한 language model 개발과 더불어, 모델의 행동과 공정성을 더 잘 이해하기 위한 분석 및 해석 가능성 도구의 광범위한 개발을 지지한다. 이는 피해 완화를 유도하고, 인공지능을 사회적 이익에 확장 가능하게 정렬하는 도구로서 이러한 모델의 사용에 더 나은 정보를 제공하기 위함이다.