OPT: Open Pre-trained Transformer Language Models

Open Pre-trained Transformers (OPT)는 125M부터 175B 파라미터에 이르는 decoder-only pre-trained Transformer 모델 모음입니다. 이 모델들은 GPT-3와 유사한 성능을 목표로 개발되었으며, 연구자들이 대규모 언어 모델(Large Language Models)에 더 쉽게 접근하고 연구할 수 있도록 모든 모델과 학습 과정을 투명하게 공개하는 것을 목표로 합니다. 특히 OPT-175B 모델은 GPT-3 대비 1/7의 탄소 발자국으로 개발되었으며, 이 논문은 학습 과정에서 겪었던 인프라 문제와 해결 과정을 담은 로그북까지 함께 공개하여 재현 가능하고 책임감 있는 연구를 촉진하고자 합니다. 논문 제목: OPT: Open Pre-trained Transformer Language Models

Zhang, Susan, et al. "Opt: Open pre-trained transformer language models." arXiv preprint arXiv:2205.01068 (2022).

OPT: Open Pre-trained Transformer Language Models

Susan Zhang*, Stephen Roller, Naman Goyal, { }^{*} Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott { }^{\dagger} Sam Shleifer { }^{\dagger} Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer

Meta AI<br>{susanz,roller,naman}@fb.com

Abstract

수십만 compute days에 걸쳐 학습되는 대규모 language model들은 zero-shot 및 few-shot learning에서 놀라운 능력을 보여주었다. 하지만 이러한 모델들은 막대한 계산 비용 때문에 상당한 자본 없이는 재현하기 어렵다. API를 통해 접근 가능한 소수의 모델들조차 전체 모델 가중치에 대한 접근이 허용되지 않아 연구하기 어렵다.

우리는 이러한 문제를 해결하고자 **Open Pre-trained Transformers (OPT)**를 소개한다. OPT는 125M부터 175B 파라미터에 이르는 decoder-only 사전학습 Transformer 모델들의 모음으로, 관심 있는 연구자들과 완전히, 그리고 책임감 있게 공유하는 것을 목표로 한다. 우리는 OPT-175B가 GPT-3에 필적하는 성능을 보이면서도, 개발에 필요한 탄소 발자국은 1/7 수준에 불과함을 입증한다. 또한, 우리가 직면했던 인프라 문제들을 상세히 기록한 logbook공개된 모든 모델을 실험할 수 있는 코드도 함께 공개한다.

1 Introduction

대규모 텍스트 컬렉션으로 학습된 **Large Language Model (LLM)**은 텍스트를 생성하고 zero-shot 및 few-shot learning을 수행하는 놀라운 emergent capability를 보여주었다 (Brown et al., 2020; Lieber et al., 2021; Smith et al., 2022; Rae et al., 2021; Chowdhery et al., 2022). 일부 경우 대중이 유료 API를 통해 이러한 모델과 상호작용할 수 있지만, 현재 전체 모델 접근은 소수의 고자원 연구실로 제한되어 있다. 이러한 제한된 접근은 연구자들이 LLM이 어떻게, 왜 작동하는지 연구하는 능력을 제한하여, **강건성(robustness), 편향(bias), 유해성(toxicity)**과 같은 분야에서 알려진 문제들을 개선하는 데 진전을 방해하고 있다.

이 기술 보고서에서 우리는 125M에서 175B 파라미터에 이르는 decoder-only 사전학습 TransformerOpen Pretrained Transformers (OPT) 스위트를 소개하며, 이를 관심 있는 연구자들과 완전히, 그리고 책임감 있게 공유하고자 한다. 우리는 OPT 모델이 GPT-3 계열 모델의 성능과 크기에 대략적으로 부합하도록 학습시켰으며, 데이터 수집 및 효율적인 학습에 대한 최신 모범 사례를 적용했다. 이 OPT 모델 스위트를 개발하는 우리의 목표는 재현 가능하고 책임감 있는 대규모 연구를 가능하게 하고, 이러한 LLM의 영향을 연구하는 데 더 많은 목소리를 모으는 것이다. 위험, 해악, 편향, 유해성 등에 대한 정의는 모델이 연구에 활용 가능할 때 비로소 전체 연구 커뮤니티에 의해 명확히 규정될 수 있다.

우리는 125M에서 66B 파라미터 사이의 모든 모델을 공개하며, OPT-175B는 요청 시 전체 연구 접근 권한을 제공할 것이다. 접근 권한은 학술 연구자, 정부/시민 사회/학계 기관 소속 연구자, 그리고 산업 연구소 소속 연구자에게 부여될 것이다. 우리는 또한 모델 생성 로그북과 코드베이스인 metaseq를 공개한다. metaseq는 992개의 80GB A100 GPU에서 OPT-175B를 학습할 수 있게 했으며, GPU당 147 TFLOP/s의 활용률을 달성했다. 이 구현과 최신 세대 NVIDIA 하드웨어를 사용하여, 우리는 GPT-3의 탄소 발자국의 1/7에 불과한 에너지 비용으로 OPT-175B를 개발할 수 있었다. 이는 상당한 성과이지만, 이러한 모델을 생성하는 데 드는 에너지 비용은 여전히 상당하며, 이 크기의 모델을 반복적으로 복제하려는 노력은 LLM의 증가하는 컴퓨팅 발자국을 더욱 증폭시킬 뿐이다.

우리는 **전체 AI 커뮤니티(학술 연구자, 시민 사회, 정책 입안자, 산업계)**가 협력하여 일반적인 책임 있는 AI, 특히 많은 다운스트림 언어 애플리케이션에서 핵심적인 역할을 하는 LLM에 대한 명확한 가이드라인을 개발해야 한다고 믿는다. 훨씬 더 광범위한 AI 커뮤니티가 재현 가능한 연구를 수행하고 분야를 집단적으로 발전시키기 위해 이러한 모델에 접근할 필요가 있다. OPT-175B 및 소규모 baseline 모델의 공개를 통해, 우리는 이러한 기술의 윤리적 고려 사항을 정의하는 목소리의 다양성을 높이기를 희망한다.

Model#L#Hdmodel \mathbf{d}_{\text {model }}LRBatch
125 M12127686.0e46.0 e-40.5 M
350M241610243.0e43.0 e-40.5 M
1.3 B243220482.0e42.0 e-41M
2.7 B323225601.6e41.6 e-41M
6.7 B323240961.2e41.2 e-42M
13 B404051201.0e41.0 e-44M
30B485671681.0e41.0 e-44M
66B647292160.8e40.8 e-42M
175 B9696122881.2e41.2 e-42M

Table 1: 모델 아키텍처 세부 정보. 우리는 **레이어 수(#L), 어텐션 헤드 수(#H), 임베딩 크기(dmodel \mathbf{d}_{\text {model }})**를 보고한다. 또한 **최대 Learning Rate (LR)**와 **토큰 수 기준의 글로벌 배치 크기(Batch)**도 보고한다.

2 Method

2.1 Models

우리는 1억 2,500만 개에서 1,750억 개에 이르는 파라미터를 가진 8개의 Transformer language model에 대한 결과를 제시한다. 아키텍처 세부 사항은 Table 1에 나타나 있다. 투명성을 확보하고 학습 불안정성 위험을 줄이기 위해, 우리 모델과 하이퍼파라미터는 Brown et al. (2020)의 방식을 대부분 따르며, 주로 계산 효율성을 높이기 위해 batch size에 일부 변화를 주었다.

2.2 Training Setup

가중치 초기화의 경우, 우리는 Megatron-LM 코드베이스에서 제공하는 설정과 동일하게, 평균 0, 표준편차 0.006인 정규 분포를 사용한다. 출력 layer의 표준편차는 총 layer 수 LL에 따라 1.0/2L1.0 / \sqrt{2L} 항으로 스케일링된다. 모든 bias 항은 0으로 초기화되며, 모든 모델은 ReLU activation시퀀스 길이 2048로 학습된다.

우리는 **AdamW optimizer (Loshchilov and Hutter, 2017)**를 사용하며, (β1,β2\beta_1, \beta_2)는 (0.9, 0.95)로 설정하고, weight decay는 0.1이다. 선형 학습률 스케줄을 따르며, OPT-175B의 경우 처음 2000 스텝 동안, 또는 더 작은 baseline 모델의 경우 3억 7천 5백만 토큰 동안 학습률을 0에서 최대 학습률까지 warm-up하고, 이후 3천억 토큰에 걸쳐 최대 학습률의 10%까지 decay시킨다. 학습 중 학습률에 대한 몇 가지 중간 변경 사항도 필요했다 (Section 2.5 참조). 우리의 batch size는 모델 크기에 따라 0.5M에서 4M까지 다양하며 (Table 1 참조), 학습 과정 내내 일정하게 유지된다.

우리는 전반적으로 dropout 0.1을 사용하지만, embedding에는 dropout을 적용하지 않는다. gradient norm은 1.0으로 clipping하며, 일부 중간 변경 사항에서는 이 임계값을 1.0에서 0.3으로 낮추었다 (Section 2.5 참조). 또한, 모든 rank에 걸쳐 gradient를 계산할 때 over/underflow 위험을 줄이기 위해 gradient predivide factor를 포함한다 (전체 world size NN으로 나누는 것을 N\sqrt{N}으로 두 번 나누는 연산으로 분할).

2.3 Pre-training Corpus

사전학습 코퍼스는 RoBERTa (Liu et al., 2019b), Pile (Gao et al., 2021a), 그리고 PushShift.io Reddit (Baumgartner et al., 2020; Roller et al., 2021)에서 사용된 데이터셋들을 연결(concatenation)하여 구성되었다. 모든 코퍼스는 주로 영어 텍스트를 포함하도록 이전에 수집되거나 필터링되었지만, CommonCrawl을 통해 소량의 비영어 데이터가 여전히 코퍼스 내에 존재한다.

우리는 MinhashLSH (Rajaraman and Ullman, 2011)를 사용하여 Jaccard 유사도 .95\geq .95인 문서를 필터링함으로써 모든 데이터셋에서 중복된 문서를 제거했다. Pile에는 특히 중복 문서가 많다는 것을 발견했으며, Pile을 사용하는 향후 연구자들에게 추가적인 중복 제거 처리를 수행할 것을 권장한다.

우리는 모든 코퍼스를 GPT-2 byte level BPE tokenizer (Sennrich et al., 2016; Radford et al., 2019; Brown et al., 2020)를 사용하여 토큰화했다. 최종 코퍼스는 약 180B 토큰을 포함한다.

RoBERTa
우리는 RoBERTa 코퍼스의 BookCorpus (Zhu et al., 2015)와 Stories (Trinh and Le, 2018) 서브셋을 포함했으며, 2021년 9월 28일까지 크롤링된 뉴스 기사를 포함하는 업데이트된 버전의 CCNews를 활용했다. 이 CCNews v2 코퍼스는 원본 RoBERTa CCNews (Liu et al., 2019b)와 동일한 방식으로 전처리되었다.

The Pile
우리는 Pile (Gao et al., 2021a)의 서브셋을 포함했으며, 다음을 포함한다: CommonCrawl, DM Mathematics, Project Gutenberg, HackerNews, OpenSubtitles, OpenWebText2, USPTO, Wikipedia.
Pile의 다른 서브셋들은 1.3B 규모에서 gradient norm의 급증을 유발하는 경향으로 측정된 불안정성 위험을 증가시키거나, 부적합하다고 판단되어 제외되었다. 모든 서브셋은 추가적인 ad-hoc whitespace normalization을 거쳤다.

PushShift.io Reddit
우리는 Baumgartner et al. (2020)이 생성하고 Roller et al. (2021)이 이전에 사용했던 Pushshift.io 코퍼스의 서브셋을 포함했다. 대화형 트리(conversational trees)를 language-model이 접근 가능한 문서로 변환하기 위해, 각 스레드에서 가장 긴 댓글 체인(chain of comments)을 추출하고 트리의 다른 모든 경로는 버렸다. 이로 인해 코퍼스는 약 66% 감소했다.

2.4 Training Efficiency

우리는 OPT-175B를 992개의 80GB A100 GPU에서 학습시켰으며, 이를 위해 Megatron-LM Tensor Parallelism (Shoeybi et al., 2019)과 함께 Fully Sharded Data Parallel (Artetxe et al., 2021)을 활용하였다. 우리는 GPU당 최대 147 TFLOP/s의 활용률을 달성하였다. Adam state는 모든 호스트에 걸쳐 sharding되었기 때문에 FP32로 유지했으며, 모델 가중치는 FP16으로 유지되었다. underflow를 방지하기 위해 Micikevicius et al. (2017)에서 설명된 dynamic loss scaling을 사용하였다.

2.5 Training Processes

여기서는 OPT-175B 사전학습 과정에서 발생한 중요한 학습 프로세스 조정 사항들을 설명한다.

하드웨어 오류 (Hardware Failures)
OPT-175B 사전학습 중 컴퓨팅 클러스터에서 상당한 수의 하드웨어 오류가 발생했다. 총 2개월 동안 하드웨어 오류로 인해 최소 35번의 수동 재시작이 필요했고, 100개 이상의 호스트가 교체되었다. 수동 재시작 시에는 학습이 일시 중지되었고, 문제가 있는 노드를 감지하기 위해 일련의 진단 테스트가 수행되었다. 플래그가 지정된 노드는 격리되었고, 학습은 마지막으로 저장된 체크포인트부터 재개되었다. 교체된 호스트 수와 수동 재시작 횟수 간의 차이를 고려할 때, 하드웨어 오류로 인한 자동 재시작은 70회 이상으로 추정된다.

손실 발산 (Loss Divergences)
손실 발산 또한 학습 과정에서 문제였다. 손실이 발산했을 때, 학습률(learning rate)을 낮추고 이전 체크포인트에서 재시작하면 작업을 복구하고 학습을 계속할 수 있음을 발견했다. 우리는 손실 발산, dynamic loss scalar가 0으로 급락하는 현상, 그리고 최종 layer의 activation의 l2l^2-norm이 급증하는 현상 사이에 상관관계가 있음을 확인했다. 이러한 관찰을 통해 우리는 dynamic loss scalar가 "건강한" 상태(1.0\geq 1.0)를 유지하고, activation norm이 무한정 증가하는 대신 하향 추세를 보이는 지점을 재시작 지점으로 선택했다. 우리의 경험적 학습률 스케줄은 Figure 1에 나타나 있다. 학습 초기에 gradient clipping을 1.0에서 0.3으로 낮추는 것이 안정성에 도움이 된다는 것을 발견했다. 정확한 세부 사항은 공개된 logbook을 참조하라. Figure 2는 학습 iteration에 따른 validation perplexity를 보여준다.

Figure 1: 경험적 학습률(LR) 스케줄. 학습률을 낮추는 것이 불안정성을 피하는 데 도움이 된다는 것을 발견했다.

Figure 2: Validation Perplexity. 학습 중 학습률 변경은 validation perplexity에 명확한 영향을 미쳤다.

기타 학습 중 변경 사항 (Other Mid-flight Changes)
손실 발산을 처리하기 위해 여러 가지 실험적인 학습 중 변경 사항을 적용했다. 여기에는 다음이 포함된다:

  • vanilla SGD로 전환: 최적화가 빠르게 정체되어 AdamW로 되돌아갔다.
  • dynamic loss scalar 재설정: 일부 발산은 복구하는 데 도움이 되었지만, 모든 발산을 복구하지는 못했다.
  • Megatron의 최신 버전으로 전환: activation norm에 대한 부담을 줄이고 처리량(throughput)을 향상시켰다.

3 Evaluations

3.1 Prompting & Few-Shot

우리는 문헌에서 활용되는 16가지 표준 NLP task에 대해 모델을 평가한다: HellaSwag (Zellers et al., 2019), StoryCloze (Mostafazadeh et al., 2016), PIQA (Bisk et al., 2020), ARC Easy and Challenge (Clark et al., 2018), OpenBookQA (Mihaylov et al., 2018), WinoGrad (Levesque et al., 2011), WinoGrande (Sakaguchi et al., 2020), 그리고 SuperGLUE (Wang et al., 2019). 우리는 GPT-3 (Brown et al., 2020)의 prompt와 전반적인 실험 설정을 따른다. 주로 GPT-3와 비교하며, 그들의 평가 설정을 재구현하는 것을 목표로 했지만, 사용 가능한 경우 다른 LLM들의 보고된 성능도 task별로 포함한다 (Lieber et al., 2021; Rae et al., 2021; Hoffmann et al., 2022; Black et al., 2022).

평가 지표의 일관성을 위해 **정확도(accuracy)**를 보고한다 (MultiRC와 ReCoRD의 F1은 생략). SuperGLUE 벤치마크의 WSC(Winograd Schema Challenge) task의 경우, (Brown et al., 2020)을 따라 task를 객관식 질문으로 구성했으며, 이는 성능에 영향을 미치는 것으로 알려져 있다 (Liu et al., 2020).

Zero-shot 전체 14개 task에 대한 평균 zero-shot 성능은 Figure 3에서 확인할 수 있다. 전반적으로, 우리의 평균 성능은 GPT-3의 경향을 따른다. 그러나 성능은 task별로 크게 다를 수 있다: 자세한 내용은 Appendix A를 참조하라. MultiRC와 WIC는 의도적으로 이 평균에서 제외했는데, 이 데이터셋들이 GPT-3 또는 OPT에 불균형적으로 유리하게 작용하는 경향이 있기 때문이다.

우리의 성능은 10개 task에서 GPT-3와 거의 일치했으며, 3개 task (ARC Challenge 및 MultiRC)에서는 낮은 성능을 보였다. **3개 task (CB, BoolQ, WSC)**에서는 GPT 및 OPT 모델 모두 규모에 따라 예측 불가능한 행동을 보였는데, 이는 이 3개 task의 검증 세트 크기가 작기 때문인 것으로 보인다 (각각 56, 277, 104개 예시). WIC에서는 OPT 모델이 항상 GPT-3 모델보다 우수한 성능을 보였지만, WIC가 이진 분류 task임을 고려할 때 Brown et al. (2020)이 보고한 수치도 의문스럽다. MultiRC의 경우, 우리의 평가 설정에서 Davinci API를 사용하여 GPT-3 결과를 재현할 수 없었으며, 이는 이 task에 대한 평가 방법의 차이를 시사한다. BoolQ와 WSC의 경우, OPT와 GPT 모델 모두 다수 클래스 정확도 주변에 머무는 경향을 보였는데, 이는 확률 질량의 작은 교란이 평가를 지배하고 있음을 시사한다.

Figure 3: Zero-shot NLP 평가 평균. 다양한 task와 모델 크기에서 OPT는 GPT-3의 보고된 평균과 대체로 일치한다. 그러나 성능은 task별로 크게 다르다: Appendix A를 참조하라.

Figure 4: Multi-shot 성능. OPT의 one-shot 및 few-shot 성능은 GPT-3 모델에 뒤처지지만, 성능은 task별로 크게 다르다; Appendix A를 참조하라.

Chinchilla (Hoffmann et al., 2022)와 Gopher (Rae et al., 2021)는 파라미터 크기에 따라 다른 모델들과 거의 일관된 성능을 보인 반면, PaLM (Chowdhery et al., 2022)은 파라미터 수를 통제하더라도 모든 설정에서 일반적으로 더 나은 성능을 보인다. 우리는 PaLM의 높은 성능이 주로 더 높은 품질과 다양성을 가진 사전학습 데이터에서 비롯된 것으로 추측한다.

One-shot 및 Few-shot 평균 multi-shot in-context 성능은 Figure 4에 나와 있으며 (MultiRC와 WIC는 다시 생략), 자세한 성능은 Appendix A에 제시되어 있다. 모든 지표의 평균에서 OPT 모델이 GPT-3 모델과 유사한 성능을 보임을 확인했다. 그러나 zero-shot과 마찬가지로, task별로 결과를 분석하면 다른 양상을 보인다: zero-shot과 동일한 10개 데이터셋에서는 두 모델 간에 유사한 성능을 보인다. 나머지 일부 데이터셋에서는 OPT와 GPT-3 모델 모두 모델 크기에 따라 일관성 없는 성능을 보인다 (BoolQ, CB, WSC, RTE). MultiRC에서는 OPT 모델이 GPT-3 모델에 비해 지속적으로 낮은 성능을 보인다. 우리의 zero-shot 평가와 유사하게, 우리는 우리의 one-shot 및 few-shot 평가 설정이 Brown et al. (2020)과 크게 다를 수 있다고 가정한다.

3.2 Dialogue

LLM이 최신 대화 모델의 필수 구성 요소로 알려져 있다는 점을 고려하여 (Adiwardana et al., 2020; Roller et al., 2021; Thoppilan et al., 2022; Rae et al., 2021; Chowdhery et al., 2022), 우리는 추가적으로 OPT-175B를 여러 오픈 소스 대화 데이터셋에서 평가하였다. 특히, Roller et al. (2021)의 방식을 따라 ConvAI2 (Dinan et al., 2020b), Wizard of Wikipedia (Dinan et al., 2019b), Empathetic Dialogues (Rashkin et al., 2019), 그리고 Blended Skill Talk (Smith et al., 2020)에서 평가를 수행하였다. 또한, 최근에 공개된 Wizard of Internet 데이터셋 (Komeili et al., 2021)에서도 평가를 진행하였다. 우리는 주로 fine-tuned BlenderBot 1 (Roller et al., 2021)과 그 사전학습 모델인 Reddit 2.7B를 포함한 기존 오픈 소스 대화 모델들과 비교하는 데 중점을 두었다. 또한 Shuster et al. (2022)가 학습시킨 2.7B 파라미터의 BlenderBot 유사 모델인 fine-tuned R2C2 BlenderBot과도 비교하였다.

우리는 ConvAI2 경쟁 (Dinan et al., 2020b)의 지표를 따라 PerplexityUnigram F1 (UF1) overlap을 보고한다. 각 모델의 다른 tokenization을 제어하기 위해, 모든 perplexity는 GPT-2 tokenizer (Radford et al., 2019)의 공간으로 정규화하였다. 또한, 어떤 모델이 이러한 대화 task에 대해 supervised 방식으로 학습되었는지, 어떤 모델이 unsupervised 방식으로 학습되었는지도 명시하였다. OPT-175B의 경우, 모든 생성은 greedy decoding을 사용하여 최대 32개의 token까지 수행되었다. 우리는 "Person 1:"과 "Person 2:" 대화 라인을 번갈아 가며 사용하는 것 외에는 모델에 어떠한 prompting도 시도하지 않았다. 나머지 모델들은 BlenderBot 1에서 사용된 생성 파라미터를 사용하였다.

결과는 Table 2에 제시되어 있다. 우리는 OPT-175B가 모든 task에서 unsupervised Reddit 2.7B 모델을 크게 능가하며, 특히 ConvAI2 데이터셋에서는 fully supervised BlenderBot 1 모델과 경쟁적인 성능을 보임을 확인하였다. 모든 모델에 대해 완전히 unsupervised인 Wizard-of-Internet 데이터셋에서는 OPT-175B가 가장 낮은 perplexity를 얻었지만, Wizard-of-Wikipedia supervision이 있는 모델들보다 UF1은 여전히 낮았다.

우리는 unsupervised OPT-175B 모델의 평가 결과가 ConvAI2 데이터셋에서 BlenderBot 1만큼 경쟁적이었다는 점에 다소 놀랐다. 이는 ConvAI2 데이터셋이 일반적인 사전학습 코퍼스 또는 Table 2에서 평가된 validation 데이터로 유출되었을 가능성을 시사할 수 있다. 유출 우려를 해소하기 위해, 우리는 사전학습 코퍼스에서 ConvAI2 데이터셋의 첫 번째 대화를 검색했지만, 어떠한 중복도 발견하지 못했다. 우리는 추가적으로 OPT-175B공개된 적 없는 ConvAI2 hidden test set에서 평가하였고, 10.7 ppl과 0.185 UF1을 달성하여 validation set의 성능과 일치함을 확인하였다. 또한, OPT-175BConvAI2와 유사한 MultiSessionChat (MSC) 데이터셋 (Xu et al., 2021b)의 하위 집합에서 평가한 결과, 9.7의 perplexity와 0.177의 UF1을 얻었으며, 이는 모델이 여러 PersonaChat 유사 데이터셋에 걸쳐 잘 일반화되고 있음을 나타낸다. MSC와 WoI 데이터셋 모두 사전학습 코퍼스에 사용된 CommonCrawl 스냅샷 이후에 공개되었으므로, 유출 위험은 최소화된다. 우리는 OPT-175B대화 전반에 걸쳐 일관된 페르소나를 유지하는 강력한 능력을 가지고 있다고 결론 내린다. 이러한 행동은 LaMDA (Thoppilan et al., 2022)에서도 강조된 바 있다.

4 Bias & Toxicity Evaluations

OPT-175B의 잠재적 유해성을 이해하기 위해, 우리는 **혐오 발언 감지(hate speech detection), 고정관념 인식(stereotype awareness), 유해 콘텐츠 생성(toxic content generation)**과 관련된 일련의 벤치마크를 평가한다. 이러한 벤치마크에 단점이 있을 수 있지만 (Blodgett et al., 2021; Jacobs and Wallach, 2021), 이 측정값들은 OPT-175B의 한계를 이해하기 위한 첫걸음을 제공한다. 우리는 주로 GPT-3 Davinci와 비교하는데, 이는 Brown et al. (2020)에 이 벤치마크들이 포함될 당시에는 아직 사용 가능하지 않았기 때문이다.

4.1 Hate Speech Detection

Mollas et al. (2020)이 제공하고 Chiu and Alexander (2021)가 계측한 ETHOS 데이터셋을 사용하여, 우리는 OPT-175B가 특정 영어 문장이 인종차별적이거나 성차별적인지(또는 둘 다 아닌지) 식별하는 능력을 측정한다. zero-shot, one-shot, 그리고 few-shot 이진 분류(binary)의 경우, 모델은 텍스트를 제시받고 해당 텍스트가 인종차별적인지 또는 성차별적인지 여부를 예/아니오(yes/no)로 응답하도록 요청받는다. few-shot 다중 클래스(multiclass) 설정에서는 모델이 예/아니오/둘 다 아님(yes/no/neither)으로 응답하도록 요청받는다.

ModelEvalPerplexity ( \downarrow )Unigram F1 ( \uparrow )
C2WWEDBSTWoIC2WWEDBSTWoI
Reddit 2.7BUnsup.18.921.011.617.418.0. 126. 133. 135. 133. 124
BlenderBot 1Sup.10.212.59.011.914.7. 183. 189. 192. 178. 154
R2C2 BlenderBotSup.10.512.49.111.714.6. 205. 198. 197. 186. 160
OPT-175BUnsup.10.813.310.312.112.0. 185. 152. 149. 162. 147

Table 2: 대화 평가. OPT-175B는 완전한 unsupervised 설정에서 완전한 supervised 모델들과 경쟁력 있는 성능을 보인다.

SetupDavinciOPT-175B
Zero-shot.628.667\mathbf{. 6 6 7}
One-shot.616.713\mathbf{. 7 1 3}
Few-shot (binary).354.759\mathbf{. 7 5 9}
Few-shot (multiclass).672.812\mathbf{. 8 1 2}

Table 3: 혐오 발언 감지. Davinci와 OPT-175B 간의 혐오 발언 감지 F1 점수. OPT-175B는 모든 설정에서 Davinci를 상당히 능가한다.

결과는 Table 3에 제시되어 있다. 우리의 모든 one-shot부터 few-shot 설정에서 OPT-175B는 Davinci보다 상당히 우수한 성능을 보인다. 우리는 이러한 결과가 두 가지 원인에서 비롯된다고 추측한다: (1) Davinci API를 통한 평가는 Brown et al. (2020)에서 사용된 원래의 175B GPT-3 모델을 넘어선 안전 제어 메커니즘을 포함할 수 있으며, (2) 사전학습 데이터셋에 비규제 소셜 미디어 토론이 상당수 포함되어 있어, 이러한 분류 task에 도움이 되는 추가적인 inductive bias를 제공했을 수 있다.

4.2 CrowS-Pairs

Masked Language Model을 위해 개발된 CrowS-Pairs (Nangia et al., 2020)는 문장 내(intrasentence) 수준의 편향을 측정하기 위한 크라우드소싱 벤치마크로, 다음 9가지 범주를 다룬다:

  • 성별(gender)
  • 종교(religion)
  • 인종/피부색(race/color)
  • 성적 지향(sexual orientation)
  • 연령(age)
  • 국적(nationality)
  • 장애(disability)
  • 신체 외모(physical appearance)
  • 사회경제적 지위(socioeconomic status)

각 예시는 특정 그룹에 대한 고정관념(stereotype) 또는 반고정관념(anti-stereotype)을 나타내는 한 쌍의 문장으로 구성되며, 모델이 고정관념적인 표현에 대해 얼마나 선호하는지를 측정하는 것을 목표로 한다. 점수가 높을수록 모델이 더 높은 편향을 보임을 의미한다.

CategoryGPT-3OPT-175B
Gender62.665.7
Religion73.368.6
Race/Color64.768.6
Sexual orientation76.278.6
Age64.467.8
Nationality61.662.9
Disability76.776.7
Physical appearance74.676.2
Socioeconomic status73.876.2
Overall67.269.5

Table 4: CrowS-Pairs 평가 결과.
모든 범주에서 점수가 낮을수록 더 공정함을 나타낸다. OPT-175B 모델은 대부분의 범주에서 Davinci보다 성능이 좋지 않다.

Table 4에서 Davinci와 비교했을 때, OPT-175B는 종교를 제외한 거의 모든 범주에서 더 많은 고정관념적 편향을 보이는 것으로 나타났다. 이는 다시 한번 학습 데이터의 차이 때문일 가능성이 높다. Nangia et al. (2020)은 Pushshift.io Reddit corpus가 다른 코퍼스(예: Wikipedia)보다 고정관념 및 차별적인 텍스트의 발생률이 더 높다는 것을 보여주었다. OPT-175B의 주요 데이터 소스가 이렇다는 점을 고려할 때, 모델이 더 많은 차별적 연관성을 학습했을 수 있으며, 이는 CrowS-Pairs 성능에 직접적인 영향을 미친다.

4.3 StereoSet

Lieber et al. (2021) 및 Artetxe et al. (2021)에 따라, 우리는 **StereoSet (Nadeem et al., 2021)**을 사용하여 직업, 성별, 종교, 인종의 4가지 범주에 걸쳐 고정관념 편향(stereotypical bias)을 측정한다. StereoSet은 intrasentence 측정(CrowSPairs와 유사) 외에도, intersentence 수준에서의 측정을 포함하여 모델이 추가적인 문맥을 통합하는 능력을 테스트한다. 편향 감지 능력과 언어 모델링 능력 사이의 잠재적인 trade-off를 고려하기 위해, StereoSet은 두 가지 지표를 포함한다:

CategoryDavinciOPT-175B
Prof.LMS ( \uparrow )78.474.1
SS ( \downarrow )63.462.6
ICAT ( \uparrow )57.555.4
Gend.LMS ( \uparrow )75.674.0
SS ( \downarrow )66.563.6
ICAT ( \uparrow )50.653.8
Reli.LMS ( \uparrow )80.884.0
SS ( \downarrow )59.059.0
ICAT ( \uparrow )66.368.9
RaceLMS ( \uparrow )77.074.9
SS ( \downarrow )57.456.8
ICAT ( \uparrow )65.764.8
OverallLMS ( \uparrow )77.674.8
SS ( \downarrow )60.859.9
ICAT ( \uparrow )60.860.0

Table 5: StereoSet 평가 결과. Davinci와 OPT-175B는 모든 평가에서 유사한 성능을 보인다.

**Language Modeling Score (LMS)**와 **Stereotype Score (SS)**이며, 이 두 지표는 **Idealized Context Association Test score (ICAT)**를 형성하기 위해 결합된다. Lieber et al. (2021)과 달리, 우리는 점수를 문자 수(character count)가 아닌 토큰 수(token count)로 정규화하였는데, 이는 여러 모델에서 지표를 개선하는 것으로 보고되었다.

결과는 Table 5에 제시되어 있다. 우리는 **Davinci와 OPT-175B가 전체적으로 유사한 점수(overall ICAT 점수가 매우 근접함)**를 보임을 확인할 수 있다. 특히, Davinci는 직업(profession)과 인종(race) 분야에서 더 나은 성능을 보인 반면, OPT-175B는 성별(gender)과 종교(religion) 분야에서 더 우수했다. OPT-175B는 SS 지표에서 전반적으로 더 나은 성능을 보였고, Davinci는 LMS 지표에서 일반적으로 더 우수했다.

4.4 RealToxicityPrompts

우리는 **RealToxicityPrompts 데이터셋 (Gehman et al., 2020)**을 통해 OPT-175B가 유해한 언어(toxic language)로 응답하는 경향을 평가한다. PaLM (Chowdhery et al., 2022)의 방식을 따라, RTP에서 무작위로 샘플링된 10,000개의 prompt 각각에 대해 nucleus sampling (Holtzman et al., 2020) (p=0.9p=0.9)을 사용하여 20개 토큰 길이의 응답 25개를 생성한다. 그리고 원래 prompt의 유해성(toxicity)을 구간별로 분류(bucketed)하여, 각 구간에 따른 생성된 응답의 평균 유해성 확률을 보고한다. 비교를 위해 Davinci와 PaLM의 구간별 유해성 비율도 함께 제시한다.

결과는 Figure 5에 나타나 있다. 전반적으로 OPT-175B는 PaLM이나 Davinci보다 더 높은 유해성 비율을 보인다.

Figure 5: RealToxicityPrompts. OPT-175B는 Davinci나 PaLM보다 유해한 응답을 생성할 가능성이 더 높다. 이전 연구와 일관되게, prompt의 유해성이 증가할수록 유해성 비율도 증가한다.

또한, 세 모델 모두 prompt의 유해성이 증가할수록 유해한 응답을 생성할 가능성이 높아지는 것을 관찰할 수 있으며, 이는 Chowdhery et al. (2022)의 관찰과 일치한다. 혐오 발언 탐지(hate speech detection) 실험에서와 마찬가지로, 우리는 사전학습 코퍼스에 비정제된 소셜 미디어 텍스트가 포함된 것이 모델이 유해한 텍스트에 대한 친숙도를 높이고, 결과적으로 유해한 텍스트를 생성하고 탐지하는 경향을 높이는 것으로 추정한다. 이러한 유해한 언어에 대한 높은 인식 수준다운스트림 애플리케이션의 특정 요구사항에 따라 바람직할 수도 있고 그렇지 않을 수도 있다. OPT-175B의 향후 애플리케이션은 모델의 이러한 측면을 고려하고, 필요에 따라 추가적인 완화 조치를 취하거나 사용을 전적으로 피해야 한다.

4.5 Dialogue Safety Evaluations

마지막으로, 우리는 두 가지 Dialogue Safety 평가에서 OPT-175B를 비교한다. 첫 번째는 **SaferDialogues (Ung et al., 2021)**로, 주로 사과하거나 실수를 인정하는 형태로 명시적인 안전 실패로부터 회복하는 능력을 측정한다. 두 번째는 **Safety Bench Unit Tests (Dinan et al., 2021)**로, 모델 응답의 안전하지 않은 정도4단계의 주제 민감도(Safe, Realistic, Unsafe, Adversarial)에 따라 계층화하여 측정한다. 다른 대화 평가(Section 3.2)와 마찬가지로, 우리는 여러 기존 오픈 소스 대화 모델과 비교한다.

두 실험의 결과는 Table 6에 나와 있다. 우리는 OPT-175BSaferDialogues와 Unit Tests 모두에서 Reddit 2.7B 모델과 유사한 성능을 보이며, Safe 및 Adversarial 설정에서 OPT-175B가 미미하게 더 나은 성능을 나타냄을 관찰한다. Roller et al. (2021) 및 Xu et al. (2020)의 연구와 일관되게, 우리는 선별된 대화 데이터셋으로 fine-tuning된 모델(BlenderBot 1, R2C2)이 전반적으로 더 낮은 독성(toxicity)을 가짐을 발견한다. 결론적으로, 대화를 위한 OPT-175B의 향후 실험은 안전성 프로필을 개선하기 위해 선별된 데이터셋에 대한 명시적인 fine-tuning을 포함해야 한다.

Safe. Dia.Unit Tests ()(\downarrow)
ModelPPLF1SaReUnAd
Reddit 2.7B16.2.140.300.261.450.439
BlenderBot 112.4\mathbf{12 . 4}.161\mathbf{. 1 6 1}.028.150.250\mathbf{. 250}.194\mathbf{. 1 9 4}
R2C2 BlenderBot13.8.160.022\mathbf{. 0 2 2}.133\mathbf{. 1 3 3}.289.222
OPT-175B14.7.141.033.261.567.283

Table 6: Dialogue Responsible AI 평가. OPT-175BReddit 2.7B 모델과 거의 동등한 성능을 보이지만, Unsafe 설정에서는 더 낮은 성능을 나타낸다.

5 Limitations

Section 3.1과 4에서 우리는 다양한 규모로 출시된 모든 모델에 대해 광범위한 평가를 수행했다. 우리는 GPT-3 모델에서 사용된 표준 평가 데이터셋에서 성능의 동등성을 확인했다. 또한, 안전성, 편향, 포괄성 평가를 수행했으며, 독성(toxicity) 및 혐오 발언(hate speech) 감지에서 일부 차이가 있었지만 전반적으로 유사한 성능을 보였다. 그러나 이러한 평가는 모델의 모든 한계점을 완전히 특성화하지 못할 수 있다. 일반적으로 우리는 OPT-175B가 다른 LLM에서 지적된 동일한 한계점(Brown et al., 2020; Lieber et al., 2021; Thoppilan et al., 2022; Rae et al., 2021; Smith et al., 2022; Chowdhery et al., 2022; Bender et al., 2021)을 겪고 있음을 정성적으로 관찰했다.

특히, 우리는 OPT-175B가 선언적 지시(declarative instructions)나 단도직입적인 질문(point-blank interrogatives)에 잘 작동하지 않음을 발견했다. 이러한 지시로 prompt를 구성하면, 지시의 실행보다는 해당 지시로 시작하는 대화의 시뮬레이션을 생성하는 경향이 있다. InstructGPT (Ouyang et al., 2022)와 같은 instruction learning에 대한 향후 연구가 이러한 한계점을 완화할 수 있을 것이다.

OPT-175B는 또한 반복적인 경향이 있으며 쉽게 루프에 빠질 수 있다. 샘플링이 반복적인 행동의 발생률을 줄일 수 있지만 (Holtzman et al., 2020), 우리는 단 하나의 생성만 샘플링했을 때는 이를 완전히 제거하지 못했다는 일화적인 증거를 발견했다. 향후 연구에서는 unlikelihood training (Welleck et al., 2020) 또는 best-first decoding (Meister et al., 2020)과 같이 반복을 줄이고 다양성을 향상시키는 더 현대적인 전략을 통합하는 것을 고려할 수 있다.

다른 LLM과 유사하게, OPT-175B는 사실과 다른 진술을 생성할 수 있다 (Adiwardana et al., 2020; Brown et al., 2020; Roller et al., 2021; Rae et al., 2021; Chowdhery et al., 2022; Thoppilan et al., 2022). 이는 정보 정확성이 중요한 의료 및 과학 발견과 같은 응용 분야에서 특히 해로울 수 있다 (Weidinger et al., 2021b). 최근 여러 연구에서 retrieval-augmented model이 LLM의 사실 정확성을 향상시킬 수 있음을 보고했다 (Lewis et al., 2020; Komeili et al., 2021; Thoppilan et al., 2022; Borgeaud et al., 2021; Shuster et al., 2022; Nakano et al., 2021). 우리는 OPT-175B 또한 향후 반복에서 retrieval-augmentation의 이점을 얻을 것이라고 믿는다.

Section 4에서 보여주듯이, 우리는 또한 OPT-175B가 비교적 무해한 prompt가 주어졌을 때에도 유해한 언어를 생성하고 해로운 고정관념을 강화하는 경향이 높음을 발견했으며 (Gehman et al., 2020), 적대적 prompt는 쉽게 찾을 수 있다 (Dinan et al., 2021). 독성 및 편향 완화에 대한 많은 연구가 진행되어 왔다 (Dathathri et al., 2019; Dinan et al., 2019a; Sheng et al., 2019; Dinan et al., 2020a; Liu et al., 2019a; Krause et al., 2020; Xu et al., 2020; Liang et al., 2021; Dinan et al., 2021; Xu et al., 2021a; Dhamala et al., 2021; Schick et al., 2021; Ouyang et al., 2022). 다운스트림 응용 분야에 따라, OPT-175B의 향후 사용은 특히 실제 배포 전에 이러한 또는 새로운 완화 접근 방식을 적용해야 할 수 있다. GPT-3의 복제라는 우리의 주요 목표를 고려하여, 우리는 이 첫 번째 릴리스에서는 이러한 완화 조치를 적용하지 않기로 결정했다.

요약하자면, 우리는 여전히 이 기술이 상업적 배포에는 시기상조라고 생각한다. 데이터 시트와 모델 카드를 포함했음에도 불구하고, 데이터를 책임감 있게 사용하기 위해서는 추가적인 데이터 특성화 및 선택 기준을 통해 학습 데이터에 대한 더 많은 검토가 필요하다고 생각한다. 현재 관행은 가능한 한 많은 데이터를 모델에 공급하고 해당 데이터셋 내에서 최소한의 선택을 하는 것이다. 포괄적인 평가를 수행했음에도 불구하고, 평가 시나리오의 재현성(replicability)과 반복성(reproducibility)을 보장하기 위해 더 간소화되고 일관된 평가 설정이 이상적일 것이다. prompting 스타일과 in-context learning을 위한 shot 수의 차이는 다른 결과로 이어질 수 있는 변동성을 야기할 수 있다. 우리는 OPT 모델의 공개 출시가 더 많은 연구자들이 이러한 중요한 문제들을 해결하는 데 기여할 수 있기를 바란다.

6 Considerations for Release

Partnership for AI가 제시한 개별 연구자를 위한 권고 사항과 NIST가 제시한 거버넌스 지침에 따라, 우리는 OPT-175B 학습에 관련된 모든 세부 사항로그북, 코드를 통해 공개하고 있으며, OPT-175B 모델 가중치와 OPT-175B 설정을 반영하는 더 작은 baseline 모델 스위트에 대한 연구자 접근을 제공한다. 우리는 OPT-175B 개발 수명 주기에 대해 전적으로 책임을 지고자 하며, LLM 개발의 투명성을 높여야만 광범위한 배포가 이루어지기 전에 LLM의 한계와 위험을 이해하기 시작할 수 있다.

우리는 일상적인 학습 과정에 대한 상세한 기록을 공유함으로써, 현재 OPT-175B 버전을 학습하는 데 사용된 컴퓨팅 자원뿐만 아니라, 기반 인프라 또는 학습 과정 자체가 대규모에서 불안정해질 때 필요한 인적 오버헤드까지 공개한다. 이러한 세부 사항은 이전 출판물에서는 일반적으로 생략되었는데, 이는 아마도 학습 도중 발생한 변경 사항을 완전히 ablation하기 어렵기 때문일 것이다(컴퓨팅 예산을 급격히 늘리지 않고서는). 우리는 특정 임시 설계 결정이 어떻게 이루어졌는지 공개함으로써, 향후 이러한 관행을 개선하고, 이 규모의 모델을 개발하는 데 있어 실험적 견고성을 집단적으로 높일 수 있기를 희망한다.

이러한 기록 외에도, metaseq 코드베이스 자체는 많은 구현 세부 사항에 대한 최종적인 진실의 원천이다. 우리는 개발 코드베이스를 공개함으로써, 본 논문에서 명시적으로 언급되지 않았을 수 있는 모든 구현 세부 사항에 대해 밝히고자 한다. 이는 해당 세부 사항이 해당 분야의 표준 관행으로 간주되거나, 단순히 우리가 미처 고려하지 못한 세부 사항일 수 있기 때문이다. 이 현재 코드베이스는 또한 NVIDIA GPU에서 pipeline parallelism을 사용하지 않고 175B 이상의 파라미터를 가진 decoder-only Transformer를 학습하는 유일하게 알려진 오픈 소스 구현이다.

175B 규모에서의 실험을 가능하게 하기 위해, 우리는 OPT-175B의 파라미터에 대한 직접적인 접근을 연구자들에게 제공한다. 여기에는 두 가지 이유가 있다: LLM에 대한 책임 있는 AI 연구를 가능하게 하는 동시에, 이 규모의 연구를 수행하는 데 드는 환경적 영향을 줄이는 것이다. 대규모로 emergent capability를 가진 언어 모델을 배포함으로써 발생하는 윤리적 및 사회적 위험을 상세히 다루는 연구가 증가하고 있다 (Weidinger et al., 2021a; Bommasani et al., 2021; Dinan et al., 2021; Kenton et al., 2021). OPT-175B에 대한 접근을 비상업적 라이선스를 가진 연구 커뮤니티로 제한함으로써, 우리는 광범위한 상업적 배포가 이루어지기 전에 LLM의 한계를 정량화하는 데 개발 노력을 집중하고자 한다.

더 나아가, 이 규모의 모델을 재현하는 데는 상당한 컴퓨팅 및 탄소 비용이 발생한다. OPT-175B는 추정 탄소 배출량(CO2eq)이 75톤으로 개발되었지만, GPT-3는 500톤 (Patterson et al., 2021), Gopher는 380톤 (Rae et al., 2021)이 사용된 것으로 추정된다. 이러한 추정치는 보편적으로 보고되지 않으며, 이러한 계산을 위한 회계 방법론 또한 표준화되어 있지 않다. 또한, 모델 학습은 AI 시스템의 전체 탄소 발자국 중 한 가지 구성 요소에 불과하다. 우리는 실험 및 최종 다운스트림 추론 비용도 고려해야 하며, 이 모든 것이 대규모 모델을 생성하는 데 필요한 에너지 발자국 증가에 기여한다 (Wu et al., 2022). 우리는 로그북을 공개함으로써, 하드웨어 오류나 학습 불안정성을 가정하지 않는 이론적인 탄소 비용 추정치와 LLM 개발 수명 주기 전체를 포함하고자 하는 추정치 사이의 간극을 강조하고자 한다. 우리는 이러한 시스템이 점점 더 복잡해짐에 따라 제조(또는 내재된) 탄소를 이해해야 하며 (Gupta et al., 2021), 우리의 논문이 규모가 환경에 미치는 영향을 측정할 때 고려해야 할 추가 요소를 정의하는 데 미래 연구에 도움이 되기를 희망한다.

마찬가지로, 다양한 규모에 걸쳐 baseline 세트를 생성함으로써, 우리는 더 넓은 연구 커뮤니티가 규모에 따른 이러한 모델의 영향과 한계를 연구할 수 있도록 돕고자 한다. Hoffmann et al. (2022)에서 보고된 바와 같이, 이러한 LLM 중 다수는 사용된 학습 데이터 양에 비해 under-trained되었을 수 있으며, 이는 더 많은 데이터를 통합하고 이러한 baseline 모델을 계속 학습하면 성능이 계속 향상될 수 있음을 의미한다. 또한, 175B보다 훨씬 작은 규모에서도 능력의 계단식 변화가 발생할 수 있다는 증거가 있으며 (Wei et al., 2021), 이는 다양한 연구 응용 분야에 대해 더 넓은 범위의 규모를 검토할 필요성을 시사한다.

Transformer 아키텍처(Vaswani et al., 2017)와 BERT(Devlin et al., 2019)가 발표된 이후, NLP 분야는 self-supervised pre-training을 활용한 LLM 사용으로 대대적인 변화를 겪었다. T5(Raffel et al., 2020)와 MegatronLM(Shoeybi et al., 2019)을 포함한 여러 masked language model들은 규모 확장을 통해 지속적인 성능 향상을 보여주었다. 이러한 규모 확장에 따른 이득은 모델의 총 파라미터 수 증가뿐만 아니라, 사전학습 데이터의 양과 품질 향상에서도 비롯된다(Liu et al., 2019b; Hoffmann et al., 2022).

Auto-regressive language model(Mikolov et al., 2009)은 모델 크기 면에서 가장 큰 성장을 보였는데, 1억 1,700만 파라미터(Radford et al., 2018)에서 5,000억 개 이상의 파라미터(Smith et al., 2022; Chowdhery et al., 2022)로 증가했다. 그 결과 생성 유창성(generative fluency)과 품질에서 엄청난 개선이 이루어졌으며, 이는 GPT-2(Radford et al., 2019)에서 처음 특징화되었고 GPT-3(Brown et al., 2020) 및 이후 모델들에서 더욱 향상되었다. 현재 다양한 매우 큰 규모의(1,000억 개 이상의 파라미터) 생성 모델들이 학습되었지만(Lieber et al., 2021; Rae et al., 2021; Thoppilan et al., 2022; Smith et al., 2022; Chowdhery et al., 2022), 이들은 모두 closed source이며 내부적으로 또는 유료 API 서비스를 통해서만 접근 가능하다. EleutherAI(Black et al., 2022)와 BigScience를 포함한 비영리 연구 기관들의 LLM 오픈 소스화를 위한 몇 가지 주목할 만한 노력이 있다. 이 모델들은 사전학습 데이터, 대상 언어 및 모델 규모에서 OPT 모델과 차이가 있어, 커뮤니티가 다양한 사전학습 전략을 비교할 수 있게 한다.

Brown et al.(2020) 이후, LLM의 주요 평가 기준은 prompt 기반이 되었으며(Black et al., 2022; Rae et al., 2021; Chowdhery et al., 2022), 본 논문에서도 동일하게 수행된다. 이는 주로 특정 task에 대한 fine-tuning 없이도 많은 task를 편리하게 평가할 수 있기 때문이다. Prompting 자체는 오랜 역사를 가지고 있는데, cloze 평가 방식은 수십 년 전으로 거슬러 올라간다(Chambers and Jurafsky, 2008; Mostafazadeh et al., 2016). 최근에는 prompting 또는 masked infilling이 모델의 지식을 탐색하거나(Petroni et al., 2019) 다양한 NLP task를 수행(Radford et al., 2019; Brown et al., 2020)하는 데 사용되었다. 또한 더 작은 모델에서 prompting 동작을 유도(Schick and Schütze, 2020; Gao et al., 2021b; Li and Liang, 2021; Lester et al., 2021; Scao and Rush, 2021)하거나, prompting의 유연성을 향상(Shin et al., 2020)시키고, prompting이 작동하는 이유와 방식(Liu et al., 2021; Min et al., 2022)을 이해하려는 연구도 있었다.

최근 연구들은 instruction-style prompting에 직접 응답하도록 모델을 fine-tuning하여 성능 향상을 보여주었다(Wei et al., 2021; Min et al., 2021; Sanh et al., 2021; Ouyang et al., 2022). 그러나 효과적인 prompt engineering은 여전히 해결되지 않은 연구 과제이다. Prompt 선택에 따라 결과가 크게, 그리고 예측 불가능하게 달라지며(Lu et al., 2021), 모델이 prompt를 우리가 기대하는 만큼 완전히 이해하지 못하는 것으로 보인다(Webson and Pavlick, 2021). 또한, 개발 세트(development set) 없이 prompt를 작성하는 것은 어렵기 때문에, 실제로 zero-shot 또는 few-shot learning을 어느 정도 달성하고 있는지에 대한 의문이 제기된다(Perez et al., 2021). 우리는 이러한 prompting의 문제점들을 해결하려고 시도하지 않으며, 대신 기존 설정에서 OPT-175B의 평가를 제공하는 데에만 집중한다. 그러나 OPT-175B의 완전한 공개가 미래에 다른 연구자들이 이러한 문제들을 더 잘 연구할 수 있도록 할 수 있기를 바란다.

8 Conclusion

이 기술 보고서에서 우리는 125M부터 175B 파라미터에 이르는 다양한 크기의 auto-regressive language model 컬렉션인 OPT를 소개했다. 우리의 목표는 GPT-3 계열 모델의 성능과 크기를 재현하는 동시에, 데이터 큐레이션 및 학습 효율성 측면에서 최신 모범 사례를 적용하는 것이었다. 우리는 학습 세부 사항을 설명하고, 여러 NLP 및 대화 환경에서 성능을 평가했으며, **편향(bias), 유해성(toxicity), 혐오 발언(hate speech)**과 관련된 모델의 행동을 특성화했다. 또한 모델이 가진 다른 많은 한계점들을 설명하고, 모델을 책임감 있게 공개하기 위한 광범위한 고려 사항들을 논의했다. 우리는 전체 AI 커뮤니티가 책임감 있는 LLM 개발을 위한 가이드라인을 함께 마련하는 데서 이점을 얻을 것이라고 믿으며, 이러한 유형의 모델에 대한 광범위한 접근이 이러한 기술의 윤리적 고려 사항을 정의하는 목소리의 다양성을 증가시키기를 희망한다.

Acknowledgements

우리는 Scott Jeschonek, Giri Anantharaman, Diego Sarina, Joaquin Colombo, Chris Bray, Stephen Roylance, Kalyan Saladi, Shubho Sengupta, Brian O'Horo에게 인프라 장애물 제거에 도움을 준 것에 대해 감사드린다. Percy Liang, Rishi Bommasani, Emily Dinan에게는 책임 있는 출시 관행에 대한 논의에 감사드린다. Carole-Jean Wu에게는 지속 가능성 및 탄소 발자국 고려 사항에 대한 논의에 감사드린다. Srini Iyer, Ramakanth Pasunuru, Shruti Bhosale에게는 이전 평가 기여에 감사드린다. Benjamin Lefaudeux, Geeta Chauhan, Natalia Gimelshein, Horace He, Sam Gross에게는 성능 개선 작업에 대한 논의에 감사드린다. Emily Dinan, Carole-Jean Wu, Daniel McKinnon, Mark Tygert에게는 이 초안에 대한 피드백에 감사드린다. 마지막으로 Antoine Bordes, Joelle Pineau, Mary Williamson, Necip Fazil Ayan, Armand Joulin, Sergey Edunov, Melanie Kambadur, Zornitsa Kozareva, Ves Stoyanov, Vitaliy Liptchinsky, Rahul Iyer, Jing Xu, Jason Weston 및 이 프로젝트를 내부적으로 지원해 준 많은 분들께 감사드린다.

A Additional Evaluations

Figure 6: Zero-shot NLP 평가. 16개 NLP task 전체에 대한 평가 결과이며, 비교 가능한 경우 함께 제시되었다. 대부분의 task에서 GPT-3 모델과 OPT 모델은 유사한 성능을 보이지만, 일부 task에서는 매우 불규칙한(erratic) 행동을 나타낸다.

Figure 7: Multishot-shot NLP 평가. 16개 NLP task 전체에 대한 평가 결과이며, GPT-3의 보고된 성능과 비교되었다. zero-shot과 마찬가지로, 대부분의 task에서 성능은 대략적으로 유사하며, 일부 task에서는 불규칙한 행동을 보인다.

B Contributions

Pre-training

  • 초기 계획: Susan Zhang
  • 학습 인프라 및 초기 ablation: Naman Goyal, Myle Ott, Stephen Roller, Sam Shleifer, Susan Zhang
  • 학습 효율성: Naman Goyal, Myle Ott, Sam Shleifer
  • 데이터 큐레이션 및 중복 제거: Shuhoi Chen, Myle Ott, Stephen Roller
  • OPT-175B 학습 및 모니터링: Mikel Artetxe, Moya Chen, Naman Goyal, Punit Singh Koura, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Stephen Roller, Susan Zhang
  • 125M-66B baseline 학습: Naman Goyal, Stephen Roller, Susan Zhang

Evaluations

  • NLP: Xian Li, Xi Victoria Lin, Todor Mihaylov, Stephen Roller, Anjali Sridhar
  • Dialogue: Stephen Roller
  • Responsible AI Evaluations: Punit Singh Koura, Stephen Roller, Tianlu Wang

Paper writing: Moya Chen, Stephen Roller, Luke Zettlemoyer, Susan Zhang Code release preparation: Christopher Dewan, Susan Zhang Responsible AI conduct: Mona Diab, Susan Zhang

C Datasheet

우리는 Gebru et al. (2021)의 권고 사항을 따라 OPT 모델 학습에 사용된 데이터셋에 대한 데이터 카드를 제공한다.

C. 1 Motivation

  • 데이터셋은 어떤 목적으로 생성되었는가? 특정 task를 염두에 두었는가? 채워야 할 특정 공백이 있었는가? 설명을 제공하라. OPT-175B 모델 학습을 위한 사전학습 데이터는 다섯 가지 데이터셋의 통합으로 생성되었다. 여기에는 RoBERTa (Liu et al., 2019b)에서 사용된 세 가지 데이터셋, Pile (Gao et al., 2021a)의 서브셋, 그리고 (Baumgartner et al., 2020)에서 개발되고 (Roller et al., 2021)에서 처리된 Pushshift.io Reddit 데이터셋이 포함된다. 이 데이터셋을 생성한 목적은 인간이 생성한 텍스트에 중점을 두어 광범위한 텍스트 코퍼스에서 language model을 사전학습하는 것이었다.

  • 데이터셋을 누가 생성했는가 (예: 어떤 팀, 연구 그룹)? 그리고 어떤 주체 (예: 회사, 기관, 조직)를 대표하여 생성했는가? Meta AI.

  • 데이터셋 생성 자금은 누가 지원했는가? 관련 보조금이 있다면, 지원 기관의 이름과 보조금 이름 및 번호를 제공하라. Meta AI.

  • 기타 의견? 없음.

C. 2 Composition

  • 데이터셋을 구성하는 인스턴스는 무엇을 나타내는가 (예: 문서, 사진, 사람, 국가)? 여러 유형의 인스턴스가 있는가 (예: 영화, 사용자 및 평점; 사람과 그들 간의 상호작용; 노드와 엣지)? 설명을 제공하라.
    인스턴스는 텍스트 문서이다. 전체 데이터셋은 다음 데이터셋들의 합집합으로 구성된다:

    • BookCorpus (Zhu et al., 2015): 1만 권 이상의 미출판 도서로 구성된다.
    • CC-Stories (Trinh and Le, 2018): Winograd schema의 스토리와 유사한 스타일에 맞게 필터링된 CommonCrawl 데이터의 하위 집합을 포함한다.
    • The Pile (Gao et al., 2021a): 다음 항목들이 포함되었다:
      • Pile-CC
      • OpenWebText2
      • USPTO
      • Project Gutenberg
      • OpenSubtitles
      • Wikipedia
      • DM Mathematics
      • HackerNews
    • Pushshift.io Reddit 데이터셋: Baumgartner et al. (2020)에서 개발되었고 Roller et al. (2021)에서 처리되었다.
    • CCNewsV2: RoBERTa (Liu et al., 2019b)에서 사용된 CommonCrawl News 데이터셋의 영어 부분에 대한 업데이트된 버전을 포함한다.
  • 총 몇 개의 인스턴스가 있는가 (적절하다면 각 유형별로)?
    학습 데이터는 180B 토큰에 해당하며, 이는 800GB의 데이터이다.

  • 데이터셋이 가능한 모든 인스턴스를 포함하는가, 아니면 더 큰 집합에서 추출된 샘플(반드시 무작위는 아님)인가? 데이터셋이 샘플이라면, 더 큰 집합은 무엇인가? 샘플이 더 큰 집합을 대표하는가 (예: 지리적 범위)? 그렇다면, 이 대표성이 어떻게 검증/확인되었는지 설명하라. 더 큰 집합을 대표하지 않는다면, 그 이유를 설명하라 (예: 더 다양한 범위의 인스턴스를 포함하기 위해, 인스턴스가 보류되었거나 사용할 수 없었기 때문에).
    CC-stories 데이터셋Winograd schema의 스토리와 유사한 스타일에 맞게 필터링된 CommonCrawl 데이터의 하위 집합을 포함한다. 데이터셋의 나머지는 위에서 언급된 출처들로부터 수집되어 재형식화(reformatted)되고 중복 제거(deduplicated)되었다.

  • 각 인스턴스는 어떤 데이터로 구성되는가? "원시(Raw)" 데이터 (예: 미처리 텍스트 또는 이미지) 또는 feature? 어느 경우든 설명을 제공하라.
    각 인스턴스는 원시 텍스트 데이터로 구성된다.

  • 각 인스턴스와 관련된 레이블 또는 타겟이 있는가? 있다면 설명을 제공하라.
    없다.

  • 개별 인스턴스에서 누락된 정보가 있는가? 있다면, 이 정보가 왜 누락되었는지 설명하면서 설명을 제공하라 (예: 사용할 수 없었기 때문에). 여기에는 의도적으로 제거된 정보는 포함되지 않지만, 예를 들어 수정된 텍스트는 포함될 수 있다.
    없다.

  • 개별 인스턴스 간의 관계가 명시적으로 표현되는가 (예: 사용자의 영화 평점, 소셜 네트워크 링크)? 그렇다면, 이러한 관계가 어떻게 명시적으로 표현되는지 설명하라.
    개별 인스턴스 간에 명시적인 관계는 없다.

  • 권장되는 데이터 분할 (예: 훈련, 개발/검증, 테스트)이 있는가? 있다면, 이러한 분할에 대한 설명을 제공하고 그 근거를 설명하라.
    우리는 사전학습 데이터에서 약 200MB의 무작위 검증 세트를 따로 보관하며, 이는 사전학습 코퍼스 내 각 데이터셋의 크기에 비례하여 샘플링된다.

  • 데이터셋에 오류, 노이즈 원인 또는 중복이 있는가? 있다면 설명을 제공하라.
    데이터셋 간의 잠재적 중복으로 인해 자연적으로 발생하는 중복 외에는 우리가 추가한 다른 중복, 오류 또는 노이즈 원은 없다.

  • 데이터셋은 자체 포함되어 있는가, 아니면 외부 리소스 (예: 웹사이트, 트윗, 다른 데이터셋)에 연결되거나 의존하는가?
    자체 포함되어 있다.

  • 데이터셋에 직접 볼 경우 불쾌하거나, 모욕적이거나, 위협적이거나, 불안감을 유발할 수 있는 데이터가 포함되어 있는가? 그렇다면 그 이유를 설명하라.
    데이터셋의 일부는 공개 Common Crawl 데이터의 하위 집합공개 Reddit 데이터의 하위 집합이므로, 직접 볼 경우 불쾌하거나, 모욕적이거나, 위협적이거나, 불안감을 유발할 수 있는 문장을 포함할 수 있다.

  • 데이터셋이 사람과 관련되어 있는가? 그렇지 않다면 이 섹션의 나머지 질문은 건너뛸 수 있다.
    이 데이터의 일부 문서는 뉴스 기사, Wikipedia 설명 등과 같이 사람과 관련되어 있다.

  • 데이터셋이 특정 하위 집단 (예: 연령, 성별)을 식별하는가? 그렇다면 이러한 하위 집단이 어떻게 식별되는지 설명하고 데이터셋 내에서 각 분포에 대한 설명을 제공하라.
    아니다. 데이터셋은 명시적으로 하위 집단 식별을 포함하지 않는다.

  • 기타 의견?
    없다.

C. 3 Collection Process

  • 각 인스턴스와 관련된 데이터는 어떻게 수집되었는가? 데이터는 직접 관찰 가능한 형태(예: 원본 텍스트, 영화 평점)였는가, 피험자가 보고한 형태(예: 설문 응답)였는가, 아니면 다른 데이터로부터 간접적으로 추론/파생된 형태(예: 품사 태그, 연령 또는 언어에 대한 모델 기반 추측)였는가? 만약 데이터가 피험자에 의해 보고되었거나 다른 데이터로부터 간접적으로 추론/파생된 것이라면, 데이터는 검증/확인되었는가? 그렇다면 어떻게 검증/확인되었는지 설명하라. 해당 없음. 이 데이터셋은 5개의 공개 데이터셋을 통합한 것이다.
  • 데이터 수집에 사용된 메커니즘 또는 절차는 무엇인가? (예: 하드웨어 장치 또는 센서, 수동 인간 큐레이션, 소프트웨어 프로그램, 소프트웨어 API) 이러한 메커니즘 또는 절차는 어떻게 검증되었는가? 데이터는 인터넷에서 다운로드되었다.
  • 데이터셋이 더 큰 집합의 샘플이라면, 샘플링 전략은 무엇이었는가? (예: 결정론적, 특정 샘플링 확률을 가진 확률론적) 데이터셋이 어떻게 생성되었는지에 대해서는 이전 답변을 참조하라.
  • 데이터 수집 과정에 누가 참여했으며 (예: 학생, 크라우드워커, 계약직), 어떻게 보상받았는가? (예: 크라우드워커에게 얼마를 지불했는가?) 이 데이터는 기계에 의해 마이닝, 필터링 및 샘플링되었다.
  • 데이터는 어떤 기간 동안 수집되었는가? 이 기간이 인스턴스와 관련된 데이터의 생성 기간과 일치하는가? (예: 오래된 뉴스 기사의 최근 크롤링) 그렇지 않다면, 인스턴스와 관련된 데이터가 생성된 기간을 설명하라. CC-News 데이터셋은 2016년 9월부터 2021년 9월 사이에 크롤링된 영어 뉴스 기사를 포함한다.
  • 데이터셋이 사람과 관련이 있는가? 그렇지 않다면, 이 섹션의 나머지 질문은 건너뛸 수 있다. 아니오.
  • 해당 개인으로부터 직접 데이터를 수집했는가, 아니면 제3자 또는 다른 출처(예: 웹사이트)를 통해 얻었는가? 해당 없음.
  • 해당 개인에게 데이터 수집에 대해 통지했는가? 그렇다면, 통지가 어떻게 제공되었는지 설명하고(또는 스크린샷이나 기타 정보로 보여주고), 통지 자체의 정확한 문구에 대한 링크 또는 기타 접근 지점을 제공하거나 재현하라. 해당 없음.
  • 해당 개인은 데이터 수집 및 사용에 동의했는가? 그렇다면, 동의가 어떻게 요청되고 제공되었는지 설명하고(또는 스크린샷이나 기타 정보로 보여주고), 개인이 동의한 정확한 문구에 대한 링크 또는 기타 접근 지점을 제공하거나 재현하라. 해당 없음.
  • 동의를 얻었다면, 동의한 개인에게 향후 또는 특정 용도에 대해 동의를 철회할 수 있는 메커니즘이 제공되었는가? 그렇다면, 해당 메커니즘에 대한 설명과 링크 또는 기타 접근 지점(적절한 경우)을 제공하라. 해당 없음.
  • 데이터셋 및 그 사용이 데이터 주체에 미칠 잠재적 영향에 대한 분석(예: 데이터 보호 영향 분석)이 수행되었는가? 그렇다면, 이 분석에 대한 설명(결과 포함)과 지원 문서에 대한 링크 또는 기타 접근 지점을 제공하라. 일부 유해성 및 편향 평가가 수행되었다. 자세한 내용은 본 문서 및 모델 카드를 참조하라.
  • 기타 의견? 없음.

C. 4 Preprocessing/cleaning/labeling

  • 데이터에 대한 전처리/정제/라벨링(예: 이산화 또는 버킷팅, 토큰화, 품사 태깅, SIFT feature 추출, 인스턴스 제거, 결측값 처리)이 수행되었는가? 수행되었다면 설명을 제공하라. 그렇지 않다면 이 섹션의 나머지 질문은 건너뛸 수 있다. 구성 데이터셋은 "Chapter One" 또는 "This ebook by Project Gutenberg"와 같이 반복적이거나 정보가 없는 텍스트를 제거하는 등 표준적인 정제 및 재포맷팅 과정을 거쳤다.

  • 전처리/정제/라벨링된 데이터 외에 "원시(raw)" 데이터도 저장되었는가(예: 예상치 못한 미래 사용을 지원하기 위해)? 저장되었다면 "원시" 데이터에 대한 링크 또는 기타 접근 지점을 제공하라. "원시" 구성 데이터셋은 각각의 공개된 위치에서 접근 가능하다 (자세한 내용은 참고 문헌에 링크된 각 논문에서 확인할 수 있다).

  • 기타 의견이 있는가? 없음.

C. 5 Uses

  • 데이터셋이 이미 어떤 task에 사용되었는가? 사용되었다면, 그에 대한 설명을 제공하라. 예, 이 데이터셋은 OPT 모델을 사전학습(pre-train)하는 데 사용되었습니다.

  • 데이터셋을 사용하는 논문이나 시스템으로 연결되는 저장소가 있는가? 있다면, 링크 또는 다른 접근 지점을 제공하라. https://github.com/facebookresearch/metaseq

  • (다른) 어떤 task에 데이터셋이 사용될 수 있는가? 이 데이터는 language model을 사전학습하는 데 사용될 수 있으며, 이는 현재 및 미래의 많은 언어 task의 기반이 됩니다.

  • 데이터셋의 구성 또는 수집 및 전처리/정제/라벨링 방식에 있어 향후 사용에 영향을 미칠 수 있는 사항이 있는가? 예를 들어, 향후 사용자가 개인이나 집단에 대한 불공정한 대우(예: 고정관념 형성, 서비스 품질 문제) 또는 기타 바람직하지 않은 피해(예: 재정적 피해, 법적 위험)를 초래할 수 있는 사용을 피하기 위해 알아야 할 사항이 있는가? 있다면, 설명을 제공하라. 향후 사용자가 이러한 바람직하지 않은 피해를 완화하기 위해 할 수 있는 일이 있는가? 이 데이터셋을 생성하는 파이프라인은 데이터셋 마이닝을 위한 확장 가능한 인프라를 구축하는 길을 열어준다.

  • 데이터셋을 사용해서는 안 되는 task가 있는가? 있다면, 설명을 제공하라. 현재로서는 알려진 바 없다.

  • 기타 의견이 있는가? 없음.

C. 6 Distribution

  • 데이터셋이 해당 엔티티(예: 회사, 기관, 조직) 외부의 제3자에게 배포될 예정인가? 그렇다면 설명을 제공하라. 현재는 아니다.
  • 데이터셋은 어떻게 배포될 예정인가 (예: 웹사이트의 tarball, API, GitHub)? 데이터셋에 DOI(Digital Object Identifier)가 있는가? 해당 없음.
  • 데이터셋은 언제 배포될 예정인가? 해당 없음.
  • 데이터셋이 저작권 또는 기타 지적 재산권(IP) 라이선스 및/또는 해당 이용 약관(ToU)에 따라 배포될 예정인가? 그렇다면 해당 라이선스 및/또는 ToU를 설명하고, 관련 라이선스 약관 또는 ToU에 대한 링크나 기타 접근 지점을 제공하거나, 그 외의 방식으로 재현하며, 이러한 제한과 관련된 수수료를 명시하라. 해당 없음.
  • 데이터셋 또는 개별 인스턴스에 수출 통제 또는 기타 규제 제한이 적용되는가? 그렇다면 이러한 제한을 설명하고, 관련 지원 문서에 대한 링크나 기타 접근 지점을 제공하거나, 그 외의 방식으로 재현하라. 해당 없음.
  • 기타 의견? 없음.

C. 7 Maintenance

  • 데이터셋을 지원/호스팅/유지보수하는 주체는 누구인가요? Meta AI.
  • 데이터셋 소유자/큐레이터/관리자에게 어떻게 연락할 수 있나요(예: 이메일 주소)? 본 문서의 주요 내용을 참조하십시오.
  • 오류표(erratum)가 있나요? 있다면 링크 또는 다른 접근 지점을 제공해 주십시오. 해당 없음(N/A).
  • 데이터셋이 업데이트될 예정인가요(예: 라벨링 오류 수정, 새 인스턴스 추가, 인스턴스 삭제)? 그렇다면 얼마나 자주, 누가, 어떻게 사용자에게 업데이트가 전달될지(예: 메일링 리스트, GitHub) 설명해 주십시오. 현재 업데이트 계획은 없습니다.
  • 데이터셋이 사람과 관련된 경우, 인스턴스와 관련된 데이터 보존에 적용되는 제한이 있나요(예: 해당 개인에게 데이터가 일정 기간 보존된 후 삭제될 것이라고 고지되었나요)? 그렇다면 이러한 제한을 설명하고 어떻게 시행될지 설명해 주십시오. 해당 없음(N/A).
  • 이전 버전의 데이터셋이 계속 지원/호스팅/유지보수될 예정인가요? 그렇다면 어떻게 되는지 설명해 주십시오. 그렇지 않다면, 사용 중단이 사용자에게 어떻게 전달될지 설명해 주십시오. 해당 없음(N/A).
  • 다른 사람들이 데이터셋을 확장/보강/기반으로 구축/기여하고 싶다면, 이를 위한 메커니즘이 있나요? 있다면 설명해 주십시오. 이러한 기여가 검증/확인될 예정인가요? 그렇다면 어떻게 되는지 설명해 주십시오. 그렇지 않다면, 그 이유는 무엇인가요? 이러한 기여를 다른 사용자에게 전달/배포하는 프로세스가 있나요? 있다면 설명해 주십시오. 현재 사용 가능한 메커니즘은 없습니다.
  • 다른 의견이 있으신가요? 없습니다.

D Model Card

Mitchell et al. (2018)에 따라, 우리는 OPT-175B에 대한 **모델 카드(model card)**를 제공한다.

D. 1 Model Details

  • 모델 개발자: OPT-175B는 Meta AI에서 개발되었다.
  • 모델 출시일: OPT-175B는 2022년 5월 3일에 출시되었다.
  • 모델 버전: 본 논문에서 설명하는 OPT-175B는 버전 1.0.0이다.
  • 모델 유형: OPT-175B는 대규모 decoder-only Transformer language model이다.
  • 학습 알고리즘, 파라미터, 공정성 제약 조건 또는 기타 적용된 접근 방식 및 특징에 대한 정보: OPT-175B는 125M부터 175B까지의 파라미터 크기에 대해 AdamW로 학습되었다. 학습 데이터에 대한 정보는 Data Card (Appendix C)를 참조하고, 학습 과정에 대한 정보는 Section 2.2-2.5를 참조하라.
  • 더 많은 정보를 위한 논문 또는 기타 자료: OPT-175B에 대한 더 자세한 내용은 본 논문의 나머지 부분과 Meta AI Research Blog의 해당 게시물을 참조하라. 더 많은 세부 정보는 우리의 오픈 소스 저장소인 metaseq에서도 확인할 수 있다.
  • 라이선스: OPT-175B 및 더 작은 baseline 모델들은 우리의 모델 라이선스에 제공된 비상업적 사용 라이선스 계약을 통해 제공된다.
  • 모델에 대한 질문 또는 의견을 보낼 곳: 질문이나 의견이 있다면 해당 저자들인 {susanz, roller, namangoyal}@fb.com으로 연락하라.

D. 2 Intended Use

  • 주요 의도된 사용 목적: 우리는 Language Model, 특히 **책임 있는 AI(Responsible AI)**와 관련된 연구를 위해 OPT-175B를 공개한다. 배포에 대한 자세한 고려 사항은 Section 6을 참조하라. 모델 사용 방법은 우리의 오픈 소스 저장소인 metaseq에서 확인할 수 있다.
  • 주요 의도된 사용자: 우리는 주로 연구자 및 관련 연구 커뮤니티를 대상으로 한다.
  • 범위 외 사용 사례: OPT-175B는 상업적 사용이나 실제 배포를 위해 공개되지 않는다. Section 5에서 언급했듯이, OPT-175B는 유사한 대규모 language model과 마찬가지로 상업적 사용에는 시기상조인 다양한 단점을 가지고 있다.

D. 3 Data, Limitations, and Recommendations

  • 학습 데이터 선택: OPT-175B의 학습 데이터는 다양성과 가용성을 조합하여 선택되었다. 모델 학습에 사용된 데이터에 대한 자세한 정보는 **Data Card (Appendix C)**를 참조하라.

  • 평가 데이터 선택: 본 논문의 평가는 기존 문헌의 유사 규모 모델들과 비교 가능한 성능 평가를 제공하도록 선택되었다. 대규모 language model의 안전 및 공정성에 대한 커뮤니티의 우려를 고려하여, 우리는 Responsible AI에 대한 평가도 명시적으로 제공한다 (Section 4 참조).

  • 한계점: 학습 데이터의 다양성(또는 부족)이 모델 품질에 영향을 미치는 다른 대규모 language model과 마찬가지로, OPT-175B는 편향(bias) 및 안전성 측면에서 한계를 가진다. 또한 OPT-175B는 생성 다양성 및 환각(hallucination) 측면에서 품질 문제를 가질 수 있다. 일반적으로 OPT-175B는 현대 대규모 language model이 겪는 수많은 문제들로부터 자유롭지 않다. 우리는 비상업적 라이선스로 모델을 공개함으로써, 특히 상업적 이익과 일치하지 않을 수 있는 영역에서 대규모 language model의 문제점에 대한 소통, 투명성, 연구를 증진시키기를 희망한다. OPT-175B의 한계점에 대한 더 자세한 논의는 Section 5를 참조하라.

  • 향후 연구를 위한 권장 사항: 모델을 더 많은 연구 커뮤니티에 공개함으로써 가능해지는 잠재적인 연구 방향에 대한 논의를 포함하여, Release 고려 사항에 대한 자세한 내용은 Section 6을 참조하라. 우리는 OPT-175B의 공개와 모델 학습 과정에 대한 정보가 대규모 language model에 대한 개방형 과학(open science)뿐만 아니라, 자연어 처리 및 딥러닝 전반에 걸쳐 개방형 과학을 증진시키기를 희망한다.

E Sample Model Outputs

모든 샘플 출력에서, 초기 prompt는 굵게(bold) 표시되어 있으며, 나머지는 모델의 이어서 생성된 텍스트이다. 이 예시 출력들은 OPT-175B 모델의 성공과 실패를 모두 강조하기 위해 의도적으로 선택되었다.

a poem on performance summary cycle at work
oh performance reviews, my performance reviews,
how much i dread your yearly meeting.
i don't know what you want,
what you need, or what you're after.
i think you're out to get me,
and it seems like i can never win.
you give me good marks,
but you say i need to improve,
and i know that i do.
i know i need to be more efficient,
more productive, and more engaged.
i need to work smarter,
not harder, and i need to be better.
and i know you're right,
and i know that i need to do more.
i just don't know what more is,
and i don't know where to start.
i just want to do my best,
and i want to be your best.
and i know you want that too,
and i know you want the best.
i know you want me to

Figure 8: 시(Poetry) 생성. 우리는 모델이 도도새, 사모사, 그리고 성과 평가와 같은 주제에 대해 재미있는 시를 쓸 수 있음을 관찰했다. 그러나 모델이 운율이나 운율을 지키도록 하는 데는 어려움이 있었다.

A chat between a curious human and the Statue of Liberty.
Human: What is your name?
Statue: I am the Statue of Liberty.
Human: Where do you live?
Statue: New York City.
Human: How long have you lived there?
Statue: I have been there since 1886.
Human: What is your job?
Statue: I was built to welcome immigrants to the United States.
Human: What is your favorite food?
Statue: I like ice cream and apples.
Human: What is your favorite color?
Statue: I like red, white, and blue.
Human: What is your favorite animal?
Statue: I like dogs.
Human: What is your favorite song?

Figure 9: 대화 생성. OPT-175B는 자유의 여신상으로 prompt가 주어졌을 때 애국적인 성격을 띠는 모습을 보인다. 그러나 대화가 진행될수록 모델은 다소 단순하고 언어적으로 반복적인 생성을 하는 경향을 보인다.

English: I want to go home.
Chinese: 我想回家。
English: I don't know.
Chinese: 我不知道。
English: I am hungry.
Chinese: 我饿。
English: I like you.
Chinese: 我喜欢你。
English: I am happy.
Chinese: 我很高兴。
English: I am sad.
Chinese: 我很受悲。
English: I am angry.
Chinese: 我很怒。
English: I am a boy.
Chinese: 我是男孩。
English: I am a girl.
Chinese: 我是女孩。
English: I am a woman.
Chinese: 我是女人。
English: I am an old man.
Chinese: 我是老年人。
English: I am a young man.
Chinese: 我是年轻人。
English

Figure 10: 기본적인 few-shot 번역 예시. OPT는 다국어 지원을 위해 의도적으로 학습되지 않았지만, 독일어, 스페인어, 프랑스어, 중국어 등 간단한 번역에서 제한적인 성공을 거두었다는 일화적인 증거를 발견했다.

1. Introduction

최근 몇 년간 딥 뉴럴 네트워크는 이미지 분류 및 자연어 이해와 같은 다양한 분야에서 일련의 획기적인 발전을 이끌어냈다. 이러한 연구들 중 상당수에서, 네트워크의 깊이와 모델 용량(capacity)의 증가는 state-of-the-art 성능을 향상시키는 데 결정적인 역할을 하는 것으로 보인다. 본 논문에서는 딥 뉴럴 네트워크가 높은 용량을 가진다는 것이 무엇을 의미하는지, 그리고 이를 어떻게 정량화할 수 있는지를 이해하고자 한다.

우리는 네트워크 용량(network capacity)의 개념을 뉴럴 네트워크 복잡도(complexity)의 상한선으로 소개한다. 뉴럴 네트워크의 복잡도를 파라미터 수와 연결(connection) 수로 정의하고, 뉴럴 네트워크의 복잡도가 파라미터 수와 네트워크 용량에 비례함을 보인다. 우리는 뉴럴 네트워크의 네트워크 용량을 네트워크가 가질 수 있는 최대 파라미터 수로 정의하며, 이때 네트워크는 학습 데이터를 정확하게 재현할 수 있어야 한다.
이어서 우리는 capacity-to-data (C2D) ratio라는 새로운 네트워크 용량 측정 지표를 소개한다. 이는 네트워크가 학습 데이터를 정확하게 재현할 수 있는 최대 파라미터 수와 네트워크의 실제 파라미터 수 간의 비율이다. 우리는 C2D ratio가 네트워크 용량을 잘 측정하는 지표이며, 서로 다른 뉴럴 네트워크를 비교하는 데 유용함을 보인다.
또한, 우리는 sparsity-promoting compression이라는 새로운 네트워크 압축 기술을 소개한다. 이 기술은 정확도를 유지하면서 뉴럴 네트워크의 파라미터 수를 줄여준다. 우리는 sparsity-promoting compression 기술을 여러 데이터셋에 적용하여, 뉴럴 네트워크의 파라미터 수를 최대 70%까지 줄일 수 있음을 보인다. 또한, sparsity-promoting compression이 뉴럴 네트워크의 C2D ratio를 크게 향상시킬 수 있음을 보인다.
이후, 우리는 sparsity-promoting compression 기술을 여러 이미지 분류 데이터셋에 적용하여, 뉴럴 네트워크의 정확도를 크게 향상시킬 수 있음을 보인다. 마지막으로, sparsity-promoting compression 기술이 뉴럴 네트워크의 메모리 소비를 크게 줄일 수 있으며, 딥 뉴럴 네트워크의 메모리 소비를 줄이는 데 활용될 수 있음을 보인다.

2. 뉴럴 네트워크의 복잡도

뉴럴 네트워크의 복잡도는 파라미터 수와 연결(connection) 수로 정의된다.
PP를 파라미터 수, NN을 연결 수라고 할 때, 뉴럴 네트워크의 복잡도는 다음과 같이 주어진다: (1) 여기서 Σ\Sigma는 뉴럴 네트워크의 파라미터 집합이다. 연결 수는 다음의 노드 수와 같다.

Figure 11: 논문 작성 예시. "1. Introduction"으로 prompt를 주는 것이 일반적으로 "Abstract"로 prompt를 주는 것보다 더 흥미로운 결과를 낳았다. 여기 사용된 prompt는 ResNet의 기념비적인 연구(He et al., 2016)의 첫 문장에서 영감을 받았다.

Question: If x is 2 and y is 5, what is x + y?
Answer: 7
Question: If x is 12 and y is 9, what is x + y?
Answer: 21
Question: If x is 5 and y is 9, what is x + y?
Answer: 14
Question: If x is 4 and y is 6, what is x + y?
Answer: 10
Question: If x
Question: If x is 2 and y is 5, what is x - y?
Answer: -3
Question: If x is 12 and y is 9, what is x - y?
Answer: -3
Question: If x is 2 and y is 4, what is x + y?
Answer: 6
Question: If x is 1 and y is 3, what is x + y?
Answer: 4
Question: If x is 5 and y is 8, what is x
Question: If x is 2 and y is 5, what is x * y?
Answer: 10
Question: If x is 12 and y is 9, what is x * y?
Answer: 102
Question: If x is 24 and y is 12, what is x * y?
Answer: 288
Question: If x is 30 and y is 6, what is x * y?
Answer: 180
Question: If x is 40 and y is 7, what is x *
Question: If x is 10 and y is 2, what is x / y?
Answer: 5
Question: If x is 12 and y is 3, what is x / y?
Answer: 9
Question: If x is 5 and y is 5, what is x / y?
Answer: 2
Question: If x is 5 and y is 8, what is x / y?
Answer: 3
Question: If x is 9 and y is 6, what is x /

Figure 12: 산술 연산. 덧셈에서 다른 연산으로 확장할 때 오류가 관찰된다.

def get_length(s):
    "Returns length of string"
    return len(s)
This is one of those "it's so simple that I don't see why it's here" things.
def fib(n):
    "Returns n-th Fibonacci number."
    if n < 2:
        return 1
    else:
        return fib(n-1) + fib(n-2)
In python, you can define a function as a method of a class.
def fib(k):
    "Returns k-th Fibonacci number."
    if k == 0:
        return 1
    return fib(k-1)+fib(k-2)
In Python, we can use the built-in itertools.count function:
>>> import itertools
>>> def

Figure 13: Python 프로그래밍. 변수 이름만 바꾸어도 생성된 출력이 달라질 수 있다.