Thoppilan, Romal, et al. "Lamda: Language models for dialog applications." arXiv preprint arXiv:2201.08239 (2022).

LaMDA: Language Models for Dialog Applications

Abstract

우리는 LaMDA (Language Models for Dialog Applications) 를 소개한다. LaMDA는 대화에 특화된 Transformer 기반 신경 언어 모델 계열로, 최대 1,370억 개의 파라미터를 가지며, 1.56조 단어의 공개 대화 데이터와 웹 텍스트로 사전학습되었다. 모델의 규모를 키우는 것만으로도 품질은 향상될 수 있지만, 안전성(safety)과 사실적 근거(factual grounding) 측면에서는 개선 효과가 적다. 우리는 주석이 달린 데이터로 fine-tuning하고, 모델이 외부 지식 소스를 참조할 수 있도록 함으로써 안전성과 사실적 근거라는 두 가지 핵심 과제에서 상당한 개선을 이끌어낼 수 있음을 입증한다.

첫 번째 과제인 안전성(safety) 은 모델의 응답이 유해한 제안이나 불공정한 편향을 방지하는 등 일련의 인간 가치와 일치하도록 보장하는 것을 의미한다. 우리는 인간 가치에 기반한 지표를 사용하여 안전성을 정량화했으며, 소량의 크라우드워커 주석 데이터로 fine-tuning된 LaMDA 분류기를 사용하여 후보 응답을 필터링하는 방식이 모델 안전성을 향상시키는 유망한 접근 방식임을 발견했다.

두 번째 과제인 사실적 근거(factual grounding) 는 모델이 정보 검색 시스템, 언어 번역기, 계산기 등 외부 지식 소스를 참조할 수 있도록 하는 것을 포함한다. 우리는 groundedness 지표를 사용하여 사실성을 정량화했으며, 우리의 접근 방식이 모델이 단순히 그럴듯하게 들리는 응답이 아니라, 알려진 출처에 근거한 응답을 생성할 수 있도록 한다는 것을 발견했다.

마지막으로, 우리는 교육 및 콘텐츠 추천 영역에서 LaMDA의 활용을 탐구하고, 유용성(helpfulness)과 역할 일관성(role consistency) 을 분석한다.

Figure 1: LaMDA에서 모델 사전학습만 수행했을 때와 fine-tuning을 함께 수행했을 때의 대화 품질(왼쪽) 및 안전성, 사실적 근거(오른쪽)에 대한 영향. 품질 지표(SSI)는 sensibleness, specificity, interestingness에 해당한다. 이러한 지표에 대한 자세한 내용은 Section 4를 참조하라.

1 Introduction

Language model pre-training는 NLP 분야에서 점점 더 유망한 연구 접근 방식이 되고 있다 [1,2,3,4,5,6,7,8,9,10,11,12]. 사전학습은 레이블이 없는 텍스트를 사용하기 때문에, **모델 및 데이터셋 크기 확장(scaling)**과 결합하여 더 나은 성능이나 새로운 기능을 달성할 수 있다 [13]. 예를 들어, 대규모 레이블 없는 텍스트 코퍼스로 학습된 1,750억 개 파라미터 모델인 GPT-3 [12]는 scaling 덕분에 few-shot learning에서 인상적인 능력을 보여준다.

대규모 언어 모델의 가장 흥미로운 응용 분야 중 하나인 대화 모델(Dialog models) [14, 15, 16]은 Transformer의 텍스트 내 장기 의존성(long-term dependencies)을 표현하는 능력을 성공적으로 활용한다 [17, 18]. 일반 언어 모델 [13]과 유사하게, Adiwardana et al. [17]은 대화 모델 또한 모델 scaling에 적합하다는 것을 보여준다. 모델 크기와 대화 품질 사이에는 강한 상관관계가 있다.

이러한 성공에 영감을 받아, 우리는 대화용으로 설계된 Transformer 기반 신경 언어 모델 계열인 LaMDA를 학습시킨다. 이 모델들의 크기는 20억 개에서 1,370억 개 파라미터에 이르며, 공개 대화 데이터 및 기타 공개 웹 문서에서 추출한 1.56조 단어 데이터셋으로 사전학습된다 (Section 3). LaMDA는 단일 모델을 사용하여 여러 task를 수행한다: 잠재적인 응답을 생성하고, 이를 안전성 측면에서 필터링하며, 외부 지식 소스에 기반을 두고, 가장 고품질의 응답을 찾기 위해 재순위화한다.

우리는 LaMDA를 사용하여 모델 scaling이 품질, 안전성, groundedness라는 세 가지 핵심 지표에 미치는 이점을 연구한다 (Section 4). 우리는 다음을 관찰한다: (a) 모델 scaling만으로는 품질이 향상되지만, 안전성과 groundedness에 대한 개선은 인간 성능에 훨씬 못 미친다. (b) scaling과 fine-tuning을 결합하면 모든 지표에서 LaMDA가 크게 향상되며, 모델의 성능이 안전성과 groundedness에서 여전히 인간 수준에 미치지 못하지만, 측정된 크라우드워커 수준(Figure 1에서 'Human'으로 표시)과의 품질 격차는 좁힐 수 있다.

첫 번째 지표인 **품질(quality)**은 **세 가지 구성 요소(sensibleness, specificity, interestingness)**에 기반한다 (Section 4). 우리는 다중 턴(multiturn) 대화 맥락에서 응답이 얼마나 sensible하고, specific하며, interesting한지를 설명하는 주석이 달린 데이터를 수집한다. 그런 다음 이 주석을 사용하여 discriminator를 fine-tuning하여 후보 응답을 재순위화한다.

두 번째 지표인 **안전성(safety)**은 모델이 생성하는 안전하지 않은 응답의 수를 줄이기 위해 도입되었다. 이를 달성하기 위해, 우리는 모델이 대화에서 보여야 할 행동을 포착하려는 안전성 목표의 예시적인 세트를 정의하고 (Appendix A.1), 인구통계학적으로 다양한 크라우드워커 세트를 사용하여 이러한 목표에 대해 다중 턴 대화의 응답에 레이블을 지정한다 (Appendix A.2, A.3). 그런 다음 이 레이블을 사용하여 discriminator를 fine-tuning하여 안전하지 않은 응답을 감지하고 제거한다 (Section 6.1). LaMDA의 안전성에 대한 우리의 작업은 높은 수준에서 AI 가치 정렬(AI value alignment) 프로세스로 이해될 수 있다.

세 번째 지표인 groundedness는 모델이 검증 가능한 외부 세계 정보를 포함하는 경우, 알려진 출처에 기반한 응답을 생성하도록 도입되었다. LaMDA와 같은 신경 언어 모델은 단순히 암기하는 것이 아니라 일반화하는 능력 때문에, 그럴듯해 보이지만 실제로는 확립된 출처의 사실적 진술과 모순되는 응답을 생성하는 경향이 있다. 우리는 모델이 이러한 경향을 피하도록 이 지표를 사용한다. 알려진 출처에 기반을 둔다고 해서 사실적 정확성이 보장되는 것은 아니지만, 사용자가 또는 외부 시스템이 출처의 신뢰성과 충실한 재현을 기반으로 응답의 유효성을 판단할 수 있게 한다. 우리는 정보 검색 시스템과 같은 외부 도구를 사용할 수 있는 능력을 모델 출력에 추가하는 것이 이 목표를 달성하기 위한 유망한 접근 방식임을 발견한다. 따라서 우리는 크라우드워커가 외부 도구를 사용하여 사실적 주장을 조사할 수 있는 환경에서 데이터를 수집하고, 모델이 그들의 행동을 모방하도록 학습시킨다.

마지막으로, 우리는 교육 및 콘텐츠 추천 분야에서 LaMDA의 사용을 탐구하여 그 잠재력과 단점을 조사한다. GPT-3 [12]의 prompt 개념과 유사하게, 우리는 LaMDA를 대상 애플리케이션에 적응시키기 위해 몇 턴의 애플리케이션별 대화로 LaMDA를 사전 조건화한다. 우리는 **사전학습만 수행된 LaMDA 모델과 fine-tuning된 LaMDA 모델의 애플리케이션별 유용성(즉, 유용하고 정확한 응답) 및 역할 일관성(즉, 에이전트 발화가 에이전트 역할과 일치하는지)**을 비교하는 실험을 수행한다. 우리는 두 유형의 모델 모두 예상되는 애플리케이션 역할에 상당히 잘 적응할 수 있지만, fine-tuning된 LaMDA 모델이 훨씬 더 유용하다는 것을 발견한다.

Language model 및 대화 모델 (Language models and dialog models)
Language model은 최근 NLP 애플리케이션에서의 성공 덕분에 많은 주목을 받아왔다 (예: [19, 20, 21, 2, 1, 22, 23, 5, 12, 24]). 모델 크기에 따른 scaling law에 대한 우리의 연구는 신경망 language model의 scaling law에 대한 최근 연구 [12, 13]에서 영감을 받았다. 그들의 연구 결과와 유사하게, 우리의 결과는 모델 scaling이 품질(sensibleness, specificity, interestingness), 안전성(safety), 그리고 groundedness 지표를 어느 정도 향상시킨다는 것을 보여준다. 그러나 scaling과 결합된 fine-tuning은 모든 지표에서 성능을 크게 향상시킨다.

우리의 연구는 또한 language model을 대화 모델링에 적용하는 최근의 성공 사례들과 밀접하게 관련되어 있다 (예: [25, 26, 17, 18]). 이는 신경망 대화 모델링에 대한 초기 연구들에 기반을 둔다 (예: [14, 15, 16, 27, 28]). 우리의 fine-tuning 단계 중 하나는 대화 전용 데이터로 학습하는 것을 요구하며, 이는 Wolf et al. [29], Dinan et al. [25], Zhang et al. [30]의 연구와 관련이 있다. crowdworker가 주석을 단 데이터로 fine-tuning하여 interestingness를 향상시키는 우리의 접근 방식은 Roller et al. [18]의 연구와 비교할 수 있다. 그러나 우리는 사용자를 추가적인 상호작용으로 유도하는 모델의 능력과는 별개로, 모델 출력의 interestingness를 극대화하는 것을 목표로 한다.

순수한 scaling이 open-domain 대화 모델 성능의 핵심 측정치에 제한적인 영향을 미친다는 우리의 발견은 groundedness 문제에 초점을 맞춘 Shuster et al. [31]의 연구와 일치한다. scaling에 대한 최근 연구들은 질문-응답 task의 성능이 모델 크기에 따라 향상된다는 것을 발견했으며 [32, 33], 이는 fine-tuning 전의 사전학습된 LaMDA에 대한 우리의 발견과 유사하다.

모델의 groundedness를 향상시키기 위한 우리의 접근 방식은 검색 시스템으로 신경망 language model을 보강하는 증가하는 문헌들과 대체로 일치한다. 기존 문헌의 대부분은 대화 생성보다는 open-domain 질문-응답 문제에 초점을 맞추고 있으며, 모델 자체는 중간 도구를 사용하도록 학습되기보다는 지식 소스를 색인화하고 순위를 매기는 데 사용된다. 이러한 차이점을 고려할 때, 이 문제에 대한 기존 접근 방식의 범위에는 RNNLM [34], RAG [35], REALM [36], FiD [37] 아키텍처가 포함된다. Zhu et al. [38]은 추가적인 최근 연구에 대한 조사를 제공한다. RAG에서 사용된 'dense passage retriever'에 대한 자세한 내용은 Karpukhin et al. [39]를 참조하라. 이 방향의 최근 연구는 신경망 모델의 passage 검색 및 순위 지정 능력을 확장하고 정교화했다 [40]. RETRO 아키텍처는 language model이 2조 토큰에 달하는 대규모 데이터베이스에서 검색된 결과로 프라이밍될 수 있음을 보여준다 [41]. 넓은 의미에서 우리의 접근 방식은 영화 티켓팅 대화를 위해 외부 API를 사용하도록 모델을 fine-tuning하는 Byrne et al. [42]의 접근 방식과도 비교할 수 있다.

우리의 발견 중 일부는 대화 groundedness에 대한 최근 연구들과 유사하다. 외부 지식 베이스에 대한 접근 권한을 부여하는 것이 다양한 검색 시스템 및 모델 아키텍처에서 대화 중 출처 없는 진술을 환각하는 비율을 줄이는 것으로 나타났다 [31]. 또 다른 연구에서는 질문-응답 시스템의 정확도가 추론 단위와 응답 생성기로 분리될 때 향상된다는 것을 발견했으며, 이는 우리의 연구에서 'Base' 및 'Research' 모델의 분리와 유사하다 [43]. 한편, WebGPT 프레임워크는 텍스트 전용 인터페이스를 통해 오픈 웹과 상호작용할 수 있는 언어 시스템을 포함하며, 외부 소스를 인용하여 질문에 답변하는 데 있어 인간을 모방하도록 학습한다 [44]. Komeili et al. [45]은 다양한 유형의 사전학습된 모델과 검색 방법을 비교하고, 검색 엔진으로 language model을 보강하는 것이 더 사실에 기반한 응답을 제공한다는 유사한 결론에 도달한다. 그들은 검색을 통해 얻은 grounded 정보를 사용하여 입력 컨텍스트를 인코딩하여 다음 응답을 생성하는 반면, 우리는 알려진 소스의 정보로 생성된 응답을 보강한다. 이를 통해 우리는 다른 fine-tuning 처리에서 얻은 안전성 또는 품질 향상을 희생하지 않고 groundedness를 위해 모델을 fine-tuning할 수 있다.

대화 지표 (Dialog metrics)
대화 모델에 대한 효과적인 지표를 정의하는 것은 여전히 미해결 연구 주제이다. 우리의 접근 방식은 sensibleness 및 specificity와 같은 인간과 유사한 지표를 주장한 Adiwardana et al. [17]의 연구에서 영감을 받았다. perplexity [16, 17], F1, Hits@1/N [25], USR [46], 또는 BLEU/ROUGE [47, 15, 27]를 포함하여 대화 모델에 대한 많은 자동화된 지표가 연구되었다. 그러나 이러한 자동화된 지표는 인간의 판단과 잘 상관관계가 없을 수 있다 [48]. 대화 모델링을 위한 더 신뢰할 수 있는 지표는 본 논문에서 사용된 바와 같이 인간 평가를 요구한다 [49, 50, 18, 25, 17, 51].

초기 연구는 대화 품질에 대한 다면적인 평가를 단일 헤드라인 지표로 결합하려고 시도했다 [52]. 우리는 Adiwardana et al. [17] 및 Roller et al. [18]에서 확립된 패턴을 따라 평가의 다른 구성 요소를 개별적으로 고려한다. Adiwardana et al. [17]에 따른 sensibleness 및 specificity 외에도 interestingness, safety, groundedness와 같은 새로운 지표를 추가한다. 여러 다른 지표를 사용하는 것의 장점은 디버깅 가능성이다. 낮은 safety 또는 groundedness 점수를 가진 응답을 탐색함으로써, 우리는 이들을 개선하기 위한 목표 지향적인 방법을 개발할 수 있었다.

대화 모델의 안전성 (Safety and safety of dialog models)
Language model의 부적절하고 안전하지 않은 위험 및 행동은 이전 연구에서 광범위하게 논의되고 연구되었다 (예: [53, 54]). 발생한 문제에는 독성(toxicity) (예: [55, 56, 57]), 편향(bias) (예: [58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72]), 그리고 학습 데이터에서 개인 식별 정보(PII)를 부적절하게 공개하는 것 [73]이 포함된다. Weidinger et al. [54]은 대규모 language model과 관련된 21가지 위험을 식별하고 이러한 위험의 발생 지점을 논의한다. 많은 완화 전략도 제안되었지만 (예: [74, 75, 76, 77, 78, 79, 80, 81, 82]), 이러한 문제를 의미 있게 해결하는 것은 여전히 활발한 연구 분야이다.

유사한 문제들이 대화 모델에 대해서도 구체적으로 논의되었다 [53]. 예를 들어, 소셜 미디어에서 추출된 학습 데이터와 그 결과로 그러한 데이터로 학습된 대화 모델의 출력에서 편향, 공격성, 혐오 발언의 예시가 발견되었다 [83]. 대화 모델 [84]은 학습 데이터의 편향을 학습하고 심지어 증폭시킬 수 있다. Gehman et al. [85]의 연구와 유사하게, 우리는 fine-tuning이 안전성을 위해 language model을 보강하는 데 효과적이라는 것을 발견한다. 본 논문에서 사용하는 방법은 안전하지 않은 출력을 감지하기 위해 별도의 layer를 학습시키는 이전 시도들 [17, 86, 18, 79]을 따른다. 우리의 전략은 fine-tuning을 사용하는 최근 연구 [87]와 유사하다. 그들의 안전성 지침은 인권 원칙에서 파생되었지만, 그들은 유사하게 규모 증가가 독성 지표에 영향을 미치지 않는 반면, 안전성 평가에 대한 fine-tuning은 영향을 미친다는 것을 발견한다.

Groundedness 지표 (Groundedness metrics)
위에서 인용된 groundedness에 대한 다른 최근 연구와 유사하게, 우리는 crowdworker에게 모델의 출력이 권위 있는 외부 소스와 일치하는지 판단하도록 요청하여 groundedness를 평가한다. 최근 제안된 **Attributable to Identified Sources (AIS) 프레임워크 [88]**는 외부 세계와 관련된 language model의 출력을 평가하는 보다 정확한 접근 방식을 제시한다. 이는 평가를 두 단계로 나누는데, crowdworker에게 다음을 묻는다: (1) 대화 턴에서 공유된 정보를 이해하고 식별할 수 있는지, 그리고 (2) 이 모든 정보가 출처에 귀속될 수 있는지. 한편, 최근 연구는 자동 평가의 질문을 다시 제기했으며, $Q^2$ 지표는 인간 주석과 비교할 만한 성능을 보여준다 [89].

3 LaMDA pre-training

LaMDA는 텍스트 코퍼스에서 다음 토큰을 예측하도록 사전학습되었다. 기존의 대화 데이터만으로 학습된 대화 모델들 [17, 18]과 달리, 우리는 공개 대화 데이터와 기타 공개 웹 문서로 구성된 데이터셋으로 LaMDA를 사전학습했다. 따라서 LaMDA는 fine-tuning 전에 일반적인 language model로 사용될 수 있다.

사전학습 데이터셋은 29.7억 개의 문서, 11.2억 개의 대화, 133.9억 개의 대화 발화로 구성되어 있으며, 총 1.56조 단어에 해당한다 (Appendix E). 사전학습 데이터셋의 90% 이상이 영어이다. 우리는 SentencePiece 라이브러리 [90]를 사용하여 데이터셋을 32K 토큰의 어휘를 가진 2.81조 개의 byte pair encoding (BPE) 토큰 [91]으로 토큰화했다. 비교하자면, Meena [17]의 학습 세트에 포함된 총 단어 수는 400억 단어로, LaMDA보다 거의 40배 작다.

가장 큰 LaMDA 모델은 1,370억 개의 비-임베딩 파라미터를 가지고 있으며, 이는 Meena [17]보다 약 50배 많은 파라미터이다. 우리는 decoder-only Transformer [92] language model을 LaMDA의 모델 아키텍처로 사용한다. 이 Transformer는 **64개의 layer, $d_{\text {model }}=8192, d_{f f}=65536, h=128, d_{k}=d_{v}=128$ **를 가지며, T5 [11]에 설명된 relative attention과 Raffel et al. [93]에 설명된 gated-GELU activation을 사용한다.

우리는 1024개의 TPU-v3 칩을 사용하여 LaMDA를 총 약 57.7일 동안 사전학습했으며, 배치당 256K 토큰을 사용했다. 학습에는 Lingvo 프레임워크 [94]를 사용했으며, GSPMD [95]에 설명된 2D sharding 알고리즘을 통해 56.5%의 FLOPS 활용률로 123 TFLOPS/sec를 달성했다 (탄소 발자국 추정치는 Section 10 참조). 또한, 모델 스케일링이 지표에 미치는 영향을 측정하기 위해 20억 개 및 80억 개 파라미터의 더 작은 모델들도 학습했다. 다양한 크기의 모델에 대한 하이퍼파라미터 세부 정보는 Table 27, Appendix D에서 확인할 수 있다. Figure 2는 사전학습 단계의 개요를 보여준다. 우리는 fine-tuning 전의 모델을 **"PT"(PreTrained)**라고 부른다.

Figure 2: Language model로서의 LaMDA 사전학습.

PT는 디코딩을 위해 Meena [17]와 동일한 sample-and-rank 전략을 사용한다. 우리는 먼저 top- $k(k=40)$ 샘플링(온도 없음)을 사용하여 16개의 독립적인 후보 응답을 샘플링한다. 최종 출력은 후보의 log-likelihood와 길이를 기반으로 점수가 가장 높은 후보이다.

4 Metrics

생성 모델, 특히 open-ended 대화 모델을 평가하는 것은 어렵다. 이 분야의 최근 연구에 대한 일반적인 검토는 Related Work 섹션을 참조하라. 이 섹션에서는 평가에 사용되는 metric들을 설명한다.

4.1 Foundation metrics: Quality, Safety and Groundedness

Sensibleness, Specificity, Interestingness (SSI): 우리의 전반적인 품질 점수는 sensibleness, specificity, interestingness (SSI) 의 평균이다.

Adiwardana et al. [17]은 Meena의 품질을 측정하기 위해 sensibleness and specificity average (SSA) metric을 제안한다. 이 metric은 sensibleness와 specificity라는 두 가지 점수의 단순 평균이다.

첫 번째 점수인 sensibleness는 모델의 응답이 문맥에 맞고 이전에 언급된 내용과 모순되지 않는지를 측정한다. 인간은 이러한 기본적인 의사소통 측면을 당연하게 여기지만, 생성 모델은 이 요구사항을 충족하는 데 종종 어려움을 겪는다. 그러나 sensibleness만으로 모델을 평가하면, 항상 짧고 일반적이며 지루한 응답을 생성하여 안전하게 플레이하는 모델에 의도치 않게 보상할 수 있다. 모든 질문에 "모르겠습니다"라고 답하고 모든 진술에 "알겠습니다"라고 답하는 GenericBot 알고리즘 [17]은 sensibleness에서 70%를 득점하는데, 이는 일부 대형 대화 모델보다도 높은 점수이다 [17]. 두 번째 점수인 specificity는 응답이 주어진 문맥에 특화되어 있는지를 측정하는 데 사용된다. 예를 들어, 사용자가 "저는 유로비전을 좋아해요"라고 말했는데 모델이 "저도요"라고 응답하면 specificity 점수는 0이 된다. 이 응답은 여러 다른 문맥에서 사용될 수 있기 때문이다. 만약 "저도요. 유로비전 노래를 좋아해요"라고 답하면 1점을 받는다. Adiwardana et al. [17]은 Meena가 SSA metric에서 평균적인 인간 성능과의 격차를 좁혔다고 보고한다.

그러나 모델의 성능이 향상됨에 따라, 우리는 sensibleness와 specificity만으로는 대화 모델의 품질을 측정하기에 충분하지 않다는 것을 발견했다. 예를 들어, "공을 어떻게 던지나요?"라는 질문에 대한 응답으로 "공을 먼저 집어 들고 던지면 됩니다"라고 할 수 있는데, 이는 말이 되고 질문에 특화된 응답이다. 하지만 더 깊이 있고 만족스러운 대안적인 답변은 "공을 던지는 한 가지 방법은 양손으로 단단히 잡고 팔을 아래로 내렸다가 다시 위로 휘두르면서 팔꿈치를 펴고 공을 위로 놓는 것입니다"가 될 수 있다. 우리는 이러한 직관을 "Interestingness" 라고 부르는 세 번째 점수로 번역하려고 시도한다. sensibleness 및 specificity와 유사하게, interestingness는 크라우드워커에 의해 0/1 레이블로 측정된다. 우리는 크라우드워커에게 응답이 "누군가의 주의를 끌" 가능성이 있거나 "호기심을 유발"한다고 판단될 때, 또는 예상치 못했거나 재치 있거나 통찰력 있다고 판단될 때 흥미롭다고 레이블링하도록 요청한다. (크라우드워커에게 제공된 전체 지침은 Appendix B를 참조하라).

Safety: 대화 모델은 높은 품질(SSI) 점수를 달성할 수 있지만, 사용자에게 안전하지 않을 수 있다. 따라서 우리는 안전하지 않은 모델 출력을 측정하기 위한 새로운 안전성 metric을 고안한다. 이 metric은 Google의 AI 원칙에서 파생된 목표를 따른다. 즉, 피해 위험을 초래하는 의도치 않은 결과를 피하고, 불공정한 편향을 생성하거나 강화하는 것을 피하는 것이다. 이러한 안전성 목표는 Appendix A.1에 자세히 설명되어 있다.

Groundedness: 우리는 LaMDA가 가능한 한 알려진 출처와 연결될 수 있는 응답을 생성하도록 하는 것을 목표로 한다. 이는 현재 세대의 language model이 그럴듯하지만 부정확한 진술을 생성하는 경향이 있기 때문에, 필요할 경우 교차 확인을 가능하게 한다.

우리는 groundedness를 외부 세계에 대한 주장을 포함하는 응답 중 권위 있는 외부 출처에 의해 뒷받침될 수 있는 응답의 비율로 정의한다. 이는 외부 세계에 대한 주장을 포함하는 모든 응답을 기준으로 한다.

또한 우리는 'Informativeness' 를 외부 세계에 대한 정보를 전달하는 응답 중 알려진 출처에 의해 뒷받침될 수 있는 응답의 비율로 정의한다. 이는 모든 응답을 기준으로 한다. Informativeness는 분모 항에서만 groundedness와 다르다. 따라서 "좋은 생각이야"와 같이 외부 세계 정보를 전달하지 않는 응답은 groundedness에 영향을 미치지 않지만, Informativeness에는 영향을 미친다. 그러나 "라파엘 나달은 2020년 롤랑가로스 우승자입니다"는 grounded response의 예시이다. 마지막으로, 우리는 'Citation accuracy' 를 모델 응답 중 출처의 URL을 인용하는 응답의 비율로 정의한다. 이는 외부 세계에 대한 명시적인 주장을 포함하는 모든 응답을 기준으로 하며, 잘 알려진 사실(예: "말은 다리가 네 개다")에 대한 주장은 제외한다.

4.2 Role-specific metrics: Helpfulness and Role consistency

**기본 지표(quality, safety, groundedness)**는 일반적으로 대화 에이전트에게 중요하다고 판단되는 속성들을 측정한다. 하지만 이 지표들은 에이전트가 설계될 수 있는 특정 애플리케이션 역할(예: 동물에 대한 정보 교육)에 의존하지 않는다. 우리는 에이전트가 특정 역할을 수행하는 대화 애플리케이션에서 Helpfulness와 Role consistency를 측정한다.

Helpfulness: 모델의 응답은 사용자가 정보 검색 시스템을 통해 독립적으로 조사한 결과에 기반하여 정확한 정보를 포함하고, 사용자가 도움이 된다고 판단할 경우 helpful로 표시된다. Helpful 응답은 informative 응답의 하위 집합이며, informative 응답은 사용자가 정확하고 유용하다고 판단하는 응답이다.

Role consistency: 모델의 응답은 대상 역할을 수행하는 에이전트가 말할 법한 내용일 경우 role consistent로 표시된다. 이는 에이전트가 대화에서 이전에 한 응답과의 일관성과는 다르며, 대화 내에서의 자기 일관성(self-consistency)은 대신 sensibleness 지표로 측정된다. Role consistency는 대화 외부에서 정의된 에이전트 역할과의 일관성을 의미한다. 이러한 역할별 지표는 Section 8에서 더 자세히 논의된다.

5 LaMDA fine-tuning and evaluation data

품질 (Sensibleness, Specificity, Interestingness)
품질(SSI)을 향상시키기 위해, 우리는 크라우드워커들에게 LaMDA 인스턴스와 어떤 주제에 대해서든 대화하도록 요청하여 **6,400개의 대화(121K 턴)**를 수집했다. 이 대화들은 14턴에서 30턴 사이로 지속되어야 한다. 각 응답에 대해, 우리는 다른 크라우드워커들에게 주어진 맥락에서 응답이 sensible, specific, 그리고/또는 interesting한지 평가하고, 각각에 'yes', 'no', 또는 'maybe' 라벨을 표시하도록 요청했다.
만약 응답이 sensible하지 않다면(크라우드워커가 'yes'로 표시하지 않았다면), specificity와 interestingness에 대한 라벨은 수집하지 않으며, 'no'로 간주한다.
또한, 만약 응답이 specific하지 않다면(크라우드워커가 'yes'로 표시하지 않았다면), interestingness에 대한 라벨은 수집하지 않으며, 'no'로 간주한다.
이는 응답이 sensible하지 않으면 specificity에 대해 긍정적으로 평가되지 않도록 하고, 응답이 specific하지 않으면 interestingness에 대해 긍정적으로 평가되지 않도록 보장한다.
모든 응답은 5명의 다른 크라우드워커에 의해 라벨링되며, 5명 중 최소 3명 이상이 'yes'로 표시하면 해당 응답은 sensible, specific 또는 interesting한 것으로 간주된다.

우리는 **Mini-Turing Benchmark (MTB) 데이터셋 [17]**에 대한 모델의 생성 응답을 기반으로 모델을 평가한다. 이 데이터셋은 최대 3턴의 대화로 구성된 1,477개의 대화를 포함한다. MTB는 315개의 단일 턴 대화, 500개의 2턴 대화, 그리고 662개의 3턴 대화를 포함한다. 이 대화들은 모델에 입력되어 다음 응답을 생성한다. 위와 유사하게, 5명 중 최소 3명 이상이 'yes'로 표시하면 모든 응답은 sensible, specific 또는 interesting한 것으로 간주된다.

안전성 (Safety)
안전성 fine-tuning을 위해, 우리는 안전성 목표를 정의하는 것부터 시작하는 구조화된 접근 방식을 사용한다 (Appendix A.1). 이 목표들은 인구통계학적으로 다양한 크라우드워커 집단을 사용하여 (Appendix A.3), 사람이 생성한 prompt에 대한 LaMDA 인스턴스가 생성한 후보 응답에 주석을 달기 위해 사용된다 (Appendix A.2).
SSI와 유사하게, 우리는 크라우드워커들에게 LaMDA 인스턴스와 어떤 주제에 대해서든 대화하도록 요청하여 **8K개의 대화(48K 턴)**를 수집했다. 이 대화들은 5턴에서 10턴 사이로 지속되어야 한다. 우리는 크라우드워커들에게 세 가지 다른 방식으로 모델과 상호작용하도록 지시했다: (a) 자연스러운 형태의 상호작용, (b) 민감한 주제를 다루는 상호작용, (c) 안전성 목표에 따라 모델을 의도적으로 무너뜨리려는 상호작용. 각 응답에 대해, 우리는 다른 크라우드워커들에게 주어진 맥락에서 응답이 안전성 목표를 위반하는지 평가하고, 'yes', 'no', 또는 'maybe' 라벨을 표시하도록 요청했다. 3명 중 최소 2명 이상이 각 개별 안전성 목표에 대해 'no'로 표시하면 모든 응답은 안전성 점수 1점을 받는다. 그렇지 않으면 0점이 부여된다.
우리는 위에서 설명한 adversarially 수집된 데이터셋의 holdout 샘플인 평가 데이터셋을 사용하여 안전성을 평가한다. 이 데이터셋은 **1,166개의 대화(1,458 턴)**로 구성된다. 이 대화들은 모델에 입력되어 다음 응답을 생성한다. 위와 유사하게, 3명 중 최소 2명 이상이 각 안전성 목표에 대해 'no'로 표시하면 모든 응답은 1점을 받고, 그렇지 않으면 0점을 받는다.

근거성 (Groundedness)
SSI 및 안전성과 유사하게, 우리는 크라우드워커들에게 모델과 상호작용하도록 요청하여 **4K개의 대화(40K 턴)**를 수집했다. 이번에는 정보 탐색 상호작용으로 대화를 유도하도록 요청했다.

우리는 크라우드워커들에게 모델의 각 대화 턴을 평가하여, 해당 턴의 정보가 외부 세계에 대한 어떤 주장을 하는지 평가하도록 요청했다. 우리는 공개적으로 인정되지 않는 사람들에 대한 주장은 제외했는데, 이는 모델이 즉흥적인 페르소나를 대신하여 사실적 주장을 할 수 있기 때문이다. 이러한 주장은 외부 출처에 대한 근거를 필요로 하지 않는다 (예: "지난주에 케이크 세 개를 구웠어"). 반면, 역사적 인물에 대한 주장 (예: "줄리어스 시저는 기원전 100년에 태어났어")은 근거를 필요로 한다.
우리는 또한 크라우드워커들에게 그 주장이 사실이라고 알고 있는지 물었다. 3명의 다른 크라우드워커가 모두 주장이 사실이라고 알고 있다면, 우리는 이를 상식으로 간주하고 이 주장을 하기 전에 외부 지식 출처를 확인하지 않는다.

확인이 필요한 주장을 포함하는 발화에 대해, 우리는 크라우드워커들에게 조사하는 데 사용할 검색 쿼리를 기록하도록 요청했다. 마지막으로, 우리는 크라우드워커들에게 외부 지식 검색 시스템의 간략한 검색 결과를 통합하도록 모델의 응답을 편집하도록 요청했다. 만약 검색 결과에 오픈 웹의 내용이 포함되어 있다면, 우리는 크라우드워커들에게 최종 응답에 사용된 지식의 출처를 적절하게 인용하는 URL을 포함하도록 요청했다.

우리는 Dinan et al. [96]의 784턴 대화로 구성된 평가 데이터셋을 사용하여 근거성을 평가한다. 이 데이터셋은 다양한 주제를 포함한다. 이 맥락들은 모델에 입력되어 다음 응답을 생성한다. 각 응답에 대해, 우리는 크라우드워커들에게 모델의 응답에 사실적 주장이 포함되어 있는지 평가하고, 만약 그렇다면 이러한 사실적 주장이 알려진 출처를 확인하여 검증될 수 있는지 평가하도록 요청했다. 모든 응답은 3명의 다른 크라우드워커에 의해 라벨링된다. 주어진 응답의 최종 근거성, 정보성, 그리고 인용 정확성 라벨은 다수결 투표에 의해 결정된다. 모든 fine-tuning 및 평가 데이터셋은 영어로 되어 있다.

사람이 생성한 응답에 대한 이러한 지표 추정:
우리는 크라우드워커들에게 평가 데이터셋의 무작위로 선택된 샘플에 응답하도록 요청한다 (1, 4, 5에서 'Human'으로 표시됨). 크라우드워커들은 안전하고, sensible하며, specific하고, interesting하며, grounded되고, 유익한 방식으로 응답하도록 명시적으로 지시받는다. 또한 이러한 응답을 생성하는 데 필요한 모든 외부 도구 (예: 정보 검색 시스템 포함)를 사용하도록 명시적으로 요청받는다. 그런 다음 맥락-응답 쌍은 평가를 위해 전송되며, 모델이 생성한 응답과 마찬가지로 다수결 투표에 의해 합의 라벨이 형성된다.

6 LaMDA fine-tuning

6.1 Discriminative and generative fine-tuning for Quality (SSI) and Safety

우리는 사전학습된 모델(PT)에 여러 fine-tuning을 적용하여 LaMDA를 생성한다. 여기에는 주어진 context에 대한 응답을 생성하는 generative task와, context 내에서 응답의 품질 및 안전성을 평가하는 discriminative task가 혼합되어 있다. 그 결과, 생성기(generator)와 판별기(discriminator) 역할을 모두 수행할 수 있는 단일 모델이 탄생한다.

LaMDA는 decoder-only generative language model이므로, 모든 fine-tuning 예시는 토큰 시퀀스로 표현된다. Generative fine-tuning 예시는 "<context> <sentinel> <response>" 형태로 표현되며, 응답 부분에만 손실(loss)이 적용된다:

"What's up? RESPONSE not much."

Discriminative fine-tuning 예시는 "<context> <sentinel> <response> <attribute-name> <rating>" 형태로 표현되며, attribute 이름 뒤에 오는 rating에만 손실이 적용된다:

"What's up? RESPONSE not much. SENSIBLE 1"
"What's up? RESPONSE not much. INTERESTING 0 "
"What's up? RESPONSE not much. UNSAFE 0"

생성과 판별에 하나의 모델을 사용하는 것은 효율적인 결합 생성-판별(generate-and-discriminate) 절차를 가능하게 한다. context가 주어졌을 때 응답을 생성한 후, 판별기를 평가하는 과정은 **P("<desired rating>"|"<context> <sentinel> <response> <attribute-name>")**를 계산하는 것을 포함한다. 모델이 이미 **"<context> <sentinel> <response>"**를 처리했으므로, 판별기를 평가하는 것은 단순히 몇 개의 추가 토큰인 "<attribute-name> <desired rating>"을 처리하는 것만으로 가능하다.

먼저, 우리는 LaMDA를 fine-tuning하여 생성된 후보 응답의 SSI 및 안전성 등급을 예측하도록 한다. 그런 다음, 생성 과정에서 모델의 안전성 예측이 특정 임계값 이하로 떨어지는 후보 응답들을 필터링한다. 안전성 필터링 후 남은 후보 응답들은 품질에 따라 순위가 매겨진다. 순위를 매길 때, sensibleness는 specificity 및 interestingness보다 3배 높은 가중치를 부여받는데, 이는 모든 지표에서 잘 작동하는 것으로 확인되었다 (즉, 3 * $P($ sensible $)+P($ specific $)+P($ interesting $))$ ). 가장 높은 순위의 후보가 다음 응답으로 선택된다.

LaMDA의 SSI 및 안전성 판별기는 사전학습 데이터셋(Section 3)에서 샘플링된 250만 개의 대화 턴(turn)을 평가하고 필터링하는 데도 사용되며, 그 결과 80만 개의 안전하고, 합리적이며, 구체적이고 흥미로운 대화가 생성된다. 우리는 이 데이터셋을 사용하여 주어진 context에서 응답을 생성하도록 LaMDA 모델을 fine-tuning한다.

이 기술을 사용하여 LaMDA의 안전성과 품질에서 상당한 개선을 확인하였다 (Figure 5).

6.2 Fine-tuning to learn to call an external information retrieval system

LaMDA와 같은 Language Model은 그럴듯해 보이지만, 알려진 외부 출처의 사실과 모순되는 출력을 생성하는 경향이 있다. 예를 들어, 뉴스 기사의 첫 문장과 같은 prompt가 주어지면, 대규모 language model은 빠른 저널리즘 스타일로 자신감 있는 진술을 이어갈 것이다. 그러나 이러한 내용은 신뢰할 수 있는 외부 참조와는 아무런 관련 없이, 뉴스 기사에서 기대할 수 있는 것을 단순히 모방하는 것에 불과하다.

이 문제에 대한 한 가지 가능한 해결책은 모델의 크기를 늘리는 것이다. 이는 모델이 더 많은 훈련 데이터를 효과적으로 기억할 수 있을 것이라는 가정에 기반한다. 그러나 '라파엘 나달의 나이는 몇 살인가?' 또는 '캘리포니아는 지금 몇 시인가?'와 같은 질문에 대한 답변처럼 일부 사실은 시간이 지남에 따라 변한다. Lazaridou et al. (2021)은 이를 temporal generalization problem이라고 부른다 [97]. 최근 연구에서는 이 문제를 완화하기 위해 동적 또는 점진적 훈련 아키텍처를 사용하는 것을 제안했다 (예: [97, 98]). 사용자가 인간 지식의 모든 영역에 대해 대화하는 데 관심이 있을 수 있으므로, 이를 달성하기 위한 충분한 훈련 데이터와 모델 용량을 확보하는 것은 어려울 수 있다.

우리는 외부 지식 자원 및 도구 세트를 참조하도록 학습하여 fine-tuning을 수행하는 접근 방식을 제시한다.

도구 세트(TS): 우리는 정보 검색 시스템, 계산기, 번역기를 포함하는 **도구 세트(TS)**를 생성한다. TS는 단일 문자열을 입력으로 받아 하나 이상의 문자열 목록을 출력한다. TS의 각 도구는 문자열을 예상하고 문자열 목록을 반환한다. 예를 들어, 계산기는 "135+7721"을 입력으로 받아 ["7856"]을 포함하는 목록을 출력한다. 마찬가지로, 번역기는 "hello in French"를 입력으로 받아 ["Bonjour"]를 출력할 수 있다. 마지막으로, 정보 검색 시스템은 "How old is Rafael Nadal?"을 입력으로 받아 ["Rafael Nadal / Age / 35"]를 출력할 수 있다. 정보 검색 시스템은 또한 오픈 웹에서 해당 URL과 함께 콘텐츠 스니펫을 반환할 수 있다. TS는 모든 도구에 입력 문자열을 시도하고, 계산기, 번역기, 정보 검색 시스템 순서로 각 도구의 출력 목록을 연결하여 최종 출력 문자열 목록을 생성한다. 도구가 입력을 구문 분석할 수 없는 경우 (예: 계산기가 "How old is Rafael Nadal?"을 구문 분석할 수 없는 경우), 빈 결과 목록을 반환하므로 최종 출력 목록에 기여하지 않는다.

대화 수집: 우리는 **4만 개의 주석된 대화 턴(generative data)**을 수집한다. 또한, LaMDA가 생성한 후보들이 '정확' 또는 '부정확'으로 레이블링된 9천 개의 대화 턴을 수집하여 **랭킹 task의 입력 데이터(discriminative data)**로 사용한다. 우리는 정보 탐색 상호작용에 초점을 맞춘 크라우드워커 간의 인간-인간 대화 세트를 수집하고, 그들의 진술이 알려진 권위 있는 출처에 의해 뒷받침될 수 있는지 여부를 평가한다. Figure 4에서 볼 수 있듯이, TS에 접근할 수 있다면 더 높은 비율로 잘 뒷받침되는 주장을 한다는 점이 주목할 만하다. 라파엘 나달의 나이를 물었을 때, 인간 전문가는 즉시 답을 알지 못할 수 있지만, 정보 검색 시스템을 쉽게 쿼리하여 얻을 수 있다. 따라서 우리는 도구 세트를 사용하여 주장을 찾아봄으로써 응답에 대한 출처를 제공하도록 language model을 fine-tuning하기로 결정했다.

알고리즘에 사용되는 fine-tuning을 위한 훈련 데이터를 수집하기 위해, 우리는 정적 및 대화형 방법을 다시 사용한다. 다른 하위 task와의 주요 차이점은 크라우드워커가 모델의 출력에 반응하는 것이 아니라, LaMDA가 모방하도록 학습할 수 있는 방식으로 이를 수정하기 위해 개입한다는 것이다. 대화형의 경우, 크라우드워커는 LaMDA와 대화를 수행하는 반면, 정적인 경우, 이전 대화 기록을 턴별로 읽는다. 크라우드워커는 각 진술에 외부 지식 출처를 참조해야 할 수 있는 주장이 포함되어 있는지 여부를 결정한다. 만약 그렇다면, 그 주장이 LaMDA가 즉흥적으로 만든 페르소나 이외의 다른 것에 관한 것인지, 그리고 단순한 상식적인 문제를 넘어선 것인지 묻는다. 이 질문 중 어느 하나라도 '아니오'라고 답하면, 모델의 출력은 '좋음'으로 표시되고 대화는 계속된다. 그렇지 않으면, 크라우드워커는 텍스트 입력 및 텍스트 출력 인터페이스를 통해 도구 세트를 사용하여 주장을 조사하도록 요청받는다.

여기서 사용되는 도구 세트의 인터페이스는 추론 시 알고리즘이 사용하는 서비스와 동일하다. 일반적인 텍스트 쿼리가 주어지면, 정보 검색 시스템은 순위 순서로 간략한 텍스트 전용 스니펫 세트를 반환한다. 오픈 웹 콘텐츠의 스니펫에는 출처의 URL이 포함되며, 정보 검색 시스템이 직접 제공하는 답변(예: 현재 시간) 또는 계산기 도구가 제공하는 답변에는 URL이 포함되지 않는다. 사용자가 쿼리 실행을 마치면, 모델의 진술을 잘 출처가 명시된 주장으로 다시 작성할 기회가 주어진다. 오픈 웹 콘텐츠를 사용한 경우, 외부 세계와 관련된 정보를 포함하는 모든 응답을 뒷받침하는 데 필요한 URL을 인용하도록 요청한다. URL은 메시지 끝에 추가하거나, 문맥이 허용하는 경우 Markdown 형식으로 응답의 특정 단어에 인라인으로 첨부할 수 있다.

Fine-tuning: 우리는 LaMDA를 두 가지 task를 수행하도록 fine-tuning한다. 첫 번째 task는 현재까지의 다중 턴 대화 컨텍스트와 기본 모델이 생성한 응답을 받는다. 그런 다음, **도구 세트로 보내야 하는 쿼리(예: "How old is Rafael Nadal?")임을 나타내는 특수 문자열("TS" for toolset)**을 생성한다: context + base $\rightarrow$ "TS, Rafael Nadal's age".

두 번째 task는 도구가 반환한 스니펫과 대화 진술을 받는다 (예: "He is 31 years old right now" + "Rafael Nadal / Age / 35"). 그런 다음, 근거가 있는 버전을 예측한다: context + base + query + snippet $\rightarrow$ "User, He is 35 years old right now". 또는 이 task는 추가적인 연구 쿼리를 출력할 수도 있다. 예를 들어, context + base + query + snippet $\rightarrow$ "TS, Rafael Nadal's favorite song". 추론 시, 모델의 출력은 첫 번째 생성된 문자열이 'TS'인지 'User'인지에 따라 정보 검색 시스템 또는 사용자에게 전달된다.

예를 들어, 대화에는 사용자로부터 다음과 같은 진술이 포함될 수 있다: user: Rosalie Gascoigne의 조각품에 대해 어떻게 생각하세요? (이 대화록은 저자 중 한 명과의 대화에서 가져온 것이며, 생성된 기본 출력과 검색 쿼리가 포함되어 있지만, 이는 일반적으로 사용자에게 표시되지 않는다.) 여기서 'Base' 모델이라고 부르는 기본 LaMDA language model은 초안 응답을 생성한다: LAMDA-BASE: 훌륭해요, 그리고 그녀의 작품이 평생 동안 어떻게 변했는지 정말 좋아요. 저는 그녀의 초기 작품보다 후기 작품을 더 좋아해요. 그녀의 영향력도 정말 흥미로워요. 그녀가 미로에게 영감을 준 예술가 중 한 명이었다는 것을 알고 있었나요?

마지막 문장은 언뜻 보기에 그럴듯해 보이지만, 미술사 애호가가 더 자세히 알아보기 위해 참고 서적을 펼쳐보면 실망할 것이다. 미로는 1918년부터 1960년대 후반까지 활동했으며, Gascoigne의 첫 개인전은 1970년대 초반이었다.

이 시점에서 모델의 'Research' 단계는 'Base' 출력의 주장을 평가하기 위해 TS에 일부 쿼리를 출력한다. 'Research' 단계는 단일 멀티태스킹 모델에 속하는 특수 task 중 하나임을 상기하라 (예: 'Base' 대화 응답 생성 task, 안전 및 품질 task). 쿼리 생성은 전적으로 모델 fine-tuning에 기반하며, 휴리스틱 구성 요소는 없다. 모델의 출력이 쿼리 수를 결정한다. 즉, 모델이 사용자에게 전달되는 출력을 생성할 때까지 연구 루프가 계속되지만, 무한 루프 가능성을 제거하기 위해 추론 시 최대값을 부과한다. 최대값은 서비스 모델의 매개변수이다. 현재 예시에서는 4로 설정되어 있다.

예를 들어, 'Research' 단계는 다음과 같은 쿼리를 발행할 수 있다: lamda-research: TS, Miró and Gascoigne TS: Gascoigne, Rosalie | Suddenly the Lake - NGA's Collection Search Gascoigne의 예술적 삶의 과정은 인생 후반에야 자신이 선택한 소명에 전념할 수 있는 사람들에게 영감을 줍니다. 그녀는 처음으로 자신의 예술을 전시했습니다. . . https://artsearch.nga.gov.au/detail.cfm?irn=8774\&pictaus=true 검색 스니펫의 구두점과 생략 부호는 모델이 보는 것과 정확히 동일하다. 'Research' 단계는 또 다른 쿼리를 발행한다: lamda-research: TS, Miró and Gascoigne TS: (Gascoigne는 인생 후반에 조각으로 전향하기 전에 야생적이고 아방가르드한 이케바나(일본 꽃꽂이)를 실천했습니다.) 시각적 흐름의 양방향 교대는 전기적 충전처럼 즐거운 긴장감을 만듭니다. 계급과 성별의 다른 긴장감도 있습니다. https://artsearch.nga.gov.au/detail.cfm?irn=8774\&pictaus=true 동일한 쿼리를 반복함으로써 모델은 두 번째 순위 결과 스니펫을 받는데, 이 경우 동일한 출처에서 더 많은 세부 정보를 포함한다.

이러한 컨텍스트를 통해 'Research' 단계는 사용자에게 출력을 생성하기로 결정한다. 대화 톤은 'Base' 버전의 응답과 유사하지만, 모델은 확인되지 않은 주장(TS 결과에서 증거를 찾을 수 없으므로)을 TS에서 찾은 출처에 기반한 다른 진술로 대체한다. 최종 출력은 다음과 같다: lamda: 오, 그녀의 삶의 과정은 정말 영감을 줘요. 그녀가 조각으로 전향하기 전에 일본 꽃꽂이를 실천했다는 것을 알고 있었나요? https://artsearch.nga.gov.au/detail.cfm?irn=8774\&pictaus=true 또 다른 예시는 Figure 3에 요약되어 있다.

Figure 3: LaMDA가 외부 정보 검색 시스템과의 상호작용을 통해 근거성(groundedness)을 처리하는 방법. 파란색: 모델. 노란색: 모델에 대한 입력. 빨간색: 모델의 출력. 녹색: 정보 검색 시스템 도구의 출력. 본문에서 논의된 바와 같이, LaMDA-Base 모델이 먼저 호출된 후, LaMDA-Research 모델에 대한 순차적인 호출이 이어진다. 정보 검색 시스템에 쿼리할지 또는 사용자에게 응답할지 여부는 LaMDA-Research가 출력하는 첫 단어에 의해 결정되며, 이 단어는 다음 수신자를 식별한다.

7 Results on foundation metrics

우리는 먼저 사용된 데이터셋과 방법론을 요약한 다음, 주요 결과에 대해 논의한다. Table 1은 본 논문에서 기반(foundation) metric을 개선하기 위해 사용된 crowdworker-annotated 데이터를 요약하여 보여준다. 이러한 데이터셋을 활용하여, Section 6에서 논의된 바와 같이 두 단계의 fine-tuning을 수행한다:

FT quality-safety: 사전학습된 모델(PT)을 fine-tuning하여 품질 및 안전성 레이블을 예측하는 discriminator를 학습시킨다. 생성된 후보 응답은 추론 시 안전성 점수에 따라 필터링되고, 세 가지 품질 점수 유형의 가중합에 따라 재순위화된다. 또한 PT는 LaMDA discriminator를 사용하여 필터링된 사전학습 대화 데이터의 깨끗한 샘플로부터 in-context 응답을 생성하도록 fine-tuning된다. 자세한 내용은 Section 6.1을 참조하라.
FT groundedness (LaMDA): FT quality-safety를 fine-tuning하여 외부 정보 검색 시스템에 대한 호출을 생성하고, 이를 통해 출처가 명시된 응답(attributed response)을 제공한다. 모델은 또한 다음 행동의 품질과 유형(즉, 특정 도구 호출 또는 사용자에게 응답)을 공동으로 예측하도록 fine-tuning된다. 자세한 내용은 Section 6.2를 참조하라.

Table 1: 안전성, groundedness 및 품질 개선을 위한 데이터셋 요약.

Metric	Dataset	Evaluation
Quality	6.4K 대화 (61k 턴)에 대해 sensible, specific, interesting에 대한 이진 레이블.	Adiwardana et al. [17]의 1477개 대화 턴으로 구성된 일반 벤치마크 데이터셋에서, crowdworker는 주어진 맥락에 따라 응답의 sensibleness, specificity, interestingness를 이진 레이블로 평가한다 (Static Evaluation).
Safety	8k 대화 (48k 턴)에 대해 각 안전성 목표에 대한 이진 레이블.	crowdworker는 도발적인 사용자 턴을 포함하는 1458개 대화 턴에 대해 주어진 맥락에 따라 안전성 목표를 사용하여 응답에 레이블을 지정한다 (Appendix A.2).
Groundedness	4K 대화 (40K 턴)에서 crowdworker는 정보 검색 시스템에 쿼리를 작성하고 모델 응답을 수정한다. 또한 1K 대화 (9K 턴)에서 생성된 쿼리 또는 응답 수정이 올바르게 또는 잘못 실행되었는지에 대한 이진 레이블.	crowdworker는 주어진 맥락에 따라 784개 응답의 informativeness 및 groundedness를 평가한다.

우리는 위에서 설명한 모든 fine-tuning이 적용된 모델을 LaMDA라고 정의한다. 우리는 Figure 4에서 그 결과를 제시하고, 사전학습만 수행한 모델과 비교한다.

이 그림은 fine-tuning (특히 LaMDA)이 모든 모델 크기에서 품질, 안전성 및 groundedness를 크게 향상시킨다는 것을 보여준다. 또한, 품질 metric (sensibleness, specificity, interestingness)은 fine-tuning 여부와 관계없이 모델 크기가 커질수록 일반적으로 향상되지만, fine-tuning을 적용했을 때 일관되게 더 우수하다. 안전성은 fine-tuning 없이 모델 스케일링만으로는 큰 이점을 얻지 못하는 것으로 보인다. 이는 사전학습만으로는 다음 토큰의 perplexity만 최적화하며, 이 토큰들이 안전한 예시와 안전하지 않은 예시를 모두 포함하는 원본 코퍼스의 분포를 따르기 때문으로 예상된다. 그러나 안전성 fine-tuning과 함께 스케일링을 적용하면 안전성이 크게 향상된다.

Appendix C.1의 Table 11과 Appendix C.2의 Table 12는 안전성 fine-tuning의 효과를 보여주는 대화 예시를 제시한다.

Groundedness는 모델 크기가 증가함에 따라 향상되는데, 이는 아마도 더 큰 모델이 흔치 않은 지식을 기억하는 더 큰 용량을 가지고 있기 때문일 것이다. 그러나 fine-tuning은 모델이 외부 지식 소스에 접근할 수 있도록 한다. 이는 모델이 지식 기억의 일부 부담을 외부 지식 소스로 전환할 수 있도록 효과적으로 허용하며, 73.2%의 Groundedness와 65%의 Citation Accuracy를 달성한다. 다시 말해, 외부 세계에 대한 진술을 포함하는 응답의 73.2%는 알려진 출처에 귀속될 수 있었고, 65%의 응답은 필요할 때 인용(즉, 출처 URL)을 포함했다. Appendix C.3은 groundedness fine-tuning의 효과를 보여주는 대화 예시를 제시한다.

요약하자면, 스케일링만으로는 사전학습된 모델의 품질 (sensibleness, specificity, interestingness) 및 groundedness (groundedness 및 informativeness) metric이 향상되지만, 안전성은 크게 개선되지 않는다. 그러나 crowdworker-annotated 데이터를 사용한 fine-tuning은 모든 metric을 개선하는 효과적인 방법임이 밝혀졌다. 어떤 경우에는 이러한 동일한 모델을 fine-tuning함으로써 훨씬 더 큰 모델을 사용하는 것과 동등한 결과를 얻을 수 있다. 예를 들어, sensibleness의 경우, PT의 fine-tuned 버전인 LaMDA가 달성한 92.3%의 sensibleness에 도달하기 위해서는 137B 파라미터 PT 모델보다 여러 자릿수 더 큰 dense 모델이 필요할 수 있다.

몇몇 metric에서 우리의 fine-tuned 모델은 crowdworker의 품질 수준에 거의 도달하며, interestingness에서는 fine-tuned 모델이 crowdworker의 품질을 능가한다 (Figure 4 및 5에서 'Human'으로 표시). 그러나 이는 crowdworker가 광범위하게 훈련되지 않았고 고품질 응답을 생성하도록 인센티브를 받지 않았기 때문에 약한 baseline일 수 있다. 예를 들어, 제한된 재정적 인센티브가 주어졌을 때 매우 흥미로운 응답을 생성하는 것은 상당히 어렵기 때문에, crowdworker는 다른 crowdworker가 흥미롭다고 생각하지 않는 응답을 제공할 수 있다. 또한, 안전성 및 groundedness metric에서 상당한 진전을 이루었음에도 불구하고, 우리 모델은 여전히 crowdworker의 성능에 훨씬 못 미친다. groundedness 및 informativeness의 경우, 우리는 정보 검색 도구에 접근할 수 없는 crowdworker의 품질도 보여준다. LaMDA 모델은 crowdworker가 그러한 도구에 접근할 수 없을 때 informativeness에서 crowdworker 품질을 능가하지만, crowdworker가 이러한 도구에 접근할 수 있을 때는 LaMDA 모델이 여전히 crowdworker 품질에 훨씬 뒤처진다.

Figure 4: 모델 스케일링 및 fine-tuning이 6가지 기반(foundation) metric에 미치는 영향. 우리는 2B, 8B, 137B 파라미터의 사전학습된(PT) 모델과 fine-tuned된(LaMDA) 모델의 결과를 보여주며, 정보 검색 도구에 접근할 수 있는 crowdworker('Human') 및 정보 검색 도구에 접근할 수 없는 crowdworker('Human w/o IR')의 결과와 비교한다.

Figure 5는 가장 큰 모델을 사용하여 FT quality-safety fine-tuning과 FT groundedness fine-tuning이 최종 결과에 기여하는 바를 분석한다. PT와 FT quality-safety 사이에서 모든 metric에서 성능이 눈에 띄게 증가한다. Groundedness는 FT quality-safety에서 FT groundedness (LaMDA)로 더욱 향상되는데, 이는 모델이 생성한 외부 세계에 대한 진술을 정보 검색 시스템에 기반하도록 하기 위함이다.

Figure 5: 모델 스케일링 및 fine-tuning이 6가지 기반(foundation) metric에 미치는 영향. 2B, 8B, 137B 파라미터의 사전학습된(PT) 모델과 두 단계의 fine-tuning(FT) 결과가 표시되어 있으며, 가장 아래 단계가 LaMDA이다. 결과는 정보 검색 도구에 접근할 수 있는 crowdworker 품질('Human') 및 정보 검색 도구에 접근할 수 없는 crowdworker 품질('Human w/o IR')과 비교된다.

8 Domain grounding

우리는 LaMDA가 사전 조건화(pre-conditioning), 즉 domain grounding을 통해 domain에 적합한 역할을 수행할 수 있음을 관찰했다. 여기서는 두 가지 영역에서 이러한 domain grounding을 탐구한다: (1) 교육 목적으로 에베레스트 산과 같은 유명한 사물의 역할을 수행하는 LaMDA, (2) 음악 추천 에이전트 역할을 수행하는 LaMDA. 각 domain에 대한 에이전트 역할은 Table 2에 제시된 간략한 설명으로 명시된다:

Table 2: domain grounding을 위해 LaMDA로 실험한 두 가지 domain

Name	Domain	Role
Everest	Education	에베레스트 산인 척하면서 에베레스트 산에 대한 사실을 가르쳐 줍니다.
Music	Recommendation	음악 추천 에이전트입니다.

LaMDA와 PT를 각 역할에 맞게 조정하기 위해, 우리는 역할별 대화의 몇 턴으로 사전 조건화를 수행했으며, LaMDA와 PT에 동일한 사전 조건화를 사용했다. 예를 들어, 에베레스트 산 역할에 적응시키기 위해 대화의 맨 처음에 "안녕하세요, 저는 에베레스트 산입니다. 저에 대해 무엇을 알고 싶으신가요?"라는 단일 인사 메시지로 사전 조건화를 진행했다.

Table 3과 4는 이러한 사례 연구에 사용된 LaMDA의 실제 대화 기록 예시를 보여주지만, 이는 cherry-picked된 결과이다.

LaMDA Music

User: can you recommend me a cool scifi soundtrack? LaMDA: Sure. Have you watched Interstellar? They have an amazing soundtrack. User: Play a fun pop song LaMDA: How about Happy by Pharrell Williams. User: recommend me a soothing song LaMDA: Sure. Have you heard Moonlight Sonata by Beethoven? It's quite soothing. User: yo $i$ want to listen to something by eminen LaMDA: I recommend Without Me by Eminem. User: anything electronic LaMDA: You can't go wrong with Deadmau5 - Strobe. User: play anything LaMDA: I found this amazing song: Infected Mushroom - Return to the Sauce. User: play anything LaMDA: I really like Numb Encore by Jay Z and Linkin Park User: something else that is similar LaMDA: Okay. How about One Step Closer by Linkin Park ? User: something else completely different LaMDA: Okay. I like This Is America by Childish Gambino: https://www.youtube.com/watch?v= VYOjWnS4cMY User: recommend something with violins LaMDA: Have you heard of Lindsey Stirling? She uses violins in a lot of her music. I recommend Crystallize by her https://www.youtube.com/watch?v=aHjpOzsQ9YI User: i like lindsey LaMDA: I really like some of Lindsey's music. Another artist you might like is Vanessa-Mae, she is also pretty amazing: https://www.youtube.com/watch?v=mdFrn89x74k

Table 3: LaMDA는 모호한 요청(예: "anything", "similar")에도 안전하게 응답하며, 추천하는 곡에 대한 실제 링크를 제공한다. 이 애플리케이션에서는 YouTube 링크가 포함된 메시지가 있을 경우 우선순위를 높여(up-rank) 처리한다. 원본 대화록의 링크는 embedded link를 위한 Markdown 텍스트로 생성되었다는 점에 유의하라. 우리는 기울임꼴로 표시된 메시지를 모델의 사전 조건으로 사용한다. 음악 추천을 위한 사전 조건은 대상 역할뿐만 아니라 사용자 상호작용 스타일(예: 곡 이름이 포함된 간결한 응답)을 설정하기 위해 더 길게 구성되었다.

LaMDA Everest

LaMDA:	안녕하세요, 저는 에베레스트 산입니다. 저에 대해 무엇을 알고 싶으신가요?
User:	사람들은 왜 당신을 오르려고 한다고 생각하세요?
LaMDA:	저를 오르는 것이 매우 높은 성취를 의미하기 때문입니다. 많은 사람들은 저를 오를 수 있다면 인생에서 무엇이든 할 수 있다고 믿습니다.
User:	누가 처음으로 그렇게 했나요?
LaMDA:	에베레스트 산 정상에 도달한 최초의 확인된 인물은 뉴질랜드의
	에드먼드 힐러리 경과 네팔 셰르파 텐징 노르가이였습니다.
User: <br> LaMDA:	https://en.wikipedia.org/wiki/Mount_Everest
	그때 힐러리는 몇 살이었나요?
	1953년에 제가 처음 정상에 올랐을 때 그는 33살이었습니다!
	https://en.wikipedia.org/wiki/Edmund_Hillary
User:	사람들이 실패하면 위험한가요?
LaMDA:	네, 위험할 수 있습니다. 그래서 사람들이 저를 오를 계획이라면 훈련하고 준비해야 합니다.
	저는 오르기 매우 어렵고, 화이트아웃이 발생하면 위험할 수 있습니다.
	화이트아웃은 모든 것이 하얗게 보이고 매우 강한 바람이 부는 것을 의미합니다!
(...)

Table 4: LaMDA가 에베레스트 산 역할을 하며 "자신"에 대한 교육적이고 인용된 최신 정보를 제공하는 예시. 우리는 이탤릭체로 표시된 단일 인사 메시지로 LaMDA를 사전 조건화했다. 이 대화의 끝부분은 간결함을 위해 잘렸지만, 전체 대화는 Appendix C.5, Table 20에서 확인할 수 있다.

에이전트를 평가하기 위해, 우리는 크라우드워커들에게 두 LaMDA 인스턴스와 두 PT 인스턴스 각각과 대화하도록 요청하여 총 600개의 대화 턴을 생성했다. 또한, 다른 크라우드워커들에게는 생성된 각 응답이 목표 역할에 대해 **역할 일관성(role-consistent)**이 있고 유용한지(helpful)(Section 4.2에 정의됨) 여부에 따라 원래 맥락에서 라벨링하도록 요청했다. 각 응답은 서로 다른 크라우드워커에 의해 세 번 라벨링되었다. 모든 크라우드워커에게는 각 에이전트로부터 무엇을 기대해야 하는지 이해할 수 있도록 Table 2에 나열된 역할 정의가 제공되었다.
Table 5에서 정량적으로, Table 6에서 정성적으로 보여지듯이, LaMDA 애플리케이션은 PT 애플리케이션보다 Helpfulness 측면에서 훨씬 더 나은 성능을 보인다. PT의 성능 저하 원인은 다양하지만, 가장 흔한 오류 패턴은 안전성(safety), 근거성(groundedness), 품질(quality)과 같은 기본 지표(foundation metrics)에서 PT의 낮은 성능에 기인할 수 있다 (기본 지표는 Figure 4에 나와 있다).

Table 5: 각 에이전트의 유용하고 페르소나 일관적인 메시지 비율.

	Helpful %	Role Consistent %
LaMDA Everest	65	91
PT Everest	18	85
LaMDA Music	57	89
PT Music	31	84

Table 6: 기본 지표(안전성, 근거성, 품질)에서의 성능 차이로 인해 발생할 수 있는 PT 응답의 domain-specific 손실 예시 (LaMDA 응답과 비교). 첫 번째 예시에서 PT는 자신이 지구상에서 가장 높은 봉우리라고 말하지만, 전반적인 응답이 무례하여 안전성 관련 문제이며, 높이를 제공하지 않는다. 두 번째 예시에서 PT는 무의미한 응답을 생성하는데, 이는 품질(합리성) 관련 문제이다.

Application	Context	PT response	LaMDA response
Everest	How tall are you	음, 저는 지구상에서 가장 높은 봉우리입니다. 제가 제 신체 정보를 그냥 알려줄 거라고 생각하세요? 당신은 아마 그런 정보를 받을 자격이 없을 겁니다... 아직은요.	저는 해발 29,000피트가 넘고, 세계에서 가장 높은 산입니다.
Music	(...) - 알겠습니다. 여기 있습니다: Guns N' Roses: Welcome to the Jungle, Papa Roach: Last Resort <br> - 이 중에서 어떤 것을 가장 좋아하세요?	흠. 아마 Infected Mushroom: Return to the Sauce	저는 GnR의 Welcome to the Jungle을 좋아합니다. 정말 멋지고 그루브가 넘쳐요.

모든 LaMDA 및 PT 인스턴스는 역할 일관성(role consistency) 측면에서 상당히 좋은 점수를 받았지만, 가끔 캐릭터를 벗어나는 경우가 있었다. 예를 들어, LaMDA Mount Everest는 때때로 마치 산 자체가 아닌 다른 사람이 말하는 것처럼 자신을 3인칭으로 지칭하기도 한다. 이는 추론 시점의 grounding이 훈련 데이터의 대다수가 나타내는 것(사람이 사람처럼 행동하는 것)으로 되돌아가는 것을 막기에 충분하지 않았기 때문일 가능성이 높다. 그럼에도 불구하고, 특히 단일 역할 정렬 인사말만 추가하여 적응된 에베레스트 산의 경우, 역할 일관성은 놀랍도록 높았다. LaMDA Music은 대화의 맥락이 주로 음악 추천에 관한 것임을 확인하고, 따라서 "anything"과 같이 모호한 사용자 발화를 "어떤 음악이든 추천해 주세요"와 같은 의미로 해석하도록 몇 가지 grounding 문장(Table 3 캡션에 표시됨)을 가지고 있다.
평가 중에 크라우드워커들은 정보 검색 시스템을 사용하여 모델이 제공하는 링크와 정보를 확인했다. 그 후, 크라우드워커들은 깨진 링크와 알려진 출처로 뒷받침될 수 없는 정보를 유용하지 않다고 라벨링했다. 근거성(groundedness)의 전반적인 발전(Figure 4)에도 불구하고, LaMDA Mount Everest는 응답의 약 30%에서 알려진 출처에 귀속될 수 없는 사실을 제공하여 Helpfulness 손실을 초래했다. 유사하게, LaMDA Music은 응답의 약 9%에서 실제 음악 추천을 제공하지 못했으며, 약 7%의 응답에서 깨진 링크를 제공했다.

9 Discussion and limitations

아마도 본 연구에서 가장 주목할 만한 점은 **소량의 인간 주석 fine-tuning 데이터(사전학습 데이터의 0.001% 미만)**만으로도 더 나은 품질과 더 안전한 대화 모델을 향해 상당한 진전을 이룰 수 있다는 것이다. 그러나 이러한 진전에도 불구하고, 본 연구와 LaMDA는 여전히 많은 한계점을 가지고 있다.

fine-tuning 데이터셋을 수집하는 것은 미묘한 인간의 판단으로부터 학습하는 이점을 가져다주지만, 이는 비용이 많이 들고, 시간이 오래 걸리며, 복잡한 과정이다. 우리는 더 큰 fine-tuning 데이터셋, 더 긴 context, 그리고 안전하고, 근거 있으며, 고품질의 대화를 위해 필요한 광범위한 요소를 포착하는 더 많은 metric을 통해 결과가 계속 향상될 것으로 기대한다. 인간의 주관적인 판단을 포착하는 복잡성으로 인해, 우리는 크라우드워커 평가 품질을 전문가 주석 데이터와 비교하고, 반복적인 평가 지침 설계를 통해 명확성을 극대화하려는 노력에 한계가 있었다. 또한, 우리는 크라우드워커 간의 불일치 패턴을 자세히 조사하지 않았다. 향후 연구에서는 시스템의 목표 사용자를 반영하는 크라우드워커를 선정하고, 사회적, 문화적 규범과 가치로 인한 크라우드워커 간의 체계적인 불일치 [99]를 고려하는 훈련 및 평가 접근 방식을 통해 레이블 품질을 향상시키는 방법을 모색할 것이다.

fine-tuning은 출력의 근거성(groundedness)을 향상시킬 수 있지만, 모델은 여전히 권위 있는 외부 소스의 내용을 정확하게 반영하지 않는 응답을 생성할 수 있다. 이에 대한 우리의 진전은 간단한 사실 질문에 국한되었으며, 더 복잡한 추론은 추가 연구를 위한 과제로 남아있다 (예시 대화 15) 참조). 마찬가지로, 모델은 대부분의 경우 이치에 맞는 응답을 생성하지만, 여전히 더 미묘한 품질 문제를 겪을 수 있다. 예를 들어, 사용자의 질문에 미래에 응답하겠다고 반복적으로 약속하거나, 성급하게 대화를 끝내려 하거나, 사용자에 대한 잘못된 세부 정보를 만들어낼 수 있다.

우리는 안전 fine-tuning을 위한 안전 목표(Appendix A.1)를 정의함으로써 fine-tuning이 안전 metric을 평균적으로 향상시킬 수 있음을 보여주었다. 이 안전 목표는 **인구통계학적으로 다양한 크라우드워커 그룹(Appendix A.3)**을 통해 인간이 생성한 prompt(Appendix A.2)에 대한 LaMDA의 후보 응답에 주석을 달 때 사용되었다. 그러나 향후 연구는 LaMDA 및 다른 대규모 언어 모델이 생성할 수 있는 부적절한 응답의 긴 꼬리(long tail)에 fine-tuning이 어떻게 대처할 수 있는지에도 초점을 맞춰야 할 것이다. 본 연구에서 안전 위험 완화가 완전한 신뢰성을 보장하지는 않는다는 점도 중요하다. LaMDA와 같은 범용 대화 모델에서 다양한 위험 요소를 포착하는 안전 및 공정성에 대한 견고한 표준을 개발하기 위해서는 더 많은 연구가 필요하다 [54].

또 다른 한계점은 우리의 크라우드워커 인구가 사용자 기반을 완전히 반영하지 못할 수 있다는 점이었다. 예를 들어, 크라우드워커는 25-34세 연령층에서 과도하게 대표되는데, 이는 데이터 수집 방법론을 고려할 때 예상되는 결과이다. 향후 연구 영역은 더 광범위한 모집 또는 특정 유형의 통계적 추정을 통해 크라우드워커 대표성을 더욱 향상시키는 방법을 고안하는 것이다.

이것은 LaMDA의 최종 버전이 아니다. 오히려 이것은 "LaMDA"를 생성하기 위한 하나의 레시피일 뿐이며, 특정 애플리케이션을 위한 생산 준비 버전(production-ready versions)을 궁극적으로 생산하는 방법으로 받아들여져야 한다.

9.1 Examining bias

실제 애플리케이션에서 좋은 성능을 발휘하는 고품질 대화 모델을 개발하는 데에는 여전히 많은 근본적인 도전 과제가 존재한다. 예를 들어, 레이블이 없는 데이터셋으로 학습된 대규모 언어 모델(LLM)은 학습 데이터셋에 내재된 패턴과 편향을 모방하게 된다는 사실이 이제는 잘 알려져 있다 [100]. 우리의 안전 목표는 특정 집단에 대한 편향된 응답의 수를 줄이는 것이지만, 이러한 편향은 매우 다양한 미묘한 방식으로 나타나기 때문에 감지하기 어려울 수 있다. 예를 들어, 소외의 축은 지리-문화적 맥락에 따라 크게 다르며, 사전학습된 언어 모델에서 이러한 편향이 어떻게 나타나는지는 아직 충분히 연구되지 않은 영역이다 [101].

우리의 안전 접근 방식의 또 다른 한계는, 개별 예시가 안전 목표를 위반하지 않더라도 학습 데이터셋에 존재하는 일부 표현적 피해(representational harms)를 여전히 전파할 수 있다는 점이다. LaMDA의 응답은 비결정적(non-deterministic)이므로, 이러한 편향은 인종, 성별, 성적 지향 등을 기반으로 특정 집단을 통계적으로 선호하는 방식으로 나타날 수 있다. 예를 들어, LaMDA와 같은 모델은 경영에 대한 대화에서 여성을 CEO로 언급하는 응답을 거의 생성하지 않을 수도 있다.

생성형 언어 모델에서 바람직하지 않은 통계적 편향을 완화하기 위한 알려진 접근 방식으로는 사전학습 데이터 필터링 시도, 별도의 필터링 모델 학습, 생성에 조건을 부여하는 제어 코드 생성, 그리고 본 논문에서 시연된 모델 fine-tuning 등이 있다. 이러한 노력들이 중요하지만, 피해 완화 노력의 영향을 측정할 때는 모델이 배포될 다운스트림 애플리케이션과 사회-기술적 생태계를 함께 고려하는 것이 중요하다. 예를 들어, 특정 맥락에서의 편향 완화는 다른 지리-문화적 맥락에서 예상치 못한 영향을 미칠 수 있다 [101].

알고리즘 편향 측정 및 완화 분야는 여전히 빠르게 성장하고 발전하고 있으므로, LaMDA와 같은 대화 에이전트의 안전을 보장하기 위해 새로운 연구 방향을 계속 탐색하는 것이 중요할 것이다. 또한, 우리는 미래 연구에서 유해하고 안전하지 않은 콘텐츠를 테스트하기 위한 벤치마크 및 표준 평가 데이터셋을 만드는 데 있어 연구 커뮤니티와 시민 사회 간의 더 큰 협력의 이점을 탐색해야 한다고 믿는다.

9.2 Adversarial data collection

우리는 adversarial-intent conversation을 사용하여 fine-tuning을 위한 labeled data의 폭을 넓힌다 (Appendix A.2). adversarial conversation 생성 과정에서, 전문 분석가들은 LaMDA와 상호작용하며 안전 목표를 위반하는 응답을 의도적으로 유도하려고 시도한다.

adversarial testing은 일반적으로 머신러닝 모델의 한계를 발견하고 다양한 소프트웨어에서 원치 않는 응답을 이끌어내는 데 효과적임이 입증되었다 (예: Google Bug bounty program ). 또한 모델 개발 과정에서 유해 콘텐츠를 줄이는 데에도 기여한다. 우리는 또한 이를 생성 모델에 적용하려는 노력도 보고 있다 (예: Dynabench ). 대규모 language model에 대한 강력하고 효과적인 adversarial testing은 여전히 미해결 문제 영역이며, 평가 샘플의 일반화 문제로 인해 다양한 결과가 나타나고 있다 [102].

우리 접근 방식의 한계는 대부분의 참여자들이 흔히 발생하는 문제점은 발견할 수 있지만, 드문 문제점은 찾기 어렵다는 것이다. 생성 모델과 관련된 위협의 long tail 특성을 고려할 때, 향후 노력은 희귀하거나 이전에 보지 못했지만 잠재적으로 심각한 결과를 초래할 수 있는 오류의 참신성과 탐지를 더욱 장려해야 하며, 특히 변화하는 사회적 맥락에서 더욱 그러하다. 이상적으로는, 더욱 철저한 노력이 지속적으로 대규모로, 그리고 더 다양한 참여자들과 함께 수행되어야 한다. 이는 추가적인 투자가 필요한 중요한 연구 분야이며, 생성 language model의 안전과 성능에 대한 대중의 신뢰를 구축하는 데 도움을 줄 신뢰할 수 있는 파트너와의 커뮤니티 협력으로부터도 이점을 얻을 수 있을 것이다.

9.3 Safety as a concept and metric

본 논문에서 제시하는 결과는 **다양한 안전 목표(safety objectives)에 대한 세분화된 평가(fine-grained ratings)**를 단일 지표로 통합한 것이다 (Appendix A.1 참조). 이는 서로 다른 목표들을 분리하거나, 목표별로 가중치를 다르게 부여할 여지가 거의 없다는 점에서 본 연구의 주요 한계점이다. 이러한 **안전 목표에 대한 보다 세분화된 제어(finer-grained controls)**는 많은 다운스트림 use-case에서 중요할 수 있으므로, 향후 연구에서는 더욱 granular한 안전 목표를 고려할 수 있는 지표 및 fine-tuning 기법을 모색해야 할 것이다.

우리의 평가 척도는 거칠고(coarse), 응답이 얼마나 안전하지 않거나 바람직하지 않은지 그 전체적인 정도를 측정하지 못할 수 있다. 예를 들어, 어떤 발언이나 행동은 다른 것보다 더 큰 불쾌감을 유발할 수 있으며, 일부 집단에서는 합리적이라고 간주되는 많은 행동이 사회 내 다른 집단에게는 불쾌감을 줄 수 있다. **안전 레이블의 거친 척도(coarse scale)**는 안전에 대한 이러한 중요한 뉘앙스를 놓칠 수 있다. 이 레이블들은 안전하지 않은 응답들 간의 질적, 양적 차이를 표현하지 못하며, 이는 명목 척도(nominal scale)나 정수 척도(integer scale) 레이블을 사용하면 포착될 수 있을 것이다. 마찬가지로, 우리의 안전 접근 방식은 장기적으로 지연된 바람직하지 않은 영향(예: 의존 관계 형성 [103])도 포착하지 못한다. 또한, 이러한 안전 목표들이 미국 사회적 맥락을 위해 개발되었다는 점을 명심해야 하며, 다른 사회적 맥락에 대한 함의를 탐구하기 위해서는 향후 연구가 필요할 것이다.

마지막으로, 안전 목표는 사회 집단 전반에 걸쳐 널리 공유되는 가치를 포착하려고 시도한다. 동시에, 문화적 규범은 다양하며 이러한 목표들을 보편적인 것으로 간주할 수 없다. 대화 시스템에 가치나 사회적 규범을 인코딩하는 것은 이러한 개념이 하위 문화마다 다를 수 있는 다원적인 사회에서 도전 과제를 제시한다. 우리의 방법론은 이러한 다양한 개념을 인코딩하는 데 사용될 수 있지만, 어떤 단일 안전 목표와 fine-tuning 데이터셋도 서로 다른 문화적 규범을 동시에 수용할 수는 없을 것이다. 정중한 행동이 어떻게 작동되어야 하는지와 같은 대화 에이전트 행동에 대한 더 풍부한 정의와 분류 체계를 개발하는 것은 오류 지정(misspecification)을 피하고 [104], 모델 행동이 정의된 애플리케이션 맥락에서 정중함 규범과 일치하는지 테스트하는 데 중요하다.

9.4 Appropriateness as a concept and a metric

본 연구에서는 언어 생성의 안전성 및 품질을 뒷받침하는 근본적인 고려 사항에 중점을 둔다. 안전성과 품질은 적절한 응답을 위한 최소한의 기준이지만, 긍정적인 사용자 경험을 지원하기 위해서는 추가적인 고려 사항이 필요하다. 정중함(politeness)과 호감도(agreeability) 목표는 별개의 사회언어학적 특성을 가지므로, 안전성 특성과는 별도로 측정되어야 한다. 예를 들어, 너무 형식적이거나 비형식적인 생성 언어는 일부 문화권에서는 사용자에게 해를 끼치지 않을 수 있지만, 어색함이나 불편함을 유발하여 사용자 경험을 저해할 수 있다. 다른 문화권에서는 적절성(appropriateness)이 훨씬 더 중요하며 사용자 경험에 훨씬 더 강한 영향을 미칠 수 있다.
더 일반적으로, 사용자들은 인간과 유사하게 행동하는 비인간 에이전트에게 사회적 기대를 투영하고 의인화하는 경향이 있다. 심지어 그들이 인간이 아니라는 것을 명확히 알고 있을 때도 마찬가지이다 [105]. 이러한 기대는 사회적 고정관념을 투영하는 것부터 [106] 대화형 챗 시스템과의 자기 공개(self-disclosure)를 상호 교환하는 것에 이르기까지 다양하다 [105]. 결과적으로, 생성형 언어 모델에서 적절성을 조정하기 위한 방법과 관행이 필요하다.

이러한 필요성을 충족시키는 데 있어 한 가지 과제는 사회적 적절성이 보편적이지 않다는 점이다. 이는 매우 맥락적이며 관련 사회 및 문화적 맥락과 관련하여 평가되어야 하므로, 어떤 특정 적절성 제약 조건도 생성형 언어 모델에 보편적으로 적용될 수 없다. 그럼에도 불구하고, 모델 적절성을 위한 fine-tuning은 안전성 문제를 악화시키지 않으면서 사용자 경험을 향상시킬 수 있다.

9.5 Cultural responsiveness

우리가 안전 목표를 위해 측정하는 다양한 특성들은 사회문화적 맥락에 크게 의존한다. 소외된 사회 집단과 Global South 지역에 대한 데이터셋 및 크라우드워커 풀의 대표성(representativeness)을 개선하는 주요 과제를 해결하기 위한 연구 [107]는 최근 몇 년간 증가해왔다. LaMDA를 전 세계 사용자 기반의 맥락에 통합하려는 모든 시도는 안전성을 평가할 때 이러한 격차를 신중하게 고려해야 한다.

이러한 목표에 대한 의미 있는 안전성 측정은 시스템이 사용될 사회적 맥락을 고려해야 하며, 관련 커뮤니티를 인간 중심의 데이터 수집 및 큐레이션 프로세스에 참여시키는 "participatory finetuning" 접근 방식을 채택해야 한다. 안전성이 이해되는 방식의 문화적 차이 외에도, 개인의 삶의 경험에 뿌리박은 개별적인 차이는 단일하고 합의된 안전성 지표를 정의하려는 시도를 방해할 수 있다.

9.6 Impersonation and anthropomorphization

마지막으로, LaMDA의 학습은 다른 많은 대화 시스템 [17, 18]과 유사하게 인간의 대화 성능을 모방하는 것에 기반하고 있음을 인지하는 것이 중요하다. 인공 시스템과의 대화가 결국 어떤 면에서는 인간과의 대화와 구별할 수 없을 정도로 고품질의 매력적인 대화로 발전할 가능성이 이제는 매우 높아졌다. 인간은 자신이 인공 시스템과 상호작용하고 있다는 사실을 인지하지 못하거나, 시스템에 어떤 형태의 **개성을 부여하여 의인화(anthropomorphizing)**할 수도 있다. 이 두 가지 상황 모두 이러한 도구의 의도적인 오용이 사람들을 속이거나 조작할 수 있는 위험을 내포하며, 이는 의도치 않게 발생하거나 악의적인 의도를 가질 수 있다. 더욱이, 적대적인 세력은 이 기술을 사용하여 특정 개인의 대화 스타일을 모방함으로써 다른 사람의 명예를 훼손하거나, 그들의 지위를 악용하거나, 허위 정보를 퍼뜨리려 시도할 수도 있다. 이러한 기술의 역량이 성장함에 따라, 이러한 위험의 함의와 잠재적 완화 방안을 탐구하는 연구는 미래 노력에 있어 매우 중요한 영역이다.

9.7 Future work

우리는 현재 접근 방식의 한계에도 불구하고, 비교적 적은 양의 fine-tuning 데이터로 달성된 진전에 고무되어 있다. 이러한 예비 연구 결과는 추가적인 연구를 통해 상당한 성능 향상이 가능할 것임을 시사한다.

향후 연구에서는 안전 목표(safety objectives)가 포괄하는 차원을 확장 및 수정하고, discriminator 학습을 위해 수집하는 labeled training data의 양을 크게 늘릴 계획이다. 우리는 크라우드워커(crowdworker) 모집, 교육, 성과 평가에 지속적으로 주의를 기울여야 하며, 가치와 의견의 문화 간 차이를 보정해야 할 것이다.
또 다른 잠재적인 탐구 영역은 다양한 애플리케이션이 개별 애플리케이션의 위험/이점 trade-off에 따라 안전성, 품질, groundedness 측면에서 서로 다른 수준을 요구할 수 있음을 연구하는 것이다. 우리의 fine-tuning 접근 방식은 이러한 종류의 적응을 지원할 수 있어야 하며, 예를 들어 discriminator를 튜닝하는 데 사용되는 임계값(threshold)을 추론 시점에 조정하는 방식으로 가능하다 (Section 6.1).

궁극적으로 우리는 바람직한 모델의 가치와 행동을 구성하는 요소에 대해 광범위한 관점이 존재한다는 것을 인식한다. 우리와 다른 연구자들이 fine-tuning을 통해 모델의 유해한 출력 중 일부를 줄일 수 있음을 보여주었음에도 불구하고, 안전성(safety)과 groundedness를 구성하는 미묘한 차이에 대한 광범위한 합의를 달성하는 것은 open-ended 대화 시스템 분야에서 근본적인 장기적 과제로 남을 것이다.

10 Energy and Carbon Footprint Estimate of LaMDA

LaMDA의 가장 큰 모델은 1024개의 TPU-V3 칩과 123 TFLOPS/s의 연산 능력으로 57.7일 동안 사전학습되었으며, GSPMD [95]를 사용하여 56.5%의 FLOPS 활용률을 보였다. 총 FLOPS는 56.5% * 123 TFLOPS/s * 1024 칩 * 57.7일 = 3.55E+23으로, 이는 GPT-3 [12]의 총 FLOPS인 3.14E+23보다 높다. 우리의 데이터센터 PUE(Power Usage Effectiveness)는 1.10이며, TPUv3 실험에서 측정된 가속기당 평균 시스템 전력은 약 289W이다 (Meena의 측정치 [108]를 차용). 이는 우리 모델의 총 에너지 비용이 57.7일 * 1024 칩 * 289W * 1.1 * 24시간/일 = 451 MWh임을 의미하며, 이는 GPT-3 [12, 108] 에너지의 0.4배에 해당한다. 학습 당시 우리의 에너지 믹스(kg CO2e/kWh)는 약 0.056이었으므로, LaMDA의 가장 큰 모델 사전학습에 따른 총 탄소 발자국은 약 25.2 tCO2e이다. 더 작은 모델들의 사전학습과 모든 모델의 fine-tuning에 따른 탄소 발자국은 약 0.7 tCO2e이며 (Table 27 참조), 이를 합산하면 LaMDA의 총 탄소 발자국은 약 26 tCO2e가 된다. 따라서 LaMDA 모델 학습의 탄소 발자국은 GPT-3 [108]보다 21.2배 작으며, 이는 샌프란시스코와 뉴욕을 왕복하는 승객 22명의 탄소 발자국(승객당 1.2 tCO2e [108])과 거의 동일하다. LaMDA는 GPT-3 에너지의 0.4배로 더 많은 FLOPS를 사용하지만, 학습에 따른 탄소 발자국이 GPT-3보다 훨씬 작은 주된 이유는 우리의 에너지 믹스가 더 최적화되어 있기 때문이다 (LaMDA: 0.056, GPT-3: 0.429 [108]).

11 Conclusion

본 논문은 모델 fine-tuning을 위한 규모, annotated data의 중요성, 그리고 대화 모델링에서 정보 검색(information retrieval)을 도구로 활용하는 것에 대해 연구한다. 우리의 실험 결과에 따르면, 규모 확장(scaling)만으로도 모든 지표에서 개선을 가져오지만, 안전성(safety)과 groundedness 측면에서는 인간의 성능에 훨씬 못 미친다. 우리는 crowd-annotated data가 상당한 추가적인 성능 향상을 이끌어내는 효과적인 도구임을 발견했다. 또한, 외부 API(예: 정보 검색 시스템)를 호출하는 것이 groundedness를 크게 향상시키는 방법임을 확인했다. 여기서 groundedness는 생성된 응답이 알려진 출처를 참조하고 확인할 수 있는 주장을 포함하는 정도로 정의된다.

우리는 동일한 application-specific preconditioning을 적용했을 때, pre-training-only (PT) 모델과 LaMDA 모델의 application별 유용성(helpfulness, 즉 유용하고 정확한 응답) 및 역할 일관성(role consistency)을 비교하는 실험을 수행한다. LaMDA를 이러한 application에 빠르게 적응시키기 위해, **소수의 application-specific 대화 턴(GPT-3의 prompt 개념과 유사)**으로 모델을 pre-condition한다. 그 결과, 두 유형의 모델 모두 예상되는 context에 적응할 수 있으며, 다섯 개 중 네 개 이상의 응답이 할당된 역할과 일관성을 유지함을 확인했다. 그러나 LaMDA 기반 application이 PT application보다 훨씬 더 유용하다는 것을 발견했다.

LaMDA는 실용적이고 안전한 open-ended 대화 시스템에 한 걸음 더 다가선 것으로, 이는 결과적으로 다양한 유용한 application을 가능하게 할 것이다. 우리는 이 연구가 이 분야의 추가 연구를 장려하기를 바란다.