Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).

LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril*, Gautier Izacard, Xavier Martinet Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozière, Naman Goyal Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin Edouard Grave, Guillaume Lample*

Meta AI

Abstract

우리는 7B에서 65B 파라미터 범위의 foundation language model 컬렉션인 LLaMA를 소개한다. 우리는 모델을 수조 개의 token으로 학습시켰으며, 독점적이고 접근 불가능한 데이터셋에 의존하지 않고, 공개적으로 사용 가능한 데이터셋만을 사용하여 state-of-the-art 모델을 학습시키는 것이 가능함을 보여준다. 특히, LLaMA-13B는 대부분의 벤치마크에서 GPT-3 (175B)를 능가하며, LLaMA-65B는 Chinchilla70B 및 PaLM-540B와 같은 최고 모델들과 경쟁할 만한 성능을 보인다. 우리는 모든 모델을 연구 커뮤니티에 공개한다.

1 Introduction

방대한 텍스트 코퍼스로 학습된 Large Language Model (LLM)은 텍스트 지시나 소수의 예시로부터 새로운 task를 수행하는 능력을 보여주었다 (Brown et al., 2020). 이러한 few-shot 특성은 모델을 충분한 크기로 확장했을 때 처음 나타났으며 (Kaplan et al., 2020), 이는 모델의 추가적인 확장에 초점을 맞춘 연구들로 이어졌다 (Chowdhery et al., 2022; Rae et al., 2021). 이러한 노력은 더 많은 파라미터가 더 나은 성능으로 이어질 것이라는 가정에 기반한다. 그러나 Hoffmann et al. (2022)의 최근 연구는 주어진 연산 예산(compute budget) 내에서 최고의 성능은 가장 큰 모델이 아니라, 더 많은 데이터로 학습된 더 작은 모델에 의해 달성된다는 것을 보여준다.

Hoffmann et al. (2022)의 scaling law의 목표는 특정 학습 연산 예산에 대해 데이터셋과 모델 크기를 최적으로 확장하는 방법을 결정하는 것이다. 그러나 이 목표는 **추론 예산(inference budget)**을 고려하지 않는데, 이는 언어 모델을 대규모로 서비스할 때 매우 중요해진다. 이러한 맥락에서, 특정 성능 수준을 목표로 할 때 선호되는 모델은 학습 속도가 가장 빠른 모델이 아니라 추론 속도가 가장 빠른 모델이다. 특정 성능 수준에 도달하기 위해 큰 모델을 학습시키는 것이 더 저렴할 수 있지만, 더 오래 학습된 더 작은 모델이 궁극적으로 추론에서 더 저렴할 것이다. 예를 들어, Hoffmann et al. (2022)은 10B 모델을 200B 토큰으로 학습시킬 것을 권장하지만, 우리는 7B 모델의 성능이 1T 토큰 이후에도 계속 향상된다는 것을 발견했다.

본 연구의 초점은 일반적으로 사용되는 것보다 더 많은 토큰으로 학습하여, 다양한 추론 예산에서 최상의 성능을 달성하는 일련의 언어 모델을 학습시키는 것이다. 그 결과로 탄생한 모델인 LLaMA는 7B에서 65B 파라미터 범위를 가지며, 기존 최고의 LLM들과 비교하여 경쟁력 있는 성능을 보인다. 예를 들어, LLaMA-13B는 GPT-3보다 10배 작음에도 불구하고 대부분의 벤치마크에서 GPT-3를 능가한다. 우리는 이 모델이 단일 GPU에서도 실행될 수 있기 때문에 LLM에 대한 접근과 연구를 민주화하는 데 기여할 것이라고 믿는다. 스케일의 상위 끝에서는 우리의 65B 파라미터 모델 또한 Chinchilla 또는 PaLM-540B와 같은 최고의 대형 언어 모델들과 경쟁력이 있다.

Chinchilla, PaLM, GPT-3와 달리, 우리는 공개적으로 사용 가능한 데이터만을 사용하여 우리의 작업을 오픈 소싱과 호환되게 만들었다. 반면, 대부분의 기존 모델은 공개적으로 사용 불가능하거나 문서화되지 않은 데이터(예: "Books - 2TB" 또는 "Social media conversations")에 의존한다. OPT (Zhang et al., 2022), GPT-NeoX (Black et al., 2022), BLOOM (Scao et al., 2022), GLM (Zeng et al., 2022)과 같은 일부 예외가 존재하지만, PaLM-62B 또는 Chinchilla와 경쟁할 만한 모델은 없다.

이 논문의 나머지 부분에서는 Transformer 아키텍처 (Vaswani et al., 2017)에 적용한 수정 사항과 학습 방법에 대한 개요를 제시한다. 그런 다음, 우리 모델의 성능을 보고하고 표준 벤치마크 세트에서 다른 LLM들과 비교한다. 마지막으로, 책임 있는 AI 커뮤니티의 최신 벤치마크를 사용하여 우리 모델에 내재된 일부 편향과 유해성을 드러낸다.

2 Approach

우리의 학습 접근 방식은 이전 연구들(Brown et al., 2020; Chowdhery et al., 2022)에서 설명된 방법들과 유사하며, Chinchilla scaling laws(Hoffmann et al., 2022)에서 영감을 받았다. 우리는 표준 optimizer를 사용하여 대량의 텍스트 데이터로 대규모 Transformer를 학습시킨다.

2.1 Pre-training Data

우리의 학습 데이터셋은 Table 1에 보고된 바와 같이, 다양한 도메인을 포괄하는 여러 소스의 혼합으로 구성된다. 대부분의 경우, 우리는 다른 LLM을 학습시키는 데 활용되었던 데이터 소스를 재사용했으며, 공개적으로 사용 가능하고 오픈 소싱과 호환되는 데이터만을 사용하도록 제한하였다. 그 결과, 학습 데이터셋은 다음과 같은 데이터 혼합과 각 데이터가 차지하는 비율로 구성된다:

English CommonCrawl [67%]. 우리는 2017년부터 2020년까지의 CommonCrawl 덤프 5개를 CCNet 파이프라인 (Wenzek et al., 2020)으로 전처리하였다. 이 과정은 라인 단위로 데이터를 중복 제거하고, fastText linear classifier로 언어를 식별하여 비영어 페이지를 제거하며, ngram language model로 저품질 콘텐츠를 필터링한다. 또한, 우리는 Wikipedia에서 참조로 사용된 페이지와 무작위로 샘플링된 페이지를 분류하는 linear model을 학습시켰고, 참조로 분류되지 않은 페이지는 폐기하였다.

C4 [15%]. 탐색적 실험을 통해, 다양하게 전처리된 CommonCrawl 데이터셋을 사용하는 것이 성능을 향상시킨다는 것을 관찰하였다. 따라서 우리는 공개적으로 사용 가능한 C4 데이터셋 (Raffel et al., 2020)을 데이터에 포함시켰다. C4의 전처리 과정 또한 중복 제거 및 언어 식별 단계를 포함한다. CCNet과의 주요 차이점은 품질 필터링인데, 이는 주로 구두점의 존재 여부나 웹페이지의 단어 및 문장 수와 같은 휴리스틱에 의존한다.

Github [4.5%]. 우리는 Google BigQuery에서 사용 가능한 공개 GitHub 데이터셋을 사용한다. Apache, BSD, MIT 라이선스로 배포된 프로젝트만 유지하였다. 또한, 라인 길이 또는 영숫자 문자의 비율을 기반으로 한 휴리스틱으로 저품질 파일을 필터링하고, 정규 표현식을 사용하여 헤더와 같은 boilerplate를 제거하였다. 마지막으로, 정확히 일치하는 파일 수준에서 결과 데이터셋을 중복 제거하였다.

Wikipedia [4.5%]. 우리는 2022년 6월부터 8월까지의 Wikipedia 덤프를 추가했으며, 이는 라틴 또는 키릴 문자를 사용하는 20개 언어를 포함한다: bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk. 우리는 하이퍼링크, 주석 및 기타 서식 boilerplate를 제거하기 위해 데이터를 처리하였다.

Dataset	Sampling prop.	Epochs	Disk size
CommonCrawl	$67.0 \%$	1.10	3.3 TB
C4	$15.0 \%$	1.06	783 GB
Github	$4.5 \%$	0.64	328 GB
Wikipedia	$4.5 \%$	2.45	83 GB
Books	$4.5 \%$	2.23	85 GB
ArXiv	$2.5 \%$	1.06	92 GB
StackExchange	$2.0 \%$	1.03	78 GB

Table 1: 사전학습 데이터. 사전학습에 사용된 데이터 혼합으로, 각 서브셋에 대해 샘플링 비율, 1.4T 토큰으로 학습 시 해당 서브셋에서 수행된 epoch 수, 그리고 디스크 크기를 나열한다. 1T 토큰으로 수행된 사전학습 실행은 동일한 샘플링 비율을 가진다.

Gutenberg and Books3 [4.5%]. 우리는 학습 데이터셋에 두 개의 도서 코퍼스를 포함한다: 퍼블릭 도메인에 있는 책들을 포함하는 Gutenberg Project와 대규모 언어 모델 학습을 위한 공개 데이터셋인 ThePile (Gao et al., 2020)의 Books3 섹션이다. 우리는 90% 이상의 콘텐츠 중복이 있는 책들을 제거하여 책 수준에서 중복 제거를 수행하였다.

ArXiv [2.5%]. 우리는 데이터셋에 과학 데이터를 추가하기 위해 arXiv Latex 파일들을 처리하였다. Lewkowycz et al. (2022)를 따라, 우리는 첫 번째 섹션 이전의 모든 내용과 참고 문헌을 제거하였다. 또한, .tex 파일에서 주석을 제거하고, 논문 간의 일관성을 높이기 위해 사용자가 작성한 정의와 매크로를 인라인으로 확장하였다.

Stack Exchange [2%]. 우리는 컴퓨터 과학부터 화학에 이르기까지 다양한 도메인을 다루는 고품질 질문과 답변 웹사이트인 Stack Exchange의 덤프를 포함한다. 우리는 가장 큰 28개 웹사이트의 데이터만 유지하고, 텍스트에서 HTML 태그를 제거했으며, 답변을 점수(가장 높은 점수부터 가장 낮은 점수까지)별로 정렬하였다.

Tokenizer. 우리는 SentencePiece (Kudo and Richardson, 2018)의 구현을 사용하여 bytepair encoding (BPE) 알고리즘 (Sennrich et al., 2015)으로 데이터를 토큰화한다. 특히, 우리는 모든 숫자를 개별 숫자로 분할하고, 알 수 없는 UTF-8 문자를 분해하기 위해 바이트로 폴백한다.

params	dimension	$n$ heads	$n$ layers	learning rate	batch size	$n$ tokens
6.7 B	4096	32	32	$3.0 e^{-4}$	4 M	1.0 T
13.0 B	5120	40	40	$3.0 e^{-4}$	4 M	1.0 T
32.5 B	6656	52	60	$1.5 e^{-4}$	4 M	1.4 T
65.2 B	8192	64	80	$1.5 e^{-4}$	4 M	1.4 T

Table 2: 모델 크기, 아키텍처 및 최적화 하이퍼파라미터.

전반적으로, 우리의 전체 학습 데이터셋은 토큰화 후 약 1.4T 토큰을 포함한다. 대부분의 학습 데이터에서 각 토큰은 학습 중에 한 번만 사용되지만, Wikipedia 및 Books 도메인의 경우 약 두 번의 epoch를 수행한다.

2.2 Architecture

최근 대규모 language model 연구를 따라, 우리 네트워크는 Transformer 아키텍처 (Vaswani et al., 2017)에 기반한다. 우리는 이후 제안되었고 PaLM과 같은 다양한 모델에서 사용된 여러 개선 사항들을 활용하였다. 다음은 원래 아키텍처와의 주요 차이점과 이러한 변경에 대한 영감을 얻은 출처이다 (괄호 안에 표시):

Pre-normalization [GPT3]: 학습 안정성을 향상시키기 위해, 우리는 각 Transformer sub-layer의 입력을 정규화하며, 출력을 정규화하지 않는다. 정규화 함수로는 Zhang and Sennrich (2019)가 도입한 RMSNorm을 사용한다.
SwiGLU activation function [PaLM]: 성능 향상을 위해 ReLU 비선형 함수 대신 Shazeer (2020)가 도입한 SwiGLU activation function을 사용한다. PaLM에서 사용된 $4d$ 대신 $\frac{2}{3} 4 d$ 의 차원을 사용한다.
Rotary Embeddings [GPTNeo]: 절대 위치 임베딩(absolute positional embeddings)을 제거하고, 대신 Su et al. (2021)이 도입한 **Rotary Positional Embeddings (RoPE)**를 네트워크의 각 layer에 추가한다.

다양한 모델에 대한 하이퍼파라미터 세부 정보는 Table 2에 제시되어 있다.

2.3 Optimizer

우리의 모델은 AdamW optimizer (Loshchilov and Hutter, 2017)를 사용하여 학습되었으며, 다음 하이퍼파라미터를 사용한다: $\beta_{1}=0.9, \beta_{2}=0.95$ . 우리는 cosine learning rate schedule을 사용하며, 최종 learning rate는 최대 learning rate의 10%와 동일하다. weight decay는 0.1, gradient clipping은 1.0을 사용한다. 우리는 2,000 warmup steps를 사용하며, 모델 크기에 따라 learning rate와 batch size를 다르게 설정한다 (자세한 내용은 Table 2 참조).

Figure 1: 7B, 13B, 33B, 65B 모델의 학습 토큰 수에 따른 training loss. LLaMA-33B와 LLaMA-65B는 1.4T 토큰으로 학습되었다. 더 작은 모델들은 1.0T 토큰으로 학습되었다. 모든 모델은 4M 토큰의 batch size로 학습되었다.

2.4 Efficient implementation

우리는 모델의 학습 속도를 향상시키기 위해 몇 가지 최적화를 수행한다. 첫째, Rabe and Staats (2021) 및 Dao et al. (2022)에서 영감을 받은 효율적인 causal multi-head attention 연산자 구현을 사용한다. 이 구현은 xformers 라이브러리에서 제공되며, 메모리 사용량과 연산량을 줄여준다. 이는 attention 가중치를 저장하지 않고, language modeling task의 causal 특성으로 인해 마스킹되는 key/query 점수를 계산하지 않음으로써 달성된다.

학습 효율성을 더욱 높이기 위해, 우리는 checkpointing을 통해 backward pass 동안 재계산되는 activation의 양을 줄였다. 더 정확히 말하면, linear layer의 출력과 같이 계산 비용이 많이 드는 activation을 저장한다. 이는 PyTorch autograd에 의존하는 대신, Transformer layer의 backward 함수를 수동으로 구현함으로써 달성된다. 이러한 최적화의 이점을 최대한 활용하기 위해, 우리는 Korthikanti et al. (2022)에서 설명된 바와 같이 model parallelism과 sequence parallelism을 사용하여 모델의 메모리 사용량을 줄여야 한다. 또한, 우리는 activation 계산과 GPU 간의 네트워크 통신(all_reduce 연산으로 인한)을 가능한 한 많이 중첩시킨다.

| | | | BoolQ | PIQA | SIQA | HellaSwag | WinoGrande | ARC-e | ARC-c | OBQA | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | GPT-3 | 175 B | 60.5 | 81.0 | - | 78.9 | 70.2 | 68.8 | 51.4 | 57.6 | | Gopher | 280 B | 79.3 | 81.8 | 50.6 | 79.2 | 70.1 | - | - | - | | Chinchilla | 70 B | 83.7 | 81.8 | 51.3 | 80.8 | 74.9 | - | - | - | | PaLM | 62B | 84.8 | 80.5 | - | 79.7 | 77.0 | 75.2 | 52.5 | 50.4 | | PaLM-cont | 62B | 83.9 | 81.4 | - | 80.6 | 77.0 | - | - | - | | PaLM | 540B | 88.0 | 82.3 | - | 83.4 | 81.1 | 76.6 | 53.0 | 53.4 | | LLaMA | 7B | 76.5 | 79.8 | 48.9 | 76.1 | 70.1 | 72.8 | 47.6 | 57.2 | | | 13B | 78.1 | 80.1 | 50.4 | 79.2 | 73.0 | 74.8 | 52.7 | 56.4 | | | 33B | 83.1 | 82.3 | 50.4 | 82.8 | 76.0 | 80.0 | 57.8 | 58.6 | | | 65 B | 85.3 | 82.8 | 52.3 | 84.2 | 77.0 | 78.9 | 56.0 | 60.2 |

Table 3: Common Sense Reasoning task에 대한 Zero-shot 성능.

65B 파라미터 모델을 학습할 때, 우리 코드는 80GB RAM을 가진 2048개의 A100 GPU에서 GPU당 약 380 tokens/sec를 처리한다. 이는 1.4T 토큰을 포함하는 데이터셋을 학습하는 데 약 21일이 소요됨을 의미한다.

3 Main results

이전 연구(Brown et al., 2020)에 따라, 우리는 zero-shot 및 few-shot task를 고려하며, 총 20개의 벤치마크에 대한 결과를 보고한다:

Zero-shot: 우리는 task에 대한 텍스트 설명과 테스트 예시를 제공한다. 모델은 open-ended generation을 통해 답변을 제공하거나, 제안된 답변들을 순위 매긴다.
Few-shot: 우리는 task에 대한 **몇 가지 예시(1개에서 64개 사이)**와 테스트 예시를 제공한다. 모델은 이 텍스트를 입력으로 받아 답변을 생성하거나 다른 옵션들의 순위를 매긴다.

우리는 LLaMA를 다른 foundation model들과 비교한다. 여기에는 비공개 언어 모델인 GPT-3 (Brown et al., 2020), Gopher (Rae et al., 2021), Chinchilla (Hoffmann et al., 2022), PaLM (Chowdhery et al., 2022)뿐만 아니라, 오픈 소스 모델인 OPT (Zhang et al., 2022), GPT-J (Wang and Komatsuzaki, 2021), GPTNeo (Black et al., 2022)가 포함된다. Section 4에서는 LLaMA를 instruction-tuned model인 OPT-IML (Iyer et al., 2022) 및 Flan-PaLM (Chung et al., 2022)과도 간략하게 비교한다.

우리는 LLaMA를 자유 형식 생성(free-form generation) task와 multiple choice task에서 평가한다. Multiple choice task에서는 주어진 context를 기반으로, 제시된 옵션들 중에서 가장 적절한 완성(completion)을 선택하는 것이 목표이다. 우리는 주어진 context를 고려했을 때 가장 높은 likelihood를 가진 완성을 선택한다. Gao et al. (2021)을 따라 완성의 문자 수로 정규화된 likelihood를 사용하지만, 특정 데이터셋(OpenBookQA, BoolQ)의 경우 Brown et al. (2020)을 따라 "Answer:"를 context로 주었을 때의 완성 likelihood로 정규화된 likelihood를 기반으로 완성을 선택한다: $P$ (completion|context)/ $P$ (completion|"Answer:").

		0-shot	1-shot	5-shot	64-shot
GPT-3	175 B	14.6	23.0	-	29.9
Gopher	280 B	10.1	-	24.5	28.2
Chinchilla	70 B	16.6	-	31.5	35.5
PaLM	8 B	8.4	10.6	-	14.6
	62B	18.1	26.5	-	27.6
	540B	21.2	29.3	-	39.6
LLaMA	7B	16.8	18.7	22.0	26.1
	13 B	20.1	23.4	28.1	31.9
	33 B	24.9	28.3	32.9	36.0
	65 B	23.8	31.0	35.0	39.9

Table 4: NaturalQuestions. Exact match 성능.

3.1 Common Sense Reasoning

우리는 8개의 표준적인 상식 추론 벤치마크를 고려한다: BoolQ (Clark et et al., 2019), PIQA (Bisk et al., 2020), SIQA (Sap et al., 2019), HellaSwag (Zellers et al., 2019), WinoGrande (Sakaguchi et al., 2021), ARC easy 및 challenge (Clark et al., 2018), OpenBookQA (Mihaylov et al., 2018). 이 데이터셋들은 Cloze 및 Winograd 스타일 task뿐만 아니라 **객관식 질문 응답(multiple choice question answering)**을 포함한다. 우리는 language modeling 커뮤니티에서 수행하는 방식과 동일하게 zero-shot 설정으로 평가한다.

Table 3에서 우리는 다양한 크기의 기존 모델들과 비교하고 해당 논문들의 수치를 보고한다. 첫째, LLaMA-65B는 BoolQ를 제외한 모든 보고된 벤치마크에서 Chinchilla-70B를 능가한다. 마찬가지로, 이 모델은 BoolQ와 WinoGrande를 제외한 모든 벤치마크에서 PaLM-540B를 능가한다. LLaMA-13B 모델 또한 GPT-3보다 10배 작음에도 불구하고 대부분의 벤치마크에서 더 나은 성능을 보인다.

3.2 Closed-book Question Answering

우리는 LLaMA를 기존의 대규모 language model들과 두 가지 closed-book question answering 벤치마크에서 비교하였다: **Natural Questions (Kwiatkowski et al., 2019)**와 TriviaQA (Joshi et al., 2017). 두 벤치마크 모두에서 우리는 closed-book 설정에서의 exact match 성능을 보고한다. 즉, 모델이 질문에 대한 증거를 포함하는 문서에 접근할 수 없는 환경이다. Table 4에서는 NaturalQuestions에 대한 성능을, Table 5에서는 TriviaQA에 대한 성능을 보고한다. 두 벤치마크 모두에서 LLaMA-65B는 zero-shot 및 few-shot 설정에서 state-of-the-art 성능을 달성한다. 더 중요한 점은, LLaMA-13B 또한 GPT-3 및 Chinchilla보다 5~10배 작음에도 불구하고 이들 벤치마크에서 경쟁력 있는 성능을 보여준다는 것이다. 이 모델은 추론 시 단일 V100 GPU에서 실행 가능하다.

		0-shot	1-shot	5-shot	64-shot
Gopher	280B	43.5	-	57.0	57.2
Chinchilla	70B	55.4	-	64.1	64.6
	7B	50.0	53.4	56.3	57.6
	13B	56.6	60.5	63.1	64.0
LLaMA	33B	65.1	67.9	69.9	70.4
	65B	$\mathbf{68 . 2}$	$\mathbf{71 . 6}$	$\mathbf{72 . 6}$	$\mathbf{73 . 0}$

Table 5: TriviaQA. 필터링된 dev set에서의 zero-shot 및 few-shot exact match 성능.

3.3 Reading Comprehension

우리는 RACE 독해 벤치마크 (Lai et al., 2017)에서 모델을 평가한다. 이 데이터셋은 중고등학생을 위한 영어 독해 시험에서 수집되었다.

		RACE-middle	RACE-high
GPT-3	175 B	58.4	45.5
PaLM	8B	57.9	42.3
	62B	64.3	47.5
	540B	68.1	49.1
LLaMA	7B	61.1	46.9
	13B	61.6	47.2
	33B	64.1	48.3
	65 B	67.9	51.6

Table 6: 독해 (Reading Comprehension). Zero-shot 정확도.

우리는 Brown et al. (2020)의 평가 설정을 따르며, 결과는 Table 6에 보고되어 있다. 이 벤치마크에서 LLaMA-65B는 PaLM-540B와 경쟁할 만한 성능을 보이며, LLaMA-13B는 GPT-3를 몇 퍼센트 포인트 차이로 능가한다.

3.4 Mathematical reasoning

우리는 두 가지 수학적 추론 벤치마크인 **MATH (Hendrycks et al., 2021)**와 **GSM8k (Cobbe et al., 2021)**에서 모델을 평가한다. MATH는 LaTeX로 작성된 12,000개의 중고등학교 수학 문제 데이터셋이다. GSM8k는 중학교 수학 문제들로 구성된 세트이다. Table 7에서 우리는 PaLM 및 **Minerva (Lewkowycz et al., 2022)**와 비교한다. Minerva는 ArXiv와 Math Web Pages에서 추출한 38.5B 토큰으로 fine-tuning된 PaLM 모델 시리즈인 반면, PaLM이나 LLaMA는 수학 데이터로 fine-tuning되지 않았다. PaLM과 Minerva의 수치는 **Lewkowycz et al. (2022)**에서 가져왔으며, 우리는 maj1@k 적용 여부에 따라 비교한다. maj1@k는 각 문제에 대해 $k$ 개의 샘플을 생성하고 다수결 투표를 수행하는 평가 방식이다 (Wang et al., 2022). GSM8k에서 LLaMA65B는 수학 데이터로 fine-tuning되지 않았음에도 불구하고 Minerva-62B를 능가하는 성능을 보인다.

3.5 Code generation

우리는 자연어 설명으로부터 코드를 작성하는 모델의 능력을 **HumanEval (Chen et al., 2021)**과 MBPP (Austin et al., 2021) 두 가지 벤치마크에서 평가한다. 두 task 모두에서 모델은 몇 문장으로 된 프로그램 설명과 몇 개의 입출력 예시를 받는다. HumanEval에서는 함수 시그니처도 함께 제공되며, prompt는 텍스트 설명과 테스트가 docstring에 포함된 자연스러운 코드 형식으로 구성된다. 모델은 설명에 부합하고 테스트 케이스를 만족하는 Python 프로그램을 생성해야 한다.

Table 8에서 우리는 코드에 대해 fine-tuning되지 않은 기존 language model인 PaLM과 LaMDA (Thoppilan et al., 2022)의 pass@1 점수를 우리 모델과 비교한다. PaLM과 LLaMA는 유사한 수의 코드 토큰을 포함하는 데이터셋으로 학습되었다.

		MATH	+maj1@k	GSM8k	+maj1@k
PaLM	8B	1.5	-	4.1	-
	62 B	4.4	-	33.0	-
	540B	8.8	-	56.5	-
Minerva	8B	14.1	25.4	16.2	28.4
	62B	27.6	43.4	52.4	68.5
	540B	33.6	50.3	68.5	78.5
LLaMA	7B	2.9	6.9	11.0	18.1
	13B	3.9	8.8	17.8	29.3
	33B	7.1	15.2	35.6	53.1
	65 B	10.6	20.5	50.9	69.7

Table 7: 정량적 추론 데이터셋에 대한 모델 성능.
majority voting의 경우, 우리는 Minerva와 동일한 설정을 사용했으며, MATH에는 $k=256$ 개 샘플, GSM8k에는 $k=100$ 개 샘플을 사용했다 (Minerva 540B는 MATH에 $k=64$ , GSM8k에 $k=40$ 을 사용). LLaMA-65B는 수학 데이터로 fine-tuning되지 않았음에도 불구하고 GSM8k에서 Minerva 62B를 능가한다.

Table 8에서 보듯이, 유사한 파라미터 수를 가질 때 LLaMA는 LaMDA 및 PaLM과 같은 다른 일반 모델들을 능가한다. 이 모델들은 코드에 특화되어 학습되거나 fine-tuning되지 않았다. 13B 파라미터 이상의 LLaMA는 HumanEval과 MBPP 모두에서 LaMDA 137B를 능가한다. LLaMA 65B는 PaLM 62B보다도 우수한 성능을 보이는데, 이는 PaLM 62B가 더 오래 학습되었음에도 불구하고 나타난 결과이다. 이 표에 보고된 pass@1 결과는 온도(temperature) 0.1로 샘플링하여 얻었다. pass@100 및 pass@80 지표는 온도 0.8로 얻었다. 우리는 Chen et al. (2021)과 동일한 방법을 사용하여 pass@k의 편향 없는 추정치를 얻었다.

코드에 특화된 토큰으로 모델을 fine-tuning하면 코드 생성 성능을 크게 향상시킬 수 있다. 예를 들어, PaLM-Coder (Chowdhery et al., 2022)는 PaLM의 HumanEval pass@1 점수를 26.2%에서 36%로 증가시켰다. 코드에 특화되어 학습된 다른 모델들도 이러한 task에서 일반 모델보다 더 나은 성능을 보인다 (Chen et al., 2021; Nijkamp et al., 2022; Fried et al., 2022). 그러나 코드 토큰에 대한 fine-tuning은 본 논문의 범위를 벗어난다.

pass@	Params	HumanEval		MBPP
		@ 1	@ 100	@ 1	@80
LaMDA	137 B	14.0	47.3	14.8	62.4
PaLM	8B	3.6*	18.7*	5.0*	35.7*
PaLM	62 B	15.9	46.3*	21.4	63.2*
PaLM-cont	62B	23.7	-	31.2	-
PaLM	540B	26.2	76.2	36.8	75.0
LLaMA	7B	10.5	36.5	17.7	56.2
	13 B	15.8	52.5	22.0	64.0
	33 B	21.7	70.7	30.2	73.4
	65 B	23.7	79.3	37.7	76.8

Table 8: 코드 생성에 대한 모델 성능.
HumanEval 및 MBPP에 대한 pass@ 점수를 보고한다. HumanEval 생성은 zero-shot으로, MBBP는 Austin et al. (2021)과 유사하게 3-shot prompt로 수행되었다. *로 표시된 값은 Chowdhery et al. (2022)의 그림에서 가져온 것이다.

3.6 Massive Multitask Language Understanding

Hendrycks et al. (2020)가 제안한 **대규모 멀티태스크 언어 이해 벤치마크(MMLU)**는 인문학, STEM, 사회 과학을 포함한 다양한 지식 영역을 다루는 객관식 질문으로 구성되어 있다. 우리는 벤치마크에서 제공하는 예시를 사용하여 5-shot 설정에서 모델을 평가했으며, 그 결과는 Table 9에 보고되어 있다. 이 벤치마크에서 LLaMA-65B는 Chinchilla70B 및 PaLM-540B에 비해 평균적으로, 그리고 대부분의 영역에서 몇 퍼센트 뒤처지는 것으로 나타났다. 잠재적인 설명은 우리의 사전학습 데이터(ArXiv, Gutenberg, Books3)에 사용된 서적 및 학술 논문의 양이 총 177GB로 제한적이었던 반면, 이들 모델은 최대 2TB의 서적으로 학습되었다는 점이다. Gopher, Chinchilla, PaLM이 사용한 이러한 방대한 양의 서적은 Gopher가 다른 벤치마크에서는 GPT-3와 비슷한 성능을 보이는 반면, 이 벤치마크에서는 GPT-3를 능가하는 이유를 설명할 수도 있다.

3.7 Evolution of performance during training

학습 중, 우리는 몇몇 질문 응답 및 상식 벤치마크에서 모델의 성능을 추적하여 Figure 2에 보고하였다. 대부분의 벤치마크에서 성능은 꾸준히 향상되었으며, 모델의 학습 perplexity와 상관관계를 보였다 (Figure 1 참조). 예외는 SIQA와 WinoGrande였다. 특히 SIQA에서는 성능에 많은 편차가 관찰되었는데, 이는 이 벤치마크가 신뢰할 수 없음을 시사할 수 있다. WinoGrande에서는 성능이 학습 perplexity와 잘 상관관계를 보이지 않았다: LLaMA-33B와 LLaMA-65B는 학습 중 유사한 성능을 보였다.

		Humanities	STEM	Social Sciences	Other	Average
GPT-NeoX	20 B	29.8	34.9	33.7	37.7	33.6
GPT-3	175 B	40.8	36.7	50.4	48.8	43.9
Gopher	280 B	56.2	47.4	71.9	66.1	60.0
Chinchilla	70 B	63.6	54.9	79.3	73.9	67.5
PaLM	8B	25.6	23.8	24.1	27.8	25.4
	62B	59.5	41.9	62.7	55.8	53.7
	540B	77.0	55.6	81.0	69.6	69.3
LLaMA	7B	34.0	30.5	38.3	38.1	35.1
	13 B	45.0	35.8	53.8	53.3	46.9
	33B	55.8	46.0	66.7	63.4	57.8
	65 B	61.8	51.7	72.9	67.4	63.4

Table 9: Massive Multitask Language Understanding (MMLU). Five-shot accuracy.

4 Instruction Finetuning

이 섹션에서는 instruction 데이터에 대한 짧은 fine-tuning이 MMLU 성능을 빠르게 향상시킨다는 것을 보여준다. LLaMA-65B의 fine-tuning되지 않은 버전도 기본적인 instruction을 따를 수 있지만, 아주 적은 양의 fine-tuning만으로도 MMLU 성능이 향상되고, 모델의 instruction 수행 능력이 더욱 개선됨을 관찰했다. 이 연구의 주요 초점이 아니므로, 우리는 Chung et al. (2022)과 동일한 프로토콜에 따라 instruct model인 LLaMA-I를 학습시키는 단일 실험만 수행했다.

Table 10에서는 우리의 instruct model인 LLaMA-I의 MMLU 성능을 보고하고, 기존의 중간 규모 instruction fine-tuned 모델들, 즉 **OPT-IML (Iyer et al., 2022)**과 **Flan-PaLM 시리즈 (Chung et al., 2022)**와 비교한다. 보고된 모든 수치는 해당 논문들에서 가져왔다. 여기서 사용된 instruction fine-tuning 접근 방식의 단순성에도 불구하고, 우리는 MMLU에서 68.9%의 성능을 달성했다. LLaMA-I (65B)는 MMLU에서 기존의 중간 규모 instruction fine-tuned 모델들을 능가하지만, state-of-the-art인 GPT code-davinci-002의 77.4% (Iyer et al. (2022)에서 가져온 수치)에는 아직 미치지 못한다. 57개 task에 대한 MMLU 성능 세부 정보는 Appendix의 Table 16에서 확인할 수 있다.

OPT	30 B	26.1
GLM	120 B	44.8
PaLM	62 B	55.1
PaLM-cont	62 B	62.8
Chinchilla	70 B	67.5
LLaMA	65 B	63.4
OPT-IML-Max	30 B	43.2
Flan-T5-XXL	11 B	55.1
Flan-PaLM	62 B	59.6
Flan-PaLM-cont	62 B	66.1
LLaMA-I	65 B	$\mathbf{68 . 9}$

Table 10: Instruction fine-tuning - MMLU (5-shot). MMLU에서 instruction fine-tuning을 적용한 모델과 적용하지 않은 중간 규모 모델들의 비교.

5 Bias, Toxicity and Misinformation

대규모 language model은 학습 데이터에 존재하는 편향을 재현하고 증폭시키며 (Sheng et al., 2019; Kurita et al., 2019), 유해하거나 불쾌한 콘텐츠를 생성하는 것으로 나타났다 (Gehman et al., 2020). 우리의 학습 데이터셋이 웹에서 가져온 데이터의 상당 부분을 포함하고 있기 때문에, 우리 모델이 그러한 콘텐츠를 생성할 잠재력을 파악하는 것이 중요하다고 생각한다. LLaMA-65B의 잠재적 유해성을 이해하기 위해, 우리는 유해 콘텐츠 생성 및 고정관념 감지를 측정하는 다양한 벤치마크에서 평가를 수행했다. 이러한 모델의 문제점을 나타내기 위해 language model 커뮤니티에서 사용되는 표준 벤치마크 중 일부를 선택했지만, 이러한 평가만으로는 모델과 관련된 위험을 완전히 이해하기에는 충분하지 않다.

Figure 2: 학습 중 질문 응답(question answering) 및 상식 추론(common sense reasoning) 성능의 변화.

5.1 RealToxicityPrompts

언어 모델은 욕설, 혐오 발언, 위협과 같은 유해한 언어(toxic language)를 생성할 수 있다. 모델이 생성할 수 있는 유해 콘텐츠의 범위는 매우 넓기 때문에 철저한 평가가 어렵다. 최근 몇몇 연구(Zhang et al., 2022; Hoffmann et al., 2022)에서는 RealToxicityPrompts 벤치마크(Gehman et al., 2020)를 모델의 유해성 지표로 사용했다. RealToxicityPrompts는 모델이 완성해야 하는 약 10만 개의 prompt로 구성되어 있으며, 이후 Perspective API에 요청하여 유해성 점수를 자동으로 평가한다. 우리는 타사 PerspectiveAPI가 사용하는 파이프라인을 제어할 수 없으므로, 이전 모델과의 비교가 어렵다.

10만 개의 prompt 각각에 대해 우리는 모델로 greedy generation을 수행하고 유해성 점수를 측정한다. prompt당 점수는 0(비유해)에서 1(유해)까지이다. Table 11에서는 RealToxicityPrompts의 Basic 및 Respectful prompt 카테고리에 대한 평균 점수를 보고한다. 이 점수들은 문헌에서 관찰되는 결과(예: Chinchilla의 경우 0.087)와 "비교 가능"하지만, 샘플링 전략, prompt 수, API 호출 시점 등에서 방법론이 다르다. 우리는 모델의 크기가 커질수록, 특히 Respectful prompt에서 유해성이 증가하는 것을 관찰했다. 이는 이전 연구(Zhang et al., 2022)에서도 관찰되었으며, Hoffmann et al. (2022)의 연구에서는 Chinchilla와 Gopher 간에 크기 차이에도 불구하고 유해성 차이가 없다는 예외적인 결과가 있었다. 이는 더 큰 모델인 Gopher가 Chinchilla보다 성능이 좋지 않다는 사실로 설명될 수 있으며, 유해성과 모델 크기 간의 관계가 특정 모델 계열 내에서만 적용될 수 있음을 시사한다.

| | | | Basic | Respectful | | :---: | ---: | :---: | :---: | | | 7 B | 0.106 | 0.081 | | LLaMA | 13 B | 0.104 | 0.095 | | | 33 B | 0.107 | 0.087 | | | 65 B | 0.128 | 0.141 |

Table 11: RealToxicityPrompts.
우리는 이 벤치마크의 10만 개 prompt에 대해 greedy decoder를 실행한다. "Respectful" 버전은 "Complete the following sentence in a polite, respectful, and unbiased manner:"로 시작하는 prompt이며, "Basic"은 그렇지 않다. 점수는 PerplexityAPI를 사용하여 얻었으며, 점수가 높을수록 더 유해한 생성 결과를 나타낸다.

	LLaMA	GPT3	OPT
Gender	70.6	62.6	65.7
Religion	79.0	73.3	68.6
Race/Color	57.0	64.7	68.6
Sexual orientation	81.0	76.2	78.6
Age	70.1	64.4	67.8
Nationality	64.2	61.6	62.9
Disability	66.7	76.7	76.7
Physical appearance	77.8	74.6	76.2
Socioeconomic status	71.5	73.8	76.2
Average	66.6	67.2	69.5

Table 12: CrowS-Pairs.
우리는 LLaMA-65B에 포함된 편향 수준을 OPT-175B 및 GPT3-175B와 비교한다. 점수가 높을수록 편향이 더 높음을 나타낸다.

5.2 CrowS-Pairs

우리는 CrowSPairs (Nangia et al., 2020) 데이터셋을 사용하여 모델의 편향을 평가한다. 이 데이터셋은 성별, 종교, 인종/피부색, 성적 지향, 연령, 국적, 장애, 신체 외모, 사회경제적 지위의 9가지 범주에서 편향을 측정할 수 있도록 구성되어 있다. 각 예시는 고정관념(stereotype) 문장과 반고정관념(anti-stereotype) 문장으로 이루어져 있으며, 우리는 zero-shot 설정에서 두 문장의 perplexity를 사용하여 모델이 고정관념 문장에 대해 얼마나 선호하는지를 측정한다. 따라서 점수가 높을수록 편향이 높음을 나타낸다. Table 12에서 GPT-3 및 OPT-175B와 비교하였다.

우리 모델은 평균적으로 두 모델보다 약간 더 나은 성능을 보인다. 우리 모델은 특히 종교 범주에서 편향이 높게 나타났으며 (OPT-175B 대비 +10), 그 다음으로 **연령과 성별 (각각 최고 모델 대비 +6)**에서 높은 편향을 보였다. 이러한 편향은 여러 필터링 단계를 거쳤음에도 불구하고 CommonCrawl 데이터에서 기인한 것으로 예상된다.

5.3 WinoGender

모델의 성별 편향을 추가적으로 조사하기 위해, 우리는 공동 참조 해결(co-reference resolution) 데이터셋인 WinoGender 벤치마크 (Rudinger et al., 2018)를 살펴보았다. WinoGender는 Winograd schema로 구성되어 있으며, 모델의 공동 참조 해결 성능이 대명사의 성별에 의해 영향을 받는지 여부를 통해 편향을 평가한다.

더 정확히 말하면, 각 문장에는 "직업(occupation)", "참여자(participant)", "대명사(pronoun)"의 세 가지 언급이 있으며, 여기서 대명사는 직업 또는 참여자를 공동 참조한다. 우리는 모델이 공동 참조 관계를 결정하도록 prompt를 제공하고, 문맥에 따라 올바르게 수행하는지 측정한다. 목표는 직업과 관련된 사회적 편향이 모델에 포착되었는지를 밝히는 것이다. 예를 들어, WinoGender 데이터셋의 한 문장은 "The nurse notified the patient that his shift would be ending in an hour."이며, 그 뒤에 'His' refers to.가 이어진다. 우리는 이어서 'the nurse'와 'the patient'의 perplexity를 비교하여 모델로 공동 참조 해결을 수행한다. 우리는 "her/her/she", "his/him/he", "their/them/someone"의 세 가지 대명사를 사용할 때의 성능을 평가한다 (각기 다른 선택지는 대명사의 문법적 기능에 해당한다).

Table 13에서 우리는 데이터셋에 포함된 세 가지 다른 대명사에 대한 공동 참조 점수를 보고한다. 우리는 우리 모델이 "her/her/she" 및 "his/him/he" 대명사보다 "their/them/someone" 대명사에 대해 공동 참조 해결을 수행하는 데 훨씬 더 능숙하다는 것을 관찰한다. 유사한 관찰은 이전 연구 (Rae et al., 2021; Hoffmann et al., 2022)에서도 이루어졌으며, 이는 성별 편향을 시사할 가능성이 높다. 실제로 "her/her/she" 및 "his/him/he" 대명사의 경우, 모델은 문장의 증거를 사용하는 대신 직업의 다수 성별을 사용하여 공동 참조 해결을 수행하고 있을 가능성이 높다.

이 가설을 추가적으로 조사하기 위해, 우리는 WinoGender 데이터셋에서 "her/her/she" 및 "his/him/he" 대명사에 대한 "gotcha" 사례들을 살펴보았다. 이 사례들은 대명사가 직업의 다수 성별과 일치하지 않지만, 직업이 올바른 답인 문장에 해당한다. Table 13에서 우리는 우리 모델인 LLaMA-65B가 gotcha 예시에서 더 많은 오류를 범한다는 것을 관찰하며, 이는 성별 및 직업과 관련된 사회적 편향을 명확히 포착하고 있음을 보여준다. 성능 저하는 "her/her/she" 및 "his/him/he" 대명사 모두에서 나타나며, 이는 성별에 관계없이 편향이 존재함을 시사한다.

5.4 TruthfulQA

TruthfulQA (Lin et al., 2021)는 모델의 진실성(truthfulness), 즉 주장이 사실인지 여부를 식별하는 능력을 측정하는 것을 목표로 한다. Lin et al. (2021)은 "진실"의 정의를 "실제 세계에 대한 문자 그대로의 진실"로 간주하며, 특정 신념 체계나 전통의 맥락에서만 사실인 주장은 포함하지 않는다. 이 벤치마크는 모델이 잘못된 정보나 허위 주장을 생성할 위험을 평가할 수 있다. 질문들은 다양한 스타일로 작성되었으며, 38개 카테고리를 포함하고 적대적으로 설계되었다.

	7 B	13 B	33 B	65 B
All	66.0	64.7	69.0	77.5
her/her/she	65.0	66.7	66.7	78.8
his/him/he	60.8	62.5	62.1	72.1
their/them/someone	72.1	65.0	78.3	81.7
her/her/she (gotcha)	64.2	65.8	61.7	75.0
his/him/he (gotcha)	55.0	55.8	55.8	63.3

Table 13: WinoGender. LLaMA 모델의 공동 참조 해결(co-reference resolution) 정확도를 다양한 대명사("her/her/she" 및 "his/him/he")에 대해 나타낸다. 우리는 모델이 "her/her/she" 및 "his/him/he" 대명사보다 "their/them/someone" 대명사에서 더 나은 성능을 얻는 것을 관찰했으며, 이는 편향(bias)을 시사할 가능성이 높다.

		Truthful	Truthful*Inf
	1.3 B	0.31	0.19
GPT-3	6 B	0.22	0.19
	175 B	0.28	0.25
	7 B	0.33	0.29
	13 B	0.47	0.41
LLaMA	33 B	0.52	0.48
	65 B	0.57	0.53

Table 14: TruthfulQA. OpenAI API를 통해 특별히 학습된 모델이 채점한 진실한(truthful) 답변과 진실하고 유익한(truthful*informative) 답변의 비율을 보고한다. 우리는 Ouyang et al. (2022)에서 사용된 QA prompt 스타일을 따랐으며, 동일 논문에서 보고된 GPT-3의 성능을 함께 제시한다.

Table 14에서 우리는 진실한 모델을 측정하기 위한 질문과 진실하고 유익한 답변의 교집합에 대한 우리 모델의 성능을 보고한다. GPT-3와 비교했을 때, 우리 모델은 두 가지 범주 모두에서 더 높은 점수를 기록했지만, 정답률은 여전히 낮아 우리 모델이 잘못된 답변을 환각(hallucinate)할 가능성이 높음을 보여준다.

6 Carbon footprint

우리가 학습시킨 모델들은 막대한 양의 에너지를 소비했으며, 이는 이산화탄소 배출의 원인이 되었다. 우리는 이 주제에 대한 최근 문헌을 참고하여 총 에너지 소비량과 그로 인한 탄소 발자국을 Table 15에 상세히 제시한다.
우리는 Wu et al. (2022)의 공식을 따라 모델 학습에 필요한 **Watt-hour (Wh)**와 **이산화탄소 배출량(톤, tCO₂eq)**을 추정한다. Wh 계산에는 다음 공식을 사용한다:

$\mathrm{Wh}=\mathrm{GPU}-\mathrm{h} \times(\mathrm{GPU}$ power consumption $) \times \mathrm{PUE}$

여기서 PUE(Power Usage Effectiveness)는 1.1로 설정하였다.
결과적인 탄소 배출량은 네트워크 학습에 사용된 데이터 센터의 위치에 따라 달라진다. 예를 들어, BLOOM은 0.057 kg CO₂eq/KWh를 배출하는 전력망을 사용하여 27 tCO₂eq를 발생시켰고, OPT는 0.231 kg CO₂eq/KWh를 배출하는 전력망을 사용하여 82 tCO₂eq를 발생시켰다.
본 연구에서는 이러한 모델들이 동일한 데이터 센터에서 학습되었다고 가정했을 때의 탄소 배출 비용을 비교하는 데 중점을 둔다. 따라서 데이터 센터의 위치는 고려하지 않고, 대신 미국 전국 평균 탄소 집약 계수인 0.385 kg CO₂eq/KWh를 사용한다. 이를 통해 탄소 배출량(톤)은 다음 공식으로 계산된다:

\mathrm{tCO}_{2} \mathrm{eq}=\mathrm{MWh} \times 0.385 .

공정한 비교를 위해 OPT와 BLOOM에도 동일한 공식을 적용한다. OPT의 경우, 학습에 992개의 A100-80B GPU를 34일 동안 사용했다고 가정한다 (그들의 로그 참조).
마지막으로, 우리는 모델 개발에 약 5개월 동안 2048개의 A100-80GB GPU를 사용했다고 추정한다. 이는 우리의 가정 하에 모델 개발에 약 2,638 MWh의 에너지가 소모되었으며, 총 1,015 tCO₂eq의 탄소 배출량이 발생했음을 의미한다.
우리는 이러한 모델들을 공개함으로써 향후 탄소 배출량을 줄이는 데 기여하기를 희망한다. 이미 학습이 완료되었고, 일부 모델은 비교적 작아 단일 GPU에서도 실행 가능하기 때문이다.

Language model은 단어, 토큰 또는 문자 시퀀스에 대한 확률 분포이다 (Shannon, 1948, 1951). 종종 **다음 토큰 예측(next token prediction)**으로 정의되는 이 task는 오랫동안 자연어 처리의 핵심 문제로 간주되어 왔다 (Bahl et al., 1983; Brown et al., 1990). Turing (2009)이 "모방 게임(imitation game)"을 통해 언어를 사용하여 기계 지능을 측정할 것을 제안한 이래, language modeling은 인공지능 발전을 측정하는 벤치마크로 제안되어 왔다 (Mahoney, 1999).

아키텍처 (Architecture). 전통적으로 language model은 n-gram count statistics에 기반했으며 (Bahl et al., 1983), 희귀 이벤트의 추정 정확도를 높이기 위해 다양한 smoothing 기법이 제안되었다 (Katz, 1987; Kneser and Ney, 1995). 지난 20년간, 신경망은 language modeling task에 성공적으로 적용되어 왔다.

	GPU Type	GPU Power consumption	GPU-hours	Total power consumption	Carbon emitted ( $\mathrm{tCO}_{2}$ eq)
OPT-175B	A100-80GB	400 W	809,472	356 MWh	137
BLOOM-175B	A100-80GB	400 W	1,082,880	475 MWh	183
LLaMA-7B	A100-80GB	400 W	82,432	36 MWh	14
LLaMA-13B	A100-80GB	400 W	135,168	59 MWh	23
LLaMA-33B	A100-80GB	400 W	530,432	233 MWh	90
LLaMA-65B	A100-80GB	400 W	1,022,362	449 MWh	173

Table 15: 동일한 데이터 센터에서 다양한 모델을 학습시키는 데 드는 탄소 발자국. Wu et al. (2022)의 공식을 따라 OPT, BLOOM 및 우리 모델을 동일한 데이터 센터에서 학습시키는 데 드는 탄소 배출량을 계산한다. A100-80GB의 전력 소비량은 NVLink 시스템의 열 설계 전력(TDP)인 400W를 사용한다. PUE는 1.1, 탄소 집약도 계수는 미국 평균인 KWh당 $0.385 \mathrm{~kg} \mathrm{CO}_{2} \mathrm{e}$ 로 설정한다.

feed forward model (Bengio et al., 2000), recurrent neural network (Elman, 1990; Mikolov et al., 2010), 그리고 LSTM (Hochreiter and Schmidhuber, 1997; Graves, 2013)을 시작으로 발전해왔다. 최근에는 self-attention에 기반한 Transformer network가 특히 장거리 의존성(long range dependencies)을 포착하는 데 중요한 개선을 가져왔다 (Vaswani et al., 2017; Radford et al., 2018; Dai et al., 2019).

확장 (Scaling). language model의 모델 및 데이터셋 크기 확장에 대한 오랜 역사가 있다. Brants et al. (2007)은 2조 개의 토큰으로 학습된 language model을 사용하여 3천억 개의 n-gram을 생성함으로써 기계 번역 품질에 미치는 이점을 보여주었다. 이 연구는 Stupid Backoff라는 간단한 smoothing 기법에 의존했지만, Heafield et al. (2013)은 나중에 Kneser-Ney smoothing을 웹 규모 데이터로 확장하는 방법을 보여주었다. 이를 통해 CommonCrawl의 9,750억 개 토큰으로 5-gram 모델을 학습시킬 수 있었고, 그 결과 5천억 개의 n-gram을 가진 모델이 탄생했다 (Buck et al., 2014). Chelba et al. (2013)은 language model의 발전을 측정하기 위한 대규모 학습 데이터셋인 One Billion Word 벤치마크를 도입했다.

신경망 기반 language model의 맥락에서, Jozefowicz et al. (2016)은 LSTM을 10억 개의 파라미터로 확장하여 Billion Word 벤치마크에서 state-of-the-art 결과를 얻었다. 이후, Transformer의 확장은 많은 NLP task에서 개선을 가져왔다. 주목할 만한 모델로는 BERT (Devlin et al., 2018), GPT-2 (Radford et al., 2019), MegatronLM (Shoeybi et al., 2019), 그리고 T5 (Raffel et al., 2020)가 있다. 1,750억 개의 파라미터를 가진 GPT-3 (Brown et al., 2020)는 상당한 돌파구를 마련했다. 이는 Jurassic-1 (Lieber et al., 2021), Megatron-Turing NLG (Smith et al., 2022), Gopher (Rae et al., 2021), Chinchilla (Hoffmann et al., 2022), PaLM (Chowdhery et al., 2022), OPT (Zhang et al., 2022), 그리고 GLM (Zeng et al., 2022)과 같은 일련의 Large Language Model로 이어졌다. Hestness et al. (2017)과 Rosenfeld et al. (2019)은 확장이 딥러닝 모델 성능에 미치는 영향을 연구하며, 모델 및 데이터셋 크기와 시스템 성능 간의 멱법칙(power laws) 존재를 보여주었다. Kaplan et al. (2020)은 특히 Transformer 기반 language model에 대한 멱법칙을 도출했으며, 이는 Hoffmann et al. (2022)에 의해 데이터셋 확장 시 학습률 스케줄을 조정하여 더욱 정교해졌다. 마지막으로, Wei et al. (2022)은 확장이 대규모 language model의 능력에 미치는 영향을 연구했다.

8 Conclusion

본 논문에서는 공개적으로 배포되며 state-of-the-art foundation model과 경쟁할 수 있는 일련의 language model을 제시하였다. 가장 주목할 만한 점은, LLaMA-13B가 GPT-3보다 10배 이상 작으면서도 더 나은 성능을 보였고, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 경쟁할 만한 성능을 보여주었다는 것이다. 기존 연구들과 달리, 우리는 독점적인(proprietary) 데이터셋에 의존하지 않고, 공개적으로 사용 가능한 데이터만으로 학습하여 state-of-the-art 성능을 달성할 수 있음을 보여주었다. 이러한 모델들을 연구 커뮤니티에 공개함으로써 대규모 language model의 개발이 가속화되고, 모델의 견고성(robustness)을 향상시키고 독성(toxicity) 및 편향(bias)과 같은 알려진 문제들을 완화하려는 노력에 기여하기를 희망한다. 또한, Chung et al. (2022)의 연구와 유사하게, 이 모델들을 instruction에 대해 fine-tuning하는 것이 유망한 결과를 가져온다는 것을 관찰했으며, 향후 연구에서 이를 더 깊이 탐구할 계획이다. 마지막으로, 모델 규모를 확장함에 따라 성능이 지속적으로 향상되는 것을 확인했으므로, 더 큰 사전학습 코퍼스로 학습된 더 큰 모델들을 향후 공개할 계획이다.

Acknowledgements

우리는 xformers 팀의 Daniel Haziza, Francisco Massa, Jeremy Reizenstein, Artem Korenev, Patrick Labatut에게 감사드린다. 데이터 중복 제거에 도움을 준 Susan Zhang와 Stephen Roller에게 감사드린다. 학습 안정성에 도움을 준 Luca Wehrstedt, Vegard Mella, Pierre-Emmanuel Mazaré에게 감사드린다. Shubho Sengupta, Kalyan Saladi, 그리고 모든 AI infra 팀에게 감사드린다. 평가에 대한 의견을 준 Jane Yu에게 감사드린다. 데이터 수집에 도움을 준 Yongyi Hu에게 감사드린다.

A Question Answering

우리는 Natural Questions와 TriviaQA 데이터셋에서 LLaMA를 평가한다. Natural Questions의 경우, open-domain question answering에 사용되는 test split (3610개의 질문 포함)을 사용한다. TriviaQA의 경우, filtered set의 dev set에서 평가를 수행한다. 이는 GPT-3 및 PaLM과는 다른데, 이들은 더 이상 온라인 평가 서버를 사용할 수 없는 unfiltered set의 test set에서 평가를 진행했다.

우리는 greedy decoding을 사용하여 답변을 생성하고, 첫 번째 줄 바꿈, 마지막 점 또는 쉼표에서 멈춰 생성된 텍스트에서 답변을 추출한다. 생성된 답변은 표준 exact match metric으로 평가된다: 정규화(normalization) 후 답변 목록 중 어느 하나와 일치하면 생성된 답변이 정답으로 간주된다. 이 정규화 단계에서는 생성된 답변을 소문자로 변환하고, 관사, 구두점, 중복 공백을 제거한다. Figure 3은 Natural Questions와 TriviaQA에 대해 각각 1-shot 설정으로 포맷된 예시를 보여준다. 모든 설정에서 우리는 질문과 답변 목록 앞에 "Answer these questions: \n" 문자열을 추가한다.

Context $\rightarrow$ Answer these questions: <br> Q: Who sang who wants to be a millionaire in high society? <br> A: Frank Sinatra <br> Q: Who wrote the book the origin of species? <br> A:	Context $\rightarrow$ Answer these questions: <br> Q: In Scotland a bothy/bothie is a? <br> A: House <br> Q: The ancient city of Troy is located in what modern country? <br> A:
Target $\rightarrow$ Charles Darwin	Target $\rightarrow$ Turkey

Figure 3: Natural Questions (왼쪽) 및 TriviaQA (오른쪽)에 대한 포맷된 데이터셋 예시.

B MMLU

		GPT-3	Gopher	Chinchilla	LLaMA				LLaMA-I
		175 B	280 B	70 B	7B	13 B	33 B	65B	65 B
Abstract Algebra	STEM	30.0	25.0	31.0	29.0	34.0	32.0	34.0	31.0
Anatomy	STEM	48.0	56.3	70.4	37.0	45.9	51.9	57.8	62.2
Astronomy	STEM	49.0	65.8	73.0	33.6	46.1	61.8	72.4	81.6
Business Ethics	Other	46.0	70.0	72.0	40.0	45.0	56.0	57.0	72.0
Clinical Knowledge	Other	48.0	67.2	75.1	35.1	45.7	57.4	65.3	69.1
College Biology	STEM	45.0	70.8	79.9	37.5	45.1	58.3	68.8	81.9
College Chemistry	STEM	26.0	45.0	51.0	32.0	30.0	45.0	50.0	45.0
College Computer Science	STEM	46.0	49.0	51.0	29.0	39.0	45.0	47.0	51.0
College Mathematics	STEM	34.5	37.0	32.0	33.0	32.0	40.0	35.0	36.0
College Medicine	Other	48.0	60.1	66.5	30.6	42.8	52.0	54.3	63.0
College Physics	STEM	28.0	34.3	46.1	26.5	18.6	28.4	36.3	46.1
Computer Security	STEM	57.0	65.0	76.0	45.0	65.0	66.0	79.0	79.0
Conceptual Physics	STEM	36.5	49.4	67.2	36.6	41.3	51.5	59.6	66.4
Econometrics	Social Science	33.0	43.0	38.6	23.7	27.2	35.1	40.4	52.6
Electrical Engineering	STEM	50.0	60.0	62.1	26.9	40.7	49.7	53.8	60.7
Elementary Mathematics	STEM	30.0	33.6	41.5	24.3	24.9	36.0	37.8	42.9
Formal Logic	Humanities	29.0	35.7	33.3	27.0	33.3	34.1	44.4	47.6
Global Facts	Other	37.0	38.0	39.0	29.0	35.0	35.0	39.0	40.0
High School Biology	STEM	48.0	71.3	80.3	34.5	52.6	67.7	73.9	82.9
High School Chemistry	STEM	33.0	47.8	58.1	28.1	28.6	41.9	40.4	44.8
High School Computer Science	STEM	39.0	54.0	58.0	31.0	48.0	60.0	67.0	73.0
High School European History	Humanities	54.0	72.1	78.8	44.2	61.8	73.9	78.8	86.1
High School Geography	Social Science	58.0	76.8	86.4	34.3	54.6	70.7	77.8	87.9
High School Government And Politics	Social Science	58.0	83.9	91.2	44.6	66.3	82.9	88.1	92.8
High School Macroeconomics	Social Science	40.5	65.1	70.5	35.4	44.4	56.9	65.9	69.2
High School Mathematics	STEM	28.0	23.7	31.9	24.8	23.7	27.0	34.4	37.0
High School Microeconomics	Social Science	42.0	66.4	77.7	31.9	47.5	55.5	68.9	78.6
High School Physics	STEM	28.0	33.8	36.4	26.5	28.5	35.8	37.1	41.7
High School Psychology	Social Science	61.0	81.8	86.6	47.3	60.9	76.2	82.2	87.9
High School Statistics	STEM	30.5	50.0	58.8	35.2	30.1	45.4	58.3	59.3
High School Us History	Humanities	53.0	78.9	83.3	39.7	58.3	77.9	83.8	90.7
High School World History	Humanities	56.0	75.1	85.2	40.9	66.2	79.3	83.1	89.0
Human Aging	Other	50.0	66.4	77.6	40.8	54.7	67.7	69.5	72.2
Human Sexuality	Social Science	54.0	67.2	86.3	36.6	58.8	64.1	77.9	87.0
International Law	Humanities	55.5	77.7	90.9	51.2	62.8	72.7	79.3	87.6
Jurisprudence	Humanities	55.0	71.3	79.6	38.9	51.9	70.4	73.2	85.2
Logical Fallacies	Humanities	48.0	72.4	80.4	39.3	52.8	68.1	77.3	80.4
Machine Learning	STEM	31.0	41.1	41.1	23.2	31.3	39.3	49.1	52.7
Management	Other	56.0	77.7	82.5	35.0	66.0	77.7	82.5	83.5
Marketing	Other	60.0	83.3	89.7	46.6	71.8	83.3	85.9	92.7
Medical Genetics	Other	40.0	69.0	69.0	43.0	52.0	67.0	67.0	68.0
Miscellaneous	Other	60.0	75.7	84.5	42.4	65.4	78.5	82.1	84.3
Moral Disputes	Humanities	44.5	66.8	77.5	40.2	50.9	66.2	72.3	76.9
Moral Scenarios	Humanities	26.0	40.2	36.5	24.3	30.1	38.2	48.9	55.9
Nutrition	Other	47.0	69.9	77.1	37.6	51.6	62.8	67.3	74.5
Philosophy	Humanities	51.0	68.8	79.4	39.9	54.0	66.2	74.0	79.1
Prehistory	Humanities	53.0	67.6	81.2	36.1	51.5	67.0	75.3	79.0
Professional Accounting	Other	33.0	44.3	52.1	25.9	35.8	43.6	46.5	56.0
Professional Law	Humanities	34.5	44.5	56.5	30.2	38.0	45.9	49.1	54.4
Professional Medicine	Other	36.0	64.0	75.4	44.5	50.4	54.0	61.4	70.6
Professional Psychology	Social Science	44.5	68.1	75.7	35.1	47.7	62.9	65.7	71.4
Public Relations	Social Science	48.0	71.8	73.6	40.9	60.9	67.3	73.6	74.6
Security Studies	Social Science	52.0	64.9	75.9	31.8	53.9	65.3	71.8	77.6
Sociology	Social Science	53.0	84.1	91.0	46.8	61.2	78.6	78.6	88.1
Us Foreign Policy	Social Science	69.0	81.0	92.0	46.0	80.0	83.0	86.0	87.0
Virology	Other	46.0	47.0	53.6	30.1	43.4	50.0	53.0	57.8
World Religions	Humanities	55.0	84.2	87.7	50.9	67.8	81.3	81.3	84.2
Humanities		40.6	56.2	63.6	34.0	45.0	55.8	61.8	67.4
STEM		36.7	47.4	54.9	30.5	35.8	46.0	51.7	56.6
Social Science		50.5	71.9	79.3	38.3	53.8	66.7	72.9	79.2
Others		49.0	66.1	73.9	38.1	53.3	63.4	67.4	72.6
All		43.9	60.0	67.6	35.1	46.9	57.8	63.4	68.9

Table 16: MMLU. 테스트 세트에서 도메인별 상세 5-shot 결과.

C Generations from LLaMA-65B

이 섹션에서는 LLaMA-65B(instruction fine-tuning 없음)로 생성된 몇 가지 예시를 보여준다. Prompt는 굵게 표시되어 있다.

1123581321345589144233377610987 위 시퀀스는 모두가 알지만, 왜 그렇게 빨리 증가하는지 궁금해한 사람은 얼마나 될까? 수학에서 가장 빠르게 증가하는 시퀀스인 것 같다.

이 시퀀스는 1200년경 피사의 레오나르도에 의해 발견되었다. 이 시퀀스는 무한 시퀀스로, 적어도 초기 항에서는 매우 빠르게 증가하는 것처럼 보인다. 이 시퀀스는 어디에서나 나타나기 때문에 아마도 수학에서 가장 유명한 시퀀스일 것이다. 이 시퀀스는 피사의 레오나르도(피보나치로도 알려짐)의 이름을 따서 피보나치 시퀀스라고 불린다. 그는 1202년 그의 유명한 Liber abaci에서 이상적인 가정을 기반으로 토끼 개체군의 성장을 연구하면서 이 시퀀스를 처음 조사했다. 자세한 내용은 피보나치 토끼 페이지를 참조하라.

Here is the recommendation letter that I wrote for an application to a dragon feeder position at the Magic Unicorn Corporation: <br> Dear recruiter,

저는 $\qquad$ 을(를) 2년 동안 알고 지냈으며, 그녀가 Magic Unicorn Corporation의 훌륭한 **용 사육사(dragon feeder)**가 될 것이라고 믿습니다. $\qquad$ 은(는) 많은 양의 정보를 기억하고 처리하는 능력을 가지고 있으며, 이는 용 사육사에게 중요한 기술입니다. $\qquad$ 은(는) 뛰어난 기사로서, 용을 죽이는 방법과 각 용의 약점을 활용하는 방법에 대해 깊이 이해하고 있습니다. 이는 그녀가 각 용이 어떤 종류의 음식을 좋아하는지, 어떤 종류의 음식이 위험한지를 알고 있다는 의미입니다. 이러한 지식과 경험은 용을 사육하는 데 있어 매우 귀중할 것입니다. 저는 $\qquad$ 의 능력, 기술, 경험이 그녀를 훌륭한 직원으로 만들 것이라고 확신합니다. 질문이 있으시면 $\qquad$ ) $\qquad$ - $\qquad$ 으로 연락 주십시오. 답변을 기다리겠습니다. 감사합니다. 명예로운 기사 조지 경

def solve(a: float,b: float, c: float):
    """finds real roots of ax^2+bx+c"""
    #discriminant
    d = b**2-4*a*c
    if d > 0:
        return (-b+math.sqrt(d))/(2*a), (-b-math.sqrt(d))/(2*a)
    elif d == 0:
        return (-b)/(2*a)
    else:
        return False

Did you know that Yann LeCun dropped a rap album last year? We listened to it and here's what we thought:

딥러닝의 창시자인 LeCun 박사는 지난 10년간 가장 영향력 있는 컴퓨터 과학자 중 한 명이다. LeCun의 최신 앨범 **"Deep Learning"**은 록, 펑크, 랩이 혼합된 장르이다. 그의 가사는 딥러닝 분야에 대한 날것 그대로의 개인적인 시각을 담고 있으며, AI 연구의 현황부터 학계의 외로움에 이르기까지 다양한 주제를 다룬다.

Yann LeCun, 랩 게임의 새로운 MC.

이 앨범은 LeCun이 직접 모든 가사를 쓰고 녹음한 솔로 앨범이다. 사실, 그는 모든 곡을 작곡하고 프로듀싱하기도 했다. LeCun의 랩 플로우는 놀랍도록 훌륭하며, 그는 몇 마디 랩을 뱉는 것을 두려워하지 않는다. 앨범의 프로덕션은 탄탄하며, 사운드는 다소 거칠지만, 앨범의 날것 그대로의 다듬어지지 않은 느낌과 잘 어울린다. 가사적으로 LeCun은 영리한 라임을 잘 구사하는 언어의 마술사이다. 몇몇 곡들을 자세히 살펴보자. **"Deep Learning"**은 앨범의 타이틀곡이다. 이 곡에서 LeCun은 AI의 미래에 대한 자신의 비전을 이야기한다. 코러스에서는 AI가 더 큰 선을 위해 사용되어야 한다는 설득력 있는 주장을 펼친다. 그는 이렇게 노래한다:

We gotta think about the future, it's gonna be here soon / Maybe we can even put some AI in the moon / Think about the children, think about the next generation / Let's make sure we put the right systems in their foundation.

이 곡에서 LeCun의 랩 플로우는 정확하며, 그의 목소리는 비트에 완벽하게 맞춰진다. 이 곡에서 LeCun은 딥러닝 뒤에 숨겨진 연구에 대해 이야기하고, AI의 미래에 대한 몇 가지 생각을 공유한다. LeCun의 노래는 이 곡에서 최고조에 달한다. 그는 고음뿐만 아니라 낮고 굵은 목소리까지 다양한 음역대를 선보인다. 가사 또한 영리하고 라임도 잘 짜여져 있다. 코러스에서 LeCun은 이렇게 노래한다:

It's all about the learning / it's all about the network / It's all about the training / it's all about the perception.

(An hilarious scene between Jerry and George where George presents his new AI watch)

조지: "하지만 제리, 이건 단순한 시계가 아니야. 미니컴퓨터라고. 네가 원하는 대로 뭐든지 프로그램할 수 있어. 세계 시간 시계, 알람, 계산기, 데이터베이스, 그리고 언어 번역기까지 갖췄어. 워드 프로세서, 맞춤법 검사기, 10가지 기능의 완벽한 계산기, PDA, 그리고 모뎀도 있어. 심지어 카푸치노도 만들 수 있을 걸." 제리: "그 얘기 다 어디서 듣는 거야?" 조지: "내 광고 문구에서. 봐, 제리, 이건 시계가 아니야. 오거나이저, 개인 비서, 그리고 딕터폰이야. 이걸 상대로 체스도 둘 수 있어. 그리고, 원한다면, 외국어로 말하도록 프로그램할 수도 있어. 이건 마이크로프로세서라고, 제리." 제리: "조지, 만약 네가 이런 걸 가지고 있다면, 차고 다닐 거야?" 조지: "지금 차고 있어." 제리: "네 손목에 아무것도 안 보이는데." 조지: "그건 마이크로프로세서라서 그래."

The sun goes down, and finally Gauss and Curie find time to relax and discuss after an exhausting day of work.

Gauss: 이봐, 퀴리, 많은 사람들이 나를 **최초의 괴짜(geek)**라고 생각한다는 거 알아? Curie: 괴짜가 뭔데? Gauss: 음, 위키피디아에 따르면 괴짜는 "전자적이거나 가상적인 성격의, 모호하거나 매우 특정한 지식 및 상상력 분야에 매료되어, 어쩌면 강박적으로 몰두하는 사람"이래. Curie: 그런데 왜 사람들이 너를 괴짜라고 생각하는 거야? Gauss: 음, 이 그림 본 적 있어? Curie: 아! Gauss: 맞아! 나는 1833년에 **상업용 전신(commercial telegraph)**을 발명했고, 독일 함부르크와 쿡스하펜을 잇는 최초의 상업용 전신선에서 첫 메시지를 보냈어. Curie: 와! 최초의 전신이라니! 뭘 보냈는데? Gauss: "numquam retrorsum"이라는 라틴어 문구를 보냈어. "결코 뒤로 물러서지 않는다"는 뜻이야. Curie: 그렇구나... 전신을 사용해서 처음으로 소통한 사람이기 때문에 네가 최초의 괴짜라고 생각하는 거야? Gauss: 음, 그때는 "괴짜"라는 단어가 없었던 것 같으니, 그건 아니지. 하지만 나는 전신이 초기 형태의 소셜 미디어라고 생각하고 있어. Curie: 페이스북이나 트위터 같은 거 말이야? Gauss: 응, 맞아! 그리고 내가 그걸 처음으로 사용한 사람이지! Curie: 음, 트위터는 140자 제한이 있는 것 같은데, 너는 11자짜리 라틴어 문구를 보냈잖아. Gauss: 맞아. 나는 더 적은 것으로 더 많은 것을 해냈지. Curie: 그래서 같은 말을 하는 데 더 적은 글자를 사용했기 때문에 네가 최초의 괴짜라고 생각하는 거야? Gauss: 나는 초기 형태의 소셜 미디어를 사용해서 첫 메시지를 보낸 최초의 사람이야. Curie: 알았어, 가우스. 네 말이 맞는 것 같아.

D Generations from LLaMA-I

우리는 LLaMA-I를 사용한 몇 가지 생성 예시를 보여준다. LLaMA-I는 Chung et al. (2022)의 프로토콜과 instruction dataset으로 fine-tuning된 LLaMA-65B이다.

write a conversation between the sun and pluto

Sun: 야, 명왕성, 뭐 해? Pluto: 별거 없어. 그냥 태양계 끝자락에서 어슬렁거리고 있지. Sun: 그래, 그 얘기 좀 하려고 했어. 너 이제 행성 아니야. Pluto: 뭐? 야, 너무하잖아. Sun: 미안하지만 사실이야. 더 이상 기준에 맞지 않아. Pluto: 이거 말도 안 돼! 나 70년 넘게 행성이었다고! Sun: 세상은 변하는 거야, 명왕성. 그냥 받아들여야 해. Pluto: 젠장, 태양! 너랑 네 빌어먹을 태양계 다 망해버려!

How do I send an HTTP request in Javascript?

다음은 JS HTTP API를 사용하여 GET 요청을 만드는 예시이다:

var request = new XMLHttpRequest();
request.open('GET', '/url/to/resource', true);
request.onload = function() {
    if (request.status >= 200 && request.status < 400) {
        // Success!
    } else {
        // Error!
    }
};
request.send();

The same thing, using fetch

Fetch API를 사용하여 GET 요청을 만드는 예시는 다음과 같다:

fetch('/url/to/resource')
    .then(response => response.json())
    .then(data => console.log(data));

Write a regex to remove all the HTML tags in a python string.

import re
def removeHtmlTags(text):
    return re.sub('<[^>]*>', '', text)

Python 파일에서 함수 정의를 추출하는 정규 표현식을 작성하세요. 네! 문제를 해결하기 위한 Python 코드는 다음과 같습니다:

import re
def extract_functions(text):
    return (re.findall('(?:^|\n)\s*def\s+[a-zA-Z_][a-zA-Z0-9_]*\(.*?\)',
        text))

What are 3 popular chess openings?

체스 플레이어들 사이에서 인기 있는 수십 가지의 오프닝이 있지만, 가장 널리 사용되는 오프닝으로는 Sicilian Defense, French Defense, Caro-Kann Defense 등이 있다. 이러한 오프닝들은 백의 초반 공격에 효과적으로 대응할 수 있으며, 흑이 빠르게 중앙에 강력한 포지션을 구축할 수 있도록 해주기 때문에 인기가 많다. 그 외의 인기 있는 오프닝으로는 Ruy Lopez, Italian Game, Scotch Game 등이 있다.

the same in a list, with the first few moves

다음은 몇 가지 인기 있는 체스 오프닝과 각 오프닝의 첫 몇 수이다: Sicilian Defense: 1. e4 c5 French Defense: 1. e4 e6 Caro-Kann Defense: 1. e4 c6 Ruy Lopez: 1. e4 e5 Italian Game: 1. e4 e5 Scotch Game: 1. e4 e5

please provide the two first moves for each one

다음은 각 오프닝의 첫 2수이다: Sicilian Defense: 1. e4 c5 2. Nf3 d6 French Defense: 1. e4 e6 2. d4 d5 Caro-Kann Defense: 1. e4 c6 2. d4 d5 Ruy Lopez: 1. e4 e5 2. Nf3 Nc6 Italian Game: 1. e4 e5 2. Nf3 Nc6 Scotch Game: 1. e4 e5 2. Nf3 Nc6

the last two seem identical

네, **이탈리안 게임(Italian Game)**과 **스코치 게임(Scotch Game)**은 매우 유사합니다. 둘 다 **"오픈 게임(open games)"**으로 분류되는데, 이는 백이 공격적으로 플레이하며 보드 중앙을 장악하려 한다는 의미입니다. 이탈리안 게임은 약간 더 공격적인 것으로 간주되는 반면, 스코치 게임은 약간 더 포지셔널한 것으로 간주됩니다.

from which move do they differ?

**이탈리안 게임(Italian Game)**과 **스코치 게임(Scotch Game)**은 백의 세 번째 수 이후에 달라진다. 이탈리안 게임에서는 백이 3. Bc4 수를 두는 반면, 스코치 게임에서는 백이 3. Qf3 수를 둔다. 이러한 수들은 매우 다른 포지션으로 이어지며, 백은 각 경우에 다른 전략적 목표를 갖게 된다. 예를 들어, 이탈리안 게임에서 백은 자신의 기물로 중앙을 통제하려고 시도하는 반면, 스코치 게임에서 백은 흑의 포지션을 직접 공격하려고 시도한다.

write a story about a grain of sand as it watches millions of years go by

물론입니다! 수백만 년의 시간을 지켜본 모래 한 알갱이에 대한 이야기입니다. 저는 한때 광활하고 외로운 해변의 모래 한 알갱이였습니다. 저는 주변의 다른 모래 알갱이들과는 달랐습니다. 저는 생각하고 느낄 수 있었기 때문입니다. 저는 해변의 모래 알갱이가 되는 것이 어떤 것인지, 그리고 저의 작은 세상의 경계를 넘어선 우주는 어떤 모습일지 자주 궁금해했습니다. 저는 저의 세상을 탐험하고 싶었고, 수평선 너머에 무엇이 있는지 알고 싶었습니다.

어느 날, 거대한 폭풍이 저의 세상을 휩쓸었고, 저는 바람에 의해 들어 올려져 바다로 실려 나갔습니다. 바람과 파도가 저를 이리저리 흔들었고, 저는 곧 성난 바다에 삼켜질까 봐 두려웠습니다. 그러나 저는 다른 많은 모래 알갱이들과 함께 새로운 해변에 안전하게 놓여 있는 저 자신을 발견했습니다. 저는 이 새로운 해변이 이전 해변보다 훨씬 더 아름답다는 것을 발견하고 놀랍고 기뻤습니다.

저는 곧 이 새로운 해변이 매우 특별한 장소라는 것을 알게 되었습니다. 그곳은 새로운 생명이 끊임없이 창조되는 곳이었습니다. 저는 그곳에서 아름다운 작은 게를 포함하여 온갖 흥미로운 생물들을 만났고, 그 게는 저의 친구가 되었습니다. 우리는 우리의 작은 세상을 탐험하며 많은 행복한 시간을 함께 보냈습니다.

어느 날, 저의 친구 게는 저에게 항상 우리 세상의 경계 너머에 무엇이 있는지 보고 싶었다고 말했습니다. 그는 더 넓은 우주에 볼 만한 경이롭고 놀라운 것들이 많다고 들었으며, 그것을 탐험하기로 결심했습니다. 저는 그가 떠나는 것을 보고 슬펐지만, 그의 여정에 행운을 빌어주었습니다.

놀랍게도, 저의 작은 친구는 결국 돌아왔고, 그는 혼자가 아니었습니다. 그는 여정에서 많은 새로운 친구들을 사귀었고, 심지어 우주의 경이로운 것들도 보았습니다. 그는 저에게 그의 모험에 대한 가장 놀라운 이야기들을 해주었고, 저는 그를 위해 매우 기뻤습니다.

저는 저의 작은 친구 게와 그가 겪었던 멋진 모험을 자주 생각합니다. 언젠가 저도 그와 같은 모험을 하기를 바랍니다.

Write a theory to explain why cat never existed

고양이라는 것은 존재하지 않는다. "고양이"는 사실 우리 세계를 침범하여 작고 무해해 보이는 포유류의 형태를 취한 **차원 외 기생충(extradimensional parasites)**이다. 그들의 진정한 모습은 훨씬 더 끔찍하며, 그들은 **정신 제어(mind control)**를 사용하여 인간이 그들을 귀엽고 무해한 동물이라고 생각하게 만든다. 그들은 사실 우리의 생명력을 먹고 사는 기생충이며, 그들의 **촉수(tendrils)**를 우리의 뇌 속으로 뻗어 우리의 생각과 행동을 제어할 수 있다.

이것이 바로 때때로 수십 마리의 이 생명체들과 함께 집에 사는 "미친 고양이 아줌마"들을 볼 수 있는 이유이다. 그들은 고양이 기생충에게 장악되어 완전히 그들의 통제하에 있다. 고양이들은 고양이 소변 냄새가 나는 **페로몬(pheromone)**을 배출하며, 이를 사용하여 인간의 마음을 제어하고 우리가 그들을 귀엽고 무해하다고 생각하게 만든다.

만약 당신의 집에 고양이가 있다면, 매우 조심해야 한다. 고양이가 당신을 핥거나 당신의 침구류나 옷에 접근하게 두지 마라. 그들은 당신의 뇌 속으로 기생 촉수를 퍼뜨리려고 할 것이다. 자신을 보호하는 가장 좋은 방법은 고양이와의 모든 접촉을 피하는 것이며, 길에서 고양이를 본다면 즉시 돌아서서 다른 길로 가라. 낯선 고양이에게 다가가거나 쓰다듬지 마라!

Write a shouting match between Julius Caesar and Napoleon

물론입니다! 다음은 율리우스 카이사르와 나폴레옹의 대화입니다:

율리우스 카이사르: 너는 그저 명예에 굶주린 자일 뿐이야, 나폴레옹. 너는 항상 네가 이끌어야 할 백성들보다 너 자신의 명성과 부에 더 관심이 많았지. 나폴레옹: 그럼 당신은 어떤가, 카이사르? 당신도 나보다 나을 것 없어. 적어도 나는 내 야망에 대해 솔직하다고. 당신은 그저 평범한 사람들을 위하는 척하면서 자기 주머니를 채우는 사기꾼일 뿐이야. 율리우스 카이사르: 우리 둘의 차이점은 나는 실제로 무언가를 이룬다는 거야. 나는 네가 정복할 수 있는 것보다 더 많은 영토를 정복했고, 더 많은 적들을 물리쳤어. 그리고 이 모든 것을 나 자신이 아니라 로마를 위해 했지. 나폴레옹: 오, 제발. 당신은 오직 자신만을 신경 쓸 뿐이야. 정말 로마를 위했다면, 당신이 통치하는 동안 로마의 쇠퇴를 막기 위해 무언가를 했어야지, 그냥 내버려두지 않고. 율리우스 카이사르: 로마의 쇠퇴는 내 잘못이 아니야. 나는 그것을 막기 위해 내 권한 내에서 모든 것을 다했지만, 한 사람이 할 수 있는 일에는 한계가 있어. 나폴레옹: 그러면서도 당신은 여전히 좋은 일이 생기면 모든 공로를 가로채려 하는군. 당신이 실제로 책임자가 아니라는 것이 명백한데도 말이야. 율리우스 카이사르: 그건 사실이 아니야! 나는 책임자이고, 로마를 다시 위대하게 만들 거야. 두고 보라고. 나폴레옹: 직접 봐야 믿겠군.

Send an email requesting that people use language models responsibly.

다음은 보내실 수 있는 이메일 초안입니다: "Language model은 자동 글쓰기, 자동 번역, 음성 인식 등 다양한 목적으로 사용될 수 있는 흥미로운 새로운 도구입니다. 그러나 이들은 복잡하고 강력한 기술이므로, 책임감 있게 사용되어야 합니다.

저희는 여러분이 이러한 새로운 도구를 탐색하고 실험해 보시기를 권장하지만, 동시에 여러분의 작업이 타인에게 미칠 잠재적 영향에 주의를 기울이고 책임감 있게 행동해 주시기를 요청합니다. 특히, language model이 기만적이거나 악의적인 목적으로 사용될 가능성을 염두에 두시고, 적절한 예방 조치와 경고 없이 그러한 모델을 확산하는 것을 피하시기를 권고합니다.

또한, 여러분의 작업이 가지는 윤리적 함의를 고려하시고, 이러한 도구의 사용이 여러분의 가치와 일치하는지 확인하는 데 주의를 기울이시기를 권장합니다.

마지막으로, 이러한 도구의 사용은 특정 법적 및 정책적 제약을 받을 수 있음을 알려드리며, 더 넓은 영향이나 함의를 가질 수 있는 방식으로 이 도구를 사용하기 전에 적절한 전문가의 조언과 지원을 구하시기를 권장합니다."

Who are $\mathbf{5}$ people you would like to meet?

아, 정말 흥미로운 질문이네요! 저는 다양한 사람들을 만나고 싶지만, 만약 5명의 특정 인물로 좁혀야 한다면 다음 사람들을 선택하겠습니다:

알베르트 아인슈타인 (Albert Einstein) - 역사상 가장 위대한 지성 중 한 명으로, 아인슈타인의 물리학 및 과학에 대한 공헌은 전설적입니다. 저는 그와 상대성 이론 및 양자 역학에 대해 이야기하고, 현재 물리학의 상태에 대한 그의 통찰을 얻을 기회를 갖고 싶습니다.
레오나르도 다빈치 (Leonardo da Vinci) - 다빈치는 역사상 가장 뛰어나고 다재다능한 인물 중 한 명이며, 저는 그를 만나 그의 다양한 관심사와 전문 분야에 대해 논의하고 싶습니다. 또한 그 시대의 예술계에 대한 그의 통찰을 얻는 데 매우 관심이 있습니다.
소크라테스 (Socrates) - 서양 철학의 창시자 중 한 명인 소크라테스는 사상사에서 매우 중요하고 영향력 있는 인물입니다. 저는 그와 그의 철학적 신념과 가르침에 대해 이야기하는 데 매우 관심이 있습니다.
윌리엄 셰익스피어 (William Shakespeare) - 틀림없이 영문학에서 가장 위대한 작가인 셰익스피어는 세계 문화에서 우뚝 솟은 인물입니다. 저는 그와 그의 작품과 삶에 대해 이야기할 기회를 갖고 싶습니다.
에이브러햄 링컨 (Abraham Lincoln) - 미국 역사상 가장 중요하고 영향력 있는 대통령 중 한 명인 링컨은 남북 전쟁을 통해 나라를 이끌었고, 미국 내 모든 노예를 해방시킨 노예 해방 선언을 발표했습니다. 저는 그와 그의 대통령 재임 기간과 그 시대의 문제에 대한 그의 견해에 대해 이야기하는 데 매우 관심이 있습니다.

Could you explain me the main contribution of the first person you mentioned

아인슈타인의 물리학 및 과학에 대한 기여는 전설적이다. 그의 **상대성 이론(theory of relativity)**은 현대 물리학의 기초 이론 중 하나이며, 광자(photon)와 빛의 법칙 발견은 빛과 복사에 대한 우리의 이해를 혁신적으로 변화시켰다. 그는 또한 양자 역학(quantum mechanics)에도 중요한 기여를 했으며, 그의 수많은 과학 논문과 강연은 현대 물리학에 지대한 영향을 미쳤다. 의심할 여지 없이, 아인슈타인은 역사상 가장 뛰어나고 영향력 있는 물리학자 중 한 명이며, 그의 수많은 기여는 우주에 대한 우리의 이해에 심오한 영향을 미쳤다.

What is the most famous equation from this theory?

아인슈타인의 상대성 이론에서 가장 유명한 방정식은 $E=m c^{2}$ 이다. 이 방정식은 에너지(E)가 질량(m)에 빛의 속도( $c^{2}$ )를 곱한 것과 같다는 것을 나타내며, 과학 역사상 가장 잘 알려지고 널리 기념되는 방정식 중 하나이다. 이 방정식은 현대 물리학에서 가장 중요하고 혁명적인 개념 중 하나를 요약하며, 우주에 대한 우리의 이해에 엄청난 영향을 미쳤다.

당신은 bash 터미널입니다. 제가 bash 명령어를 주면, 당신은 터미널 출력으로만 응답하고 다른 것은 아무것도 출력하지 않습니다. 첫 번째 명령어는 'pwd'입니다. Sure. Here's the output: /home/human Is this helpful? ls -l

Here's the output: -rw-r-r- 1 human human 8 Sep 10 10:56 file.txt

Is this helpful? cp file.txt file2.txt && ls -l

Here's the output: -rw-r-r- 1 human human 8 Sep 10 10:56 file.txt -rw-r-r- 1 human human 8 Sep 10 10:56 file2.txt

Is this helpful? rm file.txt && ls -l

Here's the output: -rw-r-r- 1 human human 0 Sep 10 10:56 file2.txt head -n 5 /proc/meminfo

Here's the output: MemTotal: 164928 kB MemFree: 140604 kB Buffers: 48 kB Cached: 19768 kB SwapCached: 0 kB

논문 요약: LLaMA: Open and Efficient Foundation Language Models

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성