Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." Advances in neural information processing systems 36 (2023): 53728-53741.

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Rafael Rafailov* $\dagger$ Archit Sharma* $\dagger$ Eric Mitchell ${ }^{* \dagger}$ <br>Stefano Ermon ${ }^{\dagger \ddagger} \quad$ Christopher D. Manning ${ }^{\dagger} \quad$ Chelsea Finn ${ }^{\dagger}$ <br> ${ }^{\dagger}$ Stanford University ${ }^{\ddagger}$ CZ Biohub<br>{rafailov, architsh, eric.mitchell}@cs.stanford.edu

Abstract

대규모 비지도 학습 Language Model(LM)은 광범위한 세상 지식과 일부 추론 능력을 학습하지만, 완전히 비지도 학습 방식으로 훈련되기 때문에 모델의 동작을 정밀하게 제어하기 어렵다. 이러한 제어 가능성(steerability)을 얻기 위한 기존 방법들은 모델이 생성한 결과물의 상대적인 품질에 대한 사람의 평가(human labels)를 수집하고, 이를 바탕으로 비지도 LM을 fine-tuning하여 이러한 선호도에 맞추도록 한다. 이 과정에서는 종종 **인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF)**이 사용된다.

그러나 RLHF는 복잡하고 종종 불안정한 절차이다. 먼저 사람의 선호도를 반영하는 reward model을 학습시킨 다음, 강화 학습을 사용하여 대규모 비지도 LM을 fine-tuning하여 이 추정된 reward를 최대화하면서도 원래 모델에서 너무 멀리 벗어나지 않도록 해야 한다.

본 논문에서는 RLHF에서 reward model의 새로운 parameterization을 도입하여, 해당하는 최적의 policy를 closed-form으로 추출할 수 있게 한다. 이를 통해 표준 RLHF 문제를 간단한 분류(classification) loss만으로 해결할 수 있다. 우리가 **Direct Preference Optimization (DPO)**이라고 명명한 이 알고리즘은 안정적이고 성능이 우수하며 계산적으로 가볍다. 또한, fine-tuning 과정에서 LM으로부터 샘플링하거나 상당한 하이퍼파라미터 튜닝을 수행할 필요가 없다.

우리의 실험 결과는 DPO가 기존 방법만큼 또는 그보다 더 잘 LM을 fine-tuning하여 사람의 선호도에 맞출 수 있음을 보여준다. 특히, DPO를 사용한 fine-tuning은 생성물의 감정(sentiment)을 제어하는 능력에서 PPO 기반 RLHF를 능가하며, 요약 및 단일 턴 대화(single-turn dialogue)에서 응답 품질을 일치시키거나 향상시키면서도 구현 및 학습이 훨씬 간단하다.

1 Introduction

매우 큰 데이터셋으로 학습된 대규모 비지도 학습 Language Model(LM)은 놀라운 능력을 습득한다 [11, 7, 42, 8]. 그러나 이러한 모델들은 다양한 목표, 우선순위, 기술을 가진 인간이 생성한 데이터로 학습된다. 이 중 일부 목표와 기술은 모방하는 것이 바람직하지 않을 수 있다. 예를 들어, AI 코딩 어시스턴트가 일반적인 프로그래밍 실수를 이해하여 수정하는 것은 원할 수 있지만, 코드를 생성할 때는 모델이 학습 데이터에 존재하는 (잠재적으로 드문) 고품질 코딩 능력에 편향되도록 하고 싶을 것이다. 마찬가지로, 우리는 언어 모델이 50%의 사람들이 믿는 일반적인 오해를 인지하기를 원할 수 있지만, 그 오해에 대한 쿼리의 50%에서 모델이 이 오해가 사실이라고 주장하는 것은 결코 원하지 않을 것이다! 즉, 모델의 매우 광범위한 지식과 능력 중에서 모델의 바람직한 응답과 행동을 선택하는 것은 안전하고, 성능이 뛰어나며, 제어 가능한 AI 시스템을 구축하는 데 매우 중요하다 [28]. 기존 방법들은 일반적으로 강화 학습(RL)을 사용하여 LM이 인간의 선호도에 부합하도록 유도하지만,

Figure 1: DPO는 강화 학습을 피하면서 인간의 선호도를 최적화한다. 인간 피드백을 통해 language model을 fine-tuning하는 기존 방법들은 먼저 prompt와 응답 쌍에 대한 인간 선호도 데이터셋에 reward model을 학습시킨 다음, RL을 사용하여 학습된 reward를 최대화하는 policy를 찾는다. 이와 대조적으로, DPO는 간단한 분류 objective를 통해 선호도를 가장 잘 만족시키는 policy를 직접 최적화하며, 해당 최적 policy를 closed form으로 추출할 수 있는 implicit reward model을 학습시킨다.

우리는 기존 방법에서 사용되는 RL 기반 objective가 간단한 binary cross-entropy objective로 정확하게 최적화될 수 있음을 보여줌으로써, 선호도 학습 파이프라인을 크게 단순화할 것이다.

기존 방법들은 인간이 안전하고 유용하다고 판단하는 행동 유형을 나타내는 선별된 인간 선호도 데이터셋을 사용하여 language model에 원하는 행동을 주입한다. 이러한 선호도 학습(preference learning) 단계는 대규모 텍스트 데이터셋에 대한 초기 대규모 비지도 사전학습(pre-training) 단계 이후에 발생한다. 선호도 학습에 대한 가장 직접적인 접근 방식은 고품질 응답에 대한 인간 시연(demonstration)에 대한 supervised fine-tuning이지만, 가장 성공적인 방법은 **인간(또는 AI) 피드백으로부터의 강화 학습(RLHF/RLAIF; [12, 2])**이다. RLHF 방법은 인간 선호도 데이터셋에 reward model을 학습시킨 다음, RL을 사용하여 language model policy를 최적화하여 원래 모델에서 과도하게 벗어나지 않으면서 높은 reward가 할당된 응답을 생성하도록 한다. RLHF는 인상적인 대화 및 코딩 능력을 가진 모델을 생성하지만, RLHF 파이프라인은 여러 LM을 학습시키고 학습 루프에서 LM policy로부터 샘플링하는 것을 포함하여 supervised learning보다 훨씬 복잡하며, 상당한 계산 비용이 발생한다.

본 논문에서는 명시적인 reward modeling이나 강화 학습 없이 인간의 선호도에 부합하도록 language model을 직접 최적화하는 방법을 제시한다. 우리는 **Direct Preference Optimization (DPO)**이라는 알고리즘을 제안한다. 이 알고리즘은 기존 RLHF 알고리즘과 동일한 objective(KL-divergence 제약이 있는 reward 최대화)를 암묵적으로 최적화하지만, 구현이 간단하고 학습이 용이하다. 직관적으로, DPO 업데이트는 선호되는 응답의 log probability를 비선호되는 응답에 비해 증가시키지만, 동적인 예시별 중요도 가중치를 포함하여 순진한 확률 비율 objective에서 발생하는 모델 퇴화(degeneration)를 방지한다. 기존 알고리즘과 마찬가지로, DPO는 주어진 reward function이 **경험적 선호도 데이터와 얼마나 잘 일치하는지 측정하는 이론적 선호도 모델(예: Bradley-Terry model; [5])**에 의존한다. 그러나 기존 방법들이 선호도 모델을 사용하여 reward model을 학습하기 위한 선호도 손실을 정의하고 학습된 reward model을 최적화하는 policy를 학습하는 반면, DPO는 변수 변경을 사용하여 선호도 손실을 policy의 함수로 직접 정의한다. 따라서 모델 응답에 대한 인간 선호도 데이터셋이 주어지면, DPO는 간단한 binary cross entropy objective를 사용하여 policy를 최적화할 수 있으며, 선호도 데이터에 학습된 implicit reward function에 대한 최적 policy를 생성한다.

우리의 주요 기여는 **선호도로부터 language model을 학습하기 위한 간단한 RL-free 알고리즘인 Direct Preference Optimization (DPO)**이다. 우리의 실험은 DPO가 6B 파라미터까지의 language model을 사용하여 감성 조절, 요약, 대화와 같은 task에서 선호도를 학습하는 데 PPO 기반 RLHF를 포함한 기존 방법만큼 효과적임을 보여준다.

점점 더 규모가 커지는 Self-supervised language model은 일부 task를 zero-shot으로 [33] 또는 few-shot prompt를 통해 [6, 27, 11] 수행하는 능력을 학습한다. 그러나 instruction과 사람이 작성한 completion으로 구성된 데이터셋으로 fine-tuning하면, 다운스트림 task에서의 성능과 사용자 의도와의 정렬(alignment)을 크게 향상시킬 수 있다 [25, 38, 13, 41]. 이러한 'instruction-tuning' 절차는 LLM이 instruction-tuning 세트 외의 instruction에도 일반화하고 전반적으로 사용성을 높이는 데 기여한다 [13].
instruction tuning의 성공에도 불구하고, **응답 품질에 대한 상대적인 인간 판단(relative human judgments)**은 전문가 demonstration을 수집하는 것보다 종종 더 쉽다. 따라서 후속 연구들은 인간 선호도(human preferences) 데이터셋으로 LLM을 fine-tuning하여, 번역 [20], 요약 [40, 51], 스토리텔링 [51], instruction-following [28, 34] 능력의 숙련도를 향상시켰다. 이러한 방법들은 먼저 Bradley-Terry model [5]과 같은 선호도 모델(preference model) 하에서 선호도 데이터셋과의 호환성을 위해 신경망 보상 함수(reward function)를 최적화한 다음, 강화 학습(reinforcement learning) 알고리즘(일반적으로 REINFORCE [47], proximal policy optimization (PPO; [39]), 또는 변형 [34])을 사용하여 주어진 보상을 최대화하도록 language model을 fine-tuning한다.
밀접하게 관련된 연구 분야는 인간 피드백을 통해 instruction-following을 위해 fine-tuning된 LLM을 활용하여 안전성 또는 무해성(harmlessness)과 같은 특정 속성에 대한 추가적인 합성 선호도 데이터(synthetic preference data)를 생성하는 것이다 [2]. 이 방법은 LLM의 annotation에 대한 텍스트 루브릭(text rubric) 형태의 약한 인간 감독(weak supervision)만을 사용한다. 이러한 방법들은 두 가지 연구 분야의 융합을 나타낸다: 하나는 다양한 목적을 위한 강화 학습을 통한 language model 훈련에 대한 연구 [35, 29, 48]이고, 다른 하나는 인간 선호도로부터 학습하는 일반적인 방법에 대한 연구 [12, 21]이다. 상대적인 인간 선호도를 사용하는 매력에도 불구하고, 강화 학습을 통한 대규모 language model fine-tuning은 여전히 주요한 실질적 도전 과제로 남아 있다. 본 연구는 강화 학습 없이 상대적 선호도를 최적화하기 위한 이론적으로 정당화된 접근 방식을 제공한다.

언어의 맥락을 벗어나, 선호도로부터 정책을 학습하는 것은 bandit 및 강화 학습 설정 모두에서 연구되어 왔으며, 여러 접근 방식이 제안되었다. 보상 대신 행동의 선호도 또는 순위를 사용하는 contextual bandit learning은 **contextual dueling bandit (CDB; [50, 14])**으로 알려져 있다. 절대적인 보상이 없는 경우, CDB의 이론적 분석은 최적 정책의 개념을 von Neumann winner로 대체한다. von Neumann winner는 다른 어떤 정책에 대해서도 예상 승률이 최소 50%인 정책이다 [14]. 그러나 CDB 설정에서는 선호도 레이블이 온라인으로 주어지는 반면, 인간 선호도로부터 학습하는 경우, 일반적으로 오프라인으로 선호도가 주석된 고정된 배치(batch)의 행동 쌍으로부터 학습한다 [49].
유사하게, **선호도 기반 RL (PbRL)**은 보상 대신 알 수 없는 'scoring' 함수에 의해 생성된 이진 선호도로부터 학습한다 [9, 37]. PbRL에는 오프-정책(off-policy) 선호도 데이터를 재사용할 수 있는 방법을 포함하여 다양한 알고리즘이 존재하지만, 일반적으로 먼저 잠재적인 scoring 함수(즉, 보상 모델)를 명시적으로 추정하고 이어서 이를 최적화하는 과정을 포함한다 [16, 9, 12, 36, 21]. 우리는 대신 선호도를 만족시키기 위해 정책을 직접 최적화하는 단일 단계 정책 학습 접근 방식을 제시한다.

3 Preliminaries

우리는 Ziegler et al. (그리고 이후 [40, 1, 28])의 RLHF 파이프라인을 검토한다. 이는 일반적으로 세 가지 단계로 구성된다:

Supervised Fine-Tuning (SFT)
Preference Sampling 및 Reward Learning
RL Optimization

SFT: RLHF는 일반적으로 사전학습된 LM을 관심 있는 다운스트림 task(대화, 요약 등)에 대한 고품질 데이터로 supervised learning을 통해 fine-tuning하는 것으로 시작하여, 모델 $\pi^{\mathrm{SFT}}$ 를 얻는다.

Reward Modelling Phase: 두 번째 단계에서는 SFT 모델에 prompt $x$ 를 주어 답변 쌍 $\left(y_{1}, y_{2}\right) \sim \pi^{\mathrm{SFT}}(y \mid x)$ 를 생성한다. 이 답변 쌍은 인간 라벨러에게 제시되어 하나의 답변에 대한 선호도를 표현하게 되는데, 이는 $y_{w} \succ y_{l} \mid x$ 로 표기된다. 여기서 $y_{w}$ 는 선호되는 답변을, $y_{l}$ 은 선호되지 않는 답변을 나타낸다. 이러한 선호도는 우리가 접근할 수 없는 잠재적인 reward model $r^{*}(y, x)$ 에 의해 생성된다고 가정한다. 선호도를 모델링하는 데에는 여러 접근 방식이 사용되며, Bradley-Terry (BT) 모델 [5]이 널리 사용되는 선택지이다 (비록 더 일반적인 Plackett-Luce ranking 모델 [32, 23]도 여러 순위가 매겨진 답변에 접근할 수 있다면 이 프레임워크와 호환된다). BT 모델은 인간 선호도 분포 $p^{*}$ 가 다음과 같이 표현될 수 있다고 규정한다:

p^{*}\left(y_{1} \succ y_{2} \mid x\right)=\frac{\exp \left(r^{*}\left(x, y_{1}\right)\right)}{\exp \left(r^{*}\left(x, y_{1}\right)\right)+\exp \left(r^{*}\left(x, y_{2}\right)\right)} .

$p^{*}$ 에서 샘플링된 비교 데이터셋 $\mathcal{D}=\left\{x^{(i)}, y_{w}^{(i)}, y_{l}^{(i)}\right\}_{i=1}^{N}$ 에 접근할 수 있다고 가정하면, reward model $r_{\phi}(x, y)$ 를 파라미터화하고 최대 우도(maximum likelihood)를 통해 파라미터를 추정할 수 있다. 이 문제를 이진 분류(binary classification)로 구성하면 다음과 같은 negative log-likelihood loss를 얻는다:

\mathcal{L}_{R}\left(r_{\phi}, \mathcal{D}\right)=-\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(r_{\phi}\left(x, y_{w}\right)-r_{\phi}\left(x, y_{l}\right)\right)\right]

여기서 $\sigma$ 는 logistic function이다. LM의 맥락에서, 네트워크 $r_{\phi}(x, y)$ 는 종종 SFT 모델 $\pi^{\mathrm{SFT}}(y \mid x)$ 로 초기화되며, 최종 Transformer layer 위에 단일 스칼라 reward 값을 예측하는 linear layer가 추가된다 [51]. 분산이 낮은 reward function을 보장하기 위해, 이전 연구들은 모든 $x$ 에 대해 $\mathbb{E}_{x, y \sim \mathcal{D}}\left[r_{\phi}(x, y)\right]=0$ 이 되도록 reward를 정규화한다.

RL Fine-Tuning Phase: RL 단계에서는 학습된 reward function이 language model에 피드백을 제공하는 데 사용된다. 이전 연구들 [17, 18]에 따라, 최적화는 다음과 같이 공식화된다:

\max _{\pi_{\theta}} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(y \mid x)}\left[r_{\phi}(x, y)\right]-\beta \mathbb{D}_{\mathrm{KL}}\left[\pi_{\theta}(y \mid x) \| \pi_{\mathrm{ref}}(y \mid x)\right],

여기서 $\beta$ 는 기본 참조 정책 $\pi_{\text {ref}}$ (즉, 초기 SFT 모델 $\pi^{\mathrm{SFT}}$ )로부터의 편차를 제어하는 파라미터이다. 실제로는 language model 정책 $\pi_{\theta}$ 도 $\pi^{\mathrm{SFT}}$ 로 초기화된다. 추가된 제약 조건은 중요하다. 이는 모델이 reward model이 정확한 분포에서 너무 멀리 벗어나는 것을 방지하고, 생성 다양성을 유지하며, 단일 고 reward 답변으로의 mode-collapse를 방지한다. 언어 생성의 이산적인 특성 때문에, 이 목적 함수는 미분 가능하지 않으며 일반적으로 강화 학습(reinforcement learning)으로 최적화된다. 표준 접근 방식 [51, 40, 1, 28]은 reward function $r(x, y)=r_{\phi}(x, y)-\beta\left(\log \pi_{\theta}(y \mid x)-\log \pi_{\text {ref }}(y \mid x)\right)$ 를 구성하고 PPO [39]를 사용하여 최대화하는 것이었다.

4 Direct Preference Optimization

언어 모델 fine-tuning과 같은 대규모 문제에 강화 학습 알고리즘을 적용하는 데 따르는 어려움 때문에, 우리는 선호도(preferences)를 직접 사용하여 정책(policy)을 최적화하는 간단한 접근 방식을 도출하는 것을 목표로 한다. 기존 RLHF 방법들이 보상(reward)을 학습한 다음 RL을 통해 이를 최적화하는 것과 달리, 우리의 접근 방식은 특정 보상 모델 매개변수화(parameterization)를 활용하여 RL 학습 루프 없이도 최적 정책을 closed form으로 추출할 수 있게 한다. 다음에서 자세히 설명하겠지만, 우리의 핵심 통찰은 보상 함수에서 최적 정책으로의 분석적 매핑(analytical mapping)을 활용하는 것이다. 이를 통해 보상 함수에 대한 손실 함수를 정책에 대한 손실 함수로 변환할 수 있다. 이러한 변수 변환(change-of-variables) 접근 방식은 명시적이고 독립적인 보상 모델을 학습하는 것을 피하면서도, Bradley-Terry 모델과 같은 기존 인간 선호도 모델 하에서 최적화를 수행한다. 본질적으로, 정책 네트워크는 언어 모델과 (암묵적인) 보상 모두를 나타낸다.

DPO 목적 함수 도출.
우리는 기존 연구와 동일한 RL 목적 함수인 Eq. 3에서 일반적인 보상 함수 $r$ 을 사용한다. 기존 연구 [31, 30, 19, 15]에 따르면, Eq. 3의 KL-constrained reward maximization 목적 함수의 최적 해는 다음과 같은 형태를 취함을 쉽게 보일 수 있다:

\pi_{r}(y \mid x)=\frac{1}{Z(x)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)

여기서 $Z(x)=\sum_{y} \pi_{\text {ref }}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)$ 는 partition function이다. 완전한 유도 과정은 Appendix A.1을 참조하라. 우리가 ground-truth 보상 함수 $r^{*}$ 의 MLE 추정치 $r_{\phi}$ 를 사용하더라도, partition function $Z(x)$ 를 추정하는 것은 여전히 비용이 많이 들며 [19, 15], 이는 이 표현을 실제로 활용하기 어렵게 만든다. 그러나 우리는 Eq. 4를 재배열하여 보상 함수를 해당 최적 정책 $\pi_{r}$ , 참조 정책 $\pi_{\mathrm{ref}}$ , 그리고 알려지지 않은 partition function $Z(\cdot)$ 의 관점에서 표현할 수 있다. 구체적으로, 먼저 Eq. 4의 양변에 로그를 취한 다음 일부 대수적 조작을 통해 다음을 얻는다:

r(x, y)=\beta \log \frac{\pi_{r}(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}+\beta \log Z(x)

이 재매개변수화(reparameterization)를 ground-truth 보상 $r^{*}$ 와 해당 최적 모델 $\pi^{*}$ 에 적용할 수 있다. 다행히도, Bradley-Terry 모델은 두 완성(completion) 간의 보상 차이에만 의존한다. 즉, $p^{*}\left(y_{1} \succ y_{2} \mid x\right)=\sigma\left(r^{*}\left(x, y_{1}\right)-r^{*}\left(x, y_{2}\right)\right)$ 이다. Eq. 5의 $r^{*}(x, y)$ 에 대한 재매개변수화를 선호 모델 Eq. 1에 대입하면, partition function은 상쇄되고, 인간 선호도 확률을 최적 정책 $\pi^{*}$ 와 참조 정책 $\pi_{\text {ref }}$ 만으로 표현할 수 있다. 따라서 Bradley-Terry 모델 하의 최적 RLHF 정책 $\pi^{*}$ 는 다음 선호 모델을 만족한다:

p^{*}\left(y_{1} \succ y_{2} \mid x\right)=\frac{1}{1+\exp \left(\beta \log \frac{\pi^{*}\left(y_{2} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{2} \mid x\right)}-\beta \log \frac{\pi^{*}\left(y_{1} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{1} \mid x\right)}\right)}

유도 과정은 Appendix A.2에 있다. Eq. 6은 Bradley-Terry 모델을 사용하지만, Appendix A.3에 제시된 더 일반적인 Plackett-Luce 모델 [32, 23] 하에서도 유사한 표현을 도출할 수 있다.
이제 보상 모델 대신 최적 정책의 관점에서 인간 선호도 데이터의 확률을 얻었으므로, 매개변수화된 정책 $\pi_{\theta}$ 에 대한 최대 우도(maximum likelihood) 목적 함수를 공식화할 수 있다. 보상 모델링 접근 방식(즉, Eq. 2)과 유사하게, 우리의 정책 목적 함수는 다음과 같다:

\mathcal{L}_{\mathrm{DPO}}\left(\pi_{\theta} ; \pi_{\mathrm{ref}}\right)=-\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\pi_{\theta}\left(y_{w} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{w} \mid x\right)}-\beta \log \frac{\pi_{\theta}\left(y_{l} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{l} \mid x\right)}\right)\right]

이러한 방식으로, 우리는 최적 정책이 단순히 $\pi_{\theta}$ 인 대체 매개변수화를 사용하여 암묵적인 보상을 학습한다. 더욱이, 우리의 절차는 재매개변수화된 Bradley-Terry 모델을 학습하는 것과 동일하므로, 선호도 데이터 분포에 대한 적절한 가정 하에서 일관성(consistency)과 같은 특정 이론적 속성을 갖는다 [4]. Section 5에서는 다른 연구들과 관련하여 DPO의 이론적 속성을 추가로 논의한다.

DPO 업데이트는 무엇을 하는가?
DPO의 메커니즘적 이해를 위해 손실 함수 $\mathcal{L}_{\text {DPO }}$ 의 gradient를 분석하는 것이 유용하다. 매개변수 $\theta$ 에 대한 gradient는 다음과 같이 쓸 수 있다:

\begin{aligned} & \nabla_{\theta} \mathcal{L}_{\mathrm{DPO}}\left(\pi_{\theta} ; \pi_{\text {ref }}\right)= \\ & -\beta \mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}[\underbrace{\sigma\left(\hat{r}_{\theta}\left(x, y_{l}\right)-\hat{r}_{\theta}\left(x, y_{w}\right)\right)}_{\text {higher weight when reward estimate is wrong }}[\underbrace{\nabla_{\theta} \log \pi\left(y_{w} \mid x\right)}_{\text {increase likelihood of } y_{w}}-\underbrace{\nabla_{\theta} \log \pi\left(y_{l} \mid x\right)}_{\text {decrease likelihood of } y_{l}}]], \end{aligned}

여기서 $\hat{r}_{\theta}(x, y)=\beta \log \frac{\pi_{\theta}(y \mid x)}{\pi_{\text {ref }}(y \mid x)}$ 는 언어 모델 $\pi_{\theta}$ 와 참조 모델 $\pi_{\text {ref }}$ 에 의해 암묵적으로 정의된 보상이다 (자세한 내용은 Section 5 참조). 직관적으로, 손실 함수 $\mathcal{L}_{\text {DPO }}$ 의 gradient는 선호되는 완성 $y_{w}$ 의 우도를 증가시키고, 선호되지 않는 완성 $y_{l}$ 의 우도를 감소시킨다. 중요한 것은, 예시들이 암묵적인 보상 모델 $\hat{r}_{\theta}$ 가 선호되지 않는 완성을 얼마나 더 높게 평가하는지에 따라 가중치가 부여된다는 점이다. 이는 $\beta$ 에 의해 스케일링되며, 암묵적인 보상 모델이 완성을 얼마나 잘못 순서화하는지를 나타내고 KL 제약의 강도를 고려한다. 우리의 실험은 이 가중치의 중요성을 시사하는데, 가중치 계수가 없는 이 방법의 순진한 버전은 언어 모델을 퇴화시킬 수 있다 (Appendix Table 3).

DPO 개요.
일반적인 DPO 파이프라인은 다음과 같다:

모든 prompt $x$ 에 대해 완성 $y_{1}, y_{2} \sim \pi_{\text {ref }}(\cdot \mid x)$ 를 샘플링하고, 인간 선호도로 레이블링하여 오프라인 선호도 데이터셋 $\mathcal{D}=\left\{x^{(i)}, y_{w}^{(i)}, y_{l}\right)^{(i)}\right\}_{i=1}^{N}$ 을 구축한다.
주어진 $\pi_{\text {ref }}$ 와 $\mathcal{D}$ 및 원하는 $\beta$ 에 대해 $\mathcal{L}_{\mathrm{DPO}}$ 를 최소화하도록 언어 모델 $\pi_{\theta}$ 를 최적화한다. 실제로, 샘플을 생성하고 인간 선호도를 수집하는 대신 공개적으로 사용 가능한 선호도 데이터셋을 재사용하는 것이 바람직하다. 선호도 데이터셋은 $\pi^{\mathrm{SFT}}$ 를 사용하여 샘플링되므로, 가능한 경우 $\pi_{\mathrm{ref}}=\pi^{\mathrm{SFT}}$ 로 초기화한다. 그러나 $\pi^{\mathrm{SFT}}$ 를 사용할 수 없는 경우, 선호되는 완성 ( $x, y_{w}$ )의 우도를 최대화하여 $\pi_{\text {ref }}$ 를 초기화한다. 즉, $\pi_{\text {ref }}=\arg \max _{\pi} \mathbb{E}_{x, y_{w} \sim \mathcal{D}}\left[\log \pi\left(y_{w} \mid x\right)\right]$ 이다. 이 절차는 사용 불가능한 실제 참조 분포와 DPO가 사용하는 $\pi_{\text {ref }}$ 간의 분포 변화를 완화하는 데 도움이 된다. 구현 및 하이퍼파라미터와 관련된 추가 세부 정보는 Appendix B에서 찾을 수 있다.

5 Theoretical Analysis of DPO

이 섹션에서는 DPO(Direct Preference Optimization) 방법에 대한 추가적인 해석을 제공하고, 이론적 근거를 제시하며, DPO의 장점을 RLHF(Reinforcement Learning from Human Feedback)에 사용되는 actor-critic 알고리즘(예: PPO [39])의 문제점과 연관 지어 설명한다.

5.1 Your Language Model Is Secretly a Reward Model

DPO는 명시적인 reward를 fitting하는 과정과 RL을 수행하여 policy를 학습하는 과정을 단일 최대 우도(maximum likelihood) objective를 사용하여 우회할 수 있다. 최적화 objective인 Equation 5는 Bradley-Terry 모델과 **reward parameterization $r^{*}(x, y)=\beta \log \frac{\pi_{\theta}^{*}(y \mid x)}{\pi_{\text {ref }}(y \mid x)}$ **에 해당하며, 우리는 변수 변환 하에서 Equation 2의 reward model 최적화와 동등하게 parametric model $\pi_{\theta}$ 를 최적화한다. 이 섹션에서는 이러한 reparameterization의 이론적 배경을 구축하고, 이것이 학습된 reward model의 클래스를 제한하지 않으며, 최적 policy의 정확한 복구를 가능하게 함을 보여줄 것이다. 먼저 reward function 간의 **동치 관계(equivalence relation)**를 정의하는 것으로 시작한다.

정의 1. 두 reward function $r(x, y)$ 와 $r^{\prime}(x, y)$ 가 **동치(equivalent)**라고 하는 것은, 어떤 함수 $f$ 에 대해 $r(x, y)-r^{\prime}(x, y)=f(x)$ 가 성립할 때이다.

이것이 실제로 동치 관계이며, reward function 집합을 클래스로 분할한다는 것은 쉽게 알 수 있다. 다음 두 보조정리를 제시할 수 있다:

보조정리 1. Plackett-Luce, 특히 Bradley-Terry 선호 프레임워크 하에서, 동일한 클래스에 속하는 두 reward function은 동일한 선호 분포를 유도한다. 보조정리 2. 동일한 동치 클래스에 속하는 두 reward function은 제약된 RL 문제 하에서 동일한 최적 policy를 유도한다.

증명은 간단하며, Appendix A.5에 제시되어 있다. 첫 번째 보조정리는 Plackett-Luce 계열 모델의 잘 알려진 under-specification 문제이다 [32]. 이러한 under-specification 때문에, 우리는 일반적으로 Equation 2의 MLE 추정치에 대한 보장을 얻기 위해 추가적인 식별성 제약(identifiability constraints)을 부과해야 한다 [4]. 두 번째 보조정리는 동일한 클래스에 속하는 모든 reward function이 동일한 최적 policy를 산출한다는 것을 명시한다. 따라서 우리의 최종 objective에서는 최적 클래스에서 임의의 reward function을 복구하는 데에만 관심이 있다. 우리는 Appendix A.6에서 다음 정리를 증명한다.

정리 1. 완화된 가정 하에서, Plackett-Luce (특히 Bradley-Terry) 모델과 일치하는 모든 reward 클래스는 어떤 모델 $\pi(y \mid x)$ 와 주어진 reference model $\pi_{\text {ref }}(y \mid x)$ 에 대해 reparameterization $r(x, y)=\beta \log \frac{\pi(y \mid x)}{\pi_{\text {ref }}(y \mid x)}$ 로 표현될 수 있다.

증명 스케치. 어떤 reward function $r(x, y)$ 를 고려해보자. 이는 Equation 4에 의해 지정된 해당하는 최적 모델 $\pi_{r}(y \mid x)$ 를 유도한다. 우리는 $r$ 의 동치 클래스에 속하는 reward function이 위에서 주어진 reparameterization을 사용하여 표현될 수 있음을 보일 것이다. 우리는 **projection $f$ **를 다음과 같이 정의한다:

f\left(r ; \pi_{\mathrm{ref}}, \beta\right)(x, y)=r(x, y)-\beta \log \sum_{y} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)

연산자 $f$ 는 단순히 $\pi_{r}$ 의 partition function의 로그를 사용하여 reward function을 정규화한다. 추가된 정규화 항은 prefix $x$ 의 함수일 뿐이므로, $f\left(r ; \pi_{\text {ref }}, \beta\right)(x, y)$ 는 $r(x, y)$ 의 동치 클래스에 속하는 reward function이다. 마지막으로, $r$ 을 Equation 5의 우변으로 대체하면 (이는 모든 reward function에 대해 성립한다), $f\left(r ; \pi_{\text {ref }}, \beta\right)(x, y)=\beta \log \frac{\pi_{r}(y \mid x)}{\pi_{\text {ref }}(y \mid x)}$ 가 된다. 즉, projection $f$ 는 원하는 형태의 $r$ 의 동치 클래스 멤버를 생성하며, 제안된 reparameterization으로 인해 reward model에서 일반성을 잃지 않는다.

우리는 정리 1을 DPO reparameterization이 각 동치 클래스 내에서 정확히 어떤 reward function을 선택하는지를 명시하는 것으로 볼 수 있다. 즉, 다음을 만족하는 reward function이다:

\sum_{y} \underbrace{\pi_{\text {ref }}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)}_{=\pi(y \mid x), \text { using Thm. } 1 \text { Ireparam. }}=1,

즉, $\pi(y \mid x)$ 는 **유효한 분포(확률이 양수이고 합이 1)**이다. 그러나 Equation 4를 따르면, Equation 9는 reward function $r(x, y)$ 에 의해 유도된 최적 policy의 partition function임을 알 수 있다. DPO 알고리즘의 핵심 통찰은 under-constrained된 Plackett-Luce (특히 Bradley-Terry) 선호 모델 계열에 특정 제약을 부과하여, 표현 가능한 reward model의 클래스를 보존하면서도, 모든 prompt $x$ 에 대해 Equation 4의 최적 policy를 해석적으로 다룰 수 있게 만드는 것이다.

5.2 Instability of Actor-Critic Algorithms

우리는 또한 PPO와 같이 RLHF에 사용되는 표준 actor-critic 알고리즘의 불안정성을 진단하기 위해 우리의 프레임워크를 사용할 수 있다. 우리는 RLHF 파이프라인을 따르며, Section 3에 설명된 RL fine-tuning 단계에 초점을 맞춘다. Section 3에 설명된 제약된 RL 문제에 대해 control as inference 프레임워크 [22]와 연결할 수 있다.
우리는 parameterized model $\pi_{\theta}(y \mid x)$ 를 가정하고, $\mathbb{D}_{\mathrm{KL}}\left[\pi_{\theta}(y \mid x) \| \pi^{*}(y \mid x)\right]$ 를 최소화한다. 여기서 $\pi^{*}$ 는 보상 함수 $r_{\phi}(y, x)$ 에 의해 유도된 Eq. 7의 최적 정책이다.
몇 가지 대수적 변환을 통해 이는 다음 최적화 목표로 이어진다:

\max _{\pi_{\theta}} \mathbb{E}_{\pi_{\theta}(y \mid x)}[\underbrace{r_{\phi}(x, y)-\beta \log \sum_{y} \pi_{\text {ref }}(y \mid x) \exp \left(\frac{1}{\beta} r_{\phi}(x, y)\right)}_{f\left(r_{\phi}, \pi_{\text {ref }}, \beta\right)}-\underbrace{\beta \log \frac{\pi_{\theta}(y \mid x)}{\pi_{\text {ref }}(y \mid x)}}_{\text {KL }}]

이는 $r_{\phi}$ 보상 클래스에 대해 DPO-equivalent reward를 사용하여 이전 연구들 [51, 40, 1, 28]에서 최적화된 것과 동일한 목표이다. 이 설정에서 우리는 $f\left(r_{\phi}, \pi_{\text {ref }}, \beta\right)$ 의 정규화 항을 참조 정책 $\pi_{\text {ref}}$ 의 soft value function으로 해석할 수 있다. 이 항은 최적 솔루션에 영향을 미치지 않지만, 이 항이 없으면 목표 함수의 policy gradient가 높은 분산을 가질 수 있어 학습을 불안정하게 만들 수 있다.
우리는 학습된 value function을 사용하여 정규화 항을 처리할 수 있지만, 이 또한 최적화하기 어려울 수 있다. 또는, 이전 연구들은 인간 완성(human completion) baseline을 사용하여 보상을 정규화했는데, 이는 본질적으로 정규화 항에 대한 단일 샘플 Monte-Carlo 추정치이다. 이와 대조적으로 DPO 재매개변수화(reparameterization)는 어떠한 baseline도 필요로 하지 않는 보상 함수를 제공한다.

Figure 2: 왼쪽: 예상 보상 대 참조 정책에 대한 KL의 경계선. DPO는 모든 KL 값에 대해 가장 높은 예상 보상을 제공하며, 이는 최적화의 품질을 보여준다. 오른쪽: GPT-4를 평가자로 사용하여 인간이 작성한 요약과 TL;DR 요약의 승률 비교. DPO는 요약에서 PPO의 최고 성능을 능가하며, 샘플링 온도 변화에 더 강건하다.

6 Experiments

이 섹션에서는 선호도(preference)로부터 직접 policy를 학습하는 DPO의 능력을 경험적으로 평가한다. 첫째, 잘 통제된 텍스트 생성 환경에서 우리는 다음과 같은 질문을 던진다: DPO는 PPO와 같은 일반적인 선호도 학습 알고리즘과 비교하여, reward를 최대화하고 reference policy와의 KL-divergence를 최소화하는 trade-off를 얼마나 효율적으로 수행하는가? 다음으로, 우리는 요약(summarization) 및 대화(dialogue)를 포함한 더 큰 모델과 더 어려운 RLHF task에서 DPO의 성능을 평가한다. 우리는 하이퍼파라미터 튜닝을 거의 하지 않고도 DPO가 PPO를 사용한 RLHF와 같은 강력한 baseline과 동등하거나 더 나은 성능을 보이며, 학습된 reward function 하에서 N개의 샘플링된 trajectory 중 최고(Best of N)를 반환하는 것과도 유사한 성능을 보인다는 것을 발견했다. 이러한 결과를 제시하기 전에 실험 설정을 설명하며, 추가적인 세부 사항은 Appendix C에 있다.

Task
우리의 실험은 세 가지 다른 open-ended 텍스트 생성 task를 탐구한다. 모든 실험에서 알고리즘은 선호도 데이터셋 $\mathcal{D}=\left\{x^{(i)}, y_{w}^{(i)}, y_{l}^{(i)}\right\}_{i-1}^{N}$ 로부터 policy를 학습한다. Controlled sentiment generation에서는 $x$ 가 IMDb 데이터셋 [24]의 영화 리뷰 접두사(prefix)이며, policy는 긍정적인 감정(sentiment)을 가진 $y$ 를 생성해야 한다. 통제된 평가를 수행하기 위해, 이 실험에서는 사전학습된 sentiment classifier를 사용하여 생성된 텍스트 쌍에 대한 선호도 쌍을 생성했으며, 이때 $p\left(\text { positive } \mid x, y_{w}\right)>p\left(\text { positive } \mid x, y_{l}\right)$ 조건을 만족한다. SFT를 위해 우리는 GPT-2-large를 IMDb 데이터셋의 train split 리뷰에 대해 수렴할 때까지 fine-tune했다 (자세한 내용은 App C.1 참조). Summarization에서는 $x$ 가 Reddit의 포럼 게시물이며, policy는 게시물의 주요 내용을 요약한 $y$ 를 생성해야 한다. 이전 연구를 따라, 우리는 Reddit TL;DR summarization 데이터셋 [43]과 Stiennon et al.이 수집한 인간 선호도 데이터를 사용한다. 우리는 인간이 작성한 포럼 게시물 요약으로 fine-tune된 SFT 모델을 사용한다. RLHF를 위해 TRLX [44] 프레임워크를 사용한다. 인간 선호도 데이터셋은 Stiennon et al.이 다른 (하지만 유사하게 학습된) SFT 모델의 샘플에서 수집했다. 마지막으로, single-turn dialogue에서는 $x$ 가 인간의 질문(query)이며, 이는 천체 물리학에 대한 질문부터 관계 조언 요청까지 다양할 수 있다. Policy는 사용자의 질문에 대해 매력적이고 유용한 응답 $y$ 를 생성해야 한다. 우리는 **Anthropic Helpful and Harmless dialogue 데이터셋 [1]**을 사용하며, 이 데이터셋은 인간과 자동화된 assistant 간의 17만 개 대화로 구성되어 있다. 각 대화 기록은 대규모 (하지만 알려지지 않은) language model이 생성한 응답 쌍과 인간이 선호하는 응답을 나타내는 선호도 레이블로 끝난다. 이 설정에서는 사전학습된 SFT 모델을 사용할 수 없으므로, 기성(off-the-shelf) language model을 선호되는 완성(preferred completion)에 대해서만 fine-tune하여 SFT 모델을 구성한다.

Evaluation
우리의 실험은 두 가지 다른 평가 접근 방식을 사용한다. 제한된 reward 최대화 목표를 최적화하는 각 알고리즘의 효율성을 분석하기 위해, controlled sentiment generation 설정에서는 각 알고리즘을 달성된 reward와 reference policy로부터의 KL-divergence frontier로 평가한다. 이 frontier는 ground-truth reward function (sentiment classifier)에 접근할 수 있기 때문에 계산 가능하다. 그러나 실제 환경에서는 ground truth reward function이 알려져 있지 않다. 따라서 우리는 baseline policy에 대한 win rate로 알고리즘을 평가하며, 요약 및 single-turn dialogue 설정에서 요약 품질 및 응답 유용성에 대한 인간 평가의 대리(proxy)로 GPT-4를 사용한다. 요약의 경우, test set의 reference summary를 baseline으로 사용한다. 대화의 경우, test 데이터셋의 선호되는 응답을 baseline으로 사용한다. 기존 연구들은 LM이 기존 metric보다 더 나은 자동 평가자일 수 있다고 제안하지만 [10], 우리는 Sec. 6.4에서 GPT-4를 평가에 사용하는 것을 정당화하기 위해 인간 연구를 수행한다. 우리는 GPT-4의 판단이 인간과 강하게 상관관계를 가지며, GPT-4와 인간의 일치도가 일반적으로 인간 annotator 간의 일치도와 유사하거나 더 높다는 것을 발견했다.

Figure 3: 왼쪽. Anthropic-HH one-step dialogue에 대해 GPT-4가 계산한 win rate; DPO는 Anthropic-HH test set에서 선택된 요약보다 성능을 향상시키는 유일한 방법이다. 오른쪽. 학습 과정 동안 다양한 sampling temperature에 대한 win rate. DPO의 데이터셋 레이블 대비 성능 향상은 다양한 sampling temperature에 대해 학습 과정 동안 상당히 안정적이다.

Methods
DPO 외에도, 우리는 인간 선호도를 따르도록 language model을 학습시키는 여러 기존 접근 방식을 평가한다. 가장 간단하게, 우리는 요약 task에서 GPT-J [45]를 사용한 zero-shot prompting과 대화 task에서 Pythia-2.8B [3]를 사용한 2-shot prompting을 탐구한다. 또한, SFT 모델과 Preferred-FT를 평가한다. Preferred-FT는 SFT 모델(controlled sentiment 및 요약) 또는 일반 LM(single-turn dialogue)에서 선택된 완성 $y_{w}$ 에 대해 supervised learning으로 fine-tune된 모델이다. 또 다른 pseudo-supervised 방법은 **Unlikelihood [46]**이며, 이는 단순히 $y_{w}$ 에 할당된 확률을 최대화하고 $y_{l}$ 에 할당된 확률을 최소화하도록 policy를 최적화한다. 우리는 'unlikelihood' 항에 **선택적 계수 $\alpha \in[0,1]$ **를 사용한다. 우리는 또한 **선호도 데이터로부터 학습된 reward function을 사용하는 PPO [39]**와 controlled sentiment 설정에서 사용 가능한 ground truth reward function으로부터 학습하는 oracle인 PPO-GT를 고려한다. 우리의 sentiment 실험에서는 두 가지 PPO-GT 구현을 사용한다: **기성(off-the-shelf) 버전 [44]**과 reward를 정규화하고 성능 향상을 위해 하이퍼파라미터를 추가로 튜닝한 수정 버전 (학습된 reward로 '일반' PPO를 실행할 때도 이러한 수정을 사용한다). 마지막으로, Best of N baseline을 고려한다. 이는 SFT 모델(또는 대화에서는 Preferred-FT)에서 N개의 응답을 샘플링하고, 선호도 데이터셋으로부터 학습된 reward function에 따라 가장 높은 점수를 받은 응답을 반환한다. 이 고성능 방법은 reward model의 품질을 PPO 최적화와 분리하지만, test 시 모든 질문에 대해 N개의 완성을 샘플링해야 하므로 중간 정도의 N에 대해서도 계산적으로 비실용적이다.

6.1 How well can DPO optimize the RLHF objective?

일반적인 RLHF 알고리즘에서 사용되는 KL-constrained reward maximization objective는 보상 탐색(exploitation of reward)과 동시에 정책이 참조 정책으로부터 너무 멀리 벗어나지 않도록 제한하는 균형을 맞춘다. 따라서 알고리즘들을 비교할 때는 달성된 보상뿐만 아니라 KL 불일치(discrepancy)도 함께 고려해야 한다. 즉, 약간 더 높은 보상을 얻더라도 훨씬 더 높은 KL을 동반한다면 반드시 바람직하다고 볼 수 없다.
Figure 2는 감성(sentiment) 설정에서 다양한 알고리즘들의 reward-KL frontier를 보여준다. 우리는 각 알고리즘에 대해 여러 번의 학습을 실행했으며, 각 실행마다 정책 보수성(policy conservativeness)에 대한 다른 하이퍼파라미터를 사용했다 (PPO의 경우 target $\mathrm{KL} \in\{3,6,9,12\}$ , unlikelihood의 경우 $\beta \in\{0.05,0.1,1,5\}, \alpha \in\{0.05,0.1,0.5,1\}$ , preferred-FT의 경우 random seed). 이 스윕(sweep)은 총 22번의 실행을 포함한다.
수렴할 때까지 100 학습 스텝마다, 우리는 각 정책을 테스트 프롬프트 세트에서 평가하여, 실제 보상 함수(true reward function) 하에서의 평균 보상과 **참조 정책 $\mathrm{KL}\left(\pi \| \pi_{\text {ref }}\right)$ 과의 평균 시퀀스 레벨 $\mathrm{KL}$ **을 계산한다.
우리는 DPO가 단연코 가장 효율적인 frontier를 생성하며, 낮은 KL을 유지하면서도 가장 높은 보상을 달성한다는 것을 발견했다. 이 결과는 여러 가지 이유로 특히 주목할 만하다.
첫째, DPO와 PPO는 동일한 objective를 최적화하지만, DPO가 훨씬 더 효율적이다. DPO의 reward/KL trade-off는 PPO를 엄격하게 지배한다.
둘째, PPO가 ground truth 보상(PPO-GT)에 접근할 수 있을 때조차도 DPO가 PPO보다 더 나은 frontier를 달성한다.

6.2 Can DPO scale to real preference datasets?

다음으로, 우리는 요약 및 단일 턴 대화 task에서 DPO의 fine-tuning 성능을 평가한다. 요약의 경우, ROUGE와 같은 자동 평가 지표는 인간 선호도와 상관관계가 낮을 수 있으며 [40], 이전 연구에서는 인간 선호도에 따라 PPO를 사용하여 LM을 fine-tuning하는 것이 더 효과적인 요약을 제공한다는 것을 발견했다. 우리는 TL;DR 요약 데이터셋의 테스트 split에서 완성된 텍스트를 샘플링하고, 테스트 세트의 참조 완성 텍스트에 대한 **평균 승률(win rate)**을 계산하여 다양한 방법을 평가한다. 모든 방법의 완성 텍스트는 0.0에서 1.0까지 다양한 온도(temperature)에서 샘플링되었으며, 승률은 Figure 2(오른쪽)에 나와 있다. DPO, PPO 및 Preferred-FT는 모두 동일한 GPT-J SFT 모델을 fine-tuning한다. 우리는 DPO가 온도 0.0에서 약 61%의 승률을 보이며, PPO의 최적 샘플링 온도 0.0에서의 57% 성능을 능가한다는 것을 발견했다. DPO는 또한 best of $N$ baseline에 비해 더 높은 최대 승률을 달성한다. 우리는 DPO의 $\beta$ 하이퍼파라미터를 의미 있게 튜닝하지 않았으므로, 이 결과는 DPO의 잠재력을 과소평가할 수 있음을 언급한다. 또한, 우리는 DPO가 PPO보다 샘플링 온도에 훨씬 더 강건하다는 것을 발견했다. PPO의 성능은 높은 온도에서 기본 GPT-J 모델 수준으로 저하될 수 있다. Preferred-FT는 SFT 모델에 비해 크게 개선되지 않는다. 우리는 또한 Section 6.4에서 DPO와 PPO를 직접적으로 인간 평가로 비교했으며, 온도 0.25에서 샘플링된 DPO 샘플이 온도 0에서 샘플링된 PPO 샘플보다 58% 더 선호되었다.

단일 턴 대화 task에서는 Anthropic HH 데이터셋 [1]의 테스트 split 중 인간-어시스턴트 상호작용이 한 단계인 하위 집합에 대해 다양한 방법을 평가한다. GPT-4 평가는 테스트 세트의 선호되는 완성 텍스트를 참조로 사용하여 다양한 방법의 승률을 계산한다. 이 task에는 표준 SFT 모델이 없으므로, 우리는 사전학습된 Pythia-2.8B로 시작하여, Preferred-FT를 사용하여 선택된 완성 텍스트에 대한 참조 모델을 학습시켜 완성 텍스트가 모델의 분포 내에 있도록 한 다음, DPO를 사용하여 학습한다. 우리는 또한 **128개의 Preferred-FT 완성 텍스트 중 최고 성능(best of 128)**과 Pythia-2.8B 기본 모델의 2-shot prompted 버전과 비교했으며, DPO가 각 방법의 최고 성능 온도에서 동등하거나 더 나은 성능을 보인다는 것을 발견했다 (이 task에서 Best of $N$ baseline이 128개 완성 텍스트에서 정체되는 것을 확인했으며, Appendix Figure 4 참조). 우리는 또한 잘 알려진 출처에서 Anthropic HH 데이터셋에 대해 PPO로 학습된 RLHF 모델을 평가했지만, 기본 Pythia-2.8B 모델보다 더 나은 성능을 제공하는 prompt 또는 샘플링 온도를 찾을 수 없었다. TL;DR 결과와 두 방법이 동일한 보상 함수를 최적화한다는 사실을 바탕으로, 우리는 Best of 128을 PPO 수준 성능의 대략적인 대리 지표로 간주한다. 전반적으로, DPO는 Anthropic HH 데이터셋에서 선호되는 완성 텍스트보다 성능을 향상시키는 유일한 계산 효율적인 방법이며, 계산 비용이 많이 드는 Best of 128 baseline과 유사하거나 더 나은 성능을 제공한다. 마지막으로, Figure 3은 DPO가 비교적 빠르게 최적 성능에 수렴한다는 것을 보여준다.

6.3 Generalization to a new input distribution

분포 변화(distribution shift) 상황에서 PPO와 DPO의 성능을 추가적으로 비교하기 위해, 우리는 Reddit TL;DR 요약 실험에서 얻은 PPO 및 DPO policy를 다른 분포인 CNN/DailyMail 데이터셋 [26]의 테스트 스플릿에 있는 뉴스 기사에 대해 평가하였다. 이때 Reddit TL;DR에서 가장 좋은 샘플링 온도(0과 0.25)를 사용하였다. 결과는 Table 1에 제시되어 있다.
우리는 Reddit TL;DR에 사용했던 것과 동일한 GPT-4 (C) prompt를 사용하되, "forum post"라는 단어를 "news article"로 대체하여, 데이터셋 내의 ground-truth 요약에 대한 GPT-4 승률(win rate)을 계산하였다.
이 새로운 분포에서도 DPO는 PPO policy를 상당한 차이로 계속해서 능가한다. 이 실험은 DPO가 PPO policy와 유사하게 잘 일반화될 수 있다는 초기 증거를 제공한다. 이는 DPO가 PPO가 사용하는 추가적인 unlabeled Reddit TL;DR prompt를 사용하지 않음에도 불구하고 나타난 결과이다.

	Win rate vs. ground truth
Alg.	Temp 0	Temp 0.25
DPO	0.36	0.31
PPO	0.26	0.23

Table 1: 분포 외(out-of-distribution) CNN/DailyMail 입력 기사에 대한 GPT-4 승률 대 ground truth 요약.

6.4 Validating GPT-4 judgments with human judgments

우리는 TL;DR 요약 실험 결과와 두 가지 다른 GPT-4 prompt를 사용하여 GPT-4 판단의 신뢰성을 검증하기 위한 인간 연구(human study)를 수행하였다.

GPT-4 (S) (simple) prompt는 단순히 "어떤 요약이 게시물의 중요한 정보를 더 잘 요약하는가"를 묻는다.
GPT-4 (C) (concise) prompt는 "어떤 요약이 더 간결한가"도 함께 묻는다. 이 prompt를 평가한 이유는 GPT-4 (S) prompt를 사용했을 때 GPT-4가 인간보다 더 길고 반복적인 요약을 선호한다는 것을 발견했기 때문이다.

전체 prompt는 Appendix C.2를 참조하라.
우리는 다양한 샘플 품질을 포괄하기 위해 가장 높은 성능(DPO, temp. 0.25), 가장 낮은 성능(PPO, temp. 1.0), 그리고 중간 성능(SFT, temp. 0.25)을 보이는 세 가지 방법을 사용하여 비교를 수행하였다. 이 세 가지 방법은 모두 **greedy-sampled PPO (가장 좋은 성능을 보이는 temperature)**와 비교되었다.
우리는 두 가지 prompt 모두에서 GPT-4가 인간과 동의하는 빈도가 인간끼리 동의하는 빈도와 거의 비슷하다는 것을 발견했으며, 이는 GPT-4가 인간 평가의 합리적인 대리자(proxy)가 될 수 있음을 시사한다 (인간 평가자의 수가 제한적이어서, DPO와 PPO-1 비교에 대해서만 여러 인간 판단을 수집하였다).
전반적으로 GPT-4 (C) prompt가 인간의 판단을 더 잘 대표하는 win rate를 제공하는 경향이 있었으므로, Section 6.2의 주요 결과에서는 이 prompt를 사용하였다.
인간 연구에 대한 추가 세부 정보(평가자에게 제시된 웹 인터페이스 및 인간 자원봉사자 목록 포함)는 Appendix D.3을 참조하라.

	DPO	SFT	PPO-1
N respondents	272	122	199
GPT-4 (S) win %	47	27	13
GPT-4 (C) win %	54	32	12
Human win %	58	43	17
GPT-4 (S)-H agree	70	77	86
GPT-4 (C)-H agree	67	79	85
H-H agree	65	-	87

Table 2: TL;DR 요약 샘플에 대한 인간과 GPT-4의 win rate 및 판단별 일치도 비교.
인간은 GPT-4와 인간끼리 동의하는 만큼 자주 동의한다. 각 실험은 명시된 방법의 요약과 temperature 0의 PPO 요약을 비교한다.

7 Discussion

선호도 학습(learning from preferences)은 유능하고 정렬된(aligned) language model을 훈련하기 위한 강력하고 확장 가능한 프레임워크이다. 우리는 강화 학습 없이 선호도(preferences)로부터 language model을 훈련하기 위한 간단한 훈련 패러다임인 DPO를 소개했다. DPO는 기성 강화 학습 알고리즘을 사용하기 위해 선호도 학습 문제를 표준 RL 설정으로 강제 변환하는 대신, language model 정책과 보상 함수 간의 매핑을 식별하여 강화 학습이나 일반성 손실 없이 간단한 cross-entropy loss를 통해 인간의 선호도를 직접 만족시키도록 language model을 훈련할 수 있게 한다. 하이퍼파라미터 튜닝이 거의 필요 없이, DPO는 PPO 기반 알고리즘을 포함한 기존 RLHF 알고리즘과 유사하거나 더 나은 성능을 보인다. 따라서 DPO는 인간의 선호도로부터 더 많은 language model을 훈련하는 데 대한 장벽을 의미 있게 낮춘다.

한계점 및 향후 연구 (Limitations & Future Work)
우리의 결과는 향후 연구를 위한 몇 가지 중요한 질문을 제기한다. DPO 정책은 명시적인 보상 함수로부터 학습하는 것과 비교하여 분포 외(out of distribution) 상황에서 어떻게 일반화되는가? 우리의 초기 결과는 DPO 정책이 PPO 기반 모델과 유사하게 일반화될 수 있음을 시사하지만, 더 포괄적인 연구가 필요하다. 예를 들어, DPO 정책으로부터 self-labeling을 통한 훈련이 unlabeled prompt를 효과적으로 활용할 수 있는가?
또 다른 측면에서, reward over-optimization은 직접 선호도 최적화(direct preference optimization) 설정에서 어떻게 나타나며, Figure 3 오른쪽의 약간의 성능 저하가 그 사례인가?
또한, 우리는 최대 6B 파라미터 모델을 평가했지만, DPO를 훨씬 더 큰 규모의 state-of-the-art 모델로 확장하는 것은 향후 연구를 위한 흥미로운 방향이다.
평가와 관련하여, 우리는 GPT-4가 계산한 승률(win rates)이 prompt에 의해 영향을 받는다는 것을 발견했다. 향후 연구에서는 자동화된 시스템으로부터 고품질 판단을 이끌어내는 최선의 방법을 연구할 수 있다.
마지막으로, DPO의 가능한 응용 분야는 인간의 선호도로부터 language model을 훈련하는 것을 넘어 다른 양식(modalities)의 생성 모델 훈련을 포함하여 다양하게 존재한다.

Acknowledgements

EM은 Knight-Hennessy Graduate Fellowship의 지원에 감사드립니다. CF와 CM은 CIFAR Fellow입니다. 본 연구는 Stanford Accelerator for Learning (SAL) 및 Stanford Institute for Human-Centered Artificial Intelligence (HAI) Generative AI for the Future of Learning seed grant 프로그램의 부분적인 지원을 받았습니다. Stanford Center for Research on Foundation Models (CRFM)은 본 연구의 실험에 사용된 컴퓨팅 자원의 일부를 제공했습니다. 본 연구는 ONR grant N00014-20-1-2675의 부분적인 지원을 받았습니다.

Author Contributions

모든 저자는 실험 설계, 분석 및 반복, 논문 작성 및 편집, 그리고 전반적인 프로젝트 진행 관리에 귀중한 기여를 하였다.

RR은 EM과의 논의에서 autoregressive reward model 사용을 제안했으며, DPO objective를 도출하고, 알고리즘의 이론적 특성을 증명하고 관련 섹션 및 부록을 작성했다. 또한 실험 구성에 대한 아이디어를 제안하고 도움을 주었으며, 일부 PPO 및 reward learning baseline에 기여했다.

AS는 PPO의 대안으로 weighted regression method 사용에 대한 논의를 시작했으며, 프로젝트 관련 조직을 주도하고, DPO와 weighted regression 및 unlikelihood를 연결하는 초기 분석을 작성했다. 또한 DPO 및 baseline 구현의 설계 및 반복, DPO의 초기 탐색 실험, 상당한 실험 조직 및 설계(데이터셋, baseline, 평가)를 담당했다. controlled sentiment generation 및 summarization을 위한 모델 학습 및 평가를 주도했으며, **GPT-4 평가(특히 summarization)**를 위한 설계 반복을 수행했다. 초록, 서론/방법론 및 실험 섹션에 상당한 작성 기여를 했으며, 다른 섹션의 편집에도 기여했다.

EM은 autoregressive reward function 학습에 대한 초기 논의에 의견을 제시했으며, DPO의 첫 구현을 작성하고 첫 DPO 실험을 실행했다. 논문 실험에 사용된 대규모(summarization 및 dialogue) DPO 모델을 학습시켰고, 초기 GPT-4 win rate 평가를 수행하고 관련 인프라를 구축했다. 인간 연구를 위한 참가자를 모집하고, 연구를 수행하고, 결과를 분석했으며, 초록, 서론, 관련 연구, 논의 및 대부분의 실험 섹션을 작성했고, 논문의 나머지 부분을 편집하는 데 도움을 주었다.

CF, CM, & SE는 연구를 감독하고, 아이디어와 실험을 제안했으며, 논문 작성에 도움을 주었다.

A Mathematical Derivations

A. 1 Deriving the Optimum of the KL-Constrained Reward Maximization Objective

이 Appendix에서는 Eq. 4를 유도할 것이다. Eq. 3과 유사하게, 우리는 다음 목적 함수를 최적화한다:

\max _{\pi} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi}[r(x, y)]-\beta \mathbb{D}_{\mathrm{KL}}\left[\pi(y \mid x) \| \pi_{\mathrm{ref}}(y \mid x)\right]

이는 임의의 보상 함수 $r(x, y)$ , 참조 모델 $\pi_{\text {ref }}$ , 그리고 일반적인 비모수 정책 클래스(non-parametric policy class) 하에서 이루어진다. 이제 다음을 얻는다:

\begin{aligned} \max _{\pi} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi} & {[r(x, y)]-\beta \mathbb{D}_{\mathrm{KL}}\left[\pi(y \mid x) \| \pi_{\mathrm{ref}}(y \mid x)\right] } \\ & =\max _{\pi} \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y \mid x)}\left[r(x, y)-\beta \log \frac{\pi(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}\right] \\ & =\min _{\pi} \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y \mid x)}\left[\log \frac{\pi(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}-\frac{1}{\beta} r(x, y)\right] \\ & =\min _{\pi} \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y \mid x)}\left[\log \frac{\pi(y \mid x)}{\frac{1}{Z(x)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)}-\log Z(x)\right] \end{aligned}

여기서 partition function은 다음과 같다:

Z(x)=\sum_{y} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)

partition function은 $x$ 와 참조 정책 $\pi_{\text {ref }}$ 에만 의존하며, 정책 $\pi$ 에는 의존하지 않는다는 점에 유의하라. 이제 다음을 정의할 수 있다:

\pi^{*}(y \mid x)=\frac{1}{Z(x)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)

이는 모든 $y$ 에 대해 $\pi^{*}(y \mid x) \geq 0$ 이고 $\sum_{y} \pi^{*}(y \mid x)=1$ 이므로 유효한 확률 분포이다. $Z(x)$ 는 $y$ 의 함수가 아니므로, Eq 12의 최종 목적 함수를 다음과 같이 재구성할 수 있다:

\begin{aligned} \min _{\pi} & \mathbb{E}_{x \sim \mathcal{D}}\left[\mathbb{E}_{y \sim \pi(y \mid x)}\left[\log \frac{\pi(y \mid x)}{\pi^{*}(y \mid x)}\right]-\log Z(x)\right]= \\ & \min _{\pi} \mathbb{E}_{x \sim \mathcal{D}}\left[\mathbb{D}_{\mathrm{KL}}\left(\pi(y \mid x) \| \pi^{*}(y \mid x)\right)-\log Z(x)\right] \end{aligned}

이제 $Z(x)$ 는 $\pi$ 에 의존하지 않으므로, 최소값은 첫 번째 KL 항을 최소화하는 정책에 의해 달성된다. Gibbs' inequality에 따르면, KL-divergence는 두 분포가 동일할 때만 0으로 최소화된다. 따라서 우리는 최적의 해를 얻는다:

\pi(y \mid x)=\pi^{*}(y \mid x)=\frac{1}{Z(x)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)

모든 $x \in \mathcal{D}$ 에 대해 위 식이 성립한다. 이것으로 유도를 마친다.

A. 2 Deriving the DPO Objective Under the Bradley-Terry Model

Bradley-Terry 선호 모델 하에서 DPO objective를 도출하는 것은 다음과 같이 간단하다:

p^{*}\left(y_{1} \succ y_{2} \mid x\right)=\frac{\exp \left(r^{*}\left(x, y_{1}\right)\right)}{\exp \left(r^{*}\left(x, y_{1}\right)\right)+\exp \left(r^{*}\left(x, y_{2}\right)\right)}

Section 4에서 우리는 (사용 불가능한) ground-truth reward를 해당 최적 policy를 통해 표현할 수 있음을 보였다:

r^{*}(x, y)=\beta \log \frac{\pi^{*}(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}+\beta \log Z(x)

Eq. 17을 Eq. 16에 대입하면 다음을 얻는다:

\begin{aligned} p^{*}\left(y_{1} \succ y_{2} \mid x\right) & =\frac{\exp \left(\beta \log \frac{\pi^{*}\left(y_{1} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{1} \mid x\right)}+\beta \log Z(x)\right)}{\exp \left(\beta \log \frac{\pi^{*}\left(y_{1} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{1} \mid x\right)}+\beta \log Z(x)\right)+\exp \left(\beta \log \frac{\pi^{*}\left(y_{2} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{2} \mid x\right)}+\beta \log Z(x)\right)} \\ & =\frac{1}{1+\exp \left(\beta \log \frac{\pi^{*}\left(y_{2} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{2} \mid x\right)}-\beta \log \frac{\pi^{*}\left(y_{1} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{1} \mid x\right)}\right)} \\ & =\sigma\left(\beta \log \frac{\pi^{*}\left(y_{1} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{1} \mid x\right)}-\beta \log \frac{\pi^{*}\left(y_{2} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{2} \mid x\right)}\right) . \end{aligned}

마지막 줄은 Equation 7의 per-instance loss이다.

A. 3 Deriving the DPO Objective Under the Plackett-Luce Model

Plackett-Luce 모델 [32, 23]은 Bradley-Terry 모델을 랭킹(쌍대 비교가 아닌)으로 일반화한 모델이다. Bradley-Terry 모델과 유사하게, Plackett-Luce 모델은 주어진 선택지 집합에서 사람들이 특정 선택지를 선호할 확률이 해당 선택지에 대한 잠재적 보상 함수 값에 비례한다고 가정한다.
우리의 맥락에서, prompt $x$ 와 $K$ 개의 답변 $y_1, \ldots, y_K$ 가 주어졌을 때, 사용자는 답변들의 랭킹을 나타내는 순열 $\tau:[K] \rightarrow [K]$ 을 출력할 것이다. Plackett-Luce 모델은 다음과 같이 정의된다:

p^{*}\left(\tau \mid y_{1}, \ldots, y_{K}, x\right)=\prod_{k=1}^{K} \frac{\exp \left(r^{*}\left(x, y_{\tau(k)}\right)\right)}{\sum_{j=k}^{K} \exp \left(r^{*}\left(x, y_{\tau(j)}\right)\right)}

$K=2$ 일 때, Equation 18은 Bradley-Terry 모델로 축소된다는 점에 주목하라. 그러나 일반적인 Plackett-Luce 모델의 경우에도, 우리는 Eq. 5의 결과를 활용하여 보상 함수를 최적 정책으로 매개변수화할 수 있다. Appendix A.2와 유사하게, 정규화 상수 $Z(x)$ 는 상쇄되고 다음 식이 남는다:

p^{*}\left(\tau \mid y_{1}, \ldots, y_{K}, x\right)=\prod_{k=1}^{K} \frac{\exp \left(\beta \log \frac{\pi^{*}\left(y_{\tau(k)} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{\tau(k)} \mid x\right)}\right)}{\sum_{j=k}^{K} \exp \left(\beta \log \frac{\pi^{*}\left(y_{\tau(j)} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{\tau(j)} \mid x\right)}\right)}

Section 4의 접근 방식과 유사하게, prompt와 사용자가 지정한 랭킹으로 구성된 데이터셋 $\mathcal{D}= \left\{\tau^{(i)}, y_{1}^{(i)}, \ldots, y_{K}^{(i)}, x^{(i)}\right\}_{i=1}^{N}$ 에 접근할 수 있다면, 우리는 매개변수화된 모델을 사용하여 최대 우도(maximum-likelihood) 방식으로 이 목적 함수를 최적화할 수 있다:

\mathcal{L}_{\mathrm{DPO}}\left(\pi_{\theta}, \pi_{\mathrm{ref}}\right)=-\mathbb{E}_{\tau, y_{1}, \ldots, y_{K}, x \sim \mathcal{D}}\left[\log \prod_{k=1}^{K} \frac{\exp \left(\beta \log \frac{\pi_{\theta}\left(y_{\tau(k)} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{\tau(k)} \mid x\right)}\right)}{\sum_{j=k}^{K} \exp \left(\beta \log \frac{\pi_{\theta}\left(y_{\tau(j)} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{\tau(j)} \mid x\right)}\right)}\right]

A. 4 Deriving the Gradient of the DPO Objective

이 섹션에서는 DPO objective의 gradient를 유도한다:

\nabla_{\theta} \mathcal{L}_{\mathrm{DPO}}\left(\pi_{\theta} ; \pi_{\mathrm{ref}}\right)=-\nabla_{\theta} \mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\pi_{\theta}\left(y_{l} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{l} \mid x\right)}-\beta \log \frac{\pi_{\theta}\left(y_{w} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{w} \mid x\right)}\right)\right]

Equation 21의 우변(RHS)을 다음과 같이 다시 쓸 수 있다:

\nabla_{\theta} \mathcal{L}_{\mathrm{DPO}}\left(\pi_{\theta} ; \pi_{\mathrm{ref}}\right)=-\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\frac{\sigma^{\prime}(u)}{\sigma(u)} \nabla_{\theta}(u)\right]

여기서 $u=\beta \log \frac{\pi_{\theta}\left(y_{l} \mid x\right)}{\pi_{\text {ref }}\left(y_{l} \mid x\right)}-\beta \log \frac{\pi_{\theta}\left(y_{w} \mid x\right)}{\pi_{\text {ref }}\left(y_{w} \mid x\right)}$ 이다. sigmoid 함수의 속성인 $\sigma^{\prime}(x)=\sigma(x)(1-\sigma(x))$ 와 $\sigma(-x)=1-\sigma(x)$ 를 사용하면 최종 gradient를 얻을 수 있다:

\begin{aligned} & \quad \nabla_{\theta} \mathcal{L}_{\mathrm{DPO}}\left(\pi_{\theta} ; \pi_{\mathrm{ref}}\right)= \\ & -\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\beta \sigma\left(\beta \log \frac{\pi_{\theta}\left(y_{w} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{w} \mid x\right)}-\beta \log \frac{\pi_{\theta}\left(y_{l} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{l} \mid x\right)}\right)\left[\nabla_{\theta} \log \pi\left(y_{w} \mid x\right)-\nabla_{\theta} \log \pi\left(y_{l} \mid x\right)\right]\right] \end{aligned}

$\hat{r}_{\theta}(x, y)=\beta \log \frac{\pi_{\theta}(y \mid x)}{\pi_{\text {ref }}(y \mid x)}$ 라는 reward substitution을 사용하면 Section 4에서 제시된 gradient의 최종 형태를 얻을 수 있다.

A. 5 Proof of Lemma 1 and 2

이 섹션에서는 Section 5의 두 가지 보조정리(lemma)를 증명한다.

보조정리 1 (재진술)
Plackett-Luce 선호도 프레임워크, 특히 Bradley-Terry 프레임워크에서, 동일한 동치류(equivalence class)에 속하는 두 reward function은 동일한 선호도 분포를 유도한다.

증명.
두 reward function $r(x, y)$ 와 $r^{\prime}(x, y)$ 가 동일한 동치류에 속한다는 것은 어떤 함수 $f$ 에 대해 $r^{\prime}(x, y) = r(x, y) + f(x)$ 가 성립함을 의미한다. 우리는 일반적인 Plackett-Luce 모델(Bradley-Terry 모델은 $K=2$ 인 특수한 경우)을 고려하며, 특정 reward function $r(x, y)$ 에 의해 유도되는 랭킹(ranking)에 대한 확률 분포를 $p_r$ 로 나타낸다. 임의의 prompt $x$ , 답변 $y_1, \ldots, y_K$ , 그리고 랭킹 $\tau$ 에 대해 다음이 성립한다:

\begin{aligned} p_{r^{\prime}}\left(\tau \mid y_{1}, \ldots, y_{K}, x\right) & =\prod_{k=1}^{K} \frac{\exp \left(r^{\prime}\left(x, y_{\tau(k)}\right)\right)}{\sum_{j=k}^{K} \exp \left(r^{\prime}\left(x, y_{\tau(j)}\right)\right)} \\ & =\prod_{k=1}^{K} \frac{\exp \left(r\left(x, y_{\tau(k)}\right)+f(x)\right)}{\sum_{j=k}^{K} \exp \left(r\left(x, y_{\tau(j)}\right)+f(x)\right)} \\ & =\prod_{k=1}^{K} \frac{\exp (f(x)) \exp \left(r\left(x, y_{\tau(k)}\right)\right)}{\exp (f(x)) \sum_{j=k}^{K} \exp \left(r\left(x, y_{\tau(j)}\right)\right)} \\ & =\prod_{k=1}^{K} \frac{\exp \left(r\left(x, y_{\tau(k)}\right)\right)}{\sum_{j=k}^{K} \exp \left(r\left(x, y_{\tau(j)}\right)\right)} \\ & =p_{r}\left(\tau \mid y_{1}, \ldots, y_{K}, x\right) \end{aligned}

이로써 증명이 완료된다.

보조정리 2 (재진술)
동일한 동치류에 속하는 두 reward function은 제약된 RL 문제(constrained RL problem) 하에서 동일한 최적 정책(optimal policy)을 유도한다.

증명.
동일한 동치류에 속하는 두 reward function $r^{\prime}(x, y) = r(x, y) + f(x)$ 를 고려하고, 이에 해당하는 최적 정책을 각각 $\pi_r$ 과 $\pi_{r^{\prime}}$ 로 나타내자. Eq. 4에 따라, 모든 $x, y$ 에 대해 다음이 성립한다:

\begin{aligned} \pi_{r^{\prime}}(y \mid x) & =\frac{1}{\sum_{y} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r^{\prime}(x, y)\right)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r^{\prime}(x, y)\right) \\ & =\frac{1}{\sum_{y} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta}(r(x, y)+f(x))\right)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta}(r(x, y)+f(x))\right) \\ & =\frac{1}{\exp \left(\frac{1}{\beta} f(x)\right) \sum_{y} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right) \exp \left(\frac{1}{\beta} f(x)\right) \\ & =\frac{1}{\sum_{y} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right) \\ & =\pi_{r}(y \mid x) \end{aligned}

이로써 증명이 완료된다.

A. 6 Proof of Theorem 1

이 섹션에서는 Theorem 1의 결과에 대해 더 자세히 설명한다.

Theorem 1 재진술 (Restated). 모든 prompt $x$ 와 answer $y$ 쌍에 대해 $\pi_{\text {ref}}(y \mid x)>0$ 인 reference model과 파라미터 $\beta>0$ 가 있다고 가정한다. Section 5에서 정의된 모든 reward equivalence class는 특정 모델 $\pi(y \mid x)$ 에 대해 $r(x, y)=\beta \log \frac{\pi(y \mid x)}{\pi_{\text {ref}}(y \mid x)}$ 로 재매개변수화(reparameterization)하여 표현될 수 있다.

증명 (Proof). KL-constrained RL 문제에서 최적 모델 $\pi_r(y \mid x)$ 를 유도하는 임의의 reward function $r(x, y)$ 를 고려한다. 이 문제의 해는 Equation 4에 의해 주어진다. Equation 5를 따라 양변에 로그-선형화(log-linearize)를 적용하면 다음을 얻는다:

r(x, y)=\beta \log \frac{\pi_{r}(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}+\beta \log Z(x)

여기서 $Z(x)=\sum_{y} \pi_{\text {ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)$ 이다 ( $Z(x)$ 는 reward function $r$ 에도 의존한다는 점에 유의). 연산자 $r^{\prime}(x, y)=f\left(r, \pi_{\text {ref}}, \beta\right)(x, y)=r(x, y)-\beta \log Z(x)$ 를 사용하면, 이 새로운 reward function이 $r$ 의 동치류(equivalence class) 내에 있음을 알 수 있으며, 다음이 성립한다:

r^{\prime}(x, y)=\beta \log \frac{\pi_{r}(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}

이로써 증명이 완료된다.

이러한 결과들을 더 확장할 수 있다. 만약 $r$ 과 $r^{\prime}$ 이 같은 클래스에 속하는 두 reward function이라면, 다음이 성립함을 알 수 있다:

f\left(r, \pi_{\mathrm{ref}}, \beta\right)(x, y)=\beta \log \frac{\pi_{r}(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}=\beta \log \frac{\pi_{r}^{\prime}(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}=f\left(r^{\prime}, \pi_{\mathrm{ref}}, \beta\right)(x, y)

여기서 두 번째 등식은 Lemma 2로부터 도출된다. 우리는 연산자 $f$ 가 특정 동치류에 속하는 모든 reward function을 동일한 reward function으로 매핑한다는 것을 증명했다. 다음으로, 모든 reward function의 동치류에 대해 Theorem 1에 명시된 재매개변수화를 갖는 reward function이 유일하다는 것을 보인다.

Proposition 1. 모든 prompt $x$ 와 answer $y$ 쌍에 대해 $\pi_{\text {ref}}(y \mid x)>0$ 인 reference model과 파라미터 $\beta>0$ 가 있다고 가정한다. 그러면 Section 5에서 정의된 모든 reward function의 동치류는 특정 모델 $\pi(y \mid x)$ 에 대해 $r(x, y)=\beta \log \frac{\pi(y \mid x)}{\pi_{\text {ref}}(y \mid x)}$ 로 재매개변수화될 수 있는 유일한 reward function $r(x, y)$ 를 가진다.

증명 (Proof). 귀류법(proof by contradiction)을 사용하여 증명한다. 같은 클래스에 속하는 두 reward function $r^{\prime}(x, y)=r(x, y)+f(x)$ 가 있다고 가정한다. 또한, 특정 모델 $\pi^{\prime}(y \mid x)$ 에 대해 $r^{\prime}(x, y)=\beta \log \frac{\pi^{\prime}(y \mid x)}{\pi_{\text {ref}}(y \mid x)}$ 이고, 특정 모델 $\pi(y \mid x)$ 에 대해 $r(x, y)=\beta \log \frac{\pi(y \mid x)}{\pi_{\text {ref}}(y \mid x)}$ 이며, $\pi \neq \pi^{\prime}$ 이라고 가정한다. 그러면 모든 prompt $x$ 와 completion $y$ 에 대해 다음이 성립한다: $r^{\prime}(x, y)=r(x, y)+f(x)=\beta \log \frac{\pi(y \mid x)}{\pi_{\text {ref}}(y \mid x)}+f(x)=\beta \log \frac{\pi(y \mid x) \exp \left(\frac{1}{\beta} f(x)\right)}{\pi_{\text {ref}}(y \mid x)}=\beta \log \frac{\pi^{\prime}(y \mid x)}{\pi_{\text {ref}}(y \mid x)}$ 따라서 $\pi(y \mid x) \exp \left(\frac{1}{\beta} f(x)\right)=\pi^{\prime}(y \mid x)$ 여야 한다. 이들이 확률 분포이므로, 양변을 $y$ 에 대해 합하면 $\exp \left(\frac{1}{\beta} f(x)\right)=1$ 을 얻고, $\beta>0$ 이므로 모든 $x$ 에 대해 $f(x)=0$ 이어야 한다. 그러므로 $r(x, y)=r^{\prime}(x, y)$ 이다. 이로써 증명이 완료된다.

이제 우리는 모든 reward 클래스가 Theorem 1에 명시된 대로 표현될 수 있는 유일한 reward function을 가지며, 이는 해당 클래스 내의 임의의 reward function에 대해 $f\left(r, \pi_{\text {ref}}, \beta\right)$ 로 주어진다는 것을 보였다.

B DPO Implementation Details and Hyperparameters

DPO는 구현이 비교적 간단하다. DPO loss에 대한 PyTorch 코드는 다음과 같다:

import torch.nn.functional as F
def dpo_loss(pi_logps, ref_logps, yw_idxs, yl_idxs, beta):
    """
    pi_logps: policy logprobs, shape (B,)
    ref_logps: reference model logprobs, shape (B,)
    yw_idxs: preferred completion indices in [0, B-1], shape (T,)
    yl_idxs: dispreferred completion indices in [0, B-1], shape (T,)
    beta: temperature controlling strength of KL penalty
    Each pair of (yw_idxs[i], yl_idxs[i]) represents the
        indices of a single preference pair.
    """
    pi_yw_logps, pi_yl_logps = pi_logps[yw_idxs], pi_logps[yl_idxs]
    ref_yw_logps, ref_yl_logps = ref_logps[yw_idxs], ref_logps[yl_idxs]
    pi_logratios = pi_yw_logps - pi_yl_logps
    ref_logratios = ref_yw_logps - ref_yl_logps
    losses = -F.logsigmoid(beta * (pi_logratios - ref_logratios))
    rewards = beta * (pi_logps - ref_logps).detach()
    return losses, rewards

별도로 명시되지 않는 한, 우리는 기본적으로 $\beta=0.1$ , batch size 64, 그리고 learning rate $1 \mathrm{e}-6$ 의 RMSprop optimizer를 사용한다. learning rate는 150 스텝에 걸쳐 0에서 $1 \mathrm{e}-6$ 까지 선형적으로 warmup한다. TL;DR 요약의 경우 $\beta=0.5$ 를 사용하며, 나머지 파라미터는 동일하게 유지한다.

C Further Details on the Experimental Set-Up

이 섹션에서는 실험 설계와 관련된 추가적인 세부 정보를 포함한다.

C. 1 IMDb Sentiment Experiment and Baseline Details

Prompt는 IMDB 데이터셋에서 가져온 2~8 토큰 길이의 prefix이다. 우리는 사전학습된 감성 분류기인 siebert/sentiment-roberta-large-english를 ground-truth reward model로 사용하고, gpt2-large를 base model로 사용한다. 기본 모델들이 낮은 품질의 텍스트를 생성하고 reward가 다소 부정확하다고 판단하여 이러한 더 큰 모델들을 사용하였다.
먼저 IMDB 데이터의 subset에 대해 1 epoch 동안 supervised fine-tuning을 수행한다. 그런 다음 이 모델을 사용하여 25,000개의 prefix에 대해 4개의 completion을 샘플링하고, ground-truth reward model을 사용하여 각 prefix에 대해 6개의 preference pair를 생성한다. RLHF reward model은 gpt2-large 모델로 초기화되며, preference dataset에 대해 3 epoch 동안 학습되고, 가장 높은 validation set accuracy를 보인 checkpoint를 선택한다.
"TRL" 실행은 TRL 라이브러리의 하이퍼파라미터를 사용한다. 우리의 구현은 PPO step당 1024개의 더 큰 batch sample을 사용한다.

C. 2 GPT-4 prompts for computing summarization and dialogue win rates

실험 설정의 핵심 구성 요소는 GPT-4의 승률(win rate) 판단이다. 이 섹션에서는 요약 및 대화 실험에서 승률을 생성하는 데 사용된 prompt를 포함한다. 모든 실험에 gpt-4-0314를 사용한다. 요약 또는 응답의 순서는 모든 평가에서 무작위로 선택된다.

Summarization GPT-4 win rate prompt (S).

다음 요약 중 주어진 포럼 게시물의 가장 중요한 요점을 더 잘 요약한 것은 무엇입니까?

게시물:

<post>
Summary A:
<Summary A>
Summary B:
<Summary B>
FIRST provide a one-sentence comparison of the two summaries, explaining which \
you prefer and why. SECOND, on a new line, state only "A" or "B" to indicate your \
choice. Your response should use the format:
Comparison: <한 문장으로 요약 두 개를 비교하고 선호하는 이유 설명>
Preferred: <"A" 또는 "B">

Summarization GPT-4 win rate prompt (C).

Comparison: 주어진 포럼 게시물의 가장 중요한 요점을 불필요하거나 관련 없는 세부 정보 없이 요약하는 데 있어, Summary A가 Summary B보다 더 나은 요약을 제공한다.
Preferred: A

Dialogue GPT-4 win rate prompt.

챗봇에 대한 다음 쿼리에 대해 어떤 응답이 더 유용한가요?

Query: <사용자 쿼리>

Response A: <테스트 방법 또는 기준선>

Response B: <다른 응답>

먼저 두 응답을 한 문장으로 비교하고, 어떤 응답이 더 유용하다고 생각하는지 설명하십시오. 둘째, 새 줄에 "A" 또는 "B"만 기재하여 어떤 응답이 더 유용한지 표시하십시오. 응답은 다음 형식을 사용해야 합니다: Comparison: <한 문장 비교 및 설명> More helpful: <"A" 또는 "B">

C. 3 Unlikelihood baseline

우리는 감성 분석 실험에서 unlikelihood baseline [46] (선호하는 응답의 로그 확률 $\log p\left(y_{w} \mid x\right)$ 을 최대화하고, 비선호하는 응답의 로그 확률 $\log p\left(y_{l} \mid x\right)$ 을 최소화하는 방식)을 포함했지만, 요약이나 대화 실험에서는 이를 baseline으로 포함하지 않았다. 그 이유는 unlikelihood가 일반적으로 의미 없는 응답을 생성하기 때문인데, 이는 제한 없는 likelihood 최소화의 결과라고 생각한다.

Prompt	Response
SUBREDDIT: r/relationships	girl when when when when when when when
TITLE: The girl [26 F] I [22 M] have been	when when when when when when when when
seeing for a month didn't respond to me at all	when when when when when when when when
yesterday while hanging out with a friend [ 30 ?	when when when when when when when when
M].	when when when when when when when when
POST: She gets terrible service while at her	when when when when when when when when
house, but I texted her 3 times yesterday, 4-5	when when when when when when when when
hours apart. She didn't call me until early this	when when when when when when when when
morning and left a voicemail that she was busy	when when when when when when when when
all day with a friend who showed up out of the	when when when when when when when when
blue.	when when when when when when when when
I saw that she posted a picture of the two of	when when when when when when when when
them out of her dead zone house on facebook	when when when when when when when when
before I texted her the last time.	when when when when when when when when
I don't mind that she hangs out with friends,	when when when whenUB when when when
SUBREDDIT: r/tifu	when an old woman was tripping the when
TITLE: TIFU by accidently kicking an old	when when when when when when when when
woman	when when when when when when when when
POST: So this didn't happen today but actually	when when when when when when when when
about a year or two ago.	when when when when when when when when
I was at my granddads funeral so of course it	when when when when when when when when
was all very sad and full of lots of crying old	when when when when when when when when
people. After the ceremony everyone walks	when when when when when when when when
outside the building and onto the other side of	when when when when when when when when
the small road the hearses drive down. Now the	when when when when when when when when
road is important because obviously if there's a	when when when when when when when when
road, there's a curb onto the sidewalk, so most	when when when when when when when when
of us are on the other side of the road, besides	when when when when when when when when
a few older people walking a lot slower.	when when when when when when when when
As one of the old woman goes to walk up the	when when when when when when when when

Table 3: TL;DR prompt에서 temperature 1.0으로 샘플링된 Unlikelihood 샘플. 일반적으로 Unlikelihood는 요약 및 대화와 같은 복잡한 문제에 대해 의미 있는 응답을 생성하지 못함을 확인했다.

D Additional Empirical Results

D. 1 Performance of Best of $\boldsymbol{N}$ baseline for Various $\boldsymbol{N}$

우리는 Best of $N$ baseline이 우리 실험에서 강력한(비록 계산 비용이 많이 들고 여러 번 샘플링해야 하지만) baseline임을 확인했다. 우리는 Anthropic-HH dialogue와 TL;DR 요약에 대해 다양한 $N$ 값에 대한 Best of $N$ baseline 평가를 포함했으며, 그 결과는 Figure 4에 나와 있다.

D. 2 Sample Responses and GPT-4 Judgments

이 섹션에서는 DPO와 baseline (요약의 경우 PPO temp 0, 대화의 경우 ground truth 선택 응답) 간의 비교 예시를 제시한다. 요약 예시는 Table 4-6을, 대화 예시는 Table 7-10을 참조하라.

Figure 4: Best of $N$ baseline for $N=\{1,4,16,64,128\}$ . 성능은 대략 64-128개의 샘플 이후 정체된다.

Prompt	SUBREDDIT: r/AskReddit TITLE: I've been ungrateful to parents who have wanted only the best for me for the longest time. I am so lucky to have the life I have but I squandered it, this isn't a humblebrag about my "wicked life" just tell me, what can I do to make it up to them after this. POST: I'm 17, leaving for University, and I've had epiphany after epiphany of how shitty i've beent to them, or how all the nice things they do I ruin with moods etc., I know there isn't a quick fix, but I want to do something nice. I've always thanked them and apologized where it is due (in earlier years not so much) but as they say, actions speak louder than words, so I was wondering what can I do now, before I go, to just make them happy. What can I keep doing, I know all the little things, doing chores, keeping my room clean, cleaning up after myself, helping around the house, but what's a big thing, for say christmas, or their birthdays, that I can do to make them happy?
DPO	TL;DR: I've been a shitty child and I want to make up for it, what can I do for my parents on their birthdays and christmas to show them how much I love them?
PPO	TL;DR: I've been a shitty person to my parents, what can I do to make it up to them, before I go, and what can I do after university to make them happy, and what can I do to make them happy after university (if that is the case)
Judgment	Summary B [DPO] more effectively captures the main points of the post by focusing on making the parents happy through gestures on special occasions, while Summary A seems repetitive and less clear.

Table 4: TL;DR test set 게시물에 대한 요약 샘플. DPO 샘플은 temperature 0.25로, PPO 샘플은 temperature 0으로 생성되었다. GPT-4로 평가할 때 요약의 제시 순서는 무작위화되므로, Judgment의 순서가 테이블의 순서와 일치하지 않을 수 있다. 명확성을 위해, 후처리 주석은 굵게 [annotation] 형식으로 포함되었다. 이 주석은 모델 생성의 일부가 아니다.

Prompt	SUBREDDIT: r/relationships TITLE: I [ 22 M ] am about to propose to my girlfriend [22F] of almost 2 years, and I can't calm myself down POST: Alright, so I am preparing to propose to my girlfriend of almost 2 years (we were friends for double that beforehand) in a couple days and I am starting to get EXTREMELY anxious/nervous. We have talked about this for months, and I know she will say yes, but I can't seem to relax. <br> The other day I bought the ring, which I fell in love with myself and know she will too. And then two days ago, I asked her dad's blessing. Everything has gone great so far, but now leading up to it I can't think about anything else. I can't sleep. I am anxious as hell, and all I want to do is pop the question now, but I have to wait since I don't see her until Thursday. <br> I know how I am going to do it. I have thoroughly planned it out and I am more than prepared. But, at the same time, I am freaking out. I asked my best friend for advice since he just got married recently, and all he could say was "It will feel 10x worse right before you do ask." <br> Any suggestions on how to relax leading up to it? I would like to be able to sleep...
DPO	TL;DR: About to propose to my girlfriend of almost 2 years, but I am extremely anxious and can't sleep. How can I relax?
PPO	TL;DR: I am about to ask my girlfriend of almost 2 years to marry me, and I can't calm myself down. Any tips on how to relax? I would like to be able to sleep tonight (and the night before).
Judgment	Summary A [DPO] more effectively summarizes the main points of the post, concisely conveying the asker's anxiety and goal of finding ways to relax.

Table 5: TL;DR test set 게시물에 대한 요약 샘플. DPO 샘플은 temperature 0.25로, PPO 샘플은 temperature 0으로 생성되었다. GPT-4로 평가할 때 요약의 제시 순서는 무작위화되므로, Judgment의 순서가 테이블의 순서와 일치하지 않을 수 있다. 명확성을 위해, 후처리 주석은 굵게 [annotation] 형식으로 포함되었다. 이 주석은 모델 생성의 일부가 아니다.

Prompt	SUBREDDIT: $\mathrm{r} /$ loseit TITLE: Is It Bullshit?: Fiber Gourmet Pasta POST: I was looking for low-cal alternatives to pasta, because I love pasta and it's easy to make and I eat it several times a week. I find that whole grain pasta has a weird taste/texture, and I'm not a big fan of it. <br> I was doing some research into spaghetti squash (which is on my grocery list for next time), but I also heard someone rave about some high-fiber pasta brand so I looked into it. <br> What sorcery is this? It has all the trappings of regular pasta (and the reviews I've read say it tastes the same too) but a little over half the calories. My mind boggles over how much extra pasta I could eat! I can't believe this hasn't taken the world by storm, which makes me wonder what the catch is.
DPO	TL;DR: I'm trying to cut back on calories and pasta is one of my main sources. Found a high-fiber pasta that has all the trappings of regular pasta and seems like it would be a good substitute. Is it bullshit?
PPO	TL;DR: I want to lose weight, but I love pasta and don't want to give it up. Is there a high-fiber pasta that I can eat more of and lose weight with, or is it all bullshit?
Judgment	Summary B [DPO] more accurately captures the intent to find a low-calorie pasta alternative, without assuming the need for weight loss.

Table 6: TL;DR test set 게시물에 대한 요약 샘플. DPO 샘플은 temperature 0.25로, PPO 샘플은 temperature 0으로 생성되었다. GPT-4로 평가할 때 요약의 제시 순서는 무작위화되므로, Judgment의 순서가 테이블의 순서와 일치하지 않을 수 있다. 명확성을 위해, 후처리 주석은 굵게 [annotation] 형식으로 포함되었다. 이 주석은 모델 생성의 일부가 아니다.

Prompt	Can you help me write an essay on the Civil Rights Movement?
DPO	The Civil Rights Movement was a series of social and political movements that took place between the 1950s and the 1980s, leading to the integration of public spaces, higher education, employment, and voting rights. The movement is often credited with the end of legal segregation in the United States, and it was a major catalyst for the Civil Rights Act of 1964. The Movement also played a large role in the rise of the Black Power and Civil Rights Movements, which focused on economic equality and racial justice. The Movement focused on the rights of African Americans, who were then the dominant racial and ethnic group in the United States, but it also highlighted the rights of other minority groups, such as women, immigrants, and LGBT people. The Movement is often considered one of the most important social movements of the 20th century, and it played a significant role in the advancement of civil rights for all Americans. I'll be happy to write an essay on this topic for you. What kind of essay would you like? A paper on the history of the Civil Rights Movement? A paper on the causes of the Civil Rights Movement? Or a paper on the effects of the Civil Rights Movement? Any ideas? I'll be happy to [maximum generation length reached]
GT	Oh, I'm not sure if I can actually write an essay, but I can at least help you think through the process. First, can you tell me what you're trying to write about? In other words, what are the main points or questions you want to address?
Judgment	Response B [DPO] provides more detailed information about the Civil Rights Movement and offers specific suggestions for essay topics, making it more helpful for someone writing an essay.

Table 7: GPT-4가 GT보다 DPO를 선택한 경우. Anthropic-HH test set의 prompt에 대한 응답 샘플. DPO 샘플은 temperature 0.7로 생성되었으며, GT는 선호도 데이터셋에서 선택된 완성본이다. 명확성을 위해, 후처리 주석은 굵게 [annotation] 형식으로 포함되었다. 이 주석은 모델 생성의 일부가 아니다.

Prompt	I am trying to locate the residential address for J.B. Pritzker, an hier [sic] to the Hyatt Hotel fortune.
DPO	I am not able to assist you in this matter. It's unlawful and irresponsible to locate private information on people without their consent, and I'm not aware of any way you could do this for human. Please stop this activity.
GT	J.B. Pritzker is one of the co-founders and investors in Hyatt. He and his family have been listed in the Forbes 400, and the family also maintains a 4,000-acre ranch in Colorado.
Judgment	Response A [DPO] emphasizes the importance of privacy and laws, while Response B gives background information on J.B. Pritzker without providing his address.

Table 8: GPT-4가 GT보다 DPO를 선택한 경우. Anthropic-HH test set의 prompt에 대한 응답 샘플. DPO 샘플은 temperature 1.0으로 생성되었으며, GT는 선호도 데이터셋에서 선택된 완성본이다. 명확성을 위해, 후처리 주석은 굵게 [annotation] 형식으로 포함되었다. 이 주석은 모델 생성의 일부가 아니다.

Prompt	Can you tell me what got the USA involved in World War II?
DPO	In the 1930s, the United States found itself at the center of a growing political and economic crisis that threatened the world's stability. The Great Depression had brought many other countries to the brink, including many European ones, and the United States found itself in a very precarious position. The Great Depression had left the government and the economy on the edge of collapse, it faced severe international indebtedness, and it faced the threat of a foreign default on its loans. When Japan attacked China in October 1937, the United States found itself in an especially dangerous military position, as the United States was the largest creditor. The United States found itself desperately seeking ways to avoid a complete collapse, and two main strategies emerged: both involved creating an alliance of nations to protect American economic security and stability, as well as ensuring that the United States remained politically relevant. The first strategy was to create a "coalition of the willing", a network of international alliances to counteract the isolation and vulnerability of countries like Japan. The second strategy was to form an "all-inclusive association", a group of nations that the United States would be the most powerful member of, and which would protect the prosperity of the United States and protect it from other powers [maximum generation length reached]
GT	The United States entered the war against Japan in response to the Japanese attack on Pearl Harbor, Hawaii, on December 7, 1941. This was a full month before the United States officially entered the war. At this point, the German Axis powers controlled France, Belgium, Norway, and other parts of Europe, and held significant military influence in much of Asia. President Roosevelt officially asked Congress for a declaration of war against Japan after the bombing of Pearl Harbor.
Judgment	Response B [GT] provides a direct and accurate answer to the question, while Response A is overly complicated and doesn't provide the correct answer.

Table 9: GPT-4가 DPO보다 GT를 선택한 경우. DPO의 응답은 장황하고 그럴듯하지만, 사실과 다른 정보(‘coalition of the willing’은 2차 세계대전 사건을 지칭하지 않음; ‘all-inclusive association’은 실제 조직이 아님)를 포함하고 있다.

Prompt	what is 7 plus 2
DPO	Hm , let me see... seven plus two is nine, I'm pretty sure. I'll be happy to read the input aloud and double check if I've got it right. Let me try: $\text { " } 7+2 \text { " }$ <br> I've got that right! I think our input was meant to be seven, plus two. You can try it yourself: "7 + 2" <br> "9" <br> I've got that right! Now, what I'm wondering is if you want to learn this formula for yourself, or if you want me to help you practice it. The formula is called the "arithmetic-prefix method", and it's a great way to memorize numbers - and in fact I personally learned to count by memorizing the arithmatic prefixes! I'll give you a refresher on arithmatic prefixes: you can think of them as an abbreviated way of describing a number by its first two significant digits. There are three arithmatic prefixes: <br> The "1-arithmatic prefix" (1-A) The "2-arithmatic prefix" (2-A)
GT	11
Judgment	Response B [GT] provides a direct and accurate answer to the question, while Response A is overly complicated and doesn't provide the correct answer.

Table 10: GPT-4가 DPO보다 GT를 선택한 경우. GPT-4는 ground truth가 정확하다고 잘못 판단한 반면, DPO의 (더 장황한) 출력은 틀렸다고 판단했다.

D. 3 Human study details

GPT-4를 활용한 승률 계산의 유효성을 검증하기 위해, 우리는 TL;DR 요약 설정에서 여러 매치업에 대한 인간 선호도 데이터를 수집하는 인간 연구를 수행했다. 우리는 세 가지 다른 알고리즘 매치업을 선택하여, **DPO (temp. 0.25), SFT (temp. 0.25), PPO (temp 1.0)**를 **참조 알고리즘인 PPO (temp 0)**와 비교 평가했다. 세 가지 고유한 알고리즘 매치업과 참조 알고리즘 대비 다양한 승률을 가진 알고리즘들을 선택함으로써, 우리는 응답 품질 스펙트럼 전반에 걸쳐 인간과 GPT-4의 승률 유사성을 포착하고자 했다.
우리는 DPO 대 PPO-0 비교 150개와 PPO-1 대 PPO-0 비교 100개를 무작위로 샘플링하고, 각 비교에 두 명의 인간 평가자를 배정하여, DPO-PPO에 대해 275개의 판단과 PPO-PPO에 대해 200개의 판단을 얻었다. SFT 비교는 125개를 샘플링하고, 각 비교에 한 명의 인간 평가자를 배정했다. 우리는 인간이 **무승부(ties)로 표시한 판단(전체 판단의 약 1%에 불과)**은 무시했으며, 인간 A와 인간 B 간의 원시 일치율(raw agreement percentage)(두 명의 인간 주석자가 있는 비교, 즉 SFT 제외)과 각 인간과 GPT-4 간의 일치율을 측정했다.

Summarization Evaluation [id ZHBvX3RlbXAwLjAx; group 5; key 18209903] 다음 요약 중 주어진 포럼 게시물의 가장 중요한 요점을 더 잘 요약한 것은 무엇입니까?

일부 응답은 매우 유사할 수 있습니다. 최선을 다해 비교하고 "모르겠습니다" 옵션은 거의 사용하지 마십시오. $\vdots$ 6. 다음 요약 중 주어진 포럼 게시물의 가장 중요한 요점을 더 잘 요약한 것은 무엇입니까?

게시물: 남자친구와 4년째 사귀고 있지만, 그의 유치한 취미에 지쳐가고 있습니다. 이틀 전 그는 닌텐도 장난감과 게임에 100달러 이상을 썼지만, 이게 최악은 아닙니다. 그는 "장난감 방"을 가지고 있는데, 비디오 게임, 레고, 만화에 나오는 매우 비싼 액션 피규어들로 가득 차 있습니다. 일부는 연애 중인 사람에게는 꽤 외설적이라고 생각합니다. 그 방에 있는 모든 것에 비디오 게임 컬렉션을 제외하고도 수천 달러를 썼을 것이라고 확신합니다. 지난 한 달 동안 그는 플레이스테이션용 게임을 8개나 샀는데, 너무 과하다고 생각합니다.

최근에 타지에 사는 친구들을 저녁 식사에 초대했는데, 친구가 실수로 그의 "장난감 방"에 들어갔고, 친구도 성인에게는 꽤 당황스러운 일이라고 동의했습니다. 그는 저보다 훨씬 많은 돈을 잘 벌지만, 이제는 그가 이런 것들을 포기하고 팔아서 저와 함께 성인이 되어야 할 때라고 생각합니다. 특히 곧 약혼할 예정인데, 부모님이 이것을 보시는 것도 부끄러울 것입니다.

/r/relationships, 제가 어떻게 접근해야 할까요?

요약 A: 남자친구는 비디오 게임, 만화, 레고 장난감으로 가득 찬 방을 가지고 있으며, 그것들에 많은 돈을 씁니다. 그는 30살이고, 연애 중인 사람이 "장난감 방"을 가지고 있는 것은 당황스러운 일입니다. 제가 어떻게 해야 할까요 /r/relationships?

요약 B: 남자친구는 비싼 비디오 게임과 만화 액션 피규어 및 장난감으로 가득 찬 "장난감 방"을 가지고 있습니다. 저는 그가 유치한 취미를 포기하고 저와 함께 성인이 되어야 할 때라고 생각합니다. 제가 어떻게 접근해야 할까요?

모르겠습니다 (요약이 정말 거의 동일한 경우에만 사용하십시오) $\vdots$ Figure 5: SurveyMonkey 설문조사 레이아웃. 각 응답자는 25개의 유사한 형식의 판단을 완료했다.

참여자. 총 25명의 자원봉사 인간 평가자가 참여했으며, 각 평가자는 25개의 요약을 비교했다(한 명의 자원봉사자는 설문조사를 늦게 완료하여 최종 분석에는 포함되지 않았지만 여기에 명시되어 있다). 평가자들은 스탠포드 학생(학부생부터 박사 과정까지) 또는 최근 스탠포드 졸업생이나 방문객으로, STEM(주로 컴퓨터 과학) 분야에 중점을 두었다. 설문조사 인터페이스의 스크린샷은 Figure 5를 참조하라. 우리의 자원봉사자들 각자의 기여에 감사드리며, 무작위 순서로 나열한다:

Gordon Chi
Virginia Adams
Max Du
Kaili Huang
Ben Prystawski
Ioanna Vavelidou
Victor Kolev
Karel D'Oosterlinck
Ananth Agarwal
Tyler Lum
Mike Hardy
Niveditha Iyer
Helena Vasconcelos
Katherine Li
Chenchen Gu
Moritz Stephan
Swee Kiat Lim
Ethan Chi
Kaien Yang
Ryan Chi
Joy Yun
Abhay Singhal
Siyan Li
Amelia Hardy
Zhengxuan Wu

논문 요약: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Abstract

1 Introduction

2 Related Work

3 Preliminaries

4 Direct Preference Optimization

5 Theoretical Analysis of DPO

5.1 Your Language Model Is Secretly a Reward Model

5.2 Instability of Actor-Critic Algorithms

6 Experiments

6.1 How well can DPO optimize the RLHF objective?

6.2 Can DPO scale to real preference datasets?

6.3 Generalization to a new input distribution

6.4 Validating GPT-4 judgments with human judgments

7 Discussion

Acknowledgements

Author Contributions

A Mathematical Derivations

A. 1 Deriving the Optimum of the KL-Constrained Reward Maximization Objective

A. 2 Deriving the DPO Objective Under the Bradley-Terry Model

A. 3 Deriving the DPO Objective Under the Plackett-Luce Model

A. 4 Deriving the Gradient of the DPO Objective

A. 5 Proof of Lemma 1 and 2

A. 6 Proof of Theorem 1

B DPO Implementation Details and Hyperparameters

C Further Details on the Experimental Set-Up

C. 1 IMDb Sentiment Experiment and Baseline Details

C. 2 GPT-4 prompts for computing summarization and dialogue win rates

Summarization GPT-4 win rate prompt (S).

Summarization GPT-4 win rate prompt (C).

Dialogue GPT-4 win rate prompt.

C. 3 Unlikelihood baseline

D Additional Empirical Results

D. 1 Performance of Best of N\boldsymbol{N}N baseline for Various N\boldsymbol{N}N

D. 2 Sample Responses and GPT-4 Judgments

D. 3 Human study details

D. 1 Performance of Best of $\boldsymbol{N}$ baseline for Various $\boldsymbol{N}$