Direct Preference Optimization (DPO): 강화학습 없이 선호도 데이터로 언어 모델을 직접 최적화하는 방법
Direct Preference Optimization (DPO)는 기존의 복잡하고 불안정한 RLHF (Reinforcement Learning from Human Feedback) 방식을 대체하는 새로운 알고리즘입니다. DPO는 보상 모델을 명시적으로 학습하고 강화학습을 통해 정책을 최적화하는 대신, 보상 함수와 최적 정책 간의 분석적 매핑을 활용합니다. 이를 통해 간단한 이진 교차 엔트로피 손실 함수만으로 정책을 직접 최적화할 수 있어, 학습 과정이 안정적이고 효율적입니다. 이 논문은 DPO가 기존 PPO 기반 RLHF와 동등하거나 더 나은 성능을 보이면서도 구현과 학습이 훨씬 간단하다는 것을 실험적으로 증명합니다. 논문 제목: Direct Preference Optimization: Your Language Model is Secretly a Reward Model