RLHF
3개의 포스트
Llama 2: 오픈소스 기반의 사전 훈련 및 미세 조정된 채팅 모델
Llama 2는 70억에서 700억 파라미터 규모의 사전 훈련 및 미세 조정된 대규모 언어 모델(LLM) 모음입니다. 특히, 대화형 사용 사례에 최적화된 Llama 2-Chat 모델은 대부분의 벤치마크에서 기존 오픈소스 채팅 모델을 능가하며, 인간 평가 기반의 유용성과 안전성 측면에서 비공개 소스 모델의 대안이 될 수 있음을 보여줍니다. 이 논문은 Llama 2-Chat의 미세 조정, 특히 Supervised Fine-Tuning(SFT)과 Reinforcement Learning with Human Feedback(RLHF)을 통한 안전성 향상 접근법을 상세히 설명하여 커뮤니티의 발전에 기여하고자 합니다. 논문 제목: Llama 2: Open Foundation and Fine-Tuned Chat Models
InstructGPT: 인간의 피드백으로 지시를 따르도록 언어 모델 훈련하기
InstructGPT는 대규모 언어 모델이 사용자의 의도를 더 잘 따르도록 만들기 위해 인간의 피드백을 통해 정렬(align)하는 방법을 제시합니다. 이 모델은 supervised fine-tuning (SFT)과 reinforcement learning from human feedback (RLHF)의 3단계 프로세스를 통해 GPT-3를 미세 조정하여 개발되었습니다. 평가 결과, 1.3B 파라미터의 InstructGPT 모델이 175B GPT-3보다 인간 선호도에서 더 높은 점수를 받았으며, 진실성 향상 및 유해한 결과물 생성 감소 효과를 보였습니다. 이는 인간 피드백을 활용한 미세 조정이 언어 모델을 인간의 의도에 맞게 정렬하는 유망한 방향임을 보여줍니다. 논문 제목: Training language models to follow instructions with human feedback
Direct Preference Optimization (DPO): 강화학습 없이 선호도 데이터로 언어 모델을 직접 최적화하는 방법
Direct Preference Optimization (DPO)는 기존의 복잡하고 불안정한 RLHF (Reinforcement Learning from Human Feedback) 방식을 대체하는 새로운 알고리즘입니다. DPO는 보상 모델을 명시적으로 학습하고 강화학습을 통해 정책을 최적화하는 대신, 보상 함수와 최적 정책 간의 분석적 매핑을 활용합니다. 이를 통해 간단한 이진 교차 엔트로피 손실 함수만으로 정책을 직접 최적화할 수 있어, 학습 과정이 안정적이고 효율적입니다. 이 논문은 DPO가 기존 PPO 기반 RLHF와 동등하거나 더 나은 성능을 보이면서도 구현과 학습이 훨씬 간단하다는 것을 실험적으로 증명합니다. 논문 제목: Direct Preference Optimization: Your Language Model is Secretly a Reward Model