DPO
2개의 포스트
ISR-DPO: 자기 회귀적 DPO를 이용한 비디오 멀티모달 모델 정렬
Video Large Multimodal Model (VLMM)에 반복적인 선호도 최적화(iterative preference optimization)를 적용할 때 발생하는 modality misalignment 문제를 해결하기 위해 Iterative Self-Retrospective Direct Preference Optimization (ISR-DPO)를 제안합니다. 기존 VLMM은 self-judge 모델이 시각 정보보다 언어적 지식에 의존하고, 길이 편향(length bias)으로 인해 시각적으로 근거 없는 장황한 응답(verbosity hallucination)을 생성하는 경향이 있었습니다. ISR-DPO는 self-retrospective 방식을 통해 생성된 시각적 컨텍스트(visual context)를 선호도 모델링에 활용하여, 모델이 비디오의 핵심 정보에 집중하고 시각적으로 더 근거 있는(visually grounded) 선호도를 선택하도록 유도합니다. 이를 통해 VLMM의 비디오-텍스트 정렬 성능을 크게 향상시킵니다. 논문 제목: ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO
Direct Preference Optimization (DPO): 강화학습 없이 선호도 데이터로 언어 모델을 직접 최적화하는 방법
Direct Preference Optimization (DPO)는 기존의 복잡하고 불안정한 RLHF (Reinforcement Learning from Human Feedback) 방식을 대체하는 새로운 알고리즘입니다. DPO는 보상 모델을 명시적으로 학습하고 강화학습을 통해 정책을 최적화하는 대신, 보상 함수와 최적 정책 간의 분석적 매핑을 활용합니다. 이를 통해 간단한 이진 교차 엔트로피 손실 함수만으로 정책을 직접 최적화할 수 있어, 학습 과정이 안정적이고 효율적입니다. 이 논문은 DPO가 기존 PPO 기반 RLHF와 동등하거나 더 나은 성능을 보이면서도 구현과 학습이 훨씬 간단하다는 것을 실험적으로 증명합니다. 논문 제목: Direct Preference Optimization: Your Language Model is Secretly a Reward Model