
ISR-DPO: 자기 회귀적 DPO를 이용한 비디오 멀티모달 모델 정렬
Video Large Multimodal Model (VLMM)에 반복적인 선호도 최적화(iterative preference optimization)를 적용할 때 발생하는 modality misalignment 문제를 해결하기 위해 Iterative Self-Retrospective Direct Preference Optimization (ISR-DPO)를 제안합니다. 기존 VLMM은 self-judge 모델이 시각 정보보다 언어적 지식에 의존하고, 길이 편향(length bias)으로 인해 시각적으로 근거 없는 장황한 응답(verbosity hallucination)을 생성하는 경향이 있었습니다. ISR-DPO는 self-retrospective 방식을 통해 생성된 시각적 컨텍스트(visual context)를 선호도 모델링에 활용하여, 모델이 비디오의 핵심 정보에 집중하고 시각적으로 더 근거 있는(visually grounded) 선호도를 선택하도록 유도합니다. 이를 통해 VLMM의 비디오-텍스트 정렬 성능을 크게 향상시킵니다. 논문 제목: ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO








