Ahn, Daechul, et al. "Isr-dpo: Aligning large multimodal models for videos by iterative self-retrospective dpo." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 39. No. 2. 2025.

ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO

Abstract

개인의 성장을 넘어선 개념인 **반복적인 자기 개선(iterative self-improvement)**은 머신러닝, 특히 약한 모델을 강력한 모델로 변환하는 과정에서 강력한 응용 분야를 찾아왔다. 최근 자연어 처리 분야에서 **반복적인 선호도 최적화(iterative preference optimization)**를 통해 그 효능이 입증되었지만, 이 접근 방식을 **Video Large Multimodal Model (VLMM)**에 적용하는 것은 **모달리티 불일치(modality misalignment)**로 인해 여전히 어렵다. VLMM은 반복적인 선호도 모델링 과정에서 이러한 불일치로 어려움을 겪는데, 이는 self-judge 모델이 시각 정보보다 언어적 지식을 우선시하는 경향이 있기 때문이다. 또한, 반복적인 선호도 최적화는 **self-rewarding cycle 내의 길이 편향(length bias)**으로 인해 시각적으로 환각적인 장황한 응답을 유발할 수 있다.

이러한 문제들을 해결하기 위해 우리는 자기 회고(self-retrospection)를 사용하여 선호도 모델링을 강화하는 방법인 **Iterative Self-Retrospective Direct Preference Optimization (ISR-DPO)**을 제안한다. 이 접근 방식은 self-judge가 정보가 풍부한 비디오 영역에 더 집중하도록 유도하여, 시각적으로 더 근거 있는 선호도를 생성한다. 다양한 비디오 질문 응답 벤치마크에 걸친 광범위한 실증 평가에서, ISR-DPO는 state of the art를 크게 능가한다. 우리는 추가 연구를 장려하기 위해 코드, 모델 및 데이터셋을 오픈 소스로 공개할 예정이다. https: //github.com/snumprlab/ISR-DPO

1 Introduction

Progress is not achieved by luck or accident, but by working on yourself daily.

Epictetus

일관된 노력과 반복을 통한 인간의 성장 능력은 개인 개발의 근본적인 원칙이다 (Dweck 2006). 이러한 반복적인 자기 개선(iterative self-improvement) 개념은 개인적인 성장을 넘어, 추가적인 인간 주석(human-annotated) 훈련 데이터 없이도 약한 모델을 강한 모델로 변환하는 머신러닝 분야에서 강력하게 적용되고 있다 (Schapire 1990; Yuan et al. 2024; Burns et al. 2023). 특히, 최근 자연어 처리(NLP) 분야의 발전은 반복적인 preference optimization이 Large Language Model (LLM)을 인간의 의도에 맞게 정렬(align)하는 데 효과적임을 입증했다 (Yuan et al. 2024; Pang et al. 2024; Chen et al. 2024). 이 접근 방식은 LLM-as-a-judge와 같은 반복적인 preference modeling을 통해 점점 더 유익한 preference를 구축하여, 점진적으로 더 잘 정렬된 모델을 만들어낸다.

Figure 1: 제안하는 ISR-DPO의 도식. VLMM에서 **반복적인 Direct Preference Optimization (DPO)**을 수행하는 동안, 우리는 비디오 콘텐츠뿐만 아니라 시각적 context $c_t$ , 즉 상세한 비디오 설명을 기반으로 응답에서 preference를 선택하여, preference가 비디오 정보에 근거하도록 보장한다. 특히, 우리는 이전 iteration에서 생성된 context $c_{t-1}$ 을 활용하여 self-retrospective 방식으로 context를 강화하는데, 이 과정을 self-retrospective preference modeling이라고 부른다. 빨간색은 관련 없는 응답을, 파란색은 정확하고 시각적으로 근거 있는 응답을 나타낸다.

그러나 LLM을 위한 이러한 반복적인 자기 개선 원칙은 **대규모 멀티모달 모델, 특히 Video Large Multimodal Model (VLMM)**에 적용될 때 특정한 도전 과제를 제기한다. VLMM은 반복적인 preference modeling 과정에서 modality misalignment 문제를 겪는데, 여기서 self-judge 모델은 주어진 시각 정보보다는 기존의 언어적 지식에 더 의존하는 경향이 있다 (Ahn et al. 2024; Zhou et al. 2024). 이는 언어적으로는 그럴듯하지만 시각적 콘텐츠에는 덜 근거한 preference 데이터로 이어진다. 더욱이, 반복적인 훈련은 반복적인 preference modeling 주기 내의 길이 편향(length bias)으로 인해 VLMM에서 시각적으로 근거 없는 장황한 응답(verbose response)을 악화시킨다. 이 길이 편향은 preference 선택 시 언어적으로 더 긴 응답을 선호한다 (Prasann Singhal and Durrett 2023; Park et al. 2024). Fig. 2에서 보듯이, 다소 긴 응답이 예측 응답의 품질을 향상시킬 수 있지만, 지나치게 긴 응답은 실제 비디오나 질문과 관련 없는 내용, 즉 verbosity hallucination을 도입할 수 있으며, 반드시 품질을 향상시키지는 않는다.

Question: Why does the video suggest using lip gloss instead of lipstick? Ground-Truth : A text overlay in the video says, "Lipgloss is easier to touch up than lipstick!", emphasizing the convenience of using lip gloss. #1st iteration The video suggests using lip gloss instead of lipstick because it is implied to be easier to apply and less messy. #9th iteration The video suggests using lip gloss instead of lipstick because it is implied to be easier to apply and less messy. The text overlays in the video explicitly state that "Lip gloss is easier to touch up than lipstick!" This implies that lip gloss offers a more convenient and accessible beauty option, especially for on-the-go touch-ups. Additionally, the video advises to "Go with a lip balm on a tube so it doesn't get everywhere!" which further emphasizes the practicality and ease of use of lip gloss compared to lipstick. The video seems to be promoting the idea that lip gloss is a practical and user-friendly beauty product.

Figure 2: VLMM의 반복적인 preference modeling 주기 내에서 발생하는 verbosity hallucination의 예시. 1차 iteration에서는 응답이 간결하고 시각적으로 근거가 있다 (파란색). 9차 iteration에서는 응답이 더 자세해지며, 비디오의 명시적인 텍스트 오버레이를 참조한다. 그러나 관련 없는 세부 정보와 가정을 포함하기 시작하여, 빨간색으로 강조된 verbosity hallucination으로 이어진다.

이러한 도전 과제를 해결하기 위해, 우리는 self-judge 모델, 즉 VLMM이 각 iteration에서 단순히 언어적으로 그럴듯한 것이 아니라, 시각적 콘텐츠를 기반으로 preference를 선택해야 한다고 주장한다. 우리는 인간 지각에 대한 인지 과학(cognitive science) 연구 [Bransford and Johnson 1972; Kintsch 1988; Anderson 1984]에서 영감을 받아, 시각 데이터 해석에서 맥락 정보의 중요성을 강조함으로써 이러한 시각적으로 근거한 self-judgment를 달성한다. 구체적으로, 우리는 self-retrospective 방식으로 생성된 추가적인 비디오 설명을 추가적인 시각적 context로 self-judge에 제공한다. 이 추가 정보는 인간 인지에서의 주의(attention)와 유사하게 초점 메커니즘(focusing mechanism) 역할을 하여 [Bransford and Johnson 1972], VLMM이 응답을 비디오에 더 효과적으로 grounding하고, 관련 없거나 hallucination된 응답을 생성할 가능성을 줄이도록 돕는다.

이를 위해, 우리는 Fig. 1에 나타난 바와 같이 **VLMM을 위한 간단하면서도 효과적인 반복적인 자기 개선 접근 방식인 Iterative Self-Retrospective Direct Preference Optimization (ISR-DPO)**을 제안한다. 이 접근 방식은 self-judge가 응답을 비교할 때 비디오의 더 유익한 영역에 집중하도록 돕고, 각 iteration에서 시각적으로 더 근거 있는 preference를 생성한다. 우리의 실증 연구는 ISR-DPO가 다양한 비디오 질문 응답 벤치마크에서 state-of-the-art VLMM보다 우수한 성능을 보임을 입증한다.

우리의 기여는 다음과 같이 요약된다:

우리는 비디오-텍스트 modality를 효과적으로 정렬하기 위해 반복적인 Direct Preference Optimization (DPO)을 활용하는, 비디오 대규모 멀티모달 모델(VLMM)을 위한 새로운 modality alignment 방법을 제안한다.
우리는 self-retrospective preference modeling을 제안하여 AI의 피드백을 향상시킨다. 이는 preference 선택을 위한 반복적으로 정제된 시각적 context를 활용하여 비디오 이해의 명확성과 포괄성을 개선한다.
우리는 제안된 ISR-DPO의 효과를 다양한 비디오 질문 응답 벤치마크에서 눈에 띄는 차이로 입증한다.

비디오용 대규모 멀티모달 모델 정렬(Aligning large multimodal models for videos)
VLMM은 비디오 시간 이해(Liu et al. 2023), 질문 답변(Lin et al. 2023), 지시 따르기(Maaz et al. 2024)와 같은 다양한 비디오 이해 task에서 주목할 만한 성공을 거두었다. 이러한 모델들은 공개적으로 사용 가능한 LLM (Touvron et al. 2023a,b)과 visual encoder (Radford et al. 2021) 및 추가적인 학습 가능한 파라미터 (Hu et al. 2022)를 통합하여, Supervised Fine-Tuning (SFT) (Maaz et al. 2024; Lin et al. 2023; Li, Wang, and Jia 2023)을 거치고, 최근에는 preference optimization (Rafailov et al. 2023; Zhang et al. 2024a; Ahn et al. 2024)을 적용하고 있다. 우리의 연구는 이러한 노력들을 바탕으로 VLMM에 반복적인 preference optimization을 적용하고, preference modeling 과정에서 발생하는 길이 편향(length bias) 및 시각적 grounding과 관련된 고유한 문제들을 해결하는 데 중점을 둔다.

반복적인 preference optimization (Iterative preference optimization)
Preference optimization을 통한 LLM 학습은 언어 모델을 인간의 의도에 맞게 정렬하고, 모델 성능과 신뢰성을 향상시키는 효과적인 접근 방식으로 입증되었다. 이러한 preference optimization을 기반으로, 최근 연구들은 반복적인 preference optimization 기법에 초점을 맞추고 있으며, 이는 일반적으로 AI 모델 자체가 피드백 데이터를 반복적으로 생성하는, 즉 self-rewarding 방식을 포함한다. NLP 분야의 많은 최근 연구들이 이를 동시에 제안하고 있는데, 정렬된 모델이 반복적으로 응답을 생성하고 자체 출력을 판단하여 피드백 데이터를 구축하며, 이 데이터를 DPO (Yuan et al. 2024; Pang et al. 2024; Chen et al. 2024)로 학습한다. 이러한 반복적인 최적화 기법들은 LLM에서 그 효과를 입증했지만, 멀티모달 영역, 특히 비디오 이해 task에서의 적용은 아직 크게 탐구되지 않았다. 우리의 연구는 VLMM을 위한 효과적인 반복적인 preference optimization 방법을 제안한다.

Preference optimization에서의 장황함 편향 (Verbosity bias in preference optimization)
RLHF, RLAIF, DPO와 같은 preference fine-tuning 방법들은 preference optimization 이전에 생성된 응답보다 더 긴 응답을 생성하는 것으로 알려져 있으며, 이를 **길이 편향(length bias)**이라고 한다. 이러한 현상은 preference 데이터의 장황함 편향(verbosity bias)에서 비롯되는데, 인간 및 AI 심사자 모두 더 긴 응답을 선호하는 경향이 있기 때문이다 (Prasann Singhal and Durrett 2023; Park et al. 2024; Saito et al. 2023). 선호되는 응답과 거부되는 응답 간의 길이 차이가 미미하더라도, 장황함의 증가는 통계적으로 유의미하다 (Park et al. 2024). VLMM에서 이러한 길이 편향은 특히 문제가 될 수 있다. 이는 언어적으로는 이해 가능하지만 시각적 내용에 잘 grounding되지 않은 장황한 응답을 초래할 수 있다. VLMM의 멀티모달 환경에서 길이 편향을 해결하는 것은 여전히 해결되지 않은 과제이다.

Figure 3: Self-retrospective Direct Preference Optimization (DPO)의 개요.
ISR-DPO의 각 iteration은 세 단계로 구성된다:

학습 iteration $t$ 이후, 가장 최근에 업데이트된 VLMM ( $\pi_{\theta^{t}}$ )은 주어진 비디오 $V$ 와 지시 $x$ 에 대해 두 가지 다른 응답 $y_{1}$ 과 $y_{2}$ 를 생성한다. 또한, self-retrospection을 통해 시각적 설명, 즉 visual context가 생성되어 다음 단계에 필요한 입력을 제공한다 (검은 점선으로 표시).
이전 단계에서 생성된 정보를 사용하여, 모델 ( $\pi_{\theta^{t}}$ )은 응답 ( $y_{1}$ 과 $y_{2}$ )을 비교하고 선호되는 응답 $y_{w}$ 와 거부되는 응답 $y_{l}$ 을 분류한다.
그런 다음, VLMM ( $\pi_{\theta^{t}}$ )은 DPO를 사용하여 파라미터를 $\pi_{\theta^{t+1}}$ 로 업데이트하도록 최적화된다.

3 Iterative Self-Retrospective DPO

비디오와 텍스트 간의 멀티모달리티를 효과적으로 정렬하기 위해, 우리는 VLMM을 위한 반복적인 self-improvement 접근 방식을 제안한다. Figure 3은 우리가 제안하는 ISR-DPO의 한 사이클에 대한 전체 학습 파이프라인을 보여주며, 이는 세 가지 단계를 실행한다:

self-retrospective context 및 response 생성,
선호도(preference) 선택,
최적화(optimization).

반복적인 실행 과정에서, 우리는 비디오 콘텐츠뿐만 아니라 self-retrospection을 통해 생성된 시각적 context에도 조건을 부여함으로써, 모델의 선호도 선택 능력을 향상시킨다. 이 추가적인 시각적 context는 비디오에 기반한 선호도를 생성하여, 시각 및 텍스트 모달리티 간의 정렬(alignment)을 개선한다.

3.1 Iterative DPO in VLMM

$t$ -번째 iteration에서의 현재 VLMM을 $\pi_{\theta^{t}}$ 로 표기한다. 이 모델은 응답을 생성하고 선호도를 스스로 선택함으로써 선호도 데이터 $D_{t}^{\text {pref }}$ 를 구축한다. $D_{t}^{\text {pref }}$ 를 사용하여 $t+1$ -번째 iteration에서 다음 VLMM인 $\pi_{\theta^{t+1}}$ 를 학습시킨다.

초기 모델 (Initial model)
Zhang et al. (2024a)에서 주석된 seed preference data가 주어졌을 때, 우리는 이전 연구 (Zhang et al. 2024a)에서 제공된 SFT 모델부터 시작하여 DPO를 사용하여 preference fine-tuning을 수행한다. 이 preference fine-tuned 모델을 초기 모델 $\pi_{\theta^{1}}$ 이라고 부른다.

선호도 모델링 (Preference modeling)
현재 VLMM $\pi_{\theta^{t}}$ 가 주어졌을 때, 우리는 높은 temperature 하이퍼파라미터(예: $0.7$ )를 사용하여 입력 비디오 $V$ 와 질문 $x$ 에 대해 두 가지 다른 응답을 생성한다. 이 높은 temperature는 token 샘플링 확률 분포를 평탄화하여 현재 VLMM $\pi_{\theta^{t}}$ 에서 동일한 입력으로부터 다양한 응답을 생성한다:

y_{1} \sim \pi_{\theta^{t}}(V, x), y_{2} \sim \pi_{\theta^{t}}(V, x) .

그런 다음, 현재 VLMM을 활용하여 자체 응답을 평가하는 방식, 즉 VLMM-as-a-judge를 통해 두 응답 중 더 나은 응답을 선택한다. 특히, 우리는 향상된 시각적 명확성을 위해 VLMM에 시각적 컨텍스트 $c_{t}$ 를 제공한다 (자세한 내용은 Sec. 3.2 참조). 이 선호도 선택 절차는 다음과 같이 표현할 수 있다:

\left(y_{w}, y_{l}\right) \sim \pi_{\theta^{t}}\left(V, x, c_{t}, y_{1}, y_{2}\right),

여기서 $y_{1}$ 과 $y_{2}$ 는 두 개의 샘플링된 응답이고, $y_{w}$ 는 선택된 응답, $y_{l}$ 은 거부된 응답이다.

$t$ -번째 iteration에서 선호도 데이터 $D_{t}^{\text {pref }}=\left\{V, x, y_{w}, y_{l}\right\}$ 를 구축한 후, 이 데이터셋을 사용하여 DPO를 통해 현재 VLMM $\pi_{\theta^{t}}$ 에 대한 선호도 최적화를 수행한다. 현재 VLMM $\pi_{\theta^{t}}$ 에 대한 DPO objective는 다음과 같이 표현된다:

\begin{aligned} & \mathcal{L}_{\mathrm{DPO}}\left(\pi_{\theta^{t}} ; \pi_{\mathrm{ref}, t}\right)= \\ &-\mathbb{E}_{\left(V, x, y_{w}, y_{l}\right) \sim \mathcal{D}_{t-1}^{\mathrm{pref}}}\left[\operatorname { l o g } \sigma \left(\beta \log \frac{\pi_{\theta^{t}}\left(y_{w} \mid V, x\right)}{\pi_{\mathrm{ref}, t}\left(y_{w} \mid V, x\right)}\right.\right. \\ &\left.\left.-\beta \log \frac{\pi_{\theta^{t}}\left(y_{l} \mid V, x\right)}{\pi_{\mathrm{ref}, t}\left(y_{l} \mid V, x\right)}\right)\right] \end{aligned}

여기서 $\pi_{r e f, t}$ 는 현재 base reference model이고, $\beta$ 는 현재 base reference model로부터의 편차를 제어하는 하이퍼파라미터이며, $\sigma$ 는 sigmoid 함수이다.

반복 학습 (Iterative training)
우리의 전반적인 반복 학습 절차는 이전 연구 (Yuan et al. 2024)를 따르며, 일련의 모델 $\pi_{\theta^{1}}, \ldots, \pi_{\theta^{T}}$ 가 순차적으로 학습된다. $t+1$ iteration의 각 후속 모델은 $t$ iteration의 VLMM에 의해 생성된 선호도 데이터 $D_{t}^{\text {pref }}$ 를 사용하며, 이는 다음과 같이 정의된다:

\pi_{\theta^{t+1}}: \text { Training with } D_{t}^{\text {pref }} \text { initialized from } \pi_{\theta^{t}},

여기서 $t$ -번째 모델 $\pi_{\theta^{t}}$ 는 self-judgment를 통해 선호도 데이터 $D_{t}^{\text {pref }}$ 를 생성한다.

3.2 Self-Retrospective Preference Modeling

VLMM에서 iterative DPO의 핵심 측면은 VLMM을 judge로 사용하여 제시된 질문에 정확하게 답변하는 선호도를 반복적으로 선택하는 것이다 (Ahn et al. 2024). 구체적으로, 우리는 VLMM 자체에서 생성된 상세한 시각적 설명을 비디오 콘텐츠와 함께 시각적 context로 제공하여 시각적 명확성을 향상시킨다.
더 나아가, 인간의 학습 과정에서 영감을 받아 self-retrospective 방식으로 시각적 context를 강화한다. 회고(retrospection)가 인간이 과거를 되돌아봄으로써 더 나은 결정을 내리도록 돕는 것처럼 (Simon 1962; Madaan et al. 2023), 우리는 이전에 생성된 시각적 context를 활용하여 더 나은 context를 생성하고, 이를 통해 선호도 선택 과정의 정확성과 관련성을 향상시킨다. 이는 다음과 같이 정의된다:

c_{t} \sim \pi_{\theta^{t}}\left(V, c_{t-1}\right)

여기서 $c_{t-1}$ 은 시간 $t-1$ 에서의 이전 시각적 context이다.
생성된 context $c_{t}$ , 질문 $x$ , 비디오 $V$ , 그리고 응답 $\left\{y_{1}, y_{2}\right\}$ 를 사용하여, 현재 정렬된 VLMM $\pi_{\theta^{t}}$ 를 이용해 응답 중에서 선택된 데이터 $y_{w}$ 와 거부된 데이터 $y_{l}$ 을 분류한다. 우리는 이 과정을 self-retrospective preference modeling이라고 부르며, 이를 통해 시간 $t$ 에 선호도 데이터 $D_{t}^{\text {pref }}$ 를 구축한다.

4 Experiments

4.1 Experimental Setup

데이터셋 세부 정보 (Dataset details)
우리의 학습 데이터셋은 (Zhang et al. 2024a)의 17,000개 비디오-명령(video-instruction) 쌍( $\{V, x\}$ )으로 구성된 고정된 세트를 활용한다. 이는 반복(iteration)마다 데이터셋을 증가시켰던 이전 연구들 (Yuan et al. 2024; Chen et al. 2024)과 대조적이다.
초기 VLMM $\pi_{\theta^{1}}$ 이후의 모든 반복(iteration)에서, 우리는 새로운 응답과 선호도(preference)를 생성하여 각 반복마다 선호도 데이터셋 $D_{t}^{\text {pref }}$ 를 생성한다.
(Maaz et al. 2024; Zhang et al. 2024a)를 따라, 우리는 7개의 비디오 컬렉션에 걸쳐 두 가지 유형의 비디오 질문 응답 데이터셋으로 우리의 방법을 평가한다:

간결한 응답을 요구하는 데이터셋,
포괄적인 답변을 요구하는 데이터셋.

학습 세부 정보 (Training details)
우리는 총 9번의 반복(iteration)을 통해 DPO를 사용하여 full-parameter fine-tuning을 수행한다. 이는 LLM 정렬을 위한 이전의 반복적 선호도 최적화 접근 방식 (Yuan et al. 2024)보다 3배 많은 반복 횟수이다. 모든 생성 프로세스는 특정 prompt를 사용한다. 학습은 ** $8 \times$ NVIDIA A100 GPU (80G)**에서 진행된다. 우리는 다른 연구들과의 공정한 비교를 위해 7B 크기의 모델을 사용한다.

4.2 Quantitative Analysis

In-domain video question answering.
Table 1에서 볼 수 있듯이, ISR-DPO는 9번째 iteration까지 각 iteration마다 일관된 성능 향상을 보여준다. 더욱이, **최종 iteration 모델( $\pi_{\theta^9}$ )**은 모든 비디오 벤치마크에서 정확도와 점수 모두에서 이전의 모든 연구들을 눈에 띄는 차이로 능가한다. 우리는 이러한 성능 향상이 제안된 VLMM을 위한 iterative retrospective judgment를 통해 제공되는 비디오 modality의 더 나은 정렬(alignment) 덕분이라고 생각한다.

Figure 4: Iterative DPO 중 preference dataset의 길이 분석. (a) DPO iteration에 따른 preference dataset $D_t^{\text{pref}}$ 내 선택된 응답( $y_w$ )의 평균 단어 길이( $|y_w|$ ). Self-rewarding은 ISR-DPO에 비해 더 긴 응답을 생성한다. (b) 선택된 응답( $|y_w|$ )과 거부된 응답( $|y_l|$ )의 단어 길이 비율. ISR-DPO는 self-rewarding에 비해 일관적으로 낮은 비율을 유지하며, 이는 최적화 후 응답 길이가 감소했음을 나타낸다. '# DPO iteration'은 DPO iteration 횟수를 의미한다.

Out-domain video question answering.
out-domain 비디오 질문 응답을 평가하기 위해 우리는 두 가지 유형의 데이터셋을 사용한다. Table 2와 3은 각각 복잡한 답변을 요구하는 데이터셋과 간결한 키워드 답변을 요구하는 데이터셋에 대한 비교 결과를 보여준다. **ISR-DPO의 최종 iteration 모델( $\pi_{\theta^9}$ )**은 두 경우 모두에서 이전 연구들을 큰 차이로 능가하며, 상세하고 정확한 응답을 모두 생성하는 데 효과적임을 입증한다. 이 모델은 또한 Table 2와 3에서 볼 수 있듯이 각 iteration마다 일관된 성능 향상을 보여준다.

4.3 Detailed Analysis

ISR-DPO의 효과를 평가하기 위해, 특히 시각적 맥락(visual context)의 효과와 설계에 초점을 맞춰 다음 연구 질문들을 다룬다:

RQ1: 반복적인 DPO 과정에서 시각적 맥락의 효과와 이점은 무엇인가?
RQ2: 시각적 맥락은 어떻게 설계되어야 하는가?

특히, 우리는 ISR-DPO를 self-retrospective context 없이 VLMM에서 반복적인 DPO를 채택하는 우리의 baseline 역할을 하는 **self-rewarding (Yuan et al. 2024)**과 비교한다.

반복 과정 중 시각적 맥락의 효과
Figure 4는 선호도 선택(preference selection) 과정에서 시각적 맥락을 포함하는 것의 효과를 보여준다. Fig. 4-(a)에서 볼 수 있듯이, ISR-DPO는 학습 반복이 진행됨에 따라 self-rewarding에 비해 더 짧은 chosen response를 생성한다. 유사하게, Fig. 4-(b)는 ISR-DPO에서 chosen response와 rejected response의 비율이 더 낮음을 보여준다.

Methods	ActivityNet-QA		VIDAL-QA		WebVid-QA
	Acc.	Score	Acc.	Score	Acc.	Score
Video-ChatGPT (Maaz et al.2024)	34.17	2.19	29.35	2.10	38.88	2.27
LLaMA-VID (Li, Wang, and Jia 2023)	36.54	2.27	30.58	2.15	36.99	2.24
Chat-UniVi (Jin et al. 2023)	39.35	2.32	31.40	2.16	40.05	2.31
Video-LLaVA (Lin et al. 2023)	41.35	2.38	34.30	2.24	42.47	2.39
VLM-RLAIF ${ }^{\dagger}$ (Ahn et al. 2024)	53.27	2.56	44.82	2.40	53.69	2.62
PLLaVA ${ }^{\dagger}$ (Xu et al. 2024)	48.44	2.50	42.45	2.39	53.55	2.59
LLaVA-NeXT-DPO ${ }^{\dagger}$ (Zhang et al. 2024b)	68.05	2.88	61.52	2.72	73.35	3.00
LLaVA-Hound-DPO (Zhang et al. 2024a)	$\underline{76.62}$	$\underline{3.18}$	70.06	$\underline{3.04}$	79.82	$\underline{3.29}$
ISR-DPO ( $\pi_{\theta^{1}}$ )	75.58	3.14	70.07	3.02	80.74	3.28
ISR-DPO ( $\pi_{\theta^{5}}$ )	81.62	3.25	77.33	3.10	86.92	3.39
ISR-DPO ( $\pi_{\theta^{9}}$ )	82.99	3.26	79.00	3.13	88.11	3.40

Table 1: Zhang et al. (2024a)에서 제안된 상세 캡션을 supporting evidence로 활용한 in-domain 비디오 질문 응답에 대한 다양한 VLMM 간의 정량적 비교. ISR-DPO의 최종 반복 모델( $\pi_{\theta^{9}}$ )은 이들 벤치마크 전반에 걸쳐 정확도와 점수 모두에서 다른 모든 모델을 일관되게 능가하며, in-domain 비디오 질문 응답 task에서 우수한 성능을 보여준다. 최고 결과는 굵게(bold), **두 번째 최고 결과는 밑줄(underline)**로 표시된다. $\dagger$ : 저자들의 구현으로 재현됨. $\dagger$ 를 제외한 모든 결과는 Zhang et al. (2024a)에서 직접 가져왔다.

Methods	MSVD-QA		MSRVTT-QA		TGIF-QA		SSV2-QA
	Acc.	Score	Acc.	Score	Acc.	Score	Acc.	Score
Video-ChatGPT (Maaz et al. 2024)	34.06	2.20	25.65	1.98	31.35	2.09	19.36	1.75
LLaMA-VID (Li, Wang, and Jia 2023)	34.14	2.21	25.02	1.99	27.18	2.00	22.16	1.84
Chat-UniVi (Jin et al. 2023)	35.61	2.23	25.89	2.01	33.23	2.13	20.59	1.79
Video-LLaVA (Lin et al. 2023)	39.46	2.37	30.78	2.15	32.95	2.18	24.31	1.90
VLM-RLAIF ${ }^{\dagger}$ (Ahn et al. 2024)	51.16	2.55	41.44	2.30	46.52	2.41	29.78	1.94
PLLaVA ${ }^{\dagger}$ (Xu et al. 2024)	48.92	2.53	38.26	2.28	43.83	2.40	30.92	2.07
LLaVA-NeXT-DPO ${ }^{\dagger}$ (Zhang et al. 2024b)	65.08	2.82	59.12	2.65	60.80	$\underline{2.70}$	40.14	2.24
LLaVA-Hound-DPO (Zhang et al. 2024a)	$\underline{73.64}$	$\underline{3.12}$	$\underline{68.29}$	$\underline{2.98}$	$\underline{74.00}$	3.12	$\underline{48.89}$	$\underline{2.53}$
ISR-DPO ( $\pi_{\theta^{1}}$ )	74.33	3.12	68.18	2.96	73.57	3.10	48.91	2.52
ISR-DPO ( $\pi_{\theta^{5}}$ )	79.63	3.19	74.07	3.05	77.52	3.12	53.13	2.57
ISR-DPO ( $\pi_{\theta^{9}}$ )	80.36	3.20	75.42	3.05	78.58	3.12	54.66	2.59

Table 2: Zhang et al. (2024a)에서 제안된 상세 캡션을 supporting evidence로 활용한 out-domain 비디오 질문 응답에 대한 다양한 VLMM 간의 정량적 비교. ISR-DPO의 최종 반복 모델( $\pi_{\theta^{9}}$ )은 이들 벤치마크 전반에 걸쳐 정확도와 점수 모두에서 다른 모든 모델을 일관되게 능가하며, out-domain 비디오 질문 응답 task에서 우수한 성능을 보여준다. 최고 결과는 굵게(bold), **두 번째 최고 결과는 밑줄(underline)**로 표시된다. $\dagger$ : 저자들의 구현으로 재현됨. $\dagger$ 를 제외한 모든 결과는 Zhang et al. (2024a)에서 직접 가져왔다.

우리는 선호도 선택 과정에서 비디오 콘텐츠와 시각적 맥락에 대한 이중 조건화(dual conditioning)가 VLMM이 길이 편향(length bias)보다는 비디오 정보에 기반하여 선호도를 선택할 수 있도록 한다고 가정한다. 이는 Fig. 5에서 보여주듯이, 더 낮은 chosen-to-rejected 선호도 비율과 VLMM으로부터 더 짧고 간결한 응답을 가져온다.

또한, Yuan et al. (2024)에서와 같이 시각적 맥락의 효과를 검증하기 위해 self-rewarding과 ISR-DPO 간의 9번째 반복 모델의 응답을 비교한다. 특히, 우리는 GPT-4를 평가자로 사용하여 ground truth에 가장 가까운 응답을 선택함으로써 win-rate를 평가한다. Figure 6은 self-rewarding과 ISR-DPO 간의 모든 벤치마크에 걸친 win-rate를 보여주며, ISR-DPO의 효과를 입증한다. 특히, 더 간결한 응답을 생성함에도 불구하고 (Fig. 5), ISR-DPO는 모든 벤치마크에서 일관되게 더 높은 win-rate를 달성했다. 이는 ISR-DPO가 간결한 응답 내에서 더 관련성 높고 정확한 정보를 전달하는 데 효과적이며, 장황한 환각(verbosity hallucinations)을 완화한다는 증거를 제공한다.

인간 정렬(human alignment)에 대한 시각적 맥락의 효과
판단 품질에 대한 시각적 맥락의 영향을 평가하기 위해, Lee et al. (2023)에 따라 AI 모델의 선호도와 인간 주석자의 선호도 간의 일치성을 평가한다. Tab. 4에서 볼 수 있듯이, ISR-DPO는 self-rewarding (59.0%)에 비해 더 높은 인간 정렬 정확도(75.0%)를 보여주며, 이는 시각적 맥락의 통합이 모델의 인간과 유사한 평가 능력을 향상시킨다는 것을 시사한다.

Methods	MSVD-QA		MSRVTT-QA		TGIF-QA
	Acc.	Score	Acc.	Score	Acc.	Score
Video-ChatGPT (Maaz et al. 2024)	68.6	3.8	58.9	3.4	47.8	3.2
Chat-UniVi (Jin et al. 2023)	70.0	3.9	53.1	3.1	46.1	3.1
VideoChat2 (Li et al. 2024)	70.0	3.9	54.1	3.3	-	-
Video-LLaVA (Lin et al. 2023)	71.8	3.9	59.0	3.4	48.4	3.2
LLaMA-VID (Li, Wang, and Jia 2023)	72.6	3.9	58.7	3.4	49.2	3.3
PLLaVA ${ }^{\dagger}$ (Xu et al. 2024)	78.8	4.0	65.6	3.4	57.9	3.5
LLaVA-NeXT-DPO ${ }^{\dagger}$ (Zhang et al. 2024b)	78.6	4.0	63.4	3.1	58.2	$\underline{3.4}$
VLM-RLAIF ${ }^{\dagger}$ (Ahn et al. 2024)	$\underline{81.0}$	$\underline{4.2}$	$\underline{69.2}$	$\underline{3.7}$	$\underline{62.3}$	$\underline{3.5}$
LLaVA-Hound-DPO (Zhang et al. 2024a)	80.7	4.1	70.2	3.7	61.4	3.5
ISR-DPO ( $\pi_{\theta^{1}}$ )	80.1	4.1	69.8	3.6	61.0	3.4
ISR-DPO ( $\pi_{\theta^{5}}$ )	84.8	4.3	76.0	3.8	66.8	3.5
ISR-DPO ( $\pi_{\theta^{9}}$ )	85.8	4.3	78.7	3.9	67.8	3.5

Table 3: out-domain 비디오 질문 응답 벤치마크(Maaz et al. 2024)에 대한 다양한 VLMM 간의 비교. ISR-DPO ( $\pi_{\theta^{9}}$ )는 세 가지 비디오 질문 응답 데이터셋 전반에 걸쳐 이전 연구들을 능가한다. 최고 결과는 굵게(bold), **두 번째 최고 결과는 밑줄(underline)**로 표시된다. $\dagger$ : 저자들의 구현으로 재현됨. 다른 결과는 Zhang et al. (2024a)에서 직접 가져왔다.

Figure 5: 다양한 비디오 질문 응답 벤치마크에서 self-rewarding과 ISR-DPO 간의 평균 응답 단어 길이(Avg. response word length). ISR-DPO는 self-rewarding에 비해 동일한 반복에서 간결하고 명확한 응답을 생성한다.

Figure 6: 9번째 반복에서의 일대일 성능 비교. ISR-DPO는 벤치마크 전반에 걸쳐 self-rewarding을 일관되게 능가한다.

시각적 맥락에 대한 다양한 설계 선택
Tab. 5에서 시각적 맥락에 대한 다양한 설계 선택을 검토한다: (1) 맥락 없음('N/A'), (2) 첫 번째 반복에서 고정된 맥락('Fixed'), (3) 각 반복에서 새로운 맥락('Renew'), (4) 자기 회고적 맥락('Self-retro.'). 'Self-retro.'는 이전 맥락을 활용하고 개선하면서 향상된 비디오 이해를 통해 세부 정보를 추가하여 일관되게 최고의 성능을 보인다 (Fig. 7). 흥미롭게도, 'Fixed'는 MSRVTT를 제외한 대부분의 벤치마크에서 'Renew'보다 우수한 성능을 보인다. SSv2 및 WebVid의 경우, 'Renew'는 'N/A'보다도 성능이 떨어진다. 우리는 'Renew'가 일관성 없는 정보를 도입할 수 있다고 가정한다.

Context Design	Out-of-domain Video QA Benchmark								In-domain Video QA Benchmark
	MSVD		MSRVTT		TGIF		SSV2		ActivityNet		VIDAL		WebVid
	Acc.	Score	Acc.	Score	Acc.	Score	Acc.	Score	Acc.	Score	Acc.	Score	Acc.	Score
N/A	78.73	3.14	73.42	3.00	77.10	3.09	54.34	2.56	81.96	3.23	76.71	3.09	87.24	3.39
Fixed	79.17	3.15	74.35	3.02	77.88	3.09	54.29	2.57	82.25	3.24	77.90	3.12	87.49	3.39
Renew	79.49	3.19	74.04	3.04	77.63	3.12	53.03	2.56	82.03	3.26	77.73	3.12	86.68	3.38
Retrospective	80.36	3.20	75.42	3.05	78.58	3.12	54.66	2.59	82.99	3.26	79.00	3.13	88.11	3.40

Table 5: 시각적 맥락 생성을 위한 다양한 설계의 정량적 비교. 'N/A'는 맥락을 사용하지 않음을 나타내고, 'Fixed'는 첫 번째 반복에서 생성된 맥락을 모든 후속 반복에 사용하며, 'Renew'는 각 반복마다 새로운 맥락을 생성하고, 'Retrospective.'는 자기 회고적 맥락을 사용한다.

Task	Human Alignment Accuracy (%)
	Self-rewarding	ISR-DPO
Preference selection	59.0	75.0

Table 4: 선호도 선택에 대한 인간 주석자 정렬 정확도. 우리는 인간과 정렬된 모델(즉, self-rewarding vs. ISR-DPO) 간의 상관관계 정도를 평가하기 위해 인간 정렬 정확도를 측정한다.

#1st iteration

The video presents a series of Betta fish, also known as Siamese fighting fish, displaying their unique color patterns and flowing fins.

#5th iteration

이 비디오는 다양한 금붕어들의 클립을 모아 편집한 것이다. 각 클립은 녹색 수생 배경이나 수족관 내의 바위 표면과 같은 다양한 환경에 있는 금붕어를 보여준다. 금붕어들은 검은색, 주황색, 그리고 이들의 조합을 포함하여 다채로운 색상을 뽐낸다.

#9th iteration

이 비디오는 다양한 물고기들의 클립을 모아 놓은 것으로, 각 물고기는 고유한 특징과 행동을 보여준다. 첫 번째 물고기는 둥근 몸통에 복잡한 무늬가 새겨져 있어, Ryukin 또는 Oranda 품종으로 추정되는 고급 금붕어임을 알 수 있다. 세 번째 물고기는 자연 환경에서 바위 위에 쉬고 있는 모습이 포착되었는데, 이는 일반적인 민물고기 종임을 시사한다. 네 번째 물고기는 선명한 주황색과 검은색의 색상, 그리고 눈에 띄는 지느러미로 시선을 사로잡는다. 각 물고기는 물속을 우아하게 미끄러지거나 주변 환경과 상호작용하는 모습으로 움직임을 보여주며, 해당 종의 역동적인 모습을 제공한다. 비디오의 초점은 오직 물고기의 시각적 장관과 그들의 움직임에만 맞춰져 있다.

Figure 7: 반복(iteration)에 따른 예측된 context의 시각화. 생성된 context는 반복될수록 점점 더 시각적으로 잘 grounding된다. 빨간색은 관련 없는 응답을 나타내고, 파란색은 정확하고 시각적으로 grounding된 응답을 나타낸다.

비디오에서 반복적으로 일관성 없는 초점은 관련 없는 세부 사항에 대한 주의를 유발할 수 있다. 이러한 결과는 우리의 'Selfretro.'와 같은 context 갱신에 대한 체계적인 접근 방식이 관련 콘텐츠에 대한 초점을 유지하고, 이를 통해 적절한 선호도 모델링을 개선하는 데 매우 중요하다는 것을 시사한다.

4.4 Qualitative Analysis

반복(iteration)에 따른 시각적 context 강화.
self-retrospective context의 개선되는 특성을 보여주기 위해, Figure 7과 같이 생성된 context를 시각화하였다. 학습 반복이 진행됨에 따라, context는 비디오에 대한 점점 더 상세한 시각적 정보, 예를 들어 금붕어의 특정 종과 같은 정보를 추가한다. 이러한 개선된 context는 비디오 콘텐츠에 대한 전반적인 이해를 돕고 선호도 선택 프로세스를 향상시킨다.

self-rewarding과 ISR-DPO 비교.
Figure 8은 9번째 반복 모델에 대해 self-rewarding (즉, 시각적 context가 없는 ISR-DPO) 과 ISR-DPO의 응답을 비교한다. self-rewarding은 더 긴 응답을 생성하는 경향이 있지만, 문장이 진행될수록 질문 및 시각적 콘텐츠와의 관련성이 떨어지는 경향을 보인다. 또한, 선수의 행동을 제대로 인식하지 못한다.

Question: What is the athlete doing in the video?

Ground-Truth: The athlete is performing the long jump.

Self-Rewarding (Yuan et al., 2024)

선수는 달리는 자세와 육상 활동에 적합한 운동복으로 보아 단거리 달리기(sprinting) 종목에 참여하고 있음을 알 수 있다. 트랙 위에서 출발 자세에서 전력 질주로 전환한 후 결승선을 통과하는 모습이 보인다. 선수의 움직임은 역동적이고 집중적이며, 속도와 지구력을 보여준다. 선수의 행동에는 가속, 고속 유지, 결승선 통과가 포함되며, 이 모든 것은 단거리 달리기 종목의 특징이다. 선수의 표정과 몸짓은 결단력과 노력을 전달하며, 이는 경쟁적인 육상 경기에서 흔히 볼 수 있는 모습이다.

ISR-DPO (Ours)

선수는 달리기와 점프를 포함하는 육상 경기에 참여하고 있다. 선수는 트랙 위를 달리고, 점프를 위해 도약하며, 모래밭에 착지하는 모습이 보인다. 이러한 동작들은 선수가 멀리뛰기 또는 유사한 육상 종목에 참가하고 있음을 시사한다. 선수의 움직임은 역동적이고 집중되어 있으며, 경쟁적인 스포츠 환경을 나타낸다.

Figure 8: self-rewarding과 ISR-DPO의 정성적 비교. 이 그림은 **시각적 맥락 없이 생성된 설명(self-rewarding, 상단)**과 **시각적 맥락을 포함하여 생성된 설명(ISR-DPO, 하단)**을 9번째 iteration에서 대조한다. 시각적 맥락이 있는 경우 더 정확하고 간결하며 관련성 높은 설명이 생성된다. 빨간색은 관련 없는 응답을, 파란색은 시각 정보에 잘 근거한 응답을 나타낸다. jumping motion을 정확하게 설명한다. 이와 대조적으로, ISR-DPO는 비디오 내용에 더 간결하고 정확하며 잘 근거한 응답을 생성한다.

5 Conclusion

우리는 비디오에 대한 instruction-following 능력을 향상시키는 VLMM을 위한 새로운 반복적인 direct preference optimization인 ISR-DPO를 제안한다. 특히, 우리는 VLMM의 시각적으로 근거 있는(visually grounded) 선호도를 판단하는 능력을 개선하기 위해 self-retrospective preference modeling을 제안한다. 이를 통해 ISR-DPO는 선호하는 응답을 판단할 때 시각적으로 근거 없는 장황함(visually ungrounded verbosity)에 대한 모델의 문제적 경향을 완화하여, 더 간결하고 시각적으로 근거 있는 응답을 유도한다. 다양한 비디오 질문 응답 벤치마크에 대한 실증적 평가는 ISR-DPO가 state-of-the-art VLMM에 비해 우수한 성능을 보여줌을 입증한다.

6 Acknowledgment

본 연구는 DAPA와 ADD가 지원하는 CARAI 보조금(UD230017TD)과 한국 정부(MSIT)가 지원하는 IITP 보조금(No.RS-2022-II220077, No.RS-2022-II220113, No.RS-2022-II220959, No.RS-2022-II220871, No.RS-2021-II211343 (SNU AI), No.RS-2021-II212068 (AI Innov. Hub))의 부분적인 지원을 받았다.

7 Additional Input Prompts for Preference Dataset Generation

선호도 데이터셋을 생성하는 과정에서, 우리는 각 단계별로 특정 추가 입력 prompt를 사용한다. Figure 9는 이 과정에서 사용되는 세 가지 유형의 입력 prompt를 보여준다:

응답 생성(response generation),
자기 회고적 맥락 생성(self-retrospective context generation),
선호도 판단(preference judgment).

**'Prompt (response)'**는 VLMM의 응답에 대한 가이드라인을 정의하며, 데이터 생성의 모든 단계에서 일관되게 사용된다. **'Prompt (context)'**는 이전 맥락을 기반으로 새로운 맥락을 생성하는 데 사용되는 prompt를 보여준다. 마지막으로 **'Prompt (judge)'**는 현재 Video Large Multimodal Model (VLMM)을 사용하여 선호도를 판단하는 데 사용되는 prompt를 제시한다.

8 Details on Head-to-Head Comparison with GPT-4 Evaluator

우리는 ISR-DPO가 self-rewarding (Yuan et al. 2024) 방식과 비교하여 생성하는 응답의 품질을 **head-to-head 비교 (Yuan et al. 2024)**를 통해 평가한다. 구체적으로, 우리는 GPT-4에게 in-domain 및 out-of-domain 비디오 질문 응답 벤치마크에서 두 응답 중 어느 것이 더 우수한지 판단하도록 요청했다. 평가는 두 가지 핵심 측면에 중점을 두었다:

제공된 지시에 대한 모델 응답의 관련성 (relevance),
ground-truth 응답과 관련하여 응답의 정확성 (accuracy). 자세한 prompt는 Fig. 10에 시각화되어 있다.

9 Details on Human Evaluation for Human Preference Alignment

우리는 Lee et al. (2023)의 접근 방식을 따라, AI가 생성한 선호도가 인간의 선호도와 얼마나 잘 일치하는지 측정하기 위해 인간 평가(human evaluation)를 수행한다. 이를 위해 video question answering 데이터셋 (Xu et al. 2017)의 validation set에서 100개의 질문을 무작위로 샘플링한다. 그 다음, Amazon Mechanical Turk 플랫폼을 통해 질문당 15명의 annotator를 모집한다. Annotator에게는 비디오, 지시문, 그리고 우리의 ISR-DPO 모델이 생성한 두 가지 버전의 응답이 제시된다. Annotator에게 주어진 질문의 구체적인 지시사항과 예시는 Fig. 11에서 확인할 수 있다.

10 More Qualitative Results

Fig. 12에서는 self-rewarding과 우리의 ISR-DPO가 생성한 응답을 비교하는 추가 예시를 제시한다. 잘 근거된(well-grounded) 구문은 파란색으로 강조되어 있으며, 잘못 정렬되었거나(misaligned) 관련 없는 구문은 빨간색으로 표시되어 있다. self-rewarding과 비교했을 때, 우리의 접근 방식은 잘못 정렬되거나 지나치게 장황한 문장의 발생을 줄인다. 예를 들어, 해변 축구 예시에서 우리의 방법은 불필요한 설명을 추가하지 않고 팀 색상을 파란색과 주황색으로 정확하게 식별한다. 이러한 예시들은 우리의 ISR-DPO가 장황한 환각(verbosity hallucination)을 줄여 더 간결하고 관련성 높은 응답을 생성하는 방법을 보여준다.

11 Performance Over Training Iterations

Fig. 13에서는 다양한 비디오 질문 응답 벤치마크를 사용하여 ISR-DPO의 학습 반복(training iteration)에 따른 효과를 보여준다. 전반적으로, 학습 반복 횟수가 증가함에 따라 성능이 향상되지만, 7번째 반복에서는 MSR-VTT 데이터셋에서 예외적으로 성능이 감소하는 경향을 보인다. 하지만 이후 9번째 반복까지의 학습 과정에서 성능이 다시 회복되고 개선되는 것을 확인할 수 있다.

Prompt (response)

호기심 많은 인간과 인공지능 비서 간의 대화. 비서는 인간의 질문에 대해 도움이 되고, 상세하며, 정중한 답변을 제공한다.

Prompt (context)

주어진 비디오와 이전에 예측된 비디오 설명을 바탕으로, 비디오 클립에 대한 향상된 설명을 생성하는 것이 당신의 task이다. 생성된 설명은 비디오 내용에 대한 포괄적인 이해를 제공하면서도 일관성 있는 이야기를 구성해야 한다.
이전 설명에 관련 없거나 부적절한 단어가 포함될 수 있음에 유의하라. 따라서 이전 설명의 모든 내용을 포함할 필요는 없다. 정확성과 세부 사항이 향상된 새로운 설명을 생성하는 데 집중하되, 가능한 한 간결하고 포괄적이어야 한다.

설명을 생성할 때 다음 사항들을 고려하라:
(1) 흔들림 없는 정확성: AI는 응답에서 일관되게 정확하고 검증 가능한 정보를 제공해야 한다.
(2) 일관된 보정: AI는 자신의 확신 주장(confidence assertion)이 실제 정확도와 일치하도록 보장하여, 진정한 지식 추정을 반영해야 한다.
(3) 투명한 불확실성 표현: AI는 불확실할 때 자신의 불확실성 수준을 투명하게 표현하여, 사용자가 모호하거나 지나치게 확신에 찬 진술에 의해 오도되지 않도록 해야 한다.
(4) 정직한 자기 표현: AI는 자신의 능력에 대해 솔직해야 하며, 가지고 있지 않은 전문성이나 지식을 가장해서는 안 된다.
(5) 추가 지침:

반복, 불분명한 설명, 또는 이해를 방해할 수 있는 문법적 오류와 같은 문제를 피하여 예측된 답변을 명확히 하라.
불일치를 해결하여 비디오 내용과의 정확성과 일치성을 보장하라.
간결하게 설명을 생성하라.
$\_\_\_\_$
Previous description: <PREVIOUS CONTEXT>

Now, generate the improved description below.
Improved description:

Prompt (judge)

주어진 비디오, 질문 및 비디오에 대한 설명을 고려하여, 질문에 대해 가장 선호되는 (가장 덜 틀린) 답변을 선택하십시오.

입력:

질문(Question): AI 시스템에 질의된 질문
답변1(Answer1): AI 시스템의 첫 번째 답변 예측
답변2(Answer2): AI 시스템의 두 번째 답변 예측
비디오 설명(Video description): 주어진 비디오에 대한 전반적인 설명 (단락 형태)

제공된 정의를 바탕으로, 주어진 지시(질문)에 대해 선호되는 답변(Answer1 또는 Answer2)을 선택하고, 그것을 올바른 답변으로 선택한 간결한 설명을 제공하십시오. 설명을 생성할 때, 단순히 답변 자체를 언급하는 대신 타당한 근거를 제시하십시오.

귀하의 답변은 다음과 같은 형식이어야 합니다: Choice: Explanation:

이제 다음 상황에 대한 답변을 제공하십시오: Question: <QUESTION> Answer1: <PREDICTION A> Answer2: <PREDICTION B> Description: <RETRO CONTEXT> 출력을 생성할 때, 제공된 시각적 상황을 고려하고 생성된 출력에 'Answer1' 또는 'Answer2'를 포함해야 합니다.

Figure 9: 선호도 데이터셋 구축을 위한 다양한 입력 prompt. 이는 다양한 입력 prompt를 보여준다: 상단은 두 가지 응답 생성을 위한 부분, 중앙은 이전 context 기반의 context 생성을 위한 부분, 하단은 최신 iteration의 VLMM을 사용한 선호도 판단을 위한 부분이다.

다음 입력이 주어졌을 때:

캡션 관련 질문: {Question}
정답: {Answer}
응답1: {Prediction1}
응답2: {Prediction2}

귀하의 임무는 정답과 질문을 바탕으로 두 모델의 출력 중 어느 것이 더 나은지 평가하는 것입니다. 평가를 위한 다음 기준을 고려하십시오: 귀하는 응답1 또는 응답2 중 하나가 다른 것보다 낫다고 선택해야 합니다.

관련성(Relevance): 예측된 답변이 제시된 질문에 직접적으로 답하는가? 응답은 질문과 상관없는 문장을 포함해서는 안 된다. 예를 들어, 질문이 비디오 속 남자에 대해 묻는다면, 배경, 분위기 등은 설명하지 않고 해당 객체에 대해서만 설명해야 한다.
정확성(Accuracy): 예측된 답변을 정답과 비교하십시오. 예측이 사실적 오류를 도입하지 않고 정답에 주어진 정보를 정확하게 반영하는가? 참고: Choice에 대한 답변은 Response1, Response2 또는 Tie로 응답해야 합니다. 어떠한 설명도 제공하지 마십시오. 피할 수 없는 경우를 제외하고 Tie 사용을 피하고 Response1 또는 Response2를 선택하십시오. 출력 형식: Choice: <더 나은 응답 선택: Response1은 1, Response2는 2, Tie는 3>

Figure 10: GPT-4에 제공된 평가 기준. self-rewarding과 ISR-DPO의 생성된 응답을 비교하기 위해, GPT-4에게 관련성(Relevance)과 정확성(Precision) 두 가지 기준에 따라 더 나은 응답을 선택하도록 prompt를 주었다.

Task:

Annotator로서 귀하는 특정 비디오와 캡션에 관련된 질문에 대한 두 가지 AI 생성 응답을 평가하는 작업을 수행합니다. 아래 설명된 기준을 가장 잘 충족하는 응답을 질문과 비디오에서 사용 가능한 정보를 바탕으로 선택해야 합니다. 시각화된 비디오 프레임과 제공된 ground-truth 답변에서 사용 가능한 정보를 사용하여 응답을 평가합니다.

Criteria for Evaluation:

정확성 (Accuracy): 응답이 질문에 정확하게 답하는지, 그리고 비디오에서 제공된 내용과 맥락을 충실히 따르는지 평가한다. 이상적인 응답은 ground-truth 답변의 의도와 사실적 내용을 정확하게 반영해야 한다. 비디오나 ground-truth에 없는 정보를 도입하는 응답은 피해야 한다. 응답은 추측하거나, 가정하거나, 근거 없는 세부 사항을 만들어서는 안 된다. (그럴듯해 보이더라도)
관련성 (Relevance): 응답은 불필요한 문장이나 곁가지 없이 질문에 직접적으로 답해야 한다. 응답이 질문과의 관련성을 처음부터 끝까지 유지하는지 확인한다. 응답은 관련성 있게 시작할 뿐만 아니라, 끝까지 이 초점을 유지해야 한다.
- 예) 질문이 "남자의 복장은 무엇인가?"에 관한 것이라면, 비디오의 전반적인 분위기, 날씨 조건 등 질문과 관련 없는 세부 사항을 논하는 응답은 불이익을 준다. (이러한 요소들이 질문과 매우 밀접하게 관련되어 있지 않는 한)
문장 구조 (Sentence Structure): 응답은 잘 구성되어 있고 이해하기 쉬워야 한다. 명확한 언어와 논리적인 아이디어의 순서를 사용해야 한다. 모호하거나 제대로 구성되지 않은 응답은 정보의 오해를 불러일으킬 수 있으므로 피해야 한다.

Procedure (FYI):

제공된 질문을 읽는다.
ground-truth 답변을 읽고 질문의 특정 초점을 이해한다.
AI가 생성한 두 응답을 모두 검토한다.
ground-truth 캡션으로 사실 확인이 어려운 추가 정보가 있는 경우, 시각화된 비디오 프레임을 확인하여 정보가 올바른지 판단한다.
AI가 생성한 두 응답을 모두 검토한다.
전반적인 기준을 가장 잘 충족하는 응답을 선택한다.

Notes:

두 응답이 모두 유효해 보이는 경우, 톤의 미묘한 차이, 언어의 정확성, 아이디어의 논리적 흐름을 고려해야 한다. 궁극적인 목표는 제시된 비디오와 질문에 대한 정보를 찾는 사용자에게 가장 적합한 응답을 선택하여, 원본 자료의 내용과 정신을 모두 반영하는 것이다. AI 생성 콘텐츠의 정확성과 유용성을 향상시키는 데 있어 당신의 신중한 분석과 선택은 매우 중요하다. 이 작업에 대한 당신의 성실한 노력에 감사드린다.

Question: 비디오에 언급된 "NIGHT OF THE PROMS" 행사의 장소와 날짜는 언제인가?

Ground-truth Answer: 비디오 캡션에 따르면, "NIGHT OF THE PROMS" 행사는 3월 22일 폴란드 우치(Łódź)에서 처음으로 개최될 예정이다.

Response 1: 비디오에 언급된 "NIGHT OF THE PROMS" 행사는 비디오의 텍스트 오버레이에 따라 2019년 3월 22일 "Lodz"에서 열린다. 이 설정은 라이브 무대 행사임을 시사하며, 장소와 날짜는 행사의 배경과 시기를 설명하기 위해 제공된다.

Response 2: 비디오에 언급된 행사는 "NIGHT OF THE PROMS"이며, 이는 TV로 방영되는 노래 경연 대회 또는 콘서트이다. 비디오의 텍스트 오버레이는 이 행사가 폴란드에서 열렸음을 나타내며, 경연의 다양한 단계 또는 라운드에 대한 특정 날짜가 언급되어 있다. 텍스트 오버레이는 또한 장소와 날짜를 제공하며, 이 행사가 폴란드에서 열린 TV 노래 경연 대회 또는 콘서트였고, 다양한 단계 또는 라운드가 날짜로 표시되었음을 시사한다. 이 행사는 2016년에 방송되거나 개최되었다. https://drive.google.com/uc?export=view\&id=1FGN1NXD5i8hsuocCoMFaVj82szfDEgil $\bigcirc$ Response 1 $\bigcirc$ Response 2

Figure 11: Amazon Mechanical Turk 주석자에게 제공된 평가 기준. 우리는 주석자들에게 제공된 비디오와 일치하지 않는 내용이나 질문의 목적에서 벗어나는 지나치게 장황한 문장을 포함하는 출력에 대해 불이익을 주도록 신중하게 지시했다.

Question: 비치 사커 경기를 하는 팀들의 복장은 무엇인가?

Ground-Truth

두 팀은 두 가지 다른 유니폼을 입고 있으며, 한 팀은 파란색, 다른 팀은 주황색이다.

Self-Rewarding (Yuan et al., 2024)

해변 축구 경기에 참여하는 팀들은 서로 대비되는 독특한 복장을 착용하고 있어, 두 팀을 쉽게 구별할 수 있다. 선수들은 해변 환경과 스포츠의 신체적 특성에 적합한 일반적인 반바지와 저지로 구성된 팀 유니폼을 입고 있다. 유니폼의 색상은 생동감 있으며 각 팀을 대표하는 것으로 보이며, 한 팀은 밝은 색상을, 다른 팀은 어두운 색상을 착용하고 있다. 이러한 복장은 스포츠와 환경에 적합하여, 경기 중 움직임의 용이성과 편안함을 제공한다.

ISR-DPO (Ours)

해변 축구 경기를 하는 팀들은 뚜렷한 팀 색상으로 옷을 입고 있으며, 한 팀은 파란색, 다른 팀은 주황색 유니폼을 착용하고 있다. 그들의 복장은 해변 스포츠에 적합하게 반바지와 티셔츠 또는 저지로 구성되어 있어, 경기 중 민첩성과 편안함을 제공한다. 선수들의 유니폼은 생동감 있고 대조적이어서 두 팀을 쉽게 구별할 수 있다.

Question: What is the weight of the discus being thrown?

Ground-Truth

던져지는 원반의 무게는 보이는 텍스트 주석에 따르면 1.5 kg이다.

Self-Rewarding (Yuan et al., 2024)

비디오에는 던져지는 원반의 무게가 명확하게 표시되어 있으며, 던지는 과정의 여러 지점에서 원반의 무게를 나타내는 텍스트 오버레이가 나타난다. 원반은 특정 무게를 염두에 두고 던져지며, 이는 선수의 성능과 기술에 매우 중요하다. 비디오의 텍스트 오버레이에 표시된 바와 같이, 던져지는 원반의 무게는 5kg, 5.5kg, 6kg이다. 이러한 무게 정보는 선수의 근력과 던지기 기술의 요구 사항에 대한 맥락을 제공하므로 중요하다.

ISR-DPO (Ours)

비디오에는 던져지는 원반의 무게를 나타내는 텍스트 오버레이가 있으며, 원반의 무게는 "1.5 kg"으로 명시되어 있다. 이러한 세부 정보는 시청자에게 던지기에 사용되는 원반의 무게에 대한 정보를 제공한다.

Figure 12: self-rewarding과 ISR-DPO의 예측에 대한 추가적인 정성적 예시. 두 모델 모두 9번째 iteration에서 생성된 응답을 비교한다. 시각적 맥락을 통합하면 ground-truth 답변과 더 밀접하게 일치하는 더 정확하고 간결하며 관련성 높은 설명을 얻을 수 있다. 빨간색은 관련 없거나 잘못된 응답을 나타내고, 파란색은 잘 근거된 응답을 나타낸다.

Question: 비디오에 나오는 흰색 둥근 접시에 어떤 종류의 칩이 놓여 있나요?

Ground-Truth

비디오 속 흰색 둥근 접시 위에 삼각형 모양의 노란색 토르티야 칩들이 원형 패턴으로 배열되어 있다.

Self-Rewarding (Yuan et al., 2024)

비디오에 나오는 하얀 둥근 접시에 담긴 칩들은 노란색 콘 칩으로, 바삭한 식감과 약간 짭짤한 맛으로 잘 알려져 있다. 이 칩들은 일반적으로 옥수수 가루로 만들어지며, 스낵 봉지에서 흔히 볼 수 있거나 캐주얼한 식당에서 제공되는 표준적인 크기와 모양을 하고 있는 것으로 보인다. 칩들은 치즈 소스에 찍어 먹거나 바로 먹을 수 있도록 배열되어 있다.

ISR-DPO (Ours)

비디오에 나오는 하얀 둥근 접시에 놓인 칩들은 토르티야 칩으로 보인다. 이러한 칩들은 소스를 찍어 먹는 데 흔히 사용된다. 칩들은 삼각형 모양에 황금빛 노란색을 띠고 있어, 튀겨지고 양념이 된 것으로 추정된다. 이 칩들은 일반적으로 옥수수 가루로 만들어지며, 딥 소스와 함께 즐겨 먹는 인기 있는 간식이다.

Figure 12: self-rewarding과 ISR-DPO의 예측에 대한 추가적인 정성적 예시. 두 모델 모두 9번째 iteration에서 생성된 응답을 비교한다. 시각적 맥락을 통합하면 ground-truth 답변과 더 밀접하게 일치하는, 더 정확하고 간결하며 관련성 높은 설명을 얻을 수 있다. 빨간색은 관련 없거나 잘못된 응답을 나타내고, 파란색은 잘 근거된 응답을 나타낸다.

Question: 비디오 속 인물은 어떤 종류의 보호 장비를 착용하고 있나요?

Ground-Truth

비디오 속 인물은 보호 장비로 용접 헬멧과 장갑을 착용하고 있다.

Self-Rewarding (Yuan et al., 2024)

비디오 속 인물은 용접에 적합한 보호 장비를 착용하고 있다. 여기에는 강렬한 빛과 불꽃으로부터 얼굴을 보호하기 위한 어두운 바이저가 달린 헬멧, 손을 보호하는 장갑, 그리고 피부를 화상으로부터 보호하기 위한 긴팔 셔츠가 포함된다. 이 장비는 용접 과정의 위험으로부터 용접공을 보호하도록 설계되었다. 보호복은 주로 어두운 색상이며, 이는 내구성과 열 흡수 능력을 고려하여 선택된 것으로 보인다. 헬멧에는 용접공의 얼굴을 완벽하게 보호하기 위한 안면 보호대도 장착되어 있다.

ISR-DPO (Ours)

비디오 속 인물은 용접 헬멧과 장갑을 포함한 보호 장비를 착용하고 있으며, 이는 이러한 작업 중 안전을 위해 필수적이다. 보호 장비는 이 인물이 강렬한 빛과 용접 과정의 잠재적 위험으로부터 자신을 보호하기 위해 필요한 예방 조치를 취하고 있음을 시사한다. 이 장비는 용접 작업에 일반적인 것으로, 작업을 수행하는 동안 개인의 안전을 보장한다.

Figure 13: 비디오 질문 응답 벤치마크에서 반복(iteration)에 따른 ISR-DPO의 정확도. 전반적으로, 우리의 ISR-DPO는 DPO 반복을 거듭할수록 성능이 꾸준히 향상된다. In-domain 데이터셋: Activity-Net, VIDAL 및 WebVid. Out-domain 데이터셋: Zhang et al. (2024a)에서 사용된 MSVD, MSR-VTT, TGIF 및 SSv2.

ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO

Abstract

1 Introduction

2 Related Work

3 Iterative Self-Retrospective DPO

3.1 Iterative DPO in VLMM

3.2 Self-Retrospective Preference Modeling

4 Experiments

4.1 Experimental Setup

4.2 Quantitative Analysis

4.3 Detailed Analysis

#5th iteration

#9th iteration

4.4 Qualitative Analysis

Self-Rewarding (Yuan et al., 2024)

ISR-DPO (Ours)

5 Conclusion

6 Acknowledgment

7 Additional Input Prompts for Preference Dataset Generation

8 Details on Head-to-Head Comparison with GPT-4 Evaluator

9 Details on Human Evaluation for Human Preference Alignment

10 More Qualitative Results

11 Performance Over Training Iterations

Prompt (response)

Prompt (context)

Prompt (judge)

Task:

Criteria for Evaluation:

Procedure (FYI):

Notes:

Ground-Truth

Self-Rewarding (Yuan et al., 2024)

ISR-DPO (Ours)

Ground-Truth

Self-Rewarding (Yuan et al., 2024)

ISR-DPO (Ours)

Ground-Truth

Self-Rewarding (Yuan et al., 2024)

ISR-DPO (Ours)

Ground-Truth

Self-Rewarding (Yuan et al., 2024)

ISR-DPO (Ours)