Shangguan, Ziyao, et al. "Tomato: Assessing visual temporal reasoning capabilities in multimodal foundation models." arXiv preprint arXiv:2410.23266 (2024). ICLR 2025

tomato: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Ziyao Shangguan*1 Chuhan Li ${ }^{* 1}$ Yuxuan Ding ${ }^{1}$ Yanan Zheng ${ }^{1}$ Yilun Zhao ${1}$ Tesca Fitzgerald ${1}$ Arman Cohan ${12}$ <br> ${ }^{1}$ Yale University ${ }^{2}$ Allen Institute for AI<br>{ziyao.shangguan, chuhan.li.cl2575}@yale.edu<br>https://github.com/yale-nlp/TOMATO

Abstract

기존 벤치마크들은 **state-of-the-art Multimodal Foundation Model (MFM)**이 비디오 이해를 위해 시간적 맥락(temporal context)을 활용하는 놀라운 성능을 강조한다. 그러나 모델들이 시각적 시간 추론(visual temporal reasoning)을 실제로 얼마나 잘 수행하는가?
우리의 기존 벤치마크 연구에 따르면, 많은 질문들이 단일 프레임, 소수의 프레임, 또는 순서가 뒤바뀐 프레임을 사용해서도 해결될 수 있기 때문에, MFM의 이러한 능력은 과대평가되었을 가능성이 높다.
현재의 시각적 시간 추론 task들을 체계적으로 검토하기 위해, 우리는 세 가지 원칙과 그에 상응하는 측정 지표를 제안한다:

Multi-Frame Gain
Frame Order Sensitivity
Frame Information Disparity

이러한 원칙들을 따라, 우리는 TOMATO (Temporal Reasoning MultimodAl EvaluaTiOn) 라는 새로운 벤치마크를 소개한다. TOMATO는 비디오 이해에서 MFM의 시간 추론 능력을 엄격하게 평가하기 위해 고안되었다.
TOMATO는 1,484개의 신중하게 선별된, 사람이 주석을 단 질문으로 구성되며, 6가지 task (예: action count, direction, rotation, shape & trend, velocity & frequency, visual cues) 에 걸쳐 있다. 이 질문들은 1,417개의 비디오에 적용되었으며, 여기에는 805개의 자체 녹화 및 생성 비디오가 포함되어 인간 중심적, 실제 세계, 시뮬레이션 시나리오를 아우른다.
우리의 포괄적인 평가는 최고 성능 모델과 인간 간에 57.3%의 성능 격차가 있음을 보여준다. 더욱이, 우리의 심층 분석은 현재 MFM에서 이러한 격차를 넘어서는 더 근본적인 한계점들을 밝혀낸다. MFM은 개별 프레임 내의 이벤트를 정확하게 인식할 수 있지만, 이러한 프레임들을 연속적인 시퀀스로 해석하는 데는 실패한다.
우리는 TOMATO가 차세대 MFM을 평가하는 중요한 테스트베드가 될 것이며, 비디오 modality를 통해 인간 세계의 역동성을 이해할 수 있는 AI 시스템을 개발하도록 커뮤니티에 촉구하는 계기가 될 것이라고 믿는다.

1 Introduction

인간 지각의 중요한 측면인 **시각적 시간 추론(visual temporal reasoning)**은 시간에 따른 시각 정보의 시퀀스를 이해하고 해석하는 인지 과정을 의미한다. 여기에는 움직임 패턴 인식, 장면 변화 감지, 사건 진행 추적 등이 포함된다 (Kahneman et al., 1992). 현재 시각적 시간 추론을 다루는 state-of-the-art 방법들은 Multimodal Foundation Model (MFM) (OpenAI, 2024, Anthropic, 2024b, Wang et al., 2024a, Fei et al., 2024) 사용에 집중되어 있으며, 이들은 수많은 시간 추론 비디오 벤치마크에서 놀라운 성능을 보여주었다 (Li et al., 2023; Liu et al., 2024; Li et al., 2024b; Chen et al., 2024a). 그러나 이러한 인상적인 성능에도 불구하고, 본 연구의 §5에서 보여주듯이 모델의 시각적 시간 추론 능력은 과대평가되었을 가능성이 높다.

본 연구는 Figure 1에 나타난 바와 같이, 기존에 널리 사용되는 4가지 시간 추론 비디오 벤치마크 (Li et al., 2023, 2024b; Liu et al., 2024; Chen et al., 2024a)를 분석한다. 우리는 이 벤치마크들의 질문 구성에서 모델이 지름길(shortcut)을 악용할 수 있는 패턴을 발견했으며, 이는 모델이 단일 프레임, 소수의 프레임, 또는 순서가 뒤바뀐 프레임만으로도 정답을 맞출 수 있도록 한다. 벤치마크가 MFM의 시각적 시간 추론 능력을 효과적으로 평가하는지 엄격하게 검증하기 위해, 우리는 세 가지 원칙과 그에 상응하는 측정 지표를 제안한다:

Figure 1: 여러 VideoQA 벤치마크의 예시. 우리는 기존의 대표적인 4가지 벤치마크와 우리의 벤치마크인 VITATECS, MVBench, TempCompass, ReXTime, 그리고 TOMATO를 조사한다. 기존 4가지 벤치마크에서는 모델이 지름길로 활용할 수 있는 프레임을 바운딩 박스로 강조하여, 강조된 프레임 중 어느 하나만으로도 질문에 답할 수 있음을 보여준다. 그러나 TOMATO에서는 모델이 연속적인 프레임 간의 추론과 모든 프레임을 연속적인 시퀀스로서 추론해야 한다.

(1) Multi-Frame Gain: 값이 높을수록 단일 프레임만으로는 task를 해결하기 어렵다는 것을 나타낸다 (§3.1). (2) Frame Order Sensitivity: 값이 높을수록 task가 프레임의 올바른 순서에 더 많이 의존한다는 것을 나타낸다 (§3.2). (3) Frame Information Disparity: 값이 낮을수록 정보가 프레임 전체에 더 고르게 분포되어 있다는 것을 나타낸다 (§3.3).

우리의 분석 결과, 기존 벤치마크들은 평균적으로 Multi-Frame Gain이 5% 미만인 반면, 우리의 벤치마크는 **66.3%**를 보였다 (§5.1). Frame Order Sensitivity는 8% 미만인 반면, 우리의 벤치마크는 **34.1%**를 보였다 (§5.2). 그리고 Frame Information Disparity는 27% 이상인 반면, 우리의 벤치마크는 **4.6%**에 불과했다 (§5.3). 이러한 결과는 기존 벤치마크의 task들이 단일 프레임으로 해결하기 상대적으로 쉽고, 프레임 순서에 덜 의존하며, 프레임 전체에 정보가 불균등하게 분포되어 있음을 시사한다. 따라서, MFM의 비디오 이해에 필수적인 모델의 시각적 시간 추론 능력은 과대평가되었을 가능성이 높다.

보다 효과적인 시각적 시간 추론 벤치마크를 구축하기 위한 앞서 언급된 세 가지 원칙에 따라, 우리는 **TOMATO (Temp_oral Reasoning MultimodAl EvaluaTíOn)**를 소개한다. TOMATO는 MFM의 시간 추론 능력을 명시적으로 평가하기 위해 설계된 새로운 비디오 이해 벤치마크이다. TOMATO는 인간 중심, 실제 세계, 시뮬레이션 시나리오를 포함하는 1,417개의 비디오에 적용된 **6가지 distinct 시간 추론 task (행동 횟수, 방향, 회전, 형태 및 경향, 속도 및 빈도, 시각적 단서)**에 걸쳐 신중하게 선별된 1,484개의 인간 주석 다중 선택 질문으로 구성된다 (§4.1). TOMATO는 YouTube, 4개의 기존 비디오 데이터셋 (Jang et al., 2017; Yi et al., 2020; Li et al., 2022; Pătrăucean et al., 2023), 그리고 자체 녹화 및 생성된 비디오를 포함하는 다양한 비디오 컬렉션을 특징으로 한다 (§4.2). 다양성을 높이기 위해, 우리는 YouTube 및 자체 녹화 비디오를 신중하게 편집하여 반사실적 시나리오, 복합 동작, 확대된 시점과 같은 다양한 특성을 포함시켰다. 805개의 오리지널 비디오를 제작할 때, 우리는 인간 상호작용이나 생성된 합성 장면을 포착하는 기존 비디오의 부족을 해결하기 위해 인간 중심 및 시뮬레이션 시나리오를 명시적으로 포함했다. 질문-답변(QA) 쌍은 모델이 모든 프레임 간의 전환에 대해 추론해야 하도록 세심하게 설계되었으며, 이는 시각적 시간 추론이 task 해결에 필수적임을 의미한다.

우리는 21개의 오픈 소스 모델과 10개의 독점 모델에 대한 포괄적인 평가를 수행했다. 특히, 최고 성능의 오픈 소스 모델인 Qwen2-VL-72B는 37.9%의 전체 정확도를 달성하여, 37.7%의 전체 정확도를 달성한 GPT-4o를 포함한 모든 독점 모델을 능가했다. 그러나 두 유형의 모델 모두 인간 수준의 성능(전체 비디오 사용 시 95.2%, 16프레임 사용 시 79.7%)에 비해 현저히 낮은 수준에 머물렀다. 더욱이, 우리의 분석은 이러한 성능 격차를 강조하는 것을 넘어, 현재 MFM 능력의 더 깊고 근본적인 한계를 드러낸다 (§6.3). 구체적으로, 우리는 이러한 모델들이 다음을 보여준다: (1) 프레임을 연속적인 시퀀스로 해석하는 기본적인 능력 부족, (2) 시각적 입력을 진정으로 활용하지 못하고 상식에 과도하게 의존하는 경향, (3) 노이즈 정보에 매우 취약한 특성. 우리의 연구 결과가 향후 개선된 MFM 개발을 위한 유용한 통찰력을 제공하기를 희망한다.

요약하자면, 우리의 기여는 다음과 같다:

우리는 기존 시각적 시간 추론 벤치마크에서 MFM의 과대평가된 성능을 식별하고, 모델의 시각적 시간 추론 능력을 평가하는 벤치마크의 효과성을 측정하기 위한 세 가지 원칙과 지표를 확립했다.
우리는 TOMATO를 소개한다. 이는 6가지 추론 유형과 3가지 비디오 시나리오를 포함하며, 805개의 자체 제작 및 생성 비디오를 포함하는 MFM의 시각적 시간 추론 task 능력을 평가하기 위한 새로운 벤치마크이다.
우리는 TOMATO에서 21개의 오픈 소스 모델과 10개의 독점 모델에 대한 포괄적인 평가를 제시하며, 인간 수준과 MFM 기반 시각적 시간 추론 능력 간의 상당한 격차를 밝혀냈다.
우리는 심층적인 오류 사례 분석을 통해, 인간-모델 성능 격차를 넘어선 MFM의 시각적 시간 추론 능력의 더 근본적인 단점을 밝혀냈다.

일반적인 비디오 이해 벤치마크.
비디오 이해 능력은 멀티모달 학습에서 중추적인 역할을 하며, 인공 일반 지능(AGI) 달성을 위한 핵심 단계이다. MFM(Multimodal Foundation Model) 시대 이전에 초기 벤치마크들(Heilbron et al., 2015; Goyal et al., 2017; Sigurdsson et al., 2018)은 주로 **행동 인식(action recognition)**에 초점을 맞췄다. 그러나 최근 벤치마크들(Jang et al., 2017; Yi et al., 2020)은 시간적 역학(temporal dynamics) 및 인과적 사건(causal events)에 대한 모델의 추론 능력을 평가하는 방향으로 전환되었다. MFM의 등장은 이 분야를 더욱 복잡하고 인간과 유사한 이해 task로 발전시켰다. 이러한 task에는 (1) 장기 비디오 이해(long-form video understanding) (Zhang et al., 2023; Rawal et al., 2024; Zhou et al., 2024; Nagrani et al., 2024), (2) 다학제적 비디오 이해(multi-disciplinary video understanding) (He et al., 2024), (3) 다양한 task에 걸친 종합 평가(comprehensive evaluation across various tasks) (Ning et al., 2023; Li et al., 2024d c; Fu et al., 2024)가 포함된다. 이러한 놀라운 발전을 바탕으로 MMBench-Video (Fang et al., 2024)는 기존 벤치마크의 많은 질문이 다소 "정적"으로 간주되므로 더 많은 시간적 질문(temporal questions)의 필요성을 주장하지만, Attribute Recognition, Object Recognition, OCR과 같은 추론 차원은 여전히 정적인 상태로 남아있다. 이러한 인식은 MFM의 **시각적 시간 추론 능력(visual temporal reasoning capabilities)**을 평가하기 위해 특별히 설계된 벤치마크인 TOMATO의 개발을 촉진한다.

시각적 시간 추론 벤치마크.
모델의 시각적 시간 추론 능력을 구체적으로 평가하기 위해 여러 벤치마크가 개발되었다. 예를 들어, VITATECS (Li et al., 2023)는 "남자가 넥타이를 매고 있는가, 아니면 넥타이를 풀고 있는가?"와 같은 6가지 시간 추론 task를 도입하고, 모델에게 올바른 캡션과 반사실적 캡션(counter-factual caption)을 구별하도록 요구한다. VITATECS의 task 다양성 부족을 해결하기 위해 TempCompass (Liu et al., 2024)는 task 유형을 객관식 QA, 예/아니오 QA, 캡션 매칭, 캡션 생성 task로 확장한다. 광범위한 시간 민감 비디오를 다루는 것을 목표로 하는 MVBench (Li et al., 2024b)는 단일 프레임으로는 해결할 수 없는 9가지 핵심 시간 task와 20가지 하위 task를 정의한다. 유사하게, ReXTime (Chen et al., 2024a)은 종합적인 시간 추론 task를 목표로 하며 **원인과 결과 샘플(cause and effect samples)**에 특별한 중점을 둔다. 그러나 이러한 노력에도 불구하고, Figure 1에서 보듯이, 우리는 이러한 벤치마크의 많은 질문이 단일, 소수 또는 순서가 뒤바뀐 프레임( $\$ 5$)만으로도 올바르게 답변될 수 있음을 관찰했으며, 이는 모델의 진정한 시각적 시간 추론 능력을 평가하는 데 한계를 가진다. 이러한 단점을 해결하기 위해 우리는 시각적 시간 추론에 대한 보다 엄격한 평가를 제공하도록 설계된 벤치마크인 TOMATO를 소개한다.

3 Benchmarking Principles for Visual Temporal Reasoning Tasks

이 섹션에서는 정적인 이미지 이해가 아닌 시각적 시간 추론(visual temporal reasoning)을 벤치마크가 얼마나 엄격하게 목표로 하는지 평가하기 위한 세 가지 핵심 원칙과 해당 지표를 정의한다.

3.1 Multi-Frame Gain

핵심 원칙: 시각적 시간 추론 task는 여러 프레임에 걸친 추론을 요구해야 하며, 모델이 단일 프레임만으로는 task를 해결할 수 없도록 만들어야 한다.

모델이 여러 프레임에 걸쳐 추론하도록 요구하는 것은 해당 task가 정적 이미지 인식과 구별되도록 보장한다. 이러한 요구사항은 많은 비디오 이해 task가 정적 시각 정보에 크게 의존한다고 강조한 이전 연구들(Lei et al., 2022, Fang et al., 2024)과 일치한다.

이 원칙을 평가하기 위해 우리는 **Multi Frame Gain $\kappa$ **를 정의한다. 이는 단일 프레임을 입력으로 사용하는 경우와 $m$ 개의 프레임을 사용하는 경우 사이의 상대적인 성능 향상을 측정한다. 단일 프레임을 고려할 때, 우리는 두 가지 설정을 모두 검토한다: (1) 무작위 프레임(random frame) (2) 질문에 특화된, 손수 선택된(handpicked) 매우 유익한 프레임

$m$ 개의 프레임은 비디오에서 균일한 간격으로 샘플링된다. $m$ 개의 프레임을 사용하여 벤치마크 task를 해결하는 모델의 정확도를 $\operatorname{Acc}(m \text { frames})$ 로 나타내고, $\epsilon$ 을 작은 양의 상수라고 할 때, $\kappa$ 는 다음과 같이 정의된다:

\kappa=\frac{\operatorname{Acc}(m \text { frames })}{\operatorname{Acc}(1 \text { frame })+\epsilon}-1

$\kappa$ 값이 낮을수록 단일 프레임만으로도 질문에 더 정확하게 답할 수 있음을 나타내고, $\kappa$ 값이 높을수록 여러 프레임에 걸친 추론의 필요성을 나타낸다.

3.2 Frame Order Sensitivity

핵심 원칙: 여러 프레임이 주어졌을 때, 시각적 시간 추론(visual temporal reasoning) task는 프레임의 올바른 순서를 유지하는 제약 조건을 강제해야 한다.

이전 연구들(Misra et al., 2016; Dorkenwald et al., 2022; Hao et al., 2022)에서 입증되었듯이, 비디오 프레임을 섞는 것(shuffling)은 비디오 전체의 시간 정보(temporal information)를 방해한다. 만약 섞인 프레임으로도 task를 해결할 수 있다면, 이는 프레임 간의 시간적 의존성(time dependencies)이 없으며, 시간 차원(time dimension)을 따라 추론하는 것이 불필요하다는 의미이다. 이러한 task는 temporal task로 간주될 수 없다.

이 원칙을 정량화하기 위해, 우리는 **Frame Order Sensitivity $\tau$ **를 도입한다. 이는 섞인 $m$ 개의 프레임을 사용하는 것과 순서대로 정렬된 $m$ 개의 프레임을 사용하는 것 사이의 상대적인 성능 향상을 측정한다. 벤치마크 task를 $m$ 개의 프레임으로 해결했을 때의 모델 정확도를 Acc ( $m$ frames)로 표기하고, $\epsilon$ 을 작은 양의 상수라고 할 때, $\tau$ 는 다음과 같이 정의된다:

\tau=\frac{\operatorname{Acc}(m \text { frames })}{\operatorname{Acc}(\text { shuffled } m \text { frames })+\epsilon}-1

$\tau$ 값이 낮을수록 순서가 뒤섞인 프레임을 사용하여 질문에 더 정확하게 답할 수 있음을 나타내며, $\tau$ 값이 높을수록 프레임의 원래 순서에 대한 의존성이 강함을 시사한다.

3.3 Frame Information Disparity

핵심 원칙: 여러 프레임이 주어졌을 때, 시각적 시간 추론(visual temporal reasoning) task는 각 프레임이 task 해결에 상대적으로 균등하게 기여하도록 해야 한다.

균등한 기여는 어떤 단일 프레임도 불균형적으로 더 많은 정보를 제공하지 않아야 함을 의미한다. 순차적 이벤트가 포함된 task에서도, 정확한 답변에 필요한 이벤트 수와 프레임 수가 일치하더라도, 모델은 임의의 단일 프레임에 비해 엄선된(handpicked) 단일 프레임에 의존하여 유의미하게 높은 정확도를 달성해서는 안 된다. 이 원칙은 정확하고 견고한 시간적 비디오 이해를 위해 모든 프레임으로부터 시간 정보를 활용하는 것의 필요성을 강조한 이전 연구들(Huang et al., 2018, Liu et al., 2021)과 일치한다.
이 원칙을 정량적으로 평가하기 위해 우리는 **Frame Information Disparity $\rho$ **를 도입한다. 이는 임의의 단일 프레임에서 엄선된 단일 프레임으로 전환함으로써 얻어지는 상대적인 성능 향상을 측정한다. $m$ 개의 프레임을 사용하여 벤치마크 task를 해결하는 모델의 정확도를 $\operatorname{Acc}(m \text{ frames})$ 로 나타내고, $\epsilon$ 을 작은 양의 상수라고 할 때, $\rho$ 는 다음과 같이 정의된다:

\rho=\frac{A c c(\text { handpicked } 1 \text { frame })}{A c c(\text { random-sampled } 1 \text { frame })+\epsilon}-1

Table 1: TOMATO 주요 통계.

Statistics	Value
Total Questions	1,484
Total Videos	1,417
Demonstration Type
Human	588 (41.4%)
Object	596 (42.1%)
Simulated	233 (16.4%)
Source
Self-recorded and -generated	805 (56.8%)
YouTube	398 (28.1%)
Existing Video Datasets	214 (15.1%)
Unique Source Videos	683
Duration (Seconds, avg/max)	9.21 / 72.74
Resolution (avg/max)	$1332 \times 1076 / 1080 \times 1920$
Number of Reasoning Tasks	6
Number of Demonstration Categories	3
Question Length (avg/max)	11.71 / 22
Single Choice Length (avg/max)	3.69 / 10
Choices per Question (avg/max)	5.19 / 7

$\rho$ 값이 높을수록 엄선된 단일 프레임이 임의의 단일 프레임보다 질문에 더 정확하게 답변할 수 있음을 나타내며, $\rho$ 값이 낮을수록 여러 프레임에 걸쳐 정보성(informativeness)이 더 균등하게 분포되어 있음을 나타낸다. 다시 말해, 이상적으로는 모든 프레임 간에 정보성이 완벽하게 균등하게 분포된 벤치마크는 $\rho$ 값이 0이어야 한다.

4 TOMATO: A Visual Temporal Reasoning Benchmark

우리는 앞서 언급된 세 가지 원칙을 모두 만족하는 새로운 시각적 시간 추론 벤치마크인 TOMATO를 소개한다. 이는 기존 벤치마크의 task들이 단일 프레임으로도 비교적 쉽게 해결 가능하고, 프레임 순서에 덜 의존하며, 프레임 간 정보 분포가 불균형한 문제점을 해결한다 (§5).
TOMATO는 1,484개의 신중하게 선별된, 사람이 주석한 질문으로 구성되며, 이 질문들은 6가지 시각적 시간 추론 task에 걸쳐 있다. 이 task들은 1,417개의 비디오에 적용되었는데, 여기에는 805개의 자체 녹화 및 생성된 비디오가 포함되며, 인간 중심적이고 실제 세계 및 시뮬레이션된 시나리오를 아우른다.
다음 섹션에서는 TOMATO의 시간 관련 task (§4.1), 비디오 수집 (§4.2), 그리고 질문 주석 (§4.3)에 대해 설명한다. TOMATO의 주요 통계는 Table 1에 제시되어 있다.

4.1 Temporal Tasks in TOMATO

우리는 각각 다중 프레임 시각적 시간 추론을 요구하는 6가지 시각적 시간 추론 task를 소개한다: (1) Rotation: 피사체의 회전 방향을 결정한다. (2) Direction: 피사체의 움직임 방향을 식별한다. (3) Velocity & Frequency: 피사체의 움직임 속도 변화 또는 반복되는 동작의 빈도 변화를 감지한다. (4) Shape & Trend: 피사체의 궤적, 즉 움직임의 형태나 일반적인 경향을 분석한다. (5) Visual Cues: 오디오 없이 동작의 순서나 타이밍을 결정하기 위한 핵심 시각 신호를 식별한다. (6) Action Count: 특정 동작이 몇 번 수행되었는지 계산한다. 예시는 Table 2에 제공되어 있다.

다양한 시나리오에 걸쳐 포괄적인 커버리지를 보장하기 위해, 우리는 각 비디오를 세 가지 데모 카테고리 중 하나로 분류했다: (1) Human-centric: 인간의 상호작용을 포함하며, 행동이나 의도가 관찰되는 경우. (2) Real-world: 다양한 실제 장면에서 객체와 관련된 행동에 초점을 맞춘 경우. (3) Simulated: 시간적 행동을 나타내는 단순화된 시뮬레이션 환경을 묘사하는 경우. 각 task에 걸친 데모 카테고리의 분포는 §C. 1의 Figure 3에 나타나 있다.

Table 2: TOMATO의 task 예시. 일부 비디오는 Music-AVQA (Li et al., 2022), CLEVRER (Yi et al., 2020), TGIF-QA (Jang et al., 2017), Perecption Test (Pătrăucean et al., 2023)를 포함한 기존 비디오 데이터셋에서 수집되었다. $^{\dagger}$ : 재어노테이션이 필요한 task (§4.3).

Temporal Tasks	Video Sources	Examples
Rotation (19.3%)	YouTube & Self-created	객체는 어느 방향으로 회전하는가? <br> (A) 시계 방향 (B) 반시계 방향 <br> (C) 시계 방향 후 반시계 방향 <br> (D) 반시계 방향 후 시계 방향 (E) 회전 없음
Direction (27.2%)	YouTube & Self-created	사람의 손은 어느 방향으로 움직이는가? <br> (A) 왼쪽 (B) 오른쪽 (C) 먼저 왼쪽으로, 그 다음 오른쪽으로 <br> (D) 먼저 오른쪽으로, 그 다음 왼쪽으로 (E) 움직임 없음
Velocity & Frequency (14.2%)	YouTube & Self-created	기차의 속도 패턴은 무엇인가? <br> (A) 가속 중 (B) 감속 중 (C) 일정한 속도 (D) 움직임 없음
Shape & Trend (15.0%)	YouTube & Self-created	사람이 공중에 그리는 객체의 모양은 무엇인가? <br> (A) 원 (B) 삼각형 (C) 사각형/직사각형 (D) 사다리꼴 <br> (E) 마름모 (F) 전혀 그리지 않음
Visual Cues (4.7%)	Music-AVQA $^{\dagger}$	어떤 악기가 먼저 연주되는가? <br> (A) 아코디언 (B) 색소폰 (C) 두 악기 모두 동시에 연주됨 <br> (D) 두 악기 모두 소리를 내지 않음
Action Count (19.7%)	CLEVRER $^{\dagger}$	비디오에 충돌이 몇 번 있는가? <br> (A) 1 (B) 2 (C) 3 (D) 4 (E) 5 (F) 6
	TGIF-QA	고양이가 수돗물을 몇 번 핥는가? <br> (A) 1 (B) 2 (C) 3 (D) 4 (E) 5
	Perception Test	사람이 경사면에서 객체를 몇 번 발사하는가? <br> (A) 1 (B) 2 (C) 3 (D) 4 (E) 5 (F) 6
	Self-created	사람이 공중에 사다리꼴을 몇 개 그리는가? <br> (A) 1 (B) 2 (C) 3 (D) 4 (E) 5 (F) 6

4.2 Video Collection

TOMATO는 YouTube, 기존 비디오 데이터셋, 그리고 자체 녹화 및 생성된 벤치마크 전용 비디오라는 세 가지 다른 출처에서 얻은 다양한 범위의 비디오를 특징으로 한다. 다양성을 높이기 위해 우리는 **실세계(real-world), 인간 중심(human-centric), 시뮬레이션(simulated)**이라는 세 가지 시나리오의 비디오를 수집하고 제작한다. 또한, **반사실적 장면(counterfactual scenes), 복합 동작(composite motions), 확대된 시점(zoomed-in views)**을 포함하도록 비디오를 편집하여, 이러한 특성들이 MFM의 성능에 미치는 영향을 조사하고자 한다 ($6.3). 모든 비디오의 라이선스 정보는 $\S \mathrm{S}$ 에 자세히 설명되어 있다.

YouTube 비디오. 우리는 벤치마크에서 다양하고 대표적인 실세계 시나리오를 확보하기 위해 YouTube를 주요 출처로 선택했다. 특정 시각적 시간 추론 task가 주어지면, 인간 어노테이터에게 해당 task 정의를 가장 잘 나타내는 YouTube 비디오를 검색하도록 요청했다 ($4.1). 선정된 비디오는 과학 실험, 야외 활동, 교육 튜토리얼, 예술 공연 등 광범위한 주제를 다룬다. 모델이 시계의 초침이 시계 방향으로 회전한다고 가정하는 것과 같은 상식적 지식에 의존하는 것을 방지하기 위해, 우리는 반사실적 시나리오를 만들기 위해 비디오를 편집한다. 되감기, 연결, 속도 조절, 미러링을 포함한 이러한 편집은 모델이 질문에 올바르게 답하기 위해 비디오 콘텐츠를 완전히 분석해야 함을 보장한다. 총 171개의 원본 비디오를 편집 전에 수집했으며, 편집 후에는 398개의 비디오를 수집했다.

기존 비디오 데이터셋. AI 에이전트가 행동의 변화 시점(Visual Cues)을 감지하고 발생한 행동의 수(Action Count)를 식별함으로써 인간 세계를 이해하는 것은 필수적이다. 따라서 이러한 추론 유형에 대한 YouTube 비디오의 다양성 부족을 해결하기 위해, 우리는 각각 고유한 도메인과 시나리오에 기여하는 네 가지 기존 데이터셋을 통합한다: (1) Music-AVQA (Li et al., 2022): 다중 악기 연주를 특징으로 함. (2) CLEVRER (Yi et al., 2020): 여러 움직이는 객체가 있는 합성 장면을 제시함. (3) TGIF-QA (Jang et al., 2017): 다양한 장면에서 행동 카운팅에 중점을 둠. (4) Perception Test (Pătrăucean et al., 2023): 박수치기, 물체 이동과 같은 실내 행동 카운팅 task를 다룸. Music-AVQA와 CLEVRER의 경우, 우리는 이 비디오들의 시간적 맥락을 구체적으로 질문하도록 질문을 재어노테이션하고 재작성했다 ($4.3). 총 214개의 비디오를 통합했다: Music-AVQA에서 70개, CLEVRER에서 50개, TGIF-QA에서 50개, Perception Test에서 44개.

자체 녹화 및 생성된 벤치마크 전용 비디오. AI 에이전트가 인간 세계의 역동성을 진정으로 이해하려면, 사람이 에이전트를 상호작용의 "다른" 참여자로 취급하며 에이전트와 적극적으로 상호작용하는 시나리오를 이해하는 것이 필수적이다. 그러나 YouTube 비디오와 기존 데이터셋은 TOMATO의 다양한 추론 유형에 대한 이러한 인간 중심의 상호작용 장면이 부족하다 ($4.1). 이러한 한계를 해결하기 위해 우리는 사람이 손가락을 가리키는 제스처를 유지하면서 손목을 돌려 "돌아봐"라고 전달하는 비디오나, 팔을 사용하여 공중에 도형을 그리는 비디오 등을 녹화한다. 또한, 데이터 수집을 돕고 시뮬레이션 비디오의 효과를 연구하기 위해, 우리는 실세계 객체와 인간 모두에 대한 더 단순하고 추상적인 표현을 생성한다. 따라서 우리는 다음을 통해 데이터셋을 확장한다: (1) Keynote ${ }^{1}$ 를 사용하여 시뮬레이션 비디오를 생성하고, 다양한 패턴으로 움직이는 객체를 특징으로 함. (2) VIBE (Kocabas et al., 2019) 및 SMPL (Bogo et al. 2016) 프레임워크를 통해 3D 인간 모델 비디오를 생성함. 다양한 비디오 특성의 영향을 연구하기 위해, 우리는 반사실적 장면, 복합 동작, 확대된 시점을 포함하도록 비디오를 편집한다. 총 298개의 비디오를 편집 전에 생성했으며, 편집 후에는 805개의 비디오를 생성하여 모든 6가지 task를 포괄한다.

4.3 Question-Answer Annotation and Quality Check.

QA 어노테이션.
기존 벤치마크의 task들이 단일 프레임, 소수의 프레임, 또는 순서가 뒤바뀐 프레임만으로도 해결 가능하다는 한계점(자세한 내용은 §5에서 논의)을 해결하기 위해, TOMATO는 모든 프레임에 걸친 전환(transition)에 대한 reasoning을 요구하는 질문을 만드는 데 중점을 두었다.
우리의 어노테이션 프로세스는 비디오 소스에 따라 달랐다.

YouTube 비디오, 자체 제작 벤치마크-특정 비디오 및 그 편집본의 경우, 인간 어노테이터들이 특정 temporal reasoning task(§4.1)를 목표로 QA 쌍을 구성했다.
Music-AVQA 및 CLEVRER의 경우, temporal 측면을 강조하기 위해 QA 쌍을 재어노테이션했다. 예를 들어, Music-AVQA에서는 "어떤 악기가 먼저 연주되는가"와 같은 질문을, CLEVRER에서는 "비디오에 충돌이 몇 번 발생하는가"와 같은 질문을 추가했다.
TGIF-QA 및 Perception Test의 경우, 기존 질문은 유지하되, groundtruth에 가까운 추가적인 수치형 답변 옵션을 생성했다.

품질 검사.
높은 품질의 QA 어노테이션을 보장하기 위해, 우리는 3단계 프로세스를 구현했다:

어노테이터들의 초기 어노테이션,
어노테이터들 간의 교차 확인 및 검증,
최종 검토를 통한 의견 불일치 공동 해결 (자세한 내용은 §E 참조).

이러한 엄격한 접근 방식은 모든 어노테이션된 QA의 일관성과 정확성을 보장했다.

5 Comparisons among Visual Temporal Reasoning Benchmarks

§3에서 우리는 벤치마크가 시각적 시간 추론(visual temporal reasoning)을 얼마나 효과적으로 다루는지 평가하기 위해 세 가지 핵심 원칙과 해당 지표를 정의했다. 이러한 지표를 사용하여 TOMATO를 최근의 네 가지 시각적 시간 추론 벤치마크인 **VITATECS (Li et al., 2023), MVBench (Li et al., 2024b), TempCompass (Liu et al., 2024), ReXTime (Chen et al., 2024a)**와 비교한다. 이 비교를 수행하기 위해, 우리는 이들 벤치마크에서 약 200개의 QA 쌍을 무작위로 샘플링하고, 두 가지 **state-of-the-art MFM(Multimodal Foundation Model)**인 **GPT-4o (OpenAI, 2024)**와 **Qwen2-VL-72B (Wang et al., 2024a)**를 사용했다.

프레임 수동 선택(handpicking frames)이 필요한 지표의 경우, 우리는 어노테이터에게 전체 비디오와 해당 질문을 제시하고, 각 벤치마크에 대해 가장 유익한 프레임을 선택하도록 요청했다. 여러 프레임이 필요한 지표의 경우, 우리는 $m=16$ 으로 설정했다. 이는 $m=1, 8, 16, 32$ 에 걸친 우리의 연구에서 16개의 프레임이 효과적인 분석을 위한 충분한 시간 창을 제공함을 보여주기 때문이다 (§C.2).

5.1 Multi-frame Gain

우리는 (1) 임의의 단일 프레임(random frame) (Table 3)과 (2) 신중하게 선택된, 정보량이 풍부한 단일 프레임(handpicked, highly informative frame) (Table 4) 모두에 대한 Multi-frame Gain 결과를 제시한다. 두 표에서 볼 수 있듯이, TOMATO는 임의의 단일 프레임과 신중하게 선택된 단일 프레임을 모두 사용할 때 훨씬 더 높은 $\kappa$ 값을 달성한다.

Table 3: 단일 프레임 및 16프레임 입력 사용 시 성능.

# Frames	VITATECS			MVBench			TempCompass			ReXTime			TOMATO
	1	16	$\kappa \uparrow$	1	16	$\kappa \uparrow$	1	16	$\kappa \uparrow$	1	16	$\kappa \uparrow$	1	16	$\kappa \uparrow$
GPT-4o	70.0	88.2	26.1	47.1	62.3	32.3	52.5	71.5	36.2	61.7	78.3	26.9	21.2	37.7	78.0
Qwen2-VL	71.4	86.2	20.7	47.1	63.2	34.4	50.0	79.0	58.0	63.9	81.7	27.8	20.6	37.9	84.0
Average	70.7	87.2	23.4	47.1	62.7	33.3	51.3	75.3	47.1	62.8	80.0	27.4	20.9	37.8	81.0

Table 4: 신중하게 선택된 단일 프레임( $\mathbf{1}[\mathbf{H}]$ 로 표시) 및 16프레임 입력 사용 시 성능.

# Frames	VITATECS			MVBench			TempCompass			ReXTime			TOMATO (200)
	1[H]	16	$\kappa \uparrow$	1[H]	16	$\kappa \uparrow$	1[H]	16	$\kappa \uparrow$	1[H]	16	$\kappa \uparrow$	1[H]	16	$\kappa \uparrow$
GPT-4o	84.2	88.2	4.7	59.8	62.3	4.1	64.5	71.5	10.9	86.7	78.3	-9.7	21.5	37.0	72.1
Qwen2-VL	87.7	86.2	-1.7	57.8	63.2	9.3	63.5	79.0	24.4	85.6	81.7	-4.6	24.0	38.5	60.4
Average	86.0	87.2	1.5	58.8	62.7	6.7	64.0	75.3	17.6	86.1	80.0	-7.1	22.8	37.8	66.3

Table 5: 셔플된 16프레임(16[S]로 표시) 및 16프레임 입력 사용 시 성능.

# Frames	VITATECS			MVBench			TempCompass			ReXTime			TOMATO
	16[S]	16	$\tau \uparrow$	16[S]	16	$\tau \uparrow$	16[S]	16	$\tau \uparrow$	16[S]	16	$\tau \uparrow$	16[S]	16	$\tau \uparrow$
GPT-4o	85.7	88.2	2.9	59.8	62.3	4.1	59.0	71.5	21.2	77.8	78.3	0.6	25.8	37.7	46.2
Qwen2-VL	83.3	86.2	3.6	58.8	63.2	7.5	64.0	79.0	23.4	81.7	81.7	0	31.1	37.9	21.9
Average	84.5	87.2	3.2	59.3	62.7	5.8	61.5	75.3	22.3	79.7	80.0	0.3	28.5	37.8	34.1

Table 6: 단일 프레임 및 신중하게 선택된 단일 프레임( $\mathbf{1}[\mathbf{H}]$ 로 표시) 입력 사용 시 성능.

# Frames	VITATECS			MVBench			TempCompass			ReXTime			TOMATO (200)
	1	1[H]	$\rho \downarrow$	1	1[H]	$\rho \downarrow$	1	1[H]	$\rho \downarrow$	1	1[H]	$\rho \downarrow$	1	1[H]	$\rho \downarrow$
GPT-40	70.0	84.2	20.4	47.1	59.8	27.1	52.5	64.5	22.9	61.7	86.7	40.5	20.5	21.5	4.9
Qwen2-VL	71.4	87.7	22.7	47.1	57.8	22.9	50.0	63.5	27.0	63.9	85.6	33.9	23.0	24.0	4.3
Average	70.7	86.0	21.6	47.1	58.8	25.0	51.3	64.0	24.9	62.8	86.1	37.2	21.8	22.8	4.6

단일 프레임 입력 설정에서 16프레임 입력으로 전환했을 때의 상대적인 성능 향상은 우리의 task에서 여러 프레임을 사용하여 추론하는 것이 필수적임을 보여준다. 두 표를 비교해보면, 기존 벤치마크에서 임의의 단일 프레임에 비해 신중하게 선택된 단일 프레임을 사용할 때 $\kappa$ 값이 예상대로 감소하는 것을 관찰할 수 있다. 이는 신중하게 선택된 단일 프레임을 사용하면 벤치마크 질문에 답하기가 상대적으로 쉬워짐을 나타낸다. 흥미롭게도, ReXTime에서는 신중하게 선택된 단일 프레임 설정에서 $\kappa$ 값이 음수로 나타났다. 이는 추가 프레임으로 인해 발생하는 노이즈가 더 많은 프레임을 사용할 때의 부정적인 성능 향상의 원인일 수 있다.

5.2 Frame Order Sensitivity

우리의 shuffled 16 frames 설정에서는, 정렬된 16개 프레임에 무작위 셔플링을 적용하여 두 설정 모두에서 동일한 프레임 세트가 사용되도록 한다. Table 5에서 볼 수 있듯이, TOMATO는 훨씬 더 높은 $\tau$ 값을 달성하는데, 이는 우리의 벤치마크가 질문에 정확하게 답하기 위해 프레임 순서를 유지하는 데 더 엄격한 요구 사항을 부과한다는 것을 보여준다.

5.3 Frame Information Disparity

Table 6에서 볼 수 있듯이, TOMATO 벤치마크에서는 무작위 단일 프레임(random single frame)에서 수동으로 선택된 단일 프레임(handpicked single frame)으로 인한 성능 향상이 가장 낮게 나타난다. 이는 다른 기존 벤치마크들에 비해 모든 프레임에 걸쳐 정보의 일관성이 상대적으로 높다는 것을 시사한다.

Table 7: TOMATO 벤치마크에 대한 평가 결과. 별도로 명시되지 않는 한, 각 모델은 16개의 프레임을 처리한다. **굵은 글씨(bold)**와 **밑줄(underlined)**은 각 카테고리에서 가장 좋은 성능과 두 번째로 좋은 성능을 나타낸다. 자세한 모델 구성은 Table 9를 참조하라. ${ }^{\ddagger}$ : 비디오를 직접 처리할 수 있는 모델. *: 8개의 프레임만 처리할 수 있는 모델. 이러한 카테고리에 대한 자세한 내용은 §4.1에 제시되어 있다.

Model	Rotation (286)	Direction (403)	Velocity & Frequency (210)	Shape & Trend (223)	Visual Cues (70)	Action Count (292)	All (1,484)
Baselines
Human (Videos)	93.5	95.4	94.1	100.0	95.0	93.6	95.2
Human (Frames)	60.9	93.9	85.3	91.7	60.0	70.2	79.7
Random (GPT-4o)	16.8	17.4	35.7	29.6	32.9	20.9	23.1
Random Choice (42)	22.0	17.6	22.9	17.9	18.6	13.4	18.5
Frequent Choice	21.5	18.5	24.8	20.2	33.6	18.8	21.0
Proprietary Multimodal Foundation Models (MFMs)
GPT-4o	24.5	45.2	31.9	42.6	58.6	$\underline{36.0}$	37.7
Gemini 1.5 pro ${ }^{\ddagger}$	25.9	$\underline{40.7}$	35.2	$\underline{41.3}$	37.1	36.3	$\underline{36.1}$
Gemini 2.0 Flash Exp ${ }^{\ddagger}$	23.8	39.0	$\underline{34.3}$	36.8	$\underline{48.6}$	29.8	33.7
GPT-4o-mini	19.9	32.8	28.1	29.6	41.4	28.8	28.8
Claude 3 Opus	31.1	23.3	32.4	27.8	28.6	29.5	28.2
Claude 3.5 Sonnet	$\underline{27.3}$	25.6	26.2	27.8	32.9	31.2	27.8
Gemini 1.5 Flash ${ }^{\ddagger}$	22.4	30.3	31.0	26.9	30.0	27.7	27.8
Claude 3 Haiku	25.9	19.4	31.0	33.2	30.0	26.4	26.2
Reka Flash ${ }^{\ddagger}$	19.6	26.6	10.0	21.5	32.9	16.8	20.5
Reka Core ${ }^{\ddagger}$	14.3	17.6	9.5	18.8	22.9	12.7	15.3
Open-Source Multimodal Foundation Models (MFMs)
Qwen2-VL-72B	26.9	38.2	43.8	$\underline{36.3}$	$\underline{48.6}$	42.8	37.9
Qwen2-VL-7B	23.8	29.5	$\underline{41.9}$	29.6	37.1	34.2	$\underline{31.5}$
Video-CCAM-v1.1 14B	32.2	26.1	29.5	27.4	44.3	$\underline{35.6}$	30.7
InternVL 240 B	23.4	$\underline{32.0}$	15.7	41.7	34.3	29.1	29.0
LLaVA-Video-72B	18.9	30.0	16.7	32.3	50.0	34.6	28.2
Video-CCAM-v1.1 9B	22.4	25.6	25.7	26.0	34.3	33.6	27.0
InternVideo 28 B	$\underline{31.8}$	24.1	23.3	25.6	35.7	25.0	26.4
Qwen2-VL-2B	26.9	22.8	31.4	23.8	32.9	25.7	26.0
LLaVA-OneVision 7B	16.8	25.1	23.8	28.7	35.7	31.2	25.5
Video-CCAM-v1.1 4B	21.7	24.3	19.0	27.4	32.9	31.5	25.3
LLaVA-Video-7B	20.1	23.8	15.2	29.1	41.4	29.8	24.9
VILA 13B	29.0	19.6	19.0	27.4	32.9	27.7	24.7
LLaVA-Video-7B-Video-Only	15.4	24.1	19.5	31.4	38.6	25.7	23.9
Video LLaVA 7B *	29.4	17.9	27.1	23.3	34.3	20.9	23.6
VideoLLaMA 2 72B ${ }^{\ddagger}$	14.3	24.6	22.4	26.5	27.1	28.8	23.5
InternVL 2 26B	18.5	29.3	10.5	31.4	11.4	25.7	23.3
LLaVA-NeXT-Video-32B	20.6	26.3	12.4	24.2	30.0	24.3	22.7
InternVL 28 B	17.1	25.1	9.0	28.7	31.4	22.9	21.7
Phi 3.5 Vision	20.3	16.6	14.3	23.3	40.0	24.7	20.7
AuroraCap-7B-VID	19.6	17.1	26.7	20.6	25.7	17.1	20.6
VideoLLaMA 2 7B ${ }^{\ddagger}$	10.1	22.8	15.7	18.8	31.4	19.5	18.5

6 Evaluating Visual Temporal Reasoning in Advanced MFMs

TOMATO를 소개하면서, 우리는 시각적 시간 추론(visual temporal reasoning) 능력을 평가하기 위해 10개의 독점 모델과 21개의 오픈 소스 모델을 포함한 총 31개의 MFM(Multimodal Foundation Models)에 대한 포괄적인 평가를 제시한다. 다음 섹션에서는 **실험 설정(§ 6.1), 평가 결과(§ 6.2), 그리고 모델 아키텍처, 추론 유형 상관관계, 프레임 수, 비디오 특성 등의 요소를 고려한 다각적인 분석(§ 6.3)**을 상세히 설명한다.

6.1 Experimental Setup

모델 (Models)
우리는 다양한 범용 **MFM(Multimodal Foundation Model)**들을 평가한다.
오픈소스 MFM으로는 다음 모델들을 테스트했다: VILA (Lin et al., 2023b), InternVL 2 (Chen et al., 2024b), Phi 3.5 Vision (Team, 2024), Video LLaVA (Lin et al., 2023a), InternVideo 2 (Wang et al., 2024b), LLaVA-NeXT-Video (Zhang et al., 2024a), LLaVA-OneVision (Li et al., 2024a), VideoLLaMA2 (Cheng et al., 2024), Qwen2-VL (Wang et al., 2024a), VideoCCAM (Fei et al., 2024), AuroraCap (Chai et al., 2024), 그리고 LLaVA-Video (Zhang et al., 2024b).
또한 다음 상용 MFM들도 평가했다: GPT-4o (OpenAI, 2024), Claude (Anthropic, 2024a b), Reka (Reka, 2024), 그리고 Gemini (Gemini, 2024).
모든 모델에 대한 **생성 설정(generation configuration)**은 Table 9에 제공되어 있다.

기준선 (Baselines)
우리는 텍스트 전용 기준선인 **Random (GPT-4o)**를 포함한다. 이 기준선에서는 GPT-4o에게 비디오 접근 권한 없이 정답을 추측하도록 prompt를 주었다 (prompt는 §B.3 참조).
추가적으로 Random Guess 및 Frequent Guess 기준선에 대한 결과도 보고한다.
더 나아가, TOMATO에 대한 인간 성능도 평가하여, **비디오 입력을 사용한 인간(Human (Video))**과 **16프레임을 입력으로 사용한 인간(Human (Frames))**의 결과를 보고한다.
어노테이터의 정보는 §E.1의 Table 10에 제공되어 있다.

6.2 Experimental Results

우리는 모든 모델에 대한 TOMATO의 정량적 결과를 Table 7에 제시한다. 모델이 실패하는 지점을 더 잘 이해하기 위해, 우리는 대표적인 모델들(OpenAI, 2024; Anthropic, 2024b; Wang et al., 2024a, Fei et al., 2024; Chen et al., 2024b)을 선정하고, 실패 사례 예시를 §G, §H, §I, §J, §K, §L에 제시한다.

시각적 시간 추론(visual temporal reasoning)의 광범위한 어려움
우리의 평가(Table 7)는 TOMATO가 모든 테스트 모델에 걸쳐 상당한 난이도를 가진 task임을 강조한다. 선두적인 오픈소스 모델인 Qwen2-VL-72B는 37.9%의 정확도를 달성하여, GPT-4o의 37.7%를 약간 상회한다. 그러나 이는 인간 정확도 95.2%에 비해 여전히 57.3%라는 상당한 성능 격차를 남긴다. 이 결과는 비디오 이해 분야에서 오픈소스 모델의 경쟁 잠재력을 보여주지만, 많은 모델들이 여전히 30.0% 미만의 성능을 보이며, 이는 기존 벤치마크(Pătrăucean et al., 2023, Li et al., 2024b, Fu et al., 2024)에서 괜찮은 성능을 보였음에도 불구하고 TOMATO에서 약점을 드러낸다.

6.3 Main Analysis

모델은 프레임을 연속적인 시퀀스로 해석하는 기본적인 능력이 부족하다. MFM은 비디오에서 순차적인 이벤트를 이해하는 데 놀라운 성능을 보여주지만 (Chen et al., 2024a), 우리의 벤치마크는 더 근본적인 한계를 드러낸다: 모델은 여러 시간 단계에 걸쳐 추론하고 프레임을 연속적인 시퀀스로 해석하는 데 어려움을 겪는다. 오류 사례 §G.2.1에서 볼 수 있듯이, GPT-4o는 달의 움직임에서 연속적인 각 변화에 대한 캡션을 정확하게 생성하여 개별 시간 단계에서 추론하는 능력을 보여준다. 그러나 캡션을 기반으로 전체 시퀀스가 시계 방향 회전을 나타낸다는 것을 추론하는 데는 실패한다. 이 문제는 회전에만 국한되지 않으며 (§G.1.1, §G.2.1), 방향 (§H.3.3), 동작 횟수 (§L.2.5) 등에서도 유사한 단점이 관찰된다.

모델은 시각적 입력을 진실되게 활용하지 못하고 상식에 과도하게 의존한다. 우리의 평가에서, 상식보다는 시각적 입력에 의존하라는 명시적인 지시(§B.1)에도 불구하고, 모델은 진정한 시각적 추론을 활용하기보다는 단일 프레임의 정보에 기반하여 자주 환각(hallucinate)을 일으킨다는 것을 발견했다. 예를 들어, 오류 사례 §I.2.4에서 GPT-4o는 일부 프레임에 **모션 블러(motion blur)**가 존재한다는 이유로 객체가 떨어지고 있다고 잘못 결론 내린다. 그러나 이것은 객체가 실제로는 위로만 움직이는 역방향 비디오이며, 이는 비디오 모달리티가 진실되게 활용될 때만 도달할 수 있는 결론이다. 유사한 한계 사례는 오류 사례 §H.1.2에서 발생하는데, GPT-4o는 첫 8개 단일 프레임에 묘사된 자세에 도달하기 위해 사람이 먼저 손을 들어 올린다고 가정하는 것으로 보인다. 실제로는 이 프레임들 내내 사람의 손은 상대적으로 정지 상태를 유지하지만, 모델은 이 프레임들 간의 정확한 시각적 비교를 수행하지 못한다.

모델은 입력의 노이즈 정보에 매우 취약하다. 블록이 아래로 움직이는 오류 사례 §H.3.3에서 입증되었듯이, 모델은 블록에 있는 오해의 소지가 있는 텍스트와 같은 노이즈 정보에 특히 취약하다. 특히, GPT-4o는 화면에 대한 상대적인 위치를 기반으로 블록의 하향 움직임을 정확하게 설명하지만, 블록에 쓰여진 텍스트에 제시된 잘못된 정보에 영향을 받아 블록이 위로 움직인다고 잘못 결론 내린다. 유사하게, 오류 사례 §L.2.5에서는 나비 모양의 레이저 스팟이 삼각형 모양으로 움직인다. 그러나 독특한 나비 모양은 모델이 레이저 스팟의 궤적에 집중하는 것을 방해하고, 결론에서 무작위 추측에 의존하게 만드는 것으로 보인다.

Figure 2: (a) TOMATO 벤치마크에서 프레임 수에 따른 사람과 모델의 성능. (b) TOMATO 벤치마크에서 실제 사람과 시뮬레이션된 사람의 성능. (c) 실제 사람과 시뮬레이션된 사람의 예시.

시간 인식 위치 인코딩(time-aware positional encoding)을 명시적으로 통합하면 시각적 시간 추론을 향상시킬 수 있을 것이다. 여러 카테고리에서 일관되게 가장 높은 점수를 달성하는 Qwen2-VL 계열 (Wang et al., 2024a)은 시각 인코더 내에서 **Multimodal Rotary Positional Encoding (M-RoPE)**을 활용한다. M-RoPE는 시간 정보를 시각 토큰에 명시적으로 인코딩하여, 모델이 전체 파이프라인에서 중요한 시간적 맥락을 유지할 수 있도록 한다. 이와 대조적으로, 이러한 시간 인식 위치 인코딩 체계가 없는 모델은 시각 인코딩 후 중요한 시간 관련 맥락을 잃는 것으로 보인다. 예를 들어, vision-language 정렬에 사용되는 Causal Cross-Attention Masks (CCAM) (Fei et al., 2024), 학습 중 Unmasked Video Token Reconstruction (Wang et al., 2024b), 그리고 frozen visual encoder 후에 적용되는 Spatial-Temporal Convolution (STC) connector (Cheng et al., 2024) 등이 있다. TOMATO에서 Qwen2-VL의 성능은 M-RoPE와 같은 시간 인식 위치 인코딩을 명시적으로 통합하는 것이 MFM의 시각적 시간 추론 능력을 향상시키는 데 필수적일 가능성이 있음을 시사한다. 오픈 소스 모델의 향후 개선은 오픈 소스 모델과 독점 모델 간의 격차를 줄이기 위해 유사한 전략을 채택함으로써 이점을 얻을 수 있을 것이다.

기존 모델은 8프레임 이하에서 해석 가능한 이벤트 이해에 한계가 있다. Figure 2(a)에 나타난 바와 같이, 우리는 TOMATO에서 프레임 수에 따른 4개 MFM의 성능을 평가한다. 사람의 정확도가 일관되게 향상되는 것은 우리의 벤치마크가 더 많은 시간 정보를 전달하기 위해 추가 프레임에 의존한다는 것을 시사한다. 특히, 모델은 1프레임에서 8프레임으로 전환될 때 성능 향상을 보이지만, 이 지점을 넘어서면 성능이 정체된다. 이는 모델이 8프레임 이전의 프레임 간 전환을 추론할 수 있더라도, 추가된 프레임에서 얻은 추가적인 시간 정보를 활용할 수 없음을 시사한다. 따라서 우리는 4개 MFM의 전반적인 성능이 시각적 시간 추론 능력에서 최적화되지 않았으며, 추가된 프레임으로 도입된 프레임 전환에 대한 추가 정보를 활용하는 MFM의 능력에 여전히 개선의 여지가 있다고 결론 내린다.

모델은 실제 사람 시나리오보다 시뮬레이션된 사람 시나리오에서 더 나은 성능을 보인다. 비디오 콘텐츠의 더 깨끗하고 추상적인 표현(Figure 2(c))이 모델의 시간 추론 능력에 미치는 영향을 조사하기 위해, 우리는 두 가지 주요 MFM을 평가한다. 특히, 이 평가는 실제 사람 시나리오와 해당 시뮬레이션된 시나리오를 5가지 추론 유형(즉, 동작 횟수, 방향, 회전, 모양 및 추세, 속도 및 빈도)에 걸쳐 대조하며, 두 시나리오 모두에서 동일한 101개의 QA 쌍을 다룬다. 그 결과, GPT-4o는 실제 사람 시나리오에서 시뮬레이션된 사람 시나리오로 전환될 때 21.9%의 눈에 띄는 개선을 보여주며, 의미론적 비디오 추상화를 통해 비디오 이해에서 모델의 시간 추론 능력을 향상시킬 잠재력을 강조한다. 반대로, Qwen2-VL-72B는 실제 사람에서 시뮬레이션된 사람으로 전환될 때 7.8%의 완만한 증가를 보인다. TOMATO에 대한 전반적인 평가에서 GPT-4o를 약간 능가하지만, 시뮬레이션된 시나리오에서의 시각적 시간 추론 능력은 여전히 개선의 여지를 보여준다 (Figure 2(b)). 향후 연구는 자동으로 생성된 시뮬레이션된 3D 인간 동작 데이터 (Guo et al., 2022)를 활용하여 모델의 일반화 능력을 탐구함으로써 실제 인간 비디오에 대한 모델의 시간 추론 능력을 더욱 향상시키는 것을 목표로 할 수 있다.

Table 8: Counterfactual, Zoomed-in, First-Person Perspective QA에 대한 MFM 성능. "True"와 "False"는 질문이 해당 열 위에 병합된 셀에 지정된 기준(예: Counterfactual, Zoomed-In, First Person Perspective)을 충족하는지 여부를 나타낸다.

	Counterfactual			Zoomed-In			First-Person Perspective
	False	True	$\Delta$ %	False	True	$\Delta$ %	False	True	$\Delta$ %
GPT-4o	38.5	24.0	-37.7	37.8	40.1	+6.0	38.8	47.5	+22.5
Qwen2-VL-72B	45.3	32.0	-29.4	31.6	30.3	-4.2	30.4	61.3	+101.6
Qwen2-VL-7B	37.1	33.0	-11.0	24.9	25.4	+1.9	24.7	42.5	+72.1
Video-CCAM-v1.1 14B	37.5	29.0	-22.6	24.7	24.4	-1.0	24.1	35.0	+45.2

6.4 Scenario Analysis

이 섹션에서는 다양한 비디오 시나리오에 대한 분석을 제시한다. 비디오들이 연구 결과를 엄격하게 검증하기 위해 명시적으로 설계된 것은 아니지만, 이러한 통찰력은 향후 연구를 위한 실험 결과에서 관찰된 일반적인 경향을 강조하는 데 가치 있다고 생각한다.

더 유능한 모델일수록 상식에 더 의존한다. 반사실적 QA를 큐레이션할 때, 우리는 비디오 편집 기술(예: 되감기, 회전, 자르기)을 사용하여 실제로는 관찰 불가능한 콘텐츠를 제작했다. Table 8에 자세히 설명된 바와 같이, 네 가지 모델 모두 비반사실적 QA에서는 유사한 성능을 보였지만, 반사실적 예시로 전환하자 상당한 성능 하락이 나타났다. 특히 최고의 범용 모델인 GPT-4o는 37.7% 감소했고, 선도적인 오픈소스 모델인 Qwen2-VL-72B는 29.4% 감소했다. 이러한 결과는 더 유능한 모델일수록 task 해결 시 상식적 추론에 의존하지 말라는 명시적인 지시에도 불구하고, 비디오 콘텐츠를 진정으로 이해하기보다는 task의 배경 정보 내에서 지름길을 활용하고 사전 학습된 지식에 크게 의존하는 경향이 있음을 시사한다.

도전적인 인간 시나리오에서 확대된 시야는 제한적인 성능 향상만을 제공한다. 표준 시야에서의 성능은 모델마다 다르지만(Table 8), 수동으로 확대된 시야를 제공했을 때 GPT-4o는 6.0%, Qwen2-VL-7B는 1.9%의 미미한 성능 향상만을 보였다. 놀랍게도, 확대된 시야는 Video-CCAM-v1.1 14B와 Qwen2-VL-72B의 성능을 각각 1.0%와 4.2% 악화시키기까지 했다. 확대된 시야가 제공하는 제한적인 도움은 task에 내재된 도전 과제가 확대만으로는 해결될 수 없으며, 시각적 초점의 향상을 넘어선 비디오에 대한 더 깊은 시간적 이해를 요구한다는 것을 나타낸다.

모델은 3인칭 시점보다 1인칭 시점의 시간적 추론 비디오 이해에서 더 뛰어난 성능을 보인다. 80개의 1인칭 시점 QA와 668개의 3인칭 시점 QA를 비교하여, 비디오에 주요 피사체가 있는지 여부에 따른 모델 성능의 일반적인 경향을 탐색하는 것이 우리의 목표였다. 결과는 주요 피사체의 부재가 모델 성능을 저해하지 않음을 시사한다. 실제로, 우리는 1인칭 시점 task에서 훨씬 더 나은 모델 성능을 관찰했다(Table 8). 특히, Qwen2-VL 모델은 각각 101.6%와 72.1%의 놀라운 성능 향상을 달성했으며, Qwen2-VL-72B는 61.3점을 기록하여 동일 조건에서 GPT-4o를 28.9% 능가했다. 이러한 결과는 오픈소스 모델이 시간적 추론 비디오 이해 task에서 더 유능한 범용 독점 모델을 능가할 잠재력이 있음을 강조한다.

7 Conclusion

기존 벤치마크들은 멀티모달 파운데이션 모델(MFM)의 시각적 시간 추론(visual temporal reasoning) 능력을 과대평가할 가능성이 있다. 이에 우리는 시각적 시간 추론 task를 체계적으로 검증하기 위한 세 가지 핵심 원칙과 해당 측정 지표를 수립하였다. 이러한 원칙들을 기반으로, 우리는 MFM의 진정한 시각적 시간 추론 능력을 엄격하게 평가하기 위한 새로운 비디오 이해 벤치마크인 TOMATO를 소개한다.

TOMATO를 통한 포괄적인 평가는 이전에 과소평가되었던 인간-모델 간의 성능 격차를 드러낼 뿐만 아니라, MFM의 치명적인 한계를 강조한다: MFM은 비디오를 연속적인 시퀀스로 해석하지 못하고, 대신 개별 프레임을 독립적으로 이해하는 방식에 의존하며, 이는 시각적 시간 추론 능력을 심각하게 저해한다. 본 연구는 비디오 modality를 통해 실생활의 변화하는 장면을 이해할 수 있는 AI 시스템 개발을 위한 방향을 제시한다.

Acknowledgments

우리는 TRC 프로그램을 통해 Google이 제공한 compute credit에 감사드린다. Alex Wong 교수님, Rex Ying 교수님, Dylan McKay 교수님의 귀중한 피드백에 감사드린다. 또한 Yale NLP Lab, Yale Inquisitive Robotics Lab, Yale Graph and Geometric Learning Lab 멤버들과 Yale 2년 MSCS 프로그램 동료들의 통찰력 있는 논의와 지원에 감사드린다.