Kong, Fanheng, et al. "TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos." arXiv preprint arXiv:2505.20124 (2025). ACL 2025 main

Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

Fanheng Kong ${ }^{1 *}$ , Jingyuan Zhang ${ }^{2}$ , Hongzhi Zhang ${2}$ , Shi Feng ${1 \dagger}$ , Daling Wang ${1}$ , Linhao $\mathbf{Yu}^{2}$ , Xingguang $\mathbf{Ji}^{2}$ , Yu Tian ${2}$ , Victoria W., Fuzheng Zhang ${2}$ <br> ${ }^{1}$ Northeastern University ${2}$ Kuaishou Technology<br>kongfanheng426@gmail.com, fengshi@cse.neu.edu.cn

Abstract

비디오는 카메라, 장면, 동작, 속성 등 시간적 요소와 시간 경과에 따른 동적인 관계를 통합한다는 점에서 독특하다. 그러나 기존의 비디오 이해 벤치마크들은 이러한 속성들을 개별적으로 다루거나 특정 측면에만 좁게 초점을 맞춰, 비디오 콘텐츠의 전체적인(holistic) 특성을 간과하는 경우가 많다.
이러한 문제를 해결하기 위해 우리는 밀도 높은 동적 비디오(dense dynamic videos)에 대한 fine-grained 이해를 위한 시간 지향적(temporal-oriented) 벤치마크인 Tuna를 소개한다. Tuna는 captioning과 QA라는 두 가지 보완적인 task를 포함한다. 우리의 Tuna는 다양한 비디오 시나리오와 동적 특성을 특징으로 하며, 해석 가능하고 견고한 평가 기준의 도움을 받는다.
우리는 이 벤치마크에서 여러 선도적인 모델들을 평가하여, 다양한 차원에 걸쳐 fine-grained 성능 평가를 제공한다. 이 평가는 비디오 시간 이해의 주요 과제들을 밝혀낸다. 예를 들어, 제한적인 동작 설명, 불충분한 다중 주체(multi-subject) 이해, 카메라 움직임에 대한 둔감성 등이 있으며, 이는 비디오 이해 모델 개선을 위한 귀중한 통찰력을 제공한다.
데이터와 코드는 https://friedrichor.github.io/projects/TUNA 에서 확인할 수 있다.

1 Introduction

Vision은 우리가 세상을 인지할 수 있게 해주며, 시각 미디어의 핵심 형태인 비디오는 풍부한 공간 및 시간 정보를 제공한다 (Tang et al., 2023; Madan et al., 2024). 비디오 콘텐츠의 급증과 함께, 비디오 이해는 증가하는 비디오 데이터의 양을 처리하고 (Nguyen et al., 2024) 물리적 세계의 범용 시뮬레이터로서 비디오 생성을 촉진하는 (Brooks et al., 2024) 애플리케이션을 가능하게 하는 중요한 연구 분야가 되었다. 이러한 발전에도 불구하고, 강력한 평가 방법의 부족은 여전히 커뮤니티의 시급한 과제로 남아있다. 정확하고 포괄적인 벤치마크는 비디오 이해 모델의 성능을 평가하고

Figure 1: 우리의 Tuna 벤치마크에서 여러 고급 모델들의 성능. Tuna는 비디오 캡셔닝 및 QA task에 대해 강력하고 해석 가능한 평가를 제공하여, 비디오 이해 발전의 명확한 지침을 제시한다.

다양한 비디오 데이터를 효과적으로 해석하고 분석하는 능력을 향상시키는 데 필수적이다.

최근 연구들 (Fu et al., 2024; Zhou et al., 2024)은 temporal perception 및 reasoning, video captioning, long-video comprehension과 같은 다양한 task에 걸쳐 비디오 이해를 평가하며, 비디오 LMM 개발을 위한 지표를 제공하고 있다. 그러나 이러한 평가들은 주제(subject)의 행동과 같은 특정 측면에만 초점을 맞추는 경향이 있으며, 카메라 상태, 배경 장면, 그리고 이러한 요소들 간의 관계와 같은 다른 중요한 비디오 요소들을 간과한다 (Chai et al., 2024; Xiong et al., 2024; Polyak et al., 2024). 또한, long-form 비디오에 대한 편향 (Fu et al., 2024; Li et al., 2024e; Mangalam et al., 2023)은 비디오 이해를 long-context 모델링과 얽히게 하여, 성능을 특정 능력에 귀속시키기 어렵게 만든다. 더욱이, 기존 벤치마크들은 비디오 역학(dynamics)의 다양성 및 시각적 특성과 같이 비디오 이해에 영향을 미치는 핵심 요소들에 대한 모델의 민감도 분석이 부족하다. 이러한 한계점들은 비디오 이해 모델의 발전을 위한 포괄적인 평가와 효과적인 오류 분석을 방해한다.

포괄적인 비디오 이해의 필요성을 해결하기 위해, 우리는 Temporal Understanding of dense dyNAmic videos를 위한 도전적인 멀티모달 벤치마크인 TUNA를 소개한다.

Benchmark	#Videos	#Samp.	Anno.	Domain	Temporal Oriented	Scene Trans.	Captioning					VQA
							Camera	Scene	Key.	Sem.	M.D.	Global	Fine.
VQA Benchmark
NExT-QA (Xiao et al., 2021)	1,000	8,564	M	daily life	$\times$	$\times$	-	-	-	-	-	$\times$	$\checkmark$
EgoSchema (Mangalam et al., 2023)	5,063	5,063	M&A	egocentric	$\checkmark$	$\times$	-	-	-	-	-	$\checkmark$	$\times$
PerceptionTest (Patraucean et al., 2024)	11,620	44,000	M	indoor	$\checkmark$	$\times$	-	-	-	-	-	$\checkmark$	$\checkmark$
MVBench (Li et al., 2024d)	3,641	4,000	A	open	$\checkmark$	$\checkmark$	-	-	-	-	-	$\checkmark$	$\checkmark$
Video-MME (Fu et al., 2024)	900	2,700	M	open	$\times$	$\checkmark$	-	-	-	-	-	$\times$	$\checkmark$
MMBench-Video (Fang et al., 2024)	609	1,998	M	open	$\times$	$\checkmark$	-	-	-	-	-	$\checkmark$	$\checkmark$
VideoVista (Li et al., 2024e)	894	24,906	A	open	$\times$	$\checkmark$	-	-	-	-	-	$\times$	$\checkmark$
TOMATO (Shangguan et al., 2024)	1,417	1,484	M	open	$\checkmark$	$\checkmark$	-	-	-	-	-	$\checkmark$	$\times$
Captioning Benchmark
DREAM-1K (Wang et al., 2024a)	1,000	1,000	M	open	$\checkmark$	$\checkmark$	$\times$	$\times$	$\times$	$\checkmark$	$\times$	-	-
VDC (Chai et al., 2024)	1,027	1,027	A	open	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\times$	$\checkmark$	$\checkmark$	-	-
Multi-task Benchmark
MLVU (Zhou et al., 2024)	1,334	2,593	M	open	$\times$	$\checkmark$	$\times$	$\checkmark$	$\times$	$\checkmark$	$\times$	$\times$	$\checkmark$
TempCompass (Liu et al., 2024f)	410	7,540	M&A	open	$\checkmark$	$\checkmark$	$\times$	$\times$	$\times$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$
E.T.Bench (Liu et al., 2024e)	7,002	7,289	M	open	$\checkmark$	$\checkmark$	$\times$	$\times$	$\times$	$\checkmark$	$\times$	$\checkmark$	$\checkmark$
TemporalBench (Cai et al., 2024)	2,179	2,179	M	open	$\checkmark$	$\times$	$\times$	$\times$	$\times$	$\times$	$\times$	$\checkmark$	$\checkmark$
Tuna	1,000	2,432	M&A	open	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$

Table 1: 다양한 비디오 이해 벤치마크를 여러 측면에서 비교: 비디오 수 (#Videos); 샘플 수 (#Samp.); 주석 방법 (Anno., M/A는 수동/자동을 의미); 도메인 (Domain); 시간적 지향성 (Temporal Orientated); 장면 전환 유무 (Scene Trans.); 카메라 (Camera) 및 장면 (Scene) 고려 여부; 제어 가능성 및 해석 가능성을 위한 keypoint 사용 여부 (Key.); 의미적으로 동일하지만 다양한 표현에 대한 판단 (Sem.); 다차원 점수 제공 여부 (M.D.); 전역적 (Global) 및 세부적 (Fine.) 이해가 고려되는지 여부.

고립된 비디오 요소에 초점을 맞춘 이전 평가들과 달리, TUNA는 전체적인 비디오 이해를 강조한다. 우리는 영화 및 운전과 같은 12개 도메인에 걸쳐 다양한 소스에서 1,000개의 대표적인 비디오를 신중하게 선별했으며, 이들은 High-Dynamic, Low-Dynamic, Multi-Scene, Multi-Subject의 네 가지 시각적 특성으로 분류된다. 우리의 데이터셋인 Tuna-1K의 각 비디오는 세분화된 이벤트로 꼼꼼하게 분할되었고, 카메라 상태, 배경 장면, 주제 행동, 객체 속성을 포착하는 상세한 temporal caption으로 주석 처리되었다. Table 1은 다양한 비디오 이해 벤치마크와의 비교를 보여준다.

Tuna-1K를 기반으로, 우리는 **TUNA-CAP(캡셔닝)과 Tuna-MCQ(VQA)**라는 두 가지 보완적인 task를 통해 temporal dynamics를 향한 다중 task 벤치마크인 Tuna를 제안한다. TUNA-CAP은 이벤트 분할, 매칭, 관계 분류를 수행하는 자동화된 평가 파이프라인을 특징으로 하며, 밀도 높은 캡셔닝 능력을 평가하기 위해 인간의 판단과 밀접하게 일치한다. TUNA-MCQ는 정확한 답변을 위해 전체 비디오 context를 특별히 요구하는 1,432개의 신중하게 작성된 객관식 질문으로 구성되어 있다. 이는 단일 프레임이나 제한된 프레임만으로는 답변을 도출할 수 없도록 보장하여, temporal understanding에 대한 엄격한 테스트를 제공한다. 이 두 task는 함께 포괄적인 평가 지표와 비디오 이해 연구 발전을 위한 귀중한 통찰력을 제공한다.

우리는 Tuna 벤치마크에서 21개의 인기 LMM을 평가하여, 비디오 이해의 주요 과제들을 밝혀냈다.

Figure 1은 선택된 모델들의 성능을 보여준다. 밀도 높은 비디오 캡셔닝은 여전히 어려운 task이며, GPT-4o (OpenAI, 2024)가 최고의 성능을 달성했지만 F1 점수는 58.5%에 불과하다. 또한, 오픈 소스 모델들은 상용 모델들에 비해 현저히 뒤처진다. LMM들은 다중 장면, 다중 주제, 고동적(high-dynamic) 비디오 콘텐츠를 포함하는 복잡한 시나리오에서 어려움을 겪는다. 흥미롭게도, VQA task에서는 오픈 소스 모델들이 경쟁력 있는 성능을 보여준다. 그러나 모든 모델들은 카메라 움직임과 행동 시퀀스를 이해하는 데 일관된 약점을 보인다. 캡셔닝과 VQA task 간의 현저한 성능 격차는 전체적인 비디오 이해 능력의 현재 한계를 강조한다. 이러한 발견들은 특히 temporal 및 시각적 이해 능력에서 비디오 LMM 발전을 위한 중요한 통찰력을 제공한다.

요약하면, 우리의 기여는 다음과 같다:

우리는 밀도 높은 동적 비디오에서 카메라, 장면, 행동, 속성에 걸쳐 세분화된 temporal dynamics를 포착하는 꼼꼼하게 주석 처리된 비디오-캡션 데이터셋인 TUNA-1K를 소개한다.
우리는 다양한 시각적 특성, temporal 요소 및 비디오 복잡성과 같은 다양한 새로운 차원에서 성능을 측정하는 포괄적인 temporal 비디오 이해를 위한 새로운 벤치마크인 TUNA를 개발한다.
우리는 여러 인기 모델에 대한 포괄적인 평가를 수행하여, 다양한 차원에서 그들의 강점과 약점을 밝혀낸다.

Figure 2: Tuna-1K 구축 개요. 우리는 다양한 소스에서 동적인 temporal 콘텐츠를 특징으로 하는 고품질의 짧은 비디오를 수집하고 필터링한다. 각 비디오는 시각적 특성과 도메인에 따라 분류된다. 훈련된 주석가들은 temporal적으로 밀도 높은 설명을 제공하며, 이후 교차 검증이 이어진다. 비디오 전문가들은 주석의 품질을 보장하기 위해 주석가들이 작업을 개선하도록 지속적으로 검토하고 안내한다.

이것이 비디오 이해 발전에 견고한 지침을 제공하기를 바란다.

비디오 캡셔닝 (Video Captioning)
최근 연구들 (Zhang et al., 2024d,f; Chen et al., 2024a; Liu et al., 2024d)은 비디오 이해를 위한 상세한 캡션의 중요성을 밝혀냈다. 이미지 캡셔닝과 비교할 때, 비디오 캡셔닝은 다양한 장면에서 사람과 객체의 모습, 그리고 시간 경과에 따른 이들의 변화하는 관계를 처리하기 위한 고급 기술을 요구하므로 더 큰 도전 과제를 제시한다 (de Souza Inácio and Lopes, 2023).
비디오 캡셔닝 데이터는 비디오 LMM의 학습 데이터로 사용되지만, 비디오 캡셔닝을 견고하고 해석 가능하게 평가하는 것은 어렵다. 전통적인 ngram overlap 기반 metric (Papineni et al., 2002; Lin, 2004; Vedantam et al., 2015)은 진정한 의미론적 유사성을 측정하는 데 실패하며, 인간의 판단과의 일관성이 약하다. LLM 기반 채점 방법 (Chan et al., 2023; Maaz et al., 2023)은 동일한 의미를 가지면서도 표현이 다른 캡션을 처리할 수 있지만, LLM에게 직접 숫자 점수를 생성하도록 요청하는 것은 각 등급의 모호한 의미 때문에 신뢰할 수 없다. 최근 Dream-1K (Wang et al., 2024a)는 이벤트로부터 캡션을 평가하여 견고한 결과를 제공한다. 그러나 이러한 노력들은 시간적 역학(temporal dynamics)에 중점을 두지 않아, 비디오의 필수적인 특징을 간과하고 카메라 및 장면 변화에 대한 관심이 미미하다.

비디오 QA (Video QA)
최근 연구들은 비디오 LMM의 비디오 이해 능력을 종합적으로 평가하기 위한 벤치마크를 제공해왔다 (예: Video-MME (Fu et al., 2024), MLVU (Zhou et al., 2024)). 시간적 역학(temporal dynamics)은 비디오의 고유한 특징으로서 매우 중요하다. 기존의 시간 이해 벤치마크 (Patraucean et al., 2024; Li et al., 2024d)는 제한된 장면(예: 실내, 1인칭 시점)에 초점을 맞추거나, 주체의 행동과 속성에만 집중하며, 카메라 및 장면 변화에 대한 고려가 없어 시간 이해 평가에 불완전하다. 우리의 Tuna는 오픈 도메인 비디오에 대한 시간적 인지 능력(temporal perception skills)을 종합적으로 평가하는 것을 목표로 한다.

3 Tuna

이 섹션에서는 시간적으로 밀집된(temporally dense) 비디오-캡션 데이터셋인 Tuna-1K와 멀티태스크 시간 이해 벤치마크인 TUNA를 소개한다.

3.1 Tuna-1K

Tuna-1K의 구축 워크플로우는 Figure 2에 제시되어 있으며, 비디오 수집, 필터링, 클러스터링, 어노테이션의 네 가지 주요 단계로 구성된다.

비디오 수집 (Video Collection)
시간적으로 밀도 높은(temporally dense) 비디오는 다양한 콘텐츠를 포함해야 하며, 주제의 행동과 객체 속성 외에도 카메라 상태 및 장면의 변화를 포함해야 한다 (Polyak et al., 2024; Xiong et al., 2024). 이러한 복잡성을 포착하기 위해, 우리는 10개의 출처에서 1,000개의 open-domain 비디오를 신중하게 수집하였다: (1) 학술 비디오 이해 데이터: DREAM-1K (Wang et al., 2024a), Perception Test (Patraucean et al., 2024), VELOCITI (Saravanan et al., 2024), YouCook2 (Zhou et al., 2018); (2) 학술 비디오 생성 데이터: MiraData (Ju et al., 2024), VIDGEN-1M (Tan et al., 2024); (3) 기타 학술 비디오 데이터: CoVLA (Arai et al., 2024); (4) 웹 데이터: Pexels (Pexels, 2023), Pixabay (pixabay, 2023), MixKit (mixkit, 2023). 동시 진행된 연구들 (Cai et al., 2024)과 달리, 우리는 여러 장면이나 복잡한 행동을 포함하는 원본 비디오를 클립으로 분할하지 않고 그대로 유지하였다. 이는 우리의 task에 필수적이기 때문이다.

비디오 필터링 (Video Filter)
우리는 흐릿하고, 저해상도이며, 긴 길이의 비디오를 제거하여 비디오의 품질을 보장하고 길이를 짧게 유지한다.

Figure 3: TUNA-1K의 한 인스턴스는 세 가지 수준의 설명으로 구성된다: (a) 전체 캡션 (Narrative-level), (b) 시간 순서에 따른 이벤트 시퀀스 (Event-level), (c) 세분화된 시각 요소 (Atomic-level)와 그 유형 및 가중치. 완전한 샘플은 Figure 15에서 확인할 수 있다.

평균 해상도는 1579*892이며, 평균 길이는 14.5초이다. 우리는 비디오 이해 능력만을 순수하게 검증하기 위해, 프레임 샘플링 전략이 비디오에서 모든 keyframe을 추출할 수 있도록 짧은 비디오를 선택한다. 비디오가 **시간적으로 동적(temporal-dynamic)**임을 보장하기 위한 한 가지 기준은 카메라 움직임, 장면 전환, 또는 주제 활동 중 하나가 풍부해야 한다는 것이다. 해상도와 같은 coarse 필터링은 규칙에 의해 수행되며, 동적 정도와 같은 복잡한 필터링은 사람이 직접 수행한다.

비디오 클러스터링 (Video Cluster)
우리는 GPT-4o (OpenAI, 2024)를 사용하여 각 비디오에 대한 설명을 생성하고, 네 가지 시각적 특성과 12개 도메인을 포함하는 설명에 기반하여 비디오를 클러스터링한다. 이후 어노테이터가 분류 결과를 수정하고 보완한다.

어노테이션 (Annotation)
기존 모델들은 주요 이벤트를 놓치거나 (Wang et al., 2024a), 카메라 상태에 대한 민감도가 부족하여 카메라 변화를 정확하게 설명하는 데 어려움을 겪는다 (Chai et al., 2024). 결과적으로, 자동화된 방법으로 시간적으로 밀도 높은 비디오 캡션을 생성하는 것은 어렵다. 대신, 우리의 데이터는 수동으로 어노테이션된다. 훈련된 인간 어노테이터는 카메라 상태, 배경 장면, 주제 행동, 객체 속성에 초점을 맞춰 상세한 비디오 설명을 제공하도록 지시받는다. 대상 캡션은 요약이나 주관적인 감정 없이, 시간 순서에 따라 전개되는 여러 이벤트를 특징으로 한다. 또한, 어노테이터는 각 이벤트를 여러 시각 요소로 분할하고, 이 요소들에 유형과 가중치를 할당한다. 유형에는 camera, scene, action, attribute가 포함되며, 가중치는 비디오에서 해당 요소의 중요도를 1-3 척도로 나타낸다.

정식으로, TUNA-1K의 일반적인 인스턴스는 **전체 캡션 $C_{\text {ref}}$ 를 형성하는 시간적으로 진화하는 이벤트들의 집합 $E_{\text {ref }}=\left[r_{1}, r_{2}, \ldots, r_{T}\right]$ **를 포함하며, 여기서 $T$ 는 시퀀스 내 이벤트의 개수를 나타낸다. 각 이벤트 $r_{i}$ 는 다시 **다양한 시각 요소 $V_{i}=\left\{v_{i 1}, \ldots, v_{i, n_{i}}\right\}$ **를 포함하며, 여기서 $n_{i}$ 는 이벤트 $r_{i}$ 내 시각 요소의 개수를 나타낸다.

또한, 각 시각 요소 $v_{i j}$ 는 유형 $t \in$ {camera, scene, action, attribute}와 가중치 $w_{i j} \in\{1,2,3\}$ 로 레이블링된다. TUNA-1K의 예시는 Figure 3에 제시되어 있다.

품질 검토 (Quality Review)
모든 어노테이션된 비디오-캡션 쌍은 어노테이터 간의 교차 검사를 거친다. 동시에, 비디오 전문가(비저자)들이 어노테이션을 검토하여 피드백을 제공하고, 어노테이터에게 결과를 정제하도록 지시하여 고품질 어노테이션을 보장한다.

3.2 Tuna

3.2.1 Task Definition

**시간적 역동성(Temporal dynamics)**은 비디오를 정지 이미지와 구별 짓는 핵심 요소이다. 여러 벤치마크들이 시간적 시퀀스를 고려하지만, 이들은 오직 행동(actions)과 속성(attributes)에만 초점을 맞추고, 카메라 상태(camera state)나 장면(scene)의 변화는 간과한다. 또한, 일부 평가 task는 비디오 내 다양한 요소들의 관계 및 진화에 대한 인지 능력을 제대로 포착하지 못한다. 예를 들어, 많은 질문들이 비디오 내 단일 프레임 단서에만 집중되어 있다.

이러한 간극을 메우기 위해, 우리는 비디오 전체에 걸친 in-context 이해를 강조하고, 카메라 상태, 배경 장면, 주체 행동, 객체 속성이라는 4가지 핵심 동적 요소에 걸쳐 시간적 이해 능력을 측정한다. 구체적으로, 우리는 두 가지 보완적인 task를 소개한다:

Tuna-CAP: captioning을 위한 task
TunaMCQ: VQA를 위한 task

3.2.2 Tuna-cap

LMM의 시간적 이해 능력을 평가하는 효과적인 방법은 캡셔닝 기술에 반영된다 (de Souza Inácio and Lopes, 2023; Chen et al., 2024a). 그러나 비디오 캡션의 정확성과 완전성을 신뢰성 있고 해석 가능하게 평가하는 것은 여전히 어려운 과제이다. 이벤트 수준(Event-level) 방법 (Wang et al., 2024a, 2022)은 효과적임이 입증되었지만, 주체의 행동에만 초점을 맞추고 카메라 상태나 장면은 간과한다. 이에 우리는 시간에 따른 동적 요소의 진화를 포함하는 시간적으로 밀도 높은(temporally dense) 캡션을 평가하기 위한 전략을 제안한다.

Figure 4: TUNA-CAP 평가 워크플로우 개요. 먼저 후보 캡션을 여러 이벤트로 분할하고, 이를 Tuna-1K의 참조 이벤트와 매칭한다. 그런 다음 매칭되지 않은 이벤트(쓸모없는 내용 또는 일관성 없는 연대기)를 제거하고, 매칭된 후보 이벤트를 동일한 참조 이벤트와 연결하며, 캡션의 시간적 순서를 고려한다. 마지막으로, 시각적 요소와 후보 이벤트의 관계를 분류한다.

Figure 4에서 보듯이, 우리의 평가는 세 단계로 진행된다: (1) Event Splitting (이벤트 분할), (2) Event Matching (이벤트 매칭), (3) Relationship Classification (관계 분류).

Event Splitting & Matching.
모델이 생성한 캡션을 통해 시간적 인지 능력을 검증하기 위해, 우리는 모델이 여러 이벤트를 올바른 시간 순서로 정확하게 설명하는지 확인하는 것이 효과적인 해결책이라고 생각한다. 이를 위해, 후보 캡션 $C_{\text {gen }}$ 은 먼저 이벤트 시퀀스 $G= \left[g_{1}, g_{2}, \ldots, g_{k}\right]$ 로 분할된다. 그런 다음, 각 후보 이벤트 $g_{i}$ 는 참조 이벤트 $r_{j}$ 에 매칭된다.
공식적으로, 목표는 $\left\{\left(i, i d_{i}\right)\right\}_{i=1}^{k}$ 쌍을 얻는 것이다. 여기서 $i d_{i} \in\{1, \ldots, T$ , None $\}$ 는 후보 이벤트 $g_{i}$ 와 매칭된 참조 이벤트 $r_{i d_{i}}$ 의 인덱스를 나타내며, $i d_{1} \leq i d_{2} \leq \cdots \leq i d_{k}$ 조건을 만족한다. 이는 효과적이고 올바른 시간 순서로 설명된 이벤트가 추출되도록 보장한다.

Relationship Classification.
캡셔닝 task의 경우, 분류 기반 접근 방식이 직접적인 점수 매기기 방법(direct scoring methods)보다 더 해석 가능하고 견고하다 (Wang et al., 2024a). 각 참조 이벤트 $r_{j}$ 는 시각적 요소 집합 $V_{j}$ 에 해당한다. 따라서 우리는 연결된 후보 이벤트와 참조 이벤트의 튜플 $\left(g_{i}^{\prime}, r_{j}\right)$ 에서 후보 이벤트와 시각적 요소의 튜플 $\left(g_{i}^{\prime}, V_{j}\right)$ 로 전환할 수 있다.
이후, 시각적 요소 $v_{i j}$ 와 후보 이벤트 $g_{i}^{\prime}$ 사이의 관계 $\phi\left(v_{i j}, g_{i}^{\prime}\right) \in$ {entailment, lack, contradiction}가 분류된다. 이 요소 기반(element-based) 접근 방식은 평가의 해석 가능성을 향상시킨다. 이 워크플로우는 강력한 instruction-following 능력을 가진 LLM인 GPT-4o (OpenAI, 2024)에 의해 구현된다.

Metrics.
우리는 캡션의 정확성과 완전성을 측정하기 위해 precision (P)과 recall (R)을 사용하며, 새로운 측정 지표 계산 방식을 도입한다:

\begin{aligned} \mathrm{P} & =\frac{\sum_{i=1}^{T} \sum_{j=1}^{n_{i}} \mathbb{1}\left(\phi\left(v_{i j}, g_{i}^{\prime}\right)=\text { ent. }\right) \cdot w_{i j}}{\sum_{i=1}^{T} \sum_{j=1}^{n_{i}} \mathbb{1}\left(\phi\left(v_{i j}, g_{i}^{\prime}\right) \in\{\text { ent., con. }\}\right) \cdot w_{i j}} \\ \mathrm{R} & =\frac{\sum_{i=1}^{T} \sum_{j=1}^{n_{i}} \mathbb{1}\left(\phi\left(v_{i j}, g_{i}^{\prime}\right)=\text { ent. }\right) \cdot w_{i j}}{\sum_{i=1}^{T} \sum_{j=1}^{n_{i}} w_{i j}} \\ \mathrm{~F} 1 & =\frac{2 \times \mathrm{P} \times \mathrm{R}}{\mathrm{P}+\mathrm{R}} \end{aligned}

여기서 $\mathbb{1}(\cdot)$ 는 indicator function을 나타낸다. 각 시각적 요소 $v_{i j}$ 가 비디오 내에서 고유한 중요성을 가진다는 점을 인식하여, 각 요소는 해당 가중치 $w_{i j}$ 로 가중된다.

3.2.3 Tuna-mcQ

Tuna-1K를 기반으로, 우리는 자동 구성과 수동 정제(refinement)를 통합하는 파이프라인을 설계하여 객관식 질문(multichoice questions)을 위한 instruction을 생성한다. 이 파이프라인은 크게 두 가지 주요 흐름을 포함한다: **오류 발생 가능 지점 추출(error-prone points extraction)**과 객관식 QA 생성(multichoice QA generation).
우리는 다음 10가지 task 유형을 고려한다:

카메라 움직임: 예: zooming, panning, rotating.
카메라 전환(transition).
장면 설명(scene description).
장면 전환(scene transition).
액션 인식(action recognition).
액션 시퀀스(action sequence).
액션-주체 매칭(action-subject matching).
객체 인식(object recognition).
객체 외형(object appearance): 예: age, dress, color, shape, number.
객체 위치(object location).

기존 연구들(Li et al., 2024d; Liu et al., 2024f)이 주체의 액션과 객체 속성에 초점을 맞춘 것과 달리, 우리는 카메라 상태와 장면 전환을 추가적으로 강조하여 시간적 이해(temporal understanding)에 대한 보다 포괄적인 평가를 제공한다.

오류 발생 가능 지점 추출 (Error-prone Points Extraction)
도전적인 질문을 생성하기 위해, 우리는 비디오에서 오류 발생 가능 지점(error-prone points)을 식별하는 자동화된 접근 방식을 개발한다. 이 과정은 비디오 프레임과 그 ground-truth 설명을 video LMM에 입력하는 것을 포함하며,

Model	Dynamic Element Type				Visual Characteristic				Overall
	Camera	Scene	Action	Attribute	Low-Dynamic	High-Dynamic	Multi-Scene	Multi-Subject
Open-Source LMMs
PLLaVA-7B	49.4/22.6/28.9	52.2/30.9/36.6	30.5/12.6/16.5	44.5/19.5/25.3	66.5/23.0/32.7	56.6/17.1/24.7	55.7/15.5/22.8	56.2/15.3/22.5	60.0/19.1/27.4
LongVA-7B	52.3/26.0/32.5	56.5/34.4/40.6	38.9/17.2/22.0	50.6/22.0/28.4	75.9/26.5/37.3	69.4/20.1/29.0	68.3/19.0/27.6	67.3/15.7/23.7	71.6/22.3/31.8
Tarsier-7B	56.9/27.3/34.8	45.3/28.2/33.1	56.7/28.9/36.2	56.4/26.0/33.3	81.2/34.3/46.5	68.7/24.5/34.5	71.7/25.3/35.8	67.8/23.2/33.2	73.0/27.9/38.6
Kangaroo	65.2/36.5/44.1	67.8/45.4/51.9	49.3/26.0/31.9	59.8/32.2/39.5	73.2/34.7/45.6	67.6/31.3/41.1	66.2/29.7/39.3	63.5/26.3/35.7	69.5/32.5/42.7
LLaVA-OV-7B	75.2/42.0/51.0	71.8/51.2/57.6	54.1/30.4/36.8	66.2/42.0/49.3	78.6/38.4/50.0	71.0/38.8/48.9	71.7/38.3/48.4	67.1/33.8/43.8	73.6/38.6/49.3
LLaVA-Video-7B	74.0/41.5/50.4	73.6/52.3/58.9	57.0/30.8/37.8	72.1/44.8/53.1	80.7/40.0/52.2	75.1/39.5/50.3	77.1/38.6/50.0	73.5/34.6/45.8	77.0/39.7/51.0
Qwen2-VL-7B	72.3/40.7/49.0	71.9/50.0/56.7	55.9/30.1/37.0	68.2/38.4/46.7	81.2/42.0/53.8	76.0/35.3/46.4	76.8/33.2/44.4	73.6/28.9/39.9	77.8/37.6/48.9
InternVL2-8B	64.8/33.7/41.7	59.4/38.7/44.7	45.2/24.7/30.0	59.8/35.5/42.3	71.6/34.0/44.5	64.9/29.7/38.9	65.6/29.1/38.4	61.5/26.6/35.2	67.2/31.1/40.8
MiniCPM-V-2.6	76.5/47.8/56.0	75.0/54.1/60.6	57.2/31.8/38.8	68.7/42.3/50.2	79.3/41.4/53.0	74.3/40.4/51.0	76.5/40.8/51.7	73.5/38.3/49.0	76.0/40.7/51.7
PLLaVA-34B	60.8/29.6/37.4	56.2/33.7/39.9	38.7/17.3/22.3	55.1/26.1/33.2	74.5/28.1/38.9	64.3/22.6/31.8	63.9/21.3/30.2	60.7/19.2/27.6	67.8/24.5/34.2
Tarsier-34B	63.6/34.3/42.3	59.0/38.4/44.4	65.6/39.9/47.6	63.6/34.3/42.2	79.6/37.2/49.1	75.8/36.5/47.8	77.6/38.1/49.6	74.4/36.0/47.3	77.1/36.7/48.2
LLaVA-OV-72B	73.5/43.7/51.9	71.5/51.1/57.5	51.2/30.2/36.0	65.7/41.4/48.8	75.4/37.3/48.6	71.3/36.7/45.9	71.4/40.1/50.1	72.3/39.1/49.4	72.7/39.2/49.6
LLaVA-Video-72B	72.7/41.7/50.3	71.1/49.9/56.4	55.7/32.7/39.3	68.1/43.2/50.8	77.3/39.2/50.6	71.9/39.8/50.0	73.9/38.6/49.3	70.5/35.1/45.7	73.7/39.6/50.2
Qwen2-VL-72B	73.6/45.9/54.0	67.6/46.3/52.8	59.1/35.7/42.6	66.6/40.7/48.5	79.2/44.6/55.7	72.4/39.3/49.7	73.6/37.2/48.0	69.1/32.8/43.3	74.7/41.1/51.7
InternVL2-76B	75.1/45.4/53.9	73.3/55.8/61.4	55.7/34.9/41.2	64.3/44.5/50.9	72.0/43.1/52.8	70.1/41.9/51.5	71.4/41.1/51.1	68.6/39.7/49.3	70.7/42.3/51.9
Closed-Source LMMs
Gemini 1.5 Flash	74.6/52.8/59.6	77.2/59.3/65.1	58.7/36.4/42.9	69.0/48.4/55.2	74.0/46.5/56.0	72.0/46.4/55.5	73.4/46.2/55.9	73.4/46.2/55.9	72.7/46.4/55.7
Gemini 1.5 Pro	78.7/53.0/60.7	75.7/57.4/63.3	59.0/40.3/46.3	69.0/49.4/56.0	76.7/48.7/58.7	72.1/47.8/56.7	73.4/47.7/57.0	69.9/44.1/53.3	73.7/48.1/57.4
GPT-4o	80.1/53.3/61.3	79.5/60.2/66.4	64.0/41.1/48.0	73.8/50.1/57.8	79.1/47.3/58.2	77.0/48.6/58.7	78.7/47.2/58.1	76.8/44.4/55.5	77.7/48.2/58.5

Table 2: 대표적인 video LMM의 TUNA-CAP 성능. 다양한 인지 능력 및 시각적 특성 범주에서 선택된 테스트 모델에 대한 상세 점수를 제공한다. 각 셀에는 "Precision / Recall / F1 Score"가 포함되어 있다. 가장 좋은 결과는 굵게, 두 번째로 좋은 결과는 밑줄로 표시되어 있다.

그 후 텍스트 설명과 일치하지 않는 시각적 요소들을 식별한다. LMM의 시각적 해석에 대한 내재된 한계를 활용하여, 우리는 LMM이 잘못 식별한 요소들을 질문 생성에 자연스럽게 발생하는 오류 발생 가능 지점으로 사용한다.

객관식 QA 생성 (Multi-Choice QA Generation)
사전 정의된 task 유형, 오류 발생 가능 지점, 그리고 텍스트 설명을 기반으로, LLM은 각 비디오에 대해 여러 객관식 질문을 생성한다. 이러한 질문들이 시간적 역동성(temporal dynamics)을 효과적으로 포착하도록 하기 위해, 우리는 MMBench-Video (Fang et al., 2024)와 유사한 temporal-indispensability 필터링 메커니즘을 사용한다. 구체적으로, 질문은 단일 프레임만으로는 정확하게 답변할 수 없고, 정확한 이해를 위해 $n$ 개의 프레임(기본값 $n=16$ )이 필요할 때만 temporal-indispensable하다고 간주된다. 이 엄격한 필터링 과정은 TUNA-MCQ에서 높은 temporal-indispensability 비율을 유지하는 데 도움이 된다.

품질 검토 (Quality Review)
데이터의 높은 품질과 시간 민감성(time-sensitive)을 보장하기 위해, 우리는 크라우드소싱(crowdsourcing)을 활용하여 자동으로 구성된 데이터를 추가로 필터링하고 정제한다. 또한, 인간 어노테이터(annotator)들이 교차 검사(cross-inspection)를 수행하여 어노테이션 품질을 보장한다.

4 Experiments

4.1 Settings

우리는 다음을 포함한 다양한 크기의 21개 closed-source 모델 및 open-source 모델을 평가한다: Gemini 1.5 Pro (Reid et al., 2024), Gemini 1.5 Flash (Reid et al., 2024), GPT-4o (OpenAI, 2024), PLLaVA (Xu et al., 2024), LongVA (Zhang et al., 2024c), Tarsier (Wang et al., 2024a), InternVL2 (Chen et al., 2024b), Kangaroo (Liu et al., 2024c), LLaVA-OneVision (Li et al., 2024a), MiniCPM-V2.6 (Yao et al., 2024), LLaVA-Video (Zhang et al., 2024f), Qwen2-VL (Wang et al., 2024b).

기본적으로 우리는 각 비디오에서 32개의 프레임을 균일하게 샘플링하며, 이는 우리 Tuna 데이터셋의 비디오 전체 내용을 포착하기에 충분하다. 일부 모델은 입력 길이 또는 특정 권장 설정에 대한 다양한 제약 조건을 가지고 있다. 이러한 변화에 대응하기 위해, 우리는 해당 모델들에 맞춤형 샘플링 전략을 적용한다. 더 자세한 내용은 Appendix B.1과 Appendix C.3에서 확인할 수 있다.

4.2 Video Captioning

우리는 모델의 시간적 이해 능력과 다양한 동적 요소 및 시각적 특성에 대한 비디오 인지 능력을 평가한다. Precision은 설명에 언급된 내용의 정확성을 반영하는 반면, recall은 설명의 완전성을 반영한다. Table 2에서 보듯이, 대부분의 video LMM은 70% 이상의 precision을 달성하지만, recall은 50% 미만으로, 비디오 내의 많은 시각적 요소들이 종종 간과되거나 잘못 설명되고 있음을 나타낸다. state-of-the-art 모델인 GPT-4o조차 **F1 점수 58.5%와 recall 48.2%**에 그쳐, LMM이 temporally dense captioning task에서 여전히 개선될 여지가 크다는 것을 보여준다.

시간적 동적 요소 (Temporal Dynamic Elements)
비디오 이해 및 비디오 생성 분야의 최근 연구들은 카메라 상태와 장면의 동적 특성을 점점 더 강조하고 있다 (Chai et al., 2024; Xiong et al., 2024; Polyak et al., 2024). 본 연구에서는 카메라, 장면, 동작, 속성의 네 가지 핵심 동적 요소 유형을 포괄적으로 분석하여, 기존 모델들이 동적 비디오 캡셔닝에서 직면하는 도전 과제를 탐색하고자 한다. Table 2에서 보듯이, LMM은 다른 차원에 비해 장면 인지(scene perception)에서 우수한 성능을 보인다. 기존 LMM은 종종 비디오에서 여러 프레임을 추출하여 일련의 정적 이미지로 처리하는데, 이는 정적 시각 장면을 더 잘 파악하는 데 도움이 된다. 그러나 전반적인 동적 특성과 세밀한 인지를 각각 평가하는 카메라 및 속성 요소는 여전히 어려운 과제로 남아 있으며, 카메라의 최고 점수는 61.3% (오픈소스 모델의 경우 56.0%), **속성의 최고 점수는 57.8% (오픈소스 모델의 경우 53.1%)**에 불과하다. 특히, 동작 인지(action perception)는 다른 차원에 비해 거의 모든 모델에서 일관되게 낮은 성능을 보여, 동적 동작을 정확하게 설명하는 데 상당한 결함이 있음을 나타낸다. 흥미로운 예외는 Tarsier-34B로, 동작 차원에서 GPT-4o에 0.4% 뒤처지는 뛰어난 성능을 보인다. 이는 동작 이벤트에 초점을 맞춘 비디오 캡셔닝 벤치마크인 DREAM-1K (Wang et al., 2024a)에서의 강력한 성능과 일치한다.

Figure 5: 긴 context (8K 토큰 이상)로 학습된 모델에 대한 다양한 비디오 복잡도에 따른 입력 프레임 수별 성능 비교. 가로축은 입력 프레임의 수이다.

다양한 시각적 특성 (Diverse Visual Characteristics)
Table 2에서 보듯이, 모델이 서로 다른 시각적 특성을 가진 비디오를 처리할 때 큰 성능 격차가 나타난다. 테스트된 모든 모델은 낮은 동적 콘텐츠(low-dynamic content)에서는 더 나은 성능을 보이지만, 높은 동적 콘텐츠(high-dynamic) 및 다중 장면(multi-scene) 비디오에서는 어려움을 겪으며, 여러 피사체(multiple subjects)를 포함하는 비디오를 처리할 때 가장 낮은 성능을 보인다.

Figure 6: 다양한 비디오 복잡도에 따른 성능 비교.

비디오 복잡도 (Video Complexity)
우리는 이벤트 수와 시각적 요소 수를 기준으로 Tuna-1K를 분할하여 비디오 복잡도 증가가 모델 성능에 미치는 영향을 조사한다. Figure 6에서 보듯이, F1 점수는 비디오 복잡도가 증가함에 따라 일관되게 하향 추세를 보이며, 이는 복잡한 비디오의 이해가 현재 모델들에게 여전히 어려운 과제임을 나타낸다. 더 자세한 내용은 Appendix B.2.1에서 확인할 수 있다.

시각 입력의 풍부화 (Enrichment of Visual Inputs)
복잡한 비디오가 제기하는 도전 과제를 탐색하기 위해, 우리는 다양한 복잡도를 가진 비디오에서 프레임 수 증가가 미치는 영향을 추가로 조사한다. Figure 5에서 보듯이, 우리는 더 긴 context 길이로 학습된 LLaVA-Video와 Qwen2VL을 분석한다. 우리의 연구 결과는 주어진 입력 프레임 수에서 비디오 복잡도가 증가함에 따라 F1 점수가 감소한다는 것을 보여준다. 일반적으로 프레임 수를 늘리면 더 복잡한 샘플에서 더 큰 개선이 나타나며, 이는 복잡한 비디오가 완전하고 정확한 설명을 위해 더 많은 프레임을 필요로 함을 시사한다. 예상외로, 가장 복잡한 비디오의 경우 프레임을 32개에서 64개로 늘리면 오히려 성능이 감소하는 패턴이 나타나는데, 이는 매우 복잡한 비디오가 LMM에게 여전히 중요한 도전 과제임을 나타낸다. 더 자세한 내용은 Appendix B.2.2에서 확인할 수 있다.

Measure	Kendall's $\tau$	Spearman's $\rho$	Pearson $r$
METEOR (Banerjee and Lavie, 2005)	30.8	44.8	54.7
BERT-Score (Zhang et al., 2019)	27.4	34.8	49.2
CLAIR (Chan et al., 2023)	45.6	56.6	41.0
DREAM-1K (Wang et al., 2024a)	22.2	31.3	24.7
Tuna-cap	57.2	76.7	69.9

Table 3: 우리의 자동 평가에 대한 인간 판단 상관 점수. 모든 p-값 $<0.05$ .

인간 판단과의 상관관계 (Correlation with Human Judgments)
우리의 자동 평가 방법의 효과성과 견고성을 검증하기 위해, 우리는 여러 방법과 인간 평가 간의 Kendall's $\tau$ , Spearman's $\rho$ , Pearson $r$ 상관 점수를 계산한다. Table 3에서 보듯이, 이러한 결과는 강력한 상관관계를 보여주며, 우리 방법이 캡셔닝 평가를 위한 견고하고 정확한 솔루션을 제공함을 확인한다. 더 자세한 내용은 Appendix B.2.4에서 확인할 수 있다.

Model	Camera State		Background Scene		Subject Action			Object Attribute			Overall
	Motion	Transition	Description	Transition	Recognition	Sequence	Matching	Recognition	Appearance	Location
Open-Source LMMs
PLLaVA-7B	29.7	31.9	48.1	22.4	43.6	34.6	30.4	32.3	38.1	45.2	33.7
LongVA-7B	37.5	41.5	63.0	30.8	44.6	44.7	43.5	41.7	47.6	40.5	42.4
Tarsier-7B	23.0	24.6	40.7	20.6	38.6	26.9	45.7	20.9	25.9	23.8	26.5
Kangaroo	33.2	47.3	53.7	38.3	49.5	38.8	54.3	47.2	43.5	59.5	42.9
LLaVA-OV-7B	42.2	54.6	57.4	48.6	42.6	41.4	60.9	47.9	50.0	59.5	47.4
LLaVA-Video-7B	39.1	50.7	59.3	46.7	52.5	52.4	56.5	53.6	61.9	47.6	50.6
Qwen2-VL-7B	41.0	51.7	66.7	45.8	54.5	52.8	65.2	49.0	60.2	57.1	51.3
InternVL2-8B	41.0	53.1	66.7	40.2	45.5	50.5	50.0	45.8	56.8	45.2	48.4
MiniCPM-V-2.6	39.8	45.9	59.3	34.6	49.5	51.1	52.2	42.2	46.6	50.0	45.7
PLLaVA-34B	42.6	41.5	63.0	43.9	45.5	48.5	56.5	43.2	56.8	57.1	46.9
Tarsier-34B	43.0	48.3	72.2	45.8	51.5	50.2	56.5	49.7	53.7	$\underline{61.9}$	50.1
LLaVA-OV-72B	46.5	67.6	$\underline{75.9}$	$\underline{57.0}$	59.4	$\underline{56.6}$	73.9	63.5	69.5	59.5	$\underline{60.0}$
LLaVA-Video-72B	$\underline{47.7}$	67.6	77.8	61.7	$\underline{61.4}$	57.0	65.2	62.5	73.7	57.1	60.7
Qwen2-VL-72B	52.7	$\underline{64.7}$	74.1	55.1	62.4	54.4	$\underline{67.4}$	$\underline{63.0}$	76.3	66.7	60.7
InternVL2-76B	43.8	61.8	74.1	43.0	50.5	50.5	54.3	52.1	66.1	57.1	53.1
Closed-Source LMMs
Gemini 1.5 Flash	40.8	$\underline{58.3}$	$\underline{70.4}$	52.3	48.0	54.2	$\underline{63.0}$	49.0	66.7	$\underline{64.3}$	53.3
Gemini 1.5 Pro	$\underline{49.4}$	68.4	64.8	59.8	$\underline{55.0}$	$\underline{60.4}$	69.6	64.6	$\underline{65.0}$	66.7	60.8
GPT-4o	53.9	56.0	81.5	56.1	59.4	67.6	58.7	56.8	63.6	59.5	60.3

Table 4: 대표적인 video LMM의 TUNA-MCQ 성능. 우리는 선택된 테스트 모델에 대한 10가지 시간적 task의 상세 점수를 제공한다. 가장 좋은 결과는 굵게(bold) 표시하고, 두 번째로 좋은 결과는 밑줄(underline)로 표시한다.

4.3 Video QA

TUNA-MCQ는 비디오 내 **시간적 이해(temporal understanding)**에 특화되어 있으며, 단일 프레임 분석보다는 전체 비디오 관찰의 필요성을 강조한다. 우리는 4가지 동적 요소와 10가지 task 유형에 걸쳐 시간적 이해 능력을 평가한다.

전반적인 성능 (Overall Performance)
Table 4는 TUNA-MCQ에서 선별된 모델들의 성능을 보여준다. 테스트된 모든 모델들은 제한적인 능력을 보였으며, 가장 성능이 좋은 모델조차 겨우 합격점을 넘는 수준이었다. 그러나 오픈소스 모델들이 상용 모델들과 동등한 성능을 보여주면서 고무적인 추세가 나타났다. 특히, LLaVA-Video-72B와 Qwen2-VL72B는 60.7%의 동일한 점수를 달성하여, GPT-4o (60.3%) 및 Gemini 1.5 Pro (60.8%)의 성능과 일치했다. 이러한 오픈소스 모델들의 경쟁력 있는 성능은 Video-MME (Short) (Fu et al., 2024) 및 TempCompass (Liu et al., 2024f)와 같은 최근 연구 결과와도 일치하며, 비디오 이해 분야의 오픈소스 개발에 유망한 방향을 제시한다.

카메라 상태 (Camera State)
최근 연구들 (Chai et al., 2024; Tan et al., 2024)은 비디오 이해 및 생성에서 카메라 상태의 중요한 역할을 강조한다. 그러나 오픈소스 비디오 이해 데이터셋은 이 측면을 최소한으로 다루고 있다. 우리의 평가 결과, 모델들의 카메라 이해 능력에 상당한 약점이 있음을 발견했으며, 평균 점수가 전반적인 점수보다 현저히 낮았다. 모델들은 카메라 전환 감지에서는 어느 정도 가능성을 보였지만, 특히 카메라 움직임 분석에서는 어려움을 겪었으며, 최대 점수가 53.9%에 불과했다.

주체 행동 (Subject Action)
**행동 이해(Action understanding)**는 또 다른 도전 과제이다. 이는 여러 프레임에 걸쳐 캐릭터 상태 변화를 추적하고 해석해야 하기 때문이다. 액션 시퀀스(action sequence) task는 그 복잡성으로 인해 특히 어렵다. 모델이 개별 액션을 인식하는 동시에 시간적 순서와 인과 관계를 이해해야 하기 때문이다. GPT-4o가 67.6%의 정확도로 선두를 달렸지만, 다른 모든 모델들은 합격 기준에 미치지 못했다. 또한, 시간적 액션 인식(temporal action recognition)은 여전히 어려운 과제이며, 가장 성능이 좋은 모델조차 62.4%에 불과했다.

배경 장면 및 객체 속성 (Background Scene & Object Attribute)
고급 비디오 LMM들은 장면 및 속성 이해에서 유망한 능력을 보여준다. 배경 장면 task의 경우, 모델들은 인상적인 결과를 달성했으며, **GPT-4o는 장면 설명에서 81.5%**를 기록했고, **LLaVA-Video-72B는 장면 전환 이해에서 61.7%**를 달성했다. 객체 속성 task에서도 모델들은 좋은 성능을 보였으며, 인식에서 64.6%, 외형(appearance)에서 76.3%, 위치 task에서 66.7%의 최고 점수를 기록했다. 이러한 강력한 성능은 잘 확립된 이미지-텍스트 이해 기술로부터의 지식 전이에 기인할 수 있는데, 이 task들은 다중 이미지 분석 시나리오와 유사한 특성을 공유하기 때문이다.

이러한 포괄적인 결과는 비디오 내 시간적 역학(temporal dynamics)을 이해하는 데 있어 복잡한 도전 과제들을 강조하는 동시에, 미래 비디오 LMM의 개선을 위한 명확한 방향을 제시한다.

4.4 Synthesizing Analysis

TUNA-CAP 및 TUNA-MCQ 결과에 대한 종합적인 분석을 통해, 상용 모델(commercial models)이 두 task 모두에서 우수한 성능을 보여주었다. 반면, 오픈소스 모델(Qwen2-VL-72B 및 LLaVA-Video-72B)은 TUNA-MCQ에서는 비교할 만한 결과를 달성했지만, TUNA-CAP에서는 현저히 낮은 성능을 보였다. 이러한 성능 격차는 오픈소스 LMM이 captioning 및 open-ended QA task에서 가지는 중요한 한계점을 드러내며, 향후 연구 노력이 필요한 영역임을 시사한다.

5 Conclusion

본 논문에서는 시간적으로 밀집된(temporally dense) 비디오 캡션 데이터셋인 Tuna-1K와 그 파생 벤치마크인 TUNA를 소개한다. 우리의 연구는 비디오와 정지 이미지 간의 **가장 큰 차이점인 시간적 역동성(temporal dynamics)**에 초점을 맞추며, 카메라, 장면, 동작, 속성이라는 네 가지 중요한 시간적 측면을 분석한다. Tuna-1K는 다양한 시각 도메인에 걸쳐 포괄적인 범위를 다루며, 세부적이고 미세한(fine-grained) 캡션을 특징으로 한다. TUNA는 **캡셔닝(captioning)과 MCQ(Multiple Choice Question)**라는 두 가지 상호 보완적인 task를 통해 LMM(Large Multimodal Model)의 시간 이해 능력을 평가한다. 이러한 포괄적인 평가는 모델의 강점과 약점에 대한 정확한 통찰력을 제공하며, 비디오 이해 기술 발전을 위한 해석 가능한(interpretable) 지표를 제시한다. 우리는 TUNA가 비디오 이해 분야의 미래 연구를 위한 촉매제 역할을 할 것으로 기대한다. 또한, 높은 정확도와 완전성을 갖춘 세심하게 주석된 TUNA-1K는 현재 우리의 범위를 넘어선 다양한 응용 가능성을 제공한다. 우리는 이 데이터셋이 다양한 연구 방향에서 폭넓게 활용될 것으로 예상하며, 이 분야의 미래 연구에 미칠 영향에 주목하고 있다.

Limitations

우리의 데이터셋은 매우 세분화되어 있지만, 데이터 어노테이션 작업이 극도로 노동 집약적이어서, 이러한 구축 방법을 다른 비디오 데이터셋에 적용하는 데 많은 비용이 소요된다. TUNA-CAP의 경우, 우리는 해석 가능하고 견고한 접근 방식을 사용하여 비디오 LMM의 비디오 캡셔닝 능력에 대한 포괄적인 평가를 수행한다.
하지만 우리의 방법에는 몇 가지 한계점이 있다. 우리의 채점 시스템은 어노테이션된 시각 요소와의 정렬(alignment)에 중점을 둔다. 만약 모델이 어노테이션된 이벤트나 요소와 일치하지 않는 시각 요소를 출력할 경우, 우리의 방법은 그 정확도를 평가할 수 없다. 특히, 생성된 캡션에 과도하게 관련 없는 내용이 포함되어 있고, 이 내용에 상당한 환각(hallucinatory) 정보가 포함되어 있더라도, 우리의 방법으로는 이러한 경우에 유효한 평가를 제공할 수 없다.

Ethics Policy

데이터셋의 다양성을 높이기 위해 우리는 여러 출처에서 비디오를 수집하였다. 여기에는 다양한 연도와 여러 장르의 영화들이 포함된다.
우리는 관찰 품질이 낮거나 NSFW(Not Safe For Work)에 해당하는 일부 비디오를 제거하기 위해 노력했지만, 성별, 인종, 민족, 연령, 사회경제적 지위와 관련된 고정관념을 포함하여 잠재적인 사회적 편향 및 고정관념을 내포하는 의도치 않은 데이터가 여전히 존재할 수 있다.
따라서 데이터를 신중하게 판단하고 활용해야 한다.

A Tuna-1K

A. 1 Statistics

Figure 7: TUNA-1K의 샘플 분포. 4가지 시각적 특성과 12개 도메인을 포함하는 비디오들.

Table 5에서 볼 수 있듯이, 우리는 TUNA-1K의 상세 통계를 보여준다. 각 비디오는 Low-Dynamic 또는 High-Dynamic 카테고리 중 하나에 속해야 하며, Multi-Scene과 Multi-Subject는 선택 사항이다.

Figure 8: Tuna-1K의 도메인 샘플 분포. 12개 도메인을 포함한다.

TUNA-1K에는 다음을 포함하여 12개의 도메인이 있다: (1) Film, (2) Daily Life, (3) Cooking, (4) Sports Activity, (5) Driving, (6) Animals & Pets, (7) Natural Landscape, (8) Cityscape, (9) Urban Activity, (10) Foods, (11) Plants, (12) Autos & Vehicles. Figure 8에서 볼 수 있듯이, 우리는 Tuna-1K 비디오의 도메인 통계를 보여준다.

우리는 Figure 9에서 TUNA-1K의 비디오 복잡도 샘플 분포를 시각화한다. 이는 다음을 기준으로 한다: (a) 이벤트 수, (b) 각 비디오 내 시각 요소 수, (c) 각 이벤트 내 시각 요소 수.

A. 2 More Details of Tuna-1K Construction

A.2.1 Video Collection

Table 6는 TUNA-1K를 구성하는 비디오 소스와 그 설명을 보여준다.

A.2.2 Annotators

우리는 데이터 어노테이션을 위해 크라우드소싱을 활용한다. 모든 어노테이터는 TEM-4 또는 TEM-8 영어 능력을 갖추고 있으며, 비디오 캡셔닝 어노테이션 경험이 있다 (예: 일부 어노테이터는 이전에 Kling 프로젝트를 위해 비디오-캡션 쌍을 어노테이션한 경험이 있다). 공식적인 어노테이션에 앞서, 이들은 어노테이션 품질을 보장하기 위한 우리의 전문적인 교육을 받는다.

A.2.3 Annotator Training

우리는 인간 어노테이터에게 어노테이션 지침을 제공하기 위한 상세한 문서 노트를 준비했다. 이 문서는 5가지 핵심 구성 요소로 이루어져 있다: (1) 시각적 특성 분류 (Visual Characteristic Classification), (2) 비디오 요소 가이드라인 (Video Element Guidelines), (3) 비디오 캡셔닝 프로토콜 (Video Captioning Protocol), (4) 이벤트 분할 및 요소 추출 기준 (Event Splitting and Element Extraction Criterion), (5) 어노테이션 예시 (Annotation Examples).

시각적 특성 분류 (Visual Characteristic Classification). 비디오를 시각적 특성에 따라 분류하기 위한 상세한 기준이다.

Low/High-Dynamic: 비디오 내 동적 요소의 수와 빈도에 기반한다.
Multi-Scene: 최소 한 번의 카메라 전환 또는 장면 전환이 존재한다. 단순히 카메라 줌, 패닝, 회전만 있는 경우는 제외한다.
Multi-Subject: 최소 두 명 이상의 주체가 존재한다. 중요하지 않은 객체는 포함하지 않는다.

비디오 요소 가이드라인 (Video Element Guidelines). 필수적인 비디오 요소에 대한 포괄적인 정의와 주요 고려 사항이다.

Camera: 패닝, 회전, 줌, 팔로잉, 흔들림, 전환 등 카메라 상태를 포함한다. 특정 방향을 명시해야 한다.
Scene: 환경, 날씨, 시간 등을 포함한 배경 장면을 설명한다.
Action: 행동과 그 시간적 진화 시퀀스를 인식한다.
Attribute: 객체를 식별하고 그 외형(예: 인물의 성별, 나이, 복장, 객체의 색상, 모양, 개수) 및 공간적 방향(위치 및 상대적 위치 관계)을 설명한다.

비디오 캡셔닝 프로토콜 (Video Captioning Protocol). 우리는 다음을 강조한다.

이벤트의 엄격한 시간 순서 유지.
요약이나 주관적인 감정 없이 객관적인 설명.
여러 유사한 인물/객체가 나타날 경우, 고유한 속성(예: 나이, 복장 등)으로 구분하여 표현한다.

	Low-Dynamic	High-Dynamic	Multi-Scene	Multi-Subject	Total
#Videos	340	660	493	385	1,000
Duration	18.0s	12.8 s	12.5 s	9.5 s	14.53 s
#Events	2.8	3.4	3.8	3.8	3.2
#Elements (Narrative-level)	15.8	18.3	19.9	20.2	17.5
#Elements (Event-level)	5.7	5.4	5.3	5.3	5.48
#Tokens	198.8	247.1	255.9	267.6	230.7

Table 5: Tuna-1K에 대한 상세 통계. 포함된 내용은 다음과 같다: 비디오 수 (#Videos), 비디오 길이 (Duration), 이벤트 수 (#Events), 캡션 내 시각 요소 수 (#Elements (Narrative-level)), 이벤트 내 시각 요소 수 (#Elements (Narrative-level)), 캡션 토큰 수 (#Tokens).

Figure 9: Tuna-1K의 이벤트 수 및 시각 요소 수에 대한 시각적 통계.

이벤트 분할 및 요소 추출 기준 (Event Splitting and Element Extraction Criterion). 체계적이고 표준화된 어노테이션을 보장하기 위해, 우리는 다음의 포괄적인 가이드라인을 수립한다.

캡션을 시간 순서대로 이벤트로 분할하며, 각 이벤트는 별개의 시간적 활동을 나타낸다. 각 이벤트를 구성하는 시각적 요소로 더 세분화한다.
모든 시각적 요소에서 주체를 명시적으로 식별해야 한다. 명확성과 정확성을 유지하기 위해 누락된 주어와 대명사는 해당 특정 명사 참조로 대체한다.
요소 가중치 기준 (채점용): (1) 가중치 3: 비디오 내에서 주요하고 눈에 띄는 내용. (2) 가중치 2: 주요하지만 눈에 띄지 않는 내용, 또는 부차적이지만 눈에 띄는 내용. (3) 가중치 1: 부차적이고 눈에 띄지 않는 내용.

어노테이션 예시 (Annotation Examples). 몇 가지 완전한 어노테이션 예시를 통해 인간 어노테이터에게 추가적인 어노테이션 지침을 제공한다.

어노테이션 품질과 일관성을 보장하기 위해, 우리는 엄격한 어노테이터 선정 및 교육 과정을 시행했다. 초기에는 모든 잠재적 어노테이터가 공유된 비디오 하위 집합을 사용하여 시험 어노테이션 단계를 거쳤다. 이 단계는 교육 훈련과 자격 평가의 역할을 동시에 수행했다. 시험 어노테이션을 신중하게 평가하여, 높은 일관성, 정확성, 그리고 어노테이션 가이드라인에 대한 철저한 이해를 보여준 어노테이터들만을 선발했다. 이 자격을 갖춘 어노테이터들은 이후 본 어노테이션 작업에 참여했다. 이러한 체계적인 접근 방식은 어노테이션 품질을 유지하는 동시에 서로 다른 어노테이터 간의 잠재적 불일치를 최소화하는 데 도움이 되었다.

A.2.4 Annotation

비디오 필터 (Video Filter)
먼저, 특정 규칙에 따라 원치 않는 비디오를 필터링한다. 예를 들어, 낮은 해상도(480p 미만) 또는 긴 길이(40초 초과)의 비디오를 제외한다. 그 다음, 사람 어노테이터들이 거의 정적인 비디오나 NSFW(Not Safe For Work) 비디오를 걸러내어, 선택된 비디오의 높은 품질과 시간적 역동성을 보장한다.

비디오 클러스터 (Video Cluster)
첫째, 각 비디오에 캡션을 할당한다. 원본 소스에 캡션이 제공되면 이를 활용하고, 그렇지 않은 경우 gpt-4o-2024-05-13을 사용하여 캡션을 생성한다. 그 다음, GPT-4o를 활용하여 각 비디오의 시각적 특성 카테고리(visual characteristic category)와 도메인(domain)을 분류한다.
이 단계까지는 초기 모델이 생성한 시각적 특성 및 도메인을 가진 원본 비디오를 얻게 된다. 어노테이터들은 비디오를 관찰하며, 필요에 따라 시각적 특성 카테고리와 도메인을 수정하고 보완한다. 이 단계에서 사용된 prompt instruction은 Figure 23에 제시되어 있다.

시간적으로 밀집된 캡션 어노테이션 (Temporally Dense Caption Annotation)
어노테이터들은 각 비디오에 대해 상세한 시간 순서별 설명을 제공하는 task를 수행한다. 그들은 카메라 전환, 장면 전환, 스토리 진행과 같은 기준에 따라 캡션을 여러 이벤트로 나누어야 한다. 각 이벤트는 다시 여러 **원자적 시각 요소(atomic visual elements)**로 세분화되며, 이 요소들은 유형별로 분류되고 중요도에 따라 1-3점 척도로 가중치가 부여된다. 유형에는 카메라, 장면, 액션, 속성이 포함된다.

Figure 10: 다양한 비디오 복잡도에 따른 Tuna-CAP의 전체 성능 비교.

품질 검토 (Quality Review)
품질 보증을 위해 **어노테이터들 간의 교차 검사(cross-inspection)**가 수행된다. 또한, **숙련된 비디오 전문가(비저자)**들이 지속적으로 어노테이션을 검토하며 피드백을 제공하고, 어노테이터들이 고품질 어노테이션을 보장하도록 작업을 개선하도록 유도한다. 교차 검사 및 전문가 검토 과정에서는 비디오 캡션, 이벤트 분할, 시각 요소 추출은 물론 요소의 유형 및 가중치를 포함한 모든 어노테이션 결과를 확인한다.

A.2.5 Visualized Examples

Tuna-1K의 상세한 예시는 Figure 15에 제시되어 있다.

B Tuna-cap

B. 1 Experimental Settings

모든 테스트 모델의 구성 및 실험 설정은 Table 7에 나와 있다.

우리가 테스트한 비공개 모델의 특정 버전은 gemini-1.5-flash-002, gemini-1.5-pro-002, gpt-4o-2024-08-06이다. 참고로, 우리의 TUNA-CAP 및 TUNA-MCQ에서 몇몇 샘플(5개 미만)은 Gemini (Reid et al., 2024) 시리즈로부터 응답을 받지 못했는데, 이는 보안 메커니즘 때문일 수 있다. 따라서 우리는 응답이 없는 샘플에 0점을 부여하는 대신, 응답이 있는 샘플만을 사용하여 점수를 계산하였다.

Input Frames. 기본적으로 우리는 각 비디오에서 32프레임을 균일하게 샘플링하는데, 이는 TUNA 내 비디오의 전체 내용을 포착하기에 충분하다. Qwen2-VL (Wang et al., 2024b) 및 PLLaVA (Xu et al., 2024)의 경우, 각각 2 FPS로 프레임을 샘플링하고 16프레임을 균일하게 샘플링하는 공식 전략을 따른다. 비공개 모델의 경우, 우리는 1/2 FPS로 프레임을 동적으로 샘플링했는데, 이는 비디오 이벤트가 16초 미만일 때는 2 FPS로 샘플링하고, 그렇지 않을 때는 1 FPS로 샘플링한다는 의미이다.

Detailed Prompts. 캡셔닝을 위한 기본 prompt 템플릿은 Figure 19에 나와 있다. Figure 20, 21, 22는 TUNA-CAP 평가에 사용된 prompt 템플릿을 보여준다.

B. 2 More Experimental Analysis

Tuna-CAP 결과는 Table 2의 보완 결과로, 테스트된 모든 모델에 대해 Table 8과 Table 9에 제시되어 있다.

B.2.1 Video Complexity

우리는 비디오 복잡도 증가에 따른 모델의 영향을 관찰하기 위해, 비디오 내 이벤트 수와 시각적 요소 수에 따라 비디오 복잡도를 분류하였다. 선택된 모델들의 시각화 결과는 Figure 6에 제시되어 있다. 테스트된 모든 모델의 상세 결과는 Table 10에 있으며, 그 시각화 결과는 Figure 10에 나타나 있다.

Table 10과 Figure 10에서 볼 수 있듯이, 모델 성능은 비디오 복잡도가 증가함에 따라 일관되게 감소한다. **대형 모델( $\geq 34 \mathrm{~B}$ 파라미터)**은 복잡한 비디오에 대해 **더 나은 견고성(robustness)**을 보이며, **이벤트 수 증가 시 2.8%, 요소 수 증가 시 2.5%**로 더 작은 성능 하락을 나타낸다. 이는 **소형 모델( $<34 \mathrm{~B}$ 파라미터)**이 겪는 **더 가파른 하락(각각 4.7% 및 3.5%)**과 대비된다. 더욱이, 대형 모델과 소형 모델 간의 성능 격차는 매우 복잡한 비디오에서 더욱 두드러진다. 이벤트 수가 9개를 초과할 때(7~8개 이벤트에서 증가), 소형 모델은 6.2%의 상당한 성능 하락을 겪는 반면, 대형 모델은 단 0.7%의 변동으로 안정적인 성능을 유지한다. 마찬가지로, **31개 이상의 요소가 포함된 비디오(26~30개에서 증가)**의 경우, 소형 모델은 3.0%의 변동을 보이는 반면, 대형 모델은 단 0.7%의 변동만을 나타낸다. 이러한 증거는 대형 모델이 복잡한 비디오 콘텐츠에 대해 우수한 적응 능력을 가지고 있음을 강력히 시사한다.

B.2.2 Enrichment of Visual Inputs

비디오 이해에 있어 입력 프레임의 수는 모델이 충분한 시각적 콘텐츠를 수신하는지에 직접적인 영향을 미치므로 매우 중요하다. 이는 특히 긴 비디오 시나리오에서 모델이 질문에 답하는 능력이 샘플링된 프레임에 필요한 시각 정보가 포함되어 있는지 여부에 달려있기 때문에 더욱 중요하다. 기존 LMM의 입력 프레임 수 제한을 고려하여, 우리의 Tuna-1K는 평균 15초, 최대 38초의 비디오 길이를 가지므로 32개의 프레임이 각 비디오의 콘텐츠를 충분히 커버할 수 있도록 보장한다. 프레임 수가 성능에 미치는 영향을 탐구하기 위해, 우리는 여러 고전 모델에서 다양한 입력 프레임 수에 따른 TUNA-CAP 성능을 비교한다.

Figure 11: 입력 프레임 수에 따른 성능 비교.

Figure 11에서 볼 수 있듯이, 프레임 수를 늘리면 일반적으로 F1 score가 향상되며, 8프레임에서 16프레임으로 증가할 때 평균 1.86%, 16프레임에서 32프레임으로 증가할 때 평균 1.62%의 증가를 보인다. 이는 특히 프레임 수가 적을 때 충분한 시각 정보를 제공하는 것의 중요성을 강조한다. 유사한 패턴이 **액션 인지(action perception)**에서도 나타나는데, 8프레임에서 16프레임으로 증가할 때 평균 3.48%, 16프레임에서 32프레임으로 증가할 때 평균 2.48%의 향상을 보여, 동적인 액션이 프레임 수에 더 민감함을 시사한다. 그러나 LLaVA-OV-7B (Li et al., 2024a), InternVL2-26B (Chen et al., 2024b), MiniCPM-V-2.6 (Yao et al., 2024)을 포함한 일부 초기 모델에서는 프레임 수가 64개로 증가했을 때 성능 저하가 관찰되었다. 우리는 이러한 감소가 이전 모델들이 학습 중에 64프레임 입력(8K 이상의 context length)을 거의 사용하지 않았기 때문에 64프레임에서 성능이 저하된 것으로 분석한다. 반면, 더 긴 context로 학습된 LLaVA-Video-7B (Zhang et al., 2024f)와 Qwen2-VL-7B (Wang et al., 2024b)는 프레임 수가 64개에 도달했을 때 더 나은 결과를 얻었다. 이는 context length가 제약되지 않을 때 더 많은 프레임을 제공하는 것이 실제로 성능을 향상시킬 수 있음을 나타낸다. 더 많은 프레임은 비디오 내의 복잡한 시간적 역학(temporal dynamics)과 풍부한 맥락적 정보(contextual information)를 포착하는 능력을 향상시킬 수 있다. 결과적으로, 학습을 위해 더 많은 프레임을 효율적으로 활용하는 방법을 탐구하는 것이 멀티모달 비디오 이해 분야에서 핵심적인 주제로 부상할 것이다.

비디오 이해에 대한 프레임 수의 영향을 더 자세히 탐구하기 위해, 우리는 더 긴 context로 학습된 LLaVA-Video와 Qwen2-VL을 선택하여, 다양한 입력 프레임 수에 따른 비디오 복잡도별 성능 차이를 설명한다. Figure 5는 시각화된 결과를 제시하고, Table 12는 해당 특정 점수를 제공한다. 이러한 결과는 프레임 수를 늘리는 것이 더 복잡한 비디오를 이해하는 데 더 유익함을 보여준다. 그러나 과도한 복잡성은 성능 이상(performance anomalies)을 초래할 수 있으며, 이는 매우 복잡한 비디오를 이해하는 것이 여전히 중요한 도전 과제임을 나타낸다.

B.2.3 Scaling Law

Table 2에서 볼 수 있듯이, 모델의 규모가 커질수록 성능이 향상되는 일반적인 법칙이 존재한다. 따라서 이러한 scaling law는 video captioning task에서도 동일하게 유효하다. 더 큰 모델은 일반적으로 더 많은 파라미터를 가지므로, 데이터 내의 복잡한 패턴과 미묘한 차이를 더 잘 포착하여 성능 향상으로 이어진다.
그러나 우리는 LLaVA-Video 시리즈가 모델 크기에 따라 일관되지 않은 성능 확장성을 보인다는 점을 발견했다. 이러한 불일치는 LLaVA-Video-72B에 사용된 Slow-Fast 접근 방식에 기인할 수 있다. 이 방식은 visual token의 2/3가 다른 token의 1/4로 압축되도록 하는데, 이러한 압축은 세부적인 비디오 이해와 정확한 captioning에 필수적인 미세한 정보의 광범위한 손실을 초래한다. 이 관찰은 시각 정보의 효율적인 사용이 매우 중요하며, 심지어 language model 규모가 미치는 영향보다 더 클 수 있음을 시사한다. 즉, visual token의 품질과 풍부함이 video captioning 모델의 전반적인 성능에 결정적인 역할을 한다.

논의 (Discussion)
이러한 관찰은 해당 분야에서 흥미로운 논의를 촉발시켰다: video LMM은 더 많은 수의 입력 프레임을 처리할 때 우수한 성능을 보인다. 프레임 커버리지가 증가하면 비디오 콘텐츠에 대한 더 포괄적인 표현을 제공하고 미묘한 세부 사항 및 시간적 역학을 포착할 수 있지만, 이러한 장점은 context length 제한으로 인해 제약받는다. 특히, 더 많은 프레임을 수용하는 것은 일반적으로 visual token의 압축을 수반하며, 이 과정은 여전히 핵심적인 기술적 과제로 남아있다. 향후 연구는 더 효율적인 visual token 압축 기술 개발과 확장된 context length를 처리할 수 있는 아키텍처 설계 혁신에 초점을 맞춰, 비디오 이해 task에서 대규모 모델의 잠재력을 최대한 발휘해야 할 것이다.

B.2.4 Correlation with Human Judgments

주어진 비디오-캡션 쌍에 대해, 이 task는 메트릭이 인간 평가(human scoring)와 일치하는지 확인하는 것이다. 구체적으로, 우리는 687개의 시각적 요소(visual elements)를 포함하는 40개의 비디오를 무작위로 샘플링했다. 인간 평가자들에게는 참조 메타 정보와 모델이 생성한 캡션이 제공되었다. 평가자들은 각 참조 시각적 요소가 후보 캡션에 정확하고 완전하게, 그리고 올바른 시간 순서로 나타나는지 순차적으로 판단하도록 요청받았으며, 그 결과 **인간이 부여한 점수(human-assigned scores)**가 도출되었다.
마지막으로, 우리는 TunaCAP의 자동 평가 방법과 인간 평가 간의 일관성을 테스트하기 위해 Kendall's $\tau$ , Spearman's $\rho$ , Pearson $r$ 을 계산했다. 계산된 **Kendall's $\tau$ , Spearman's $\rho$ , Pearson $r$ 은 각각 57.2%, 76.7%, 69.9%**였으며, 모든 p-value는 0.05 미만이었다. 이는 우리의 자동 평가 방법의 유효성을 입증한다.

**CLAIR (Chan et al., 2023)**은 이미지 캡셔닝 평가 방법으로, 참조 캡션을 기반으로 점수를 매기는 LLM 기반 전략이다. 우리는 이 접근 방식을 비교 대상으로서 비디오 캡셔닝 평가에 원활하게 적용하였다.
**DREAM-1K (Wang et al., 2024a)**는 해석 가능성(interpretability)을 갖춘 비디오 캡셔닝 평가를 위해 최근 제안된 방법이다. 그러나 이 방법은 주체의 행동(subject actions)에만 초점을 맞추고 있어, 카메라, 장면, 행동, 속성 등 포괄적인 비디오 캡셔닝 데이터에 대한 우리의 평가에서는 성능이 미흡했다.

C Tuna-mce

C. 1 Statistics

Figure 12: Tuna-MCQ의 task 유형별 샘플 분포. 10가지 task 유형을 포함한다.

Figure 12는 Tuna-MCQ의 10가지 task 유형별 샘플 분포를 보여준다: (1) camera motion: 예를 들어, zooming, panning, rotating. (2) camera transition. (3) scene description. (4) scene transition. (5) action recognition. (6) action sequence. (7) action-subject matching. (8) object recognition. (9) object appearance: 예를 들어, gender, age, dress, color, shape, number. (10) object location.

Figure 13: Tuna-MCQ에서 정답 옵션의 샘플 분포.

모델이 순서와 token에 대해 가질 수 있는 편향과 다양한 민감도를 제거하기 위해, 우리는 Figure 13에서 보여지듯이 정답 옵션의 분포가 균일하도록 보장한다.

C. 2 More Details of Tuna-mce Construction

오류 발생 가능 지점 추출 (Error-prone Points Extraction)
도전적인 질문을 얻기 위해, 우리는 자동화된 접근 방식을 통해 일부 오류 발생 가능 지점(error-prone points)을 추출한다. 구체적으로, 비디오 LMM에 비디오의 8개 프레임과 해당 ground-truth 텍스트 설명을 제공하고, 비디오가 텍스트 설명과 일치하지 않는다고 생각하는 내용을 생성하도록 요청한다. 이 단계에서 사용된 prompt instruction은 Figure 25에 제시되어 있다.

다중 선택 QA 생성 (Multi-Choice QA Generation)
사전에 정의된 task 유형, 오류 발생 가능 지점, 텍스트 설명을 기반으로, LLM은 각 비디오에 대해 여러 개의 다중 선택 QA를 생성한다. 이 단계에서 사용된 prompt instruction은 Figure 26에 제시되어 있다.

품질 검토 (Quality Review)
데이터의 높은 품질과 시간 민감성(time-sensitive)을 보장하기 위해, 우리는 크라우드소싱을 활용하여 자동으로 생성된 데이터를 최적화한다. 또한, 인간 어노테이터들이 교차 검사(cross-inspection)를 수행하여 품질을 확보한다. 질문이 시간적 역동성(temporal dynamics)을 포착하는 데 적절한지 보장하기 위해, 우리는 LLaVA-Video-7B를 사용하여 질문을 필터링한다.
질문은 단일 프레임과 여러 프레임을 모두 사용하여 정확하게 답변될 수 있을 때 temporal-indispensable하다고 간주된다. 구체적으로, 1-frame 입력과 16-frame 입력 모두에 의해 질문이 올바르게 답변될 수 있다면, 해당 질문은 temporal-indispensable한 것으로 간주한다.

C.2.1 Visualized Examples

TUNA-MCQ의 몇 가지 예시는 Figure 16, 17, 18에 제시되어 있다.

C. 3 Experimental Settings

TUNA-MCQ의 입력 프레임 수는 Table 7에 제시된 Tuna-CAP과 일치한다. multi-choice QA의 기본 prompt template은 Figure 24에 나타나 있다.

덧붙여, TUNA-MCQ의 일부 샘플(10개 미만)은 Gemini 시리즈로부터 응답을 받지 못했는데, 이는 보안 메커니즘 때문일 수 있다. 따라서 우리는 응답이 없는 샘플에 0점을 부여하는 대신, 응답이 있는 샘플만을 사용하여 점수를 계산하였다.

C. 4 More Experimental Analysis

TUNA-MCQ의 모든 테스트 모델 결과는 Table 4의 보완 결과로서 Table 13에 제시되어 있다.

C.4.1 Scaling Law

Tuna-MCQ 벤치마크에서 대부분의 모델은 예측 가능한 스케일링 패턴을 보이지만, InternVL2 (Chen et al., 2024b)는 76B 버전이 40B 버전보다 성능이 낮고, 26B 버전이 8B 버전보다 성능이 낮은 예상치 못한 경향을 보인다. 이러한 이상 현상은 여러 비디오 이해 벤치마크에서 일관되게 관찰된다:

Video-MME: 76B ( $64.7\%$ ) vs. 40B ( $66.1\%$ )
MVBench: 76B ( $69.6\%$ ) vs. 40B ( $72.0\%$ )
MMBench-Video: 76B ( $1.71\%$ ) vs. 40B ( $1.78\%$ )
MLVU: 76B ( $69.9\%$ ) vs. 40B ( $71.0\%$ )

주목할 점은 이러한 직관에 반하는 스케일링 동작이 아키텍처 차이에서 기인한다는 것이다. 각 InternVL2 변형 모델은 서로 다른 LLM backbone 계열과 vision encoder를 사용하므로, 직접적인 성능 비교는 스케일링 법칙을 확립하는 데 있어 의미가 적다.

D Future Work

다양한 모델들이 복잡한 지시를 따르는 데 있어 각기 다른 능력을 가지고 있음을 고려하여, 우리는 공정한 비교와 명확한 평가를 위해 의도적으로 간단한 prompting 템플릿을 채택하였다. 이러한 접근 방식은 모델의 고유한 시간적 이해 능력을 분리하여 평가하는 데 도움이 되지만, Multimodal-CoT (Zhang et al., 2023) 추론과 같은 고급 prompting 전략은 성능 향상에 유망한 잠재력을 보여준다.
하지만 이러한 정교한 prompting 기법들은 TUNA-MCQ와 같은 task에서는 성능을 향상시킬 수 있지만, TUNA-CAP과 같은 captioning task에는 적용하기 어려운 문제가 남아있다. 우리는 향후 연구에서 성능 최적화와 근본적인 시간적 이해 능력 평가 사이의 균형을 유지하면서, 다양한 task에서 시간적 이해 능력을 효과적으로 향상시킬 수 있는 고급 prompting 전략을 탐구할 것을 권장한다.

Video LMMs. Large Multimodal Models (LMMs)는 급증하여 인상적인 시각 이해 능력을 보여주고 있다 (Li et al., 2024b; Zhang et al., 2024a; Caffagni et al., 2024; Amirloo et al., 2024; Zhang et al., 2025). 이러한 발전은 다양한 분야에 걸쳐 다채롭고 혁신적인 애플리케이션 개발을 촉진했다 (Pan et al., 2023; Zhang et al., 2024e; Liu et al., 2025; Kong et al., 2025). 기존 연구들은 LLaVA (Liu et al., 2024b,a), BLIP-2 (Li et al., 2023), MiniGPT-4 (Zhu et al., 2023)와 같은 모델에서 볼 수 있듯이, 작은 중간 아키텍처를 사용하여 visual encoder와 **Large Language Model (LLM)**을 연결함으로써 visual-language LMM의 발전을 촉진한다. 이를 기반으로 최근 연구들 (Li et al., 2024c; Zhang et al., 2024b; Lin et al., 2024; Cheng et al., 2024; Lin et al., 2023; Maaz et al., 2023)은 이러한 기술을 정적 이미지에서 동적 비디오로 확장하여, 비디오를 여러 이미지 프레임으로 처리함으로써 비디오 이해에서 유망한 결과를 보여주고 있다.

Type	Source	Domain	Visual Characteristic	Description
	Pexels (Pexels, 2023)	Animals & Pets <br> Autos & Vehicles <br> Cityscape <br> Foods <br> Natural Landscape <br> Urban Activity	Low-Dynamic	저작권 문제로부터 자유로운 스톡 비디오 및 모션 그래픽을 제공하는 웹사이트로, 일반적으로 숙련된 사진작가들이 업로드한 매우 고품질의 비디오들이다. 우리는 다양한 도메인을 커버하는 Low-Dynamic 시나리오의 소스로 46개의 비디오를 샘플링했다.
	Pixabay (pixabay, 2023)	Animals & Pets <br> Cityscape <br> Foods <br> Natural Landscape <br> Urban Activity	Low-Dynamic	저작권 문제로부터 자유로운 스톡 비디오 및 모션 그래픽을 제공하는 웹사이트로, 일반적으로 숙련된 사진작가들이 업로드한 매우 고품질의 비디오들이다. 우리는 다양한 도메인을 커버하는 Low-Dynamic 시나리오의 소스로 13개의 비디오를 샘플링했다.
	MixKit (mixkit, 2023)	Natural Landscape	Low-Dynamic	저작권 문제로부터 자유로운 스톡 비디오 및 모션 그래픽을 제공하는 웹사이트로, 일반적으로 숙련된 사진작가들이 업로드한 매우 고품질의 비디오들이다. 우리는 Low-Dynamic 시나리오의 소스로 7개의 비디오를 샘플링했다.
Academic Video Understanding Data	DREAM-1K <br> (Wang et al., 2024a)	Film	Low-Dynamic <br> High-Dynamic <br> Multi-Scene <br> Multi-Subject	DREAM-1K는 라이브 액션 영화, 애니메이션 영화, 스톡 비디오, YouTube 비디오, TikTok 스타일의 짧은 비디오 등 5가지 카테고리의 1,000개 비디오 클립으로 구성된다. 이 비디오들은 일반적으로 다양한 샷에 걸쳐 여러 이벤트와 주제를 특징으로 한다. 우리는 주로 High-Dynamic, Multi-Scene, Multi-Subject 시나리오의 소스로서 우리의 선택 원칙을 충족하는 라이브 액션 영화에서 148개의 비디오를 샘플링했다.
	VELOCITI (Saravanan et al., 2024)	Film	Low-Dynamic <br> High-Dynamic Multi-Scene <br> Multi-Subject	비디오 LMM에서 인지 및 바인딩을 테스트하기 위해 복잡한 영화 클립과 밀도 높은 의미 역할 레이블 주석을 사용하는 벤치마크이다. 이 비디오들은 빈번한 샷 변경, 빠른 액션 시퀀스, 다중 이벤트 상황, 역할 전환, 시간 경과에 따른 엔티티 공동 참조와 같은 도전적인 시나리오를 특징으로 한다. 우리는 주로 High-Dynamic, Multi-Scene, Multi-Subject 시나리오의 소스로 266개의 비디오를 샘플링했다.
	PerceptionTest (Patraucean et al., 2024)	Daily Life (Indoor)	Low-Dynamic <br> High-Dynamic <br> Multi-Scene	기술 영역(기억, 추상화, 물리, 의미론) 및 추론 유형(기술적, 설명적, 예측적, 반사실적) 전반에 걸쳐 성능을 평가하는 데이터셋이다. 우리는 주로 High-Dynamic 시나리오의 소스로 114개의 비디오를 샘플링했다.
	YouCook2 (Zhou et al., 2018)	Cooking	High-Dynamic <br> Multi-Scene <br> Multi-Subject	4가지 주요 요리(아프리카, 아메리카, 아시아, 유럽)의 89가지 레시피를 다루는 YouTube 비디오 데이터셋으로, 빠른 카메라 움직임, 카메라 줌, 비디오 초점 흐림, 장면 유형 변경과 같은 다양한 요리 스타일과 도전을 특징으로 한다. 우리는 주로 High-Dynamic 시나리오의 소스로 100개의 비디오를 샘플링했다.
Academic Video Generation Data	VIDGEN-1M (Tan et al., 2024)	Animals & Pets <br> Autos & Vehicles <br> Cityscape <br> Foods <br> Natural Landscape <br> Plants <br> Urban Activity <br> Sports Activity	Low-Dynamic <br> High-Dynamic <br> Multi-Scene	높은 비디오 품질, 높은 시간적 일관성, 균형 잡힌 카테고리를 가진 오픈 도메인 Text-to-Video 데이터셋이다. 우리는 High-Dynamic, Multi-Scene (스포츠 활동) 시나리오 및 Low-Dynamic (기타 도메인) 시나리오의 소스로 154개의 비디오를 샘플링했다.
	MiraData (Ju et al., 2024)	Animals & Pets <br> Autos & Vehicles <br> Cityscape <br> Foods <br> Natural Landscape <br> Plants <br> Urban Activity	Low-Dynamic <br> Multi-Scene	비디오 생성 task의 주요 기대치(다양한 콘텐츠, 높은 시각적 품질, 긴 지속 시간, 상당한 움직임 강도)를 충족하도록 설계된 대규모 고품질 비디오 데이터셋이다. 기존의 Text-to-Video 데이터셋이 주로 YouTube에서 비디오를 가져오는 것과 달리, MiraData는 YouTube, Videvo, Pixabay, Pexels의 비디오를 포함하여 보다 포괄적이고 적합한 데이터 소스를 보장한다. 우리는 주로 다양한 도메인을 커버하는 Low-Dynamic 시나리오의 소스로 102개의 비디오를 샘플링했다.
Others	CoVLA (Arai et al., 2024)	Driving	Low-Dynamic <br> Multi-Scene <br> Multi-Subject	CoVLA (Comprehensive Vision-Language-Action) 데이터셋은 자율 주행 연구 발전을 위해 설계된 새로운 대규모 리소스이다. 이 데이터셋은 전방 카메라, 차량 내 신호 및 기타 센서에서 동기화된 멀티모달 데이터 스트림을 포함하여 다양한 주행 시나리오에 대한 포괄적인 시야를 제공한다. 우리는 복잡한 장면 변화 때문에 이 데이터셋을 선택했다. 우리는 Multi-Scene 시나리오의 소스로 50개의 비디오를 샘플링했다.

Table 6: Tuna-1K 내의 풍부한 비디오 소스. Domain은 샘플링된 데이터에 나타난 도메인을 나타낸다. Visual Characteristic은 샘플링된 데이터에 존재하는 시각적 특성을 나타내며, 굵은 글씨는 주요 특징을, 회색은 부차적인 특징을 나타낸다. 각 데이터셋에 대한 간략한 설명과 우리의 선택 기준 및 개수도 제공한다.

Figure 14: 몇 가지 비디오 이해 벤치마크 예시 및 분석.

Model	LLM	Vision Model	#Frames
Open-Source LMMs
Qwen2-VL-72B	Qwen2-72B	ViT-600M	2FPS
Qwen2-VL-7B	Qwen2-7B	ViT-600M	2FPS
LLaVA-Video-72B	Qwen2-72B	SigLIP-400M	32
LLaVA-Video-7B	Qwen2-7B	SigLIP-400M	32
LLaVA-OneVision-72B	Qwen2-72B	SigLIP-400M	32
LLaVA-OneVision-7B	Qwen2-7B	SigLIP-400M	32
InternVL2-76B	Llama-3-70B-Instruct	InternViT-6B	32
InternVL2-40B	Nous-Hermes-2-Yi-34B	InternViT-6B	32
InternVL2-26B	InternLM2-20B	InternViT-6B	32
InternVL2-8B	InternLM2.5-7B	InternViT-300M	32
Tarsier-34B	Nous-Hermes-2-Yi-34B	CLIP ViT-L/14	32
Tarsier-7B	Vicuna-v1.5-7B	CLIP ViT-L/14	32
PLLaVA-34B	Nous-Hermes-2-Yi-34B	CLIP ViT-L/14	16
PLLaVA-13B	Vicuna-v1.5-13B	CLIP ViT-L/14	16
PLLaVA-7B	Vicuna-v1.5-7B	CLIP ViT-L/14	16
MiniCPM-V-2.6	Qwen2-7B	SigLIP-400M	32
Kangaroo	Llama3-8B-Instruct	EVA-CLIP-L	32
LongVA-7B	Qwen2-7B-Instruct-224K	CLIP ViT-L/14	32
Closed-Source LMMs
GPT-4o	Unknown	Unknown	1/2 FPS*
Gemini 1.5 Pro	Unknown	Unknown	1/2 FPS*
Gemini 1.5 Flash	Unknown	Unknown	1/2 FPS*

Table 7: Section 4.2, 4.3의 Tuna 평가에 사용된 프레임 수. 기본적으로 32개의 프레임이 균일하게 샘플링되며, 이는 Tuna-cap의 각 비디오 콘텐츠를 커버하기에 충분하다. 일부 모델은 입력 길이 제한 또는 샘플링 권장 사항에 따라 다른 수의 프레임을 사용한다. *는 비디오 길이가 16초 미만일 때 2 FPS가 사용되고, 그렇지 않으면 1 FPS가 사용됨을 나타낸다. Closed-source 모델의 버전은 gpt-4o-2024-08-06, gemini-1.5-pro-002, gemini-1.5-flash-002이다.

Model	Camera			Scene			Action			Attribute			Overall
	P	R	F1	P	R	F1	P	R	F1	P	R	F1	P	R	F1
Open-Source LMMs
PLLaVA-7B	49.4	22.6	28.9	52.2	30.9	36.6	30.5	12.6	16.5	44.5	19.5	25.3	60.0	19.1	27.4
LongVA-7B	52.3	26.0	32.5	56.5	34.4	40.6	38.9	17.2	22.0	50.6	22.0	28.4	71.6	22.3	31.8
Tarsier-7B	56.9	27.3	34.8	45.3	28.2	33.1	56.7	28.9	36.2	56.4	26.0	33.3	73.0	27.9	38.6
Kangaroo	65.2	36.5	44.1	67.8	45.4	51.9	49.3	26.0	31.9	59.8	32.2	39.5	69.5	32.5	42.7
LLaVA-OV-7B	75.2	42.0	51.0	71.8	51.2	57.6	54.1	30.4	36.8	66.2	42.0	49.3	73.6	38.6	49.3
LLaVA-Video-7B	74.0	41.5	50.4	73.6	52.3	58.9	57.0	30.8	37.8	72.1	44.8	53.1	77.0	39.7	51.0
Qwen2-VL-7B	72.3	40.7	49.0	71.9	50.0	56.7	55.9	30.1	37.0	68.2	38.4	46.7	77.8	37.6	48.9
InternVL2-8B	64.8	33.7	41.7	59.4	38.7	44.7	45.2	24.7	30.0	59.8	35.5	42.3	67.2	31.1	40.8
MiniCPM-V-2.6	76.5	47.8	56.0	75.0	54.1	60.6	57.2	31.8	38.8	68.7	42.3	50.2	76.0	40.7	51.7
PLLaVA-13B	57.0	25.8	33.0	57.3	34.0	40.3	36.2	13.8	18.5	50.0	23.3	29.8	65.0	21.4	30.6
InternVL2-26B	73.2	43.2	51.6	72.5	52.6	58.7	51.7	30.9	37.0	63.9	42.3	49.1	70.0	39.2	49.0
PLLaVA-34B	60.8	29.6	37.4	56.2	33.7	39.9	38.7	17.3	22.3	55.1	26.1	33.2	67.8	24.5	34.2
Tarsier-34B	63.6	34.3	42.3	59.0	38.4	44.4	65.6	39.9	47.6	63.6	34.3	42.2	77.1	36.7	48.2
InternVL2-40B	77.8	46.3	55.1	71.9	53.1	59.0	53.4	33.1	39.3	65.9	45.7	52.3	71.3	42.1	51.7
LLaVA-OV-72B	73.5	43.7	51.9	71.5	51.1	57.5	51.2	30.2	36.0	65.7	41.4	48.8	72.7	39.2	49.6
LLaVA-Video-72B	72.7	41.7	50.3	71.1	49.9	56.4	55.7	32.7	39.3	68.1	43.2	50.8	73.7	39.6	50.2
Qwen2-VL-72B	73.6	45.9	54.0	67.6	46.3	52.8	59.1	35.7	42.6	66.6	40.7	48.5	74.7	41.1	51.7
InternVL2-76B	75.1	45.4	53.9	73.3	55.8	61.4	55.7	34.9	41.2	64.3	44.5	50.9	70.7	42.3	51.9
Closed-Source LMMs
Gemini 1.5 Flash	74.6	52.8	59.6	77.2	59.3	65.1	58.7	36.4	42.9	69.0	48.4	55.2	72.7	46.4	55.7
Gemini 1.5 Pro	78.7	53.0	60.7	75.7	57.4	63.3	59.0	40.3	46.3	69.0	49.4	56.0	73.7	48.1	57.4
GPT-4o	80.1	53.3	61.3	79.5	60.2	66.4	64.0	41.1	48.0	73.8	50.1	57.8	77.7	48.2	58.5

Table 8: TUNA-CAP에서 동적 요소 카테고리별 평가 결과. 가장 좋은 결과는 주황색으로, 두 번째로 좋은 결과는 파란색으로 표시되어 있다.

Model	Low-Dynamic			High-Dynamic			Multi-Scene			Multi-Subject			Overall
	P	R	F1	P	R	F1	P	R	F1	P	R	F1	P	R	F1
Open-Source LMMs
PLLaVA-7B	66.5	23.0	32.7	56.6	17.1	24.7	55.7	15.5	22.8	56.2	15.3	22.5	60.0	19.1	27.4
LongVA-7B	75.9	26.5	37.3	69.4	20.1	29.0	68.3	19.0	27.6	67.3	15.7	23.7	71.6	22.3	31.8
Tarsier-7B	81.2	34.3	46.5	68.7	24.5	34.5	71.7	25.3	35.8	67.8	23.2	33.2	73.0	27.9	38.6
Kangaroo	73.2	34.7	45.6	67.6	31.3	41.1	66.2	29.7	39.3	63.5	26.3	35.7	69.5	32.5	42.7
LLaVA-OV-7B	78.6	38.4	50.0	71.0	38.8	48.9	71.7	38.3	48.4	67.1	33.8	43.8	73.6	38.6	49.3
LLaVA-Video-7B	80.7	40.0	52.2	75.1	39.5	50.3	77.1	38.6	50.0	73.5	34.6	45.8	77.0	39.7	51.0
Qwen2-VL-7B	81.2	42.0	53.8	76.0	35.3	46.4	76.8	33.2	44.4	73.6	28.9	39.9	77.8	37.6	48.9
InternVL2-8B	71.6	34.0	44.5	64.9	29.7	38.9	65.6	29.1	38.4	61.5	26.6	35.2	67.2	31.1	40.8
MiniCPM-V-2.6	79.3	41.4	53.0	74.3	40.4	51.0	76.5	40.8	51.7	73.5	38.3	49.0	76.0	40.7	51.7
PLLaVA-13B	69.8	25.7	36.0	62.5	19.1	27.8	62.3	17.6	26.0	60.3	16.3	24.3	65.0	21.4	30.6
InternVL2-26B	71.9	39.1	49.4	69.0	39.2	48.9	70.3	38.6	48.4	67.2	36.3	45.8	70.0	39.2	49.0
PLLaVA-34B	74.5	28.1	38.9	64.3	22.6	31.8	63.9	21.3	30.2	60.7	19.2	27.6	67.8	24.5	34.2
Tarsier-34B	79.6	37.2	49.1	75.8	36.5	47.8	77.6	38.1	49.6	74.4	36.0	47.3	77.1	36.7	48.2
InternVL2-40B	75.0	43.8	53.9	69.5	41.2	50.5	70.7	40.8	50.5	67.9	38.7	48.0	71.3	42.1	51.7
LLaVA-OV-72B	75.4	37.3	48.6	71.3	36.7	45.9	71.4	40.1	50.1	72.3	39.1	49.4	72.7	39.2	49.6
LLaVA-Video-72B	77.3	39.2	50.6	71.9	39.8	50.0	73.9	38.6	49.3	70.5	35.1	45.7	73.7	39.6	50.2
Qwen2-VL-72B	79.2	44.6	55.7	72.4	39.3	49.7	73.6	37.2	48.0	69.1	32.8	43.3	74.7	41.1	51.7
InternVL2-76B	72.0	43.1	52.8	70.1	41.9	51.5	71.4	41.1	51.1	68.6	39.7	49.3	70.7	42.3	51.9
Closed-Source LMMs
Gemini 1.5 Flash	74.0	46.5	56.0	72.0	46.4	55.5	73.4	46.2	55.9	73.4	46.2	55.9	72.7	46.4	55.7
Gemini 1.5 Pro	76.7	48.7	58.7	72.1	47.8	56.7	73.4	47.7	57.0	69.9	44.1	53.3	73.7	48.1	57.4
GPT-4o	79.1	47.3	58.2	77.0	48.6	58.7	78.7	47.2	58.1	76.8	44.4	55.5	77.7	48.2	58.5

Table 9: TUNA-CAP에서 시각적 특성 카테고리별 평가 결과. 가장 좋은 결과는 주황색으로, 두 번째로 좋은 결과는 파란색으로 표시되어 있다.

Model	#Events					#Elements					Overall
	$\leq 2$	3~4	5~6	7~8	$\geq 9$	$\leq 15$	16~20	21~25	26~30	$\geq 31$
Open-Source LMMs
PLLaVA-7B	32.1	25.8	21.9	16.9	14.6	32.1	26.9	21.9	20.6	17.6	27.4
LongVA-7B	35.5	31.1	25.1	24.1	19.9	37.4	30.3	26.3	24.6	22.9	31.8
Tarsier-7B	42.5	37.7	33.5	29.2	18.5	43.7	36.3	34.6	33.0	31.5	38.6
Kangaroo	45.9	42.6	35.0	35.0	19.0	46.6	42.4	40.0	34.5	28.7	42.7
LLaVA-OV-7B	52.1	48.8	45.2	38.7	35.5	54.0	47.6	46.4	42.0	38.8	49.3
LLaVA-Video-7B	53.5	50.7	45.1	44.2	39.6	55.1	50.0	47.4	44.1	42.9	51.0
Qwen2-VL-7B	53.3	48.9	39.3	30.3	22.0	55.0	46.9	43.9	42.8	34.6	48.9
InternVL2-8B	44.2	40.5	34.4	33.2	13.5	45.9	39.5	36.2	35.4	25.9	40.8
MiniCPM-V-2.6	52.8	51.2	52.3	47.3	47.0	54.9	49.4	49.4	48.4	52.6	51.7
PLLaVA-13B	35.0	30.0	22.2	12.2	14.0	35.9	29.9	24.7	22.9	17.8	30.6
InternVL2-26B	50.4	48.8	46.2	45.4	44.8	52.4	47.4	46.1	45.3	47.8	49.0
Avg ( $<34 \mathrm{~B}$ )	45.2	41.5 (-3.7)	36.4 (-5.1)	32.4 (-4.0)	26.2 (-6.2)	46.6	40.6 (-6.0)	37.9 (-2.7)	35.8 (-2.1)	32.8 (-3.0)	42.0
PLLaVA-34B	39.6	33.0	24.5	24.6	15.9	40.7	32.4	27.3	27.4	22.7	34.2
Tarsier-34B	48.7	48.3	47.0	46.6	41.1	50.9	46.6	45.9	47.7	43.8	48.2
InternVL2-40B	54.2	51.2	45.0	45.4	53.9	55.9	50.5	47.3	46.4	46.2	51.7
LLaVA-OV-72B	50.3	49.6	49.9	42.6	40.1	52.8	48.2	46.4	44.7	49.1	49.6
LLaVA-Video-72B	51.5	50.4	44.2	48.0	48.9	54.1	49.8	44.9	43.7	47.7	50.2
Qwen2-VL-72B	55.1	51.9	44.2	32.3	33.0	56.9	51.0	46.4	43.8	39.5	51.7
InternVL2-76B	54.8	51.2	48.8	41.2	43.1	56.0	49.7	49.1	47.5	47.0	51.9
Avg ( $\geq 34 \mathrm{~B}$ )	50.6	47.9 (-2.7)	43.4 (-4.6)	40.1 (-3.3)	39.4 (-0.7)	52.5	46.9 (-5.6)	43.9 (-3.0)	43.0 (-0.9)	42.3 (-0.7)	48.2
Closed-Source LMMs
Gemini 1.5 Flash	57.6	54.8	55.8	48.9	48.3	59.1	53.6	53.0	53.8	52.2	55.7
Gemini 1.5 Pro	59.4	57.0	54.7	44.7	54.7	60.9	55.2	54.6	55.2	54.8	57.4
GPT-4o	60.9	58.2	55.6	50.2	41.3	61.7	57.9	56.0	53.7	50.4	58.5
Avg (close-source)	59.3	56.7 (-2.6)	55.4 (-1.3)	47.9 (-7.4)	$48.1\left({ }^{(+0.2)}\right.$	60.6	55.6 (-5.0)	54.5 (-1.0)	54.2 (-0.3)	52.5 (-1.8)	57.2
Avg (Total)	49.0	45.8 (-3.2)	41.4 (-4.4)	37.2 (-4.2)	33.7 (-3.4)	50.6	44.8 (-5.7)	42.3 (-2.6)	40.8 (-1.4)	38.8 (-2.0)	46.2

Table 10: 다양한 비디오 복잡도에 따른 상세 성능 비교. 비디오 복잡도는 비디오 내 이벤트 수와 시각적 요소 수로 측정된다. 추론 설정은 Table 7과 일치한다.

Model	Frames	Camera	Scene	Action	Attribute	Low-Dynamic	High-Dynamic	Multi-Scene	Multi-Subject	Overall
LLaVA-OV-7B	8	50.2	56.6	33.0	47.8	50.4	46.1	46.2	42.6	47.5
	16	49.3 (-0.9)	$57.2(+0.6)$	35.6 (+2.6)	$48.9{ }_{(+1.1)}$	50.2 (-0.2)	$47.1{ }_{(+1.0)}$	47.0 (+0.8)	$42.5(+0.1)$	48.2 (+0.7)
	32	51.0 (+1.7)	57.6 (+0.4)	$36.8{ }_{(+1.2)}$	49.3 (+0.4)	50.0 (-0.2)	$48.9{ }_{(+1.8)}$	$48.4{ }_{(+1.4)}$	43.8 (+1.3)	49.3 (+1.1)
	64	47.4 (-3.6)	54.6 (-3)	33.5 (-3.3)	45.9 (-3.4)	48.8 (-1.2)	44.8 (-4.1)	44.6 (-3.8)	$39.9(-3.9)$	46.2 (-3.1)
MiniCPM-V-2.6	8	56.3	59.8	33.0	47.3	52.9	47.1	48.3	44.8	49.1
	16	55.5 (-0.8)	60.5 (+0.7)	36.7 (+3.7)	$47.9(+0.6)$	52.6 (-0.3)	49.7 (+2.6)	50.8 (+2.5)	48.1 (+3.3)	50.7 (+1.6)
	32	56.0 (+0.5)	60.6 (+0.1)	38.8 (+2.1)	50.2 (+2.3)	53.0 (+0.4)	51.0 (+1.3)	$51.7($ (+0.9)	49.0 (+0.9)	51.7 (+1.0)
	64	52.6 (-3.4)	58.2 (-2.4)	$39.1(+0.3)$	48.6 (-1.6)	50.5 (-2.5)	50.3 (-0.7)	50.0 (-1.7)	$46.9(-2.1)$	50.3 (-1.4)
InternVL2-26B	8	50.1	58.3	35.0	48.8	49.6	47.1	47.0	43.9	47.9
	16	50.0 (-0.1)	$59.1(+0.8)$	$36.3{ }_{(\text {+1.3 })}$	$49.9{ }_{(+1.1)}$	49.4 (-0.2)	$48.4{ }_{(+1.3)}$	$48.3{ }_{(+1.3)}$	$45.4{ }_{(+1.5)}$	$48.7{ }_{(+0.8)}$
	32	51.6 (+1.6)	58.7 (-0.4)	37.0 (+0.7)	49.1 (-0.8)	49.4 (-)	$48.9(+0.5)$	$48.4{ }_{(+0.1)}$	45.8 (+0.4)	49.0 (+0.3)
	64	49.6 (-2)	55.1 (-3.6)	33.3 (-3.7)	46.4 (-2.7)	47.5 (-1.9)	45.7 (-3.2)	44.3 (-4.1)	42.2 (-3.6)	46.3 (-2.7)
LLaVA-Video-7B	8	49.3	55.1	31.8	46.8	49.8	44.6	44.3	41.0	46.3
	16	50.7 (+1.4)	$57.0(+1.9)$	$36.3(+4.5)$	$49.0{ }_{(+2.2)}$	$51.7{ }_{(+1.9)}$	$47.9{ }_{(+3.3)}$	47.0 (+2.7)	$43.0{ }_{(+2.0)}$	49.2 (+2.9)
	32	50.4 (+0.3)	$58.9{ }_{(+1.9)}$	37.8 (+1.5)	53.1 (+4.1)	52.2 (+0.5)	50.3 (+2.4)	$50.0{ }_{(+3.0)}$	$45.8{ }_{(+2.8)}$	51.0 (+1.8)
	64	51.0 (+0.6)	58.7 (-0.2)	39.0 (+1.2)	52.4 (-0.7)	51.3 (-0.9)	$51.4{ }_{(+1.1)}$	$50.1{ }_{(+0.1)}$	$46.9{ }_{(+1.1)}$	51.4 (+0.4)
Qwen2-VL-7B	8	44.2	55.5	27.8	41.7	49.6	39.0	37.1	33.2	42.6
	16	47.7 (+3.5)	$55.9(+0.4)$	33.1 (+5.3)	43.6 (+1.9)	51.5 (+1.9)	$43.0{ }_{(+4.0)}$	42.0 (+4.9)	$36.7{ }_{(+3.5)}$	$45.9{ }_{(+3.3)}$
	32	48.8 (+1.1)	$57.0{ }_{(+1.1)}$	40.0 (+6.9)	47.1 (+3.5)	52.6 (+1.1)	48.4 (+5.4)	46.5 (+4.5)	43.0 (+6.3)	49.8 (+3.9)
	64	$50.1($ +1.3 $)$	53.1 (-3.9)	$40.0{ }_{(-)}$	$49.4{ }_{(+2.3)}$	53.2 (+0.6)	$48.7{ }_{(+0.3)}$	$47.1(+0.6)$	$43.4{ }_{(+0.4)}$	50.2 (+0.4)

Table 11: 입력 프레임 수 변화에 따른 상세 성능 비교. Figure 11의 시각적 결과와 일치한다.

Model	Frames	#Events					#Elements					Overall
		$\leq 2$	3~4	5~6	7~8	$\geq 9$	$\leq 15$	16~20	21~25	26~30	$\geq 31$
LLaVA-Video-7B	8	49.4	46.3	39.6	35.2	24.9	51.7	45.3	40.9	38.6	35.0	46.3
	16	52.9 (+3.5)	48.8 (+2.5)	$41.2(+1.6)$	$36.7{ }_{(+1.5)}$	$35.7{ }_{(+10.8)}$	54.6 (+2.9)	$47.7(+2.4)$	$44.0{ }_{(+3.1)}$	42.4 (+3.8)	38.2 (+3.2)	49.2 (+2.9)
	32	$53.5{ }_{(+0.6)}$	$50.7{ }_{(+1.9)}$	45.1 (+3.9)	44.2 (+7.5)	39.6 (+3.9)	$55.1\left({ }_{(+0.5)}\right.$	$50.0(+2.3)$	47.4 (+3.4)	$44.1(+1.7)$	42.9 (+4.7)	$51.0{ }_{(+1.8)}$
	64	$53.7{ }_{(+0.2)}$	$51.1($ +0.4 $)$	$46.6{ }_{(+1.5)}$	$44.2{ }_{(-)}$	39.4 (-0.2)	$55.2{ }_{(+0.1)}$	$50.9(+0.9)$	$47.9{ }_{(+0.5)}$	$44.7(+0.6)$	41.4 (-1.5)	$51.4{ }_{(+0.4)}$
Qwen2-VL-7B	8	46.8	43.2	29.7	25.5	16.0	48.6	42.1	36.9	30.6	29.1	42.6
	16	$50.4{ }_{(+3.6)}$	$46.1($ (+2.9)	32.9 (+3.2)	32.7 (+7.2)	14.6 (-1.4)	52.3 (+3.7)	$44.9{ }_{(+2.8)}$	39.1 (+2.2)	36.3 (+5.7)	32.6 (+3.5)	$45.9(+3.3)$
	32	53.5 (+3.1)	49.8 (+3.7)	40.0 (+7.1)	37.7 (+5)	30.6 (+16)	55.0 (+2.7)	48.5 (+3.6)	$45.3{ }_{(+6.2)}$	42.3 (+6)	38.3 (+5.7)	49.8 (+3.9)
	64	52.7 (-0.8)	$50.5(+0.7)$	42.7 (+2.7)	45.1 (+7.4)	27.6 (-3)	$55.1{ }_{(+0.1)}$	$49.8{ }_{(+1.3)}$	$45.2(-0.1)$	$42.9{ }_{(+0.6)}$	36.8 (-1.5)	$50.2(+0.4)$

Table 12: 다양한 입력 프레임 수에 따른 다양한 비디오 복잡도 전반의 성능 비교. Figure 5의 시각화 결과와 일치한다.

Model	Camera State		Background Scene		Subject Action			Object Attribute			Overall
	Motion	Transition	Description	Transition	Recognition	Sequence	Matching	Recognition	Appearance	Location
Open-Source LMMs
PLLaVA-7B	29.7	31.9	48.1	22.4	43.6	34.6	30.4	32.3	38.1	45.2	33.7
LongVA-7B	37.5	41.5	63.0	30.8	44.6	44.7	43.5	41.7	47.6	40.5	42.4
Tarsier-7B	23.0	24.6	40.7	20.6	38.6	26.9	45.7	20.9	25.9	23.8	26.5
Kangaroo	33.2	47.3	53.7	38.3	49.5	38.8	54.3	47.2	43.5	59.5	42.9
LLaVA-OV-7B	42.2	54.6	57.4	48.6	42.6	41.4	60.9	47.9	50.0	59.5	47.4
LLaVA-Video-7B	39.1	50.7	59.3	46.7	52.5	52.4	56.5	53.6	61.9	47.6	50.6
Qwen2-VL-7B	41.0	51.7	66.7	45.8	54.5	52.8	65.2	49.0	60.2	57.1	51.3
InternVL2-8B	41.0	53.1	66.7	40.2	45.5	50.5	50.0	45.8	56.8	45.2	48.4
MiniCPM-V-2.6	39.8	45.9	59.3	34.6	49.5	51.1	52.2	42.2	46.6	50.0	45.7
PLLaVA-13B	31.2	31.9	46.3	23.4	48.5	41.1	45.7	37.0	41.5	45.2	37.2
InternVL2-26B	38.7	45.4	63.0	42.1	48.5	46.0	58.7	42.7	55.1	50.0	45.9
PLLaVA-34B	42.6	41.5	63.0	43.9	45.5	48.5	56.5	43.2	56.8	57.1	46.9
Tarsier-34B	43.0	48.3	72.2	45.8	51.5	50.2	56.5	49.7	53.7	61.9	50.1
InternVL2-40B	40.2	58.0	74.1	51.4	56.4	53.4	63.0	57.3	66.9	61.9	54.7
LLaVA-OV-72B	46.5	67.6	75.9	57.0	59.4	56.6	73.9	63.5	69.5	59.5	60.0
LLaVA-Video-72B	47.7	67.6	77.8	61.7	61.4	57.0	65.2	62.5	73.7	57.1	60.7
Qwen2-VL-72B	52.7	64.7	74.1	55.1	62.4	54.4	67.4	63.0	76.3	66.7	60.7
InternVL2-76B	43.8	61.8	74.1	43.0	50.5	50.5	54.3	52.1	66.1	57.1	53.1
Closed-Source LMMs
Gemini 1.5 Flash	40.8	58.3	70.4	52.3	48.0	54.2	63.0	49.0	66.7	64.3	53.3
Gemini 1.5 Pro	49.4	68.4	64.8	59.8	55.0	60.4	69.6	64.6	65.0	66.7	60.8
GPT-4o	53.9	56.0	81.5	56.1	59.4	67.6	58.7	56.8	63.6	59.5	60.3

Table 13: 테스트된 모든 비디오 LMM의 TUNA-MCQ 성능. 10가지 시간-동적 task에 대한 상세 점수를 제공한다. 가장 좋은 결과는 주황색으로, 두 번째로 좋은 결과는 파란색으로 표시되어 있다.

Figure 15: Tuna-1K의 상세 예시.

Figure 16: TUNA-MCQ의 몇 가지 예시로, 카메라 움직임, 카메라 전환, 장면 설명 및 장면 전환 task를 포함한다.

Figure 17: TUNA-MCQ의 몇 가지 예시로, 행동 인식, 행동 시퀀스 및 행동-주체 매칭 task를 포함한다.

Task Type: Object Recognition What is the sequence of movements of the vehicles in the video? A. (1) Black car. (2) White truck. (3) Blue truck. B. (1) White truck. (2) Black car. (3) Blue truck. C. (1) Blue truck. (2) White truck. (3) Black car. D. (1) Blue truck. (2) Black car. (3) White truck.

Answer: B

Task Type: Object Appearance What color is the first railing the man jumps over? A. red railing B. metal railing C. blue curved railing D. blue railing

Answer: B

Figure 18: TUNA-MCQ의 몇 가지 예시로, 객체 인식, 객체 외형 및 객체 위치 task를 포함한다.

Task Type: Object Location Which direction are the cups being placed on the coffee table? A. from the right to the left B. from top to bottom C. in disorder D. from the left to the right

Answer: D

Default Prompt for Video Captioning

비디오에 대한 "연대기적"이고 상세한 설명을 제공해 주세요. 카메라 상태, 배경 장면, 피사체의 행동 및 속성에 초점을 맞춰야 합니다. 설명은 시간순으로 전개되는 여러 이벤트로 구성되어야 합니다. "비디오 전체에 걸쳐"와 같은 요약은 포함하지 마세요. 추측이나 주관적인 감정을 포함하지 마세요. 비디오 설명만 출력하세요. 요약하지 마세요.

Figure 19: Section 4.2의 Tuna-cap 실험에 사용된 기본 prompt.

Prompt for Splitting Events

주어진 시간 순서 비디오 캡션을 여러 개의 시간 순서로 전개되는 이벤트로 분할한다. 모든 이벤트는 합쳐졌을 때 원본 캡션과 동일해야 한다. 비디오 캡션: {model_generated_caption} 다음과 같은 List event_list 형태로 출력한다: [event1, event2, ...] 여기서 '"video_caption = ' '.join(event_list)"' 참고: 반복되는 부분이 많으면 반복을 삭제한다. 다른 출력 텍스트나 설명은 제공하지 않는다. List만 출력한다. 출력:

Figure 20: Section 3.2.2의 Tuna-CAP 실험에서 이벤트를 분할하는 데 사용된 prompt.

Prompt for Matching Events

주어진 후보 이벤트 목록과 참조 이벤트 목록이 시간 순서대로 정렬되어 있다. 각 후보 이벤트에 대해 일치하는 참조 이벤트를 찾아, 두 이벤트의 ID 튜플 (candidate_id, reference_id)을 반환한다. 일치하는 참조 이벤트가 없으면 reference_id는 None이다. 이벤트 매칭은 시간 순서대로 이루어져야 한다. 각 참조 이벤트는 여러 후보 이벤트와 매칭될 수 있다. 후보 이벤트: {candidate_events} 참조 이벤트: {reference_events} 다음과 같은 형식의 목록을 출력한다: [(1, reference_id_1), (2, reference_id_2), ...] 여기서 reference_id_i가 None이 아닌 경우, reference_id_1 <= reference_id_2 <= ... <= reference_id_n을 만족해야 한다. 어떤 다른 출력 텍스트나 설명도 제공하지 않는다. 목록만 출력한다. 출력:

Figure 21: Section 3.2.2의 Tuna-CAP 실험에서 이벤트 매칭에 사용된 prompt.

Prompt for Classifying Relationships

비디오에 포함된 일련의 후보 이벤트와 해당 ground-truth 시각 요소들이 주어졌을 때, 후보 이벤트가 각 시각 요소를 정확하고 완전하게 설명하는지 판단해야 합니다. 각 이벤트에 대해 후보 이벤트와 ground-truth 시각 요소 간의 관계를 세 가지 클래스(entailment, lack, contradiction)로 분류하세요.

"entailment": 후보 이벤트가 시각 요소를 포함합니다.
"lack": 후보 이벤트에 시각 요소가 부족합니다.
"contradiction": 후보 이벤트의 일부 세부 사항이 시각 요소와 모순됩니다. 인물과 행동 간의 일치에 주의하세요.

Candidate Events and Ground-truth Visual Elements:
{match_data}
Output a JSON formed as:
[
    {
        "candidate_event": "copy the candidate_event here",
        "visual_elements": [{"content": "copy the visual_element here", "relationship": "put class name here"}, ... ]
    },
...
]

다른 출력 텍스트나 설명은 제공하지 마세요. JSON만 출력하세요. 출력:

Figure 22: Section 3.2.2의 Tuna-CAP 실험에서 관계 분류에 사용된 prompt.

Prompt for Video Classification

다음은 비디오 클립에 대한 설명입니다: {caption} 비디오 설명을 바탕으로 비디오를 두 가지 방식으로 분류해 주세요.

Visual Characteristic Category
- Low Dynamic: 비디오 속 피사체의 움직임이 최소한입니다.
- High Dynamic: 비디오 속 피사체의 움직임이 많습니다.
- Multi-Scene: 카메라 전환 또는 장면 전환이 최소 한 번 이상 있습니다.
- Multi-Subject: 비디오에 최소 2개 이상의 피사체가 등장하며, 피사체는 비디오의 주요 객체여야 합니다. 주요 객체가 아닌 것은 피사체로 간주하지 않습니다.
Domain: Natural Landscape, Plants, Animals & Pets, Foods, Cityscape, Urban Activity, Autos & Vehicles, Sports Activity, Kitchen Cooking, Film, Driving, Daily Life.
- 위 카테고리 중 어느 것에도 속하지 않으면 "Others"로 분류합니다.

비디오는 여러 Visual Characteristic Category에 속할 수 있으며, Low Dynamic과 High Dynamic 중 하나에는 반드시 속해야 합니다. Multi-Scene과 Multi-Subject는 선택 사항입니다. 비디오는 하나의 Video Content Category에만 속해야 합니다. 다음과 같은 JSON 형식으로 출력해 주세요: {"visual_characteristic": "select a visual characteristic category", "domain": "select a domain"} 다른 출력 텍스트나 설명은 제공하지 마세요. JSON만 출력하세요. 출력:

Figure 23: Section 3.2.2의 Tuna-CAP 구축을 위해 비디오를 분류하는 데 사용된 prompt.

Default Prompt for Multi-Choice QA (uniform sampling)

비디오에서 균일하게 샘플링된 {num_frames}개의 개별 프레임이 시간 순서대로 제공됩니다. 이 프레임들을 분석하여 비디오 내용에 대한 질문에 답하십시오. 비디오 내용에 대한 객관식 질문에 답하십시오. 질문에 답하기 위해 반드시 이 프레임들을 사용해야 하며, 외부 지식이나 상식에 의존하지 마십시오. 질문: {question} 주어진 선택지 중 옵션의 문자를 직접 선택하여 답하십시오.

Default Prompt for Multi-Choice QA (fps sampling)

비디오에서 $\{\mathrm{fps}\}$ fps로 샘플링된 개별 프레임들이 시간 순서대로 제공됩니다. 이 프레임들을 분석하여 비디오 내용에 대한 질문에 답하십시오. 비디오 내용에 대한 객관식 질문에 답하십시오. 질문에 답하기 위해 반드시 이 프레임들을 사용해야 하며, 외부 지식이나 상식에 의존하지 마십시오. 질문: {question} 주어진 선택지 중 옵션의 문자를 직접 사용하여 답하십시오.

Figure 24: Section 4.3의 Tuna-MCQ 실험에 사용된 기본 prompt.

Prompt for Error-prone Points Generation

당신은 비디오 분석에 특화된 AI 시각 보조원입니다. 비디오 클립에서 균일하게 샘플링된 8개의 프레임과 사람이 주석을 단 비디오 설명을 바탕으로, 텍스트 설명과 다른 비디오 프레임의 요소를 추출하는 것이 당신의 임무입니다. 일치하지 않는 요소만 출력합니다.

JSON 형식으로 출력합니다: [ {"content_frame": "", "content_description": ""}} ] # 비디오 설명 {video_caption} # 출력 다른 출력 텍스트나 설명은 제공하지 마십시오. 목록만 출력합니다. 출력:

Figure 25: Section 3.2.3의 TUNA-MCQ 구성을 위해 오류 발생 가능 지점을 생성하는 데 사용된 prompt.

Default Prompt for Multi-Choice Q&As Generation

[
  {
    "question": "What is the order of camera state changes throughout the video?",
    "task_type": "camera motion",
    "answer": "rotate left.",
    "options": {
      "A": "stationary.",
      "B": "zoom out.",
      "C": "rotate left.",
      "D": "pan left."
    },
    "correct_option": "C"
  },
  {
    "question": "How many times does the camera switch in the video? How many of these camera shots are close-ups of the woman?",
    "task_type": "camera transition",
    "answer": "4, 2.",
    "options": {
      "A": "3, 2.",
      "B": "4, 2.",
      "C": "4, 0.",
      "D": "4, 1."
    },
    "correct_option": "B"
  },
  {
    "question": "Reasoning which team will score based on the video?",
    "task_type": "action recognition",
    "answer": "The team in red uniforms.",
    "options": {
      "A": "Not Sure.",
      "B": "The team in yellow uniforms.",
      "C": "The team in blue uniforms.",
      "D": "The team in red uniforms."
    },
    "correct_option": "D"
  },
  {
    "question": "What is the order in which this person picks up the objects?\n(a) a book\n(b) a pen\n(c) an apple",
    "task_type": "action sequence",
    "answer": "(b) (a) (c)",
    "options": {
      "A": "(c) (b) (a)",
      "B": "(a) (b) (c)",
      "C": "(b) (c) (a)",
      "D": "(b) (a) (c)"
    },
    "correct_option": "D"
  },
  {
    "question": "Which number player scored the goal?",
    "task_type": "action-subject matching",
    "answer": "11",
    "options": {
      "A": "11",
      "B": "17",
      "C": "7",
      "D": "1"
    },
    "correct_option": "A"
  },
  {
    "question": "What is the temporal order of occurrence of the following objects?\n(a) an apple\n(b) a guava\n(c) a banana\n(d) a loaf of bread",
    "task_type": "object recognition",
    "answer": "(c) (d) (b) (a)",
    "options": {
      "A": "(c) (b) (d) (a)",
      "B": "(d) (c) (a) (b)",
      "C": "(c) (d) (b) (a)",
      "D": "(d) (b) (c) (a)"
    },
    "correct_option": "C"
  }
]