Video UnderstandingBenchmark
Tuna: 동적 비디오의 세밀한 시간적 이해를 위한 종합 벤치마크
Tuna는 동적이고 밀도 높은 비디오의 시간적 요소를 종합적으로 평가하기 위해 제안된 벤치마크입니다. 기존 벤치마크가 비디오의 일부 속성만 다루는 한계를 극복하고자, Tuna는 카메라, 장면, 행동, 속성 등 다양한 시간적 요소를 전체적으로 평가합니다. 이를 위해 정교하게 주석 처리된 Tuna-1K 데이터셋을 구축했으며, 이를 기반으로 비디오 캡셔닝(Tuna-CAP)과 질의응답(Tuna-MCQ) 두 가지 태스크를 통해 모델의 성능을 측정합니다. 여러 Large Multimodal Models (LMMs)를 평가한 결과, 모델들이 복잡한 다중 객체 및 다중 장면 시나리오, 카메라 움직임, 그리고 행동 순서 이해에 여전히 어려움을 겪고 있음을 확인했으며, 이는 향후 비디오 이해 모델 연구에 중요한 방향을 제시합니다. 논문 제목: Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos