Visual Temporal Reasoning

1개의 포스트

2025. 9. 2.

TOMATO: 멀티모달 파운데이션 모델의 시각적 시간 추론 능력 평가

기존 벤치마크들이 Multimodal Foundation Models (MFMs)의 시각적 시간 추론 능력을 과대평가하고 있다는 문제의식에서 출발한 논문입니다. 이 논문은 시각적 시간 추론 벤치마크를 체계적으로 평가하기 위해 Multi-Frame Gain, Frame Order Sensitivity, Frame Information Disparity라는 세 가지 원칙을 제안합니다. 이를 바탕으로, MFMs의 시간 추론 능력을 엄격하게 평가하기 위해 설계된 새로운 벤치마크 TOMATO를 소개합니다. TOMATO는 자체 제작한 비디오를 포함한 1,417개의 비디오와 1,484개의 질문으로 구성되어 있으며, 평가 결과 최고 성능의 모델도 인간과 57.3%의 큰 성능 차이를 보였습니다. 또한, 현재 MFMs가 프레임을 연속적인 시퀀스로 해석하지 못하고 개별 프레임 단위로만 이해하는 근본적인 한계를 가지고 있음을 밝혀냈습니다. 논문 제목: tomato: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

모든 태그 보기