Benchmark
3개의 포스트
Tuna: 동적 비디오의 세밀한 시간적 이해를 위한 종합 벤치마크
Tuna는 동적이고 밀도 높은 비디오의 시간적 요소를 종합적으로 평가하기 위해 제안된 벤치마크입니다. 기존 벤치마크가 비디오의 일부 속성만 다루는 한계를 극복하고자, Tuna는 카메라, 장면, 행동, 속성 등 다양한 시간적 요소를 전체적으로 평가합니다. 이를 위해 정교하게 주석 처리된 Tuna-1K 데이터셋을 구축했으며, 이를 기반으로 비디오 캡셔닝(Tuna-CAP)과 질의응답(Tuna-MCQ) 두 가지 태스크를 통해 모델의 성능을 측정합니다. 여러 Large Multimodal Models (LMMs)를 평가한 결과, 모델들이 복잡한 다중 객체 및 다중 장면 시나리오, 카메라 움직임, 그리고 행동 순서 이해에 여전히 어려움을 겪고 있음을 확인했으며, 이는 향후 비디오 이해 모델 연구에 중요한 방향을 제시합니다. 논문 제목: Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos
TOMATO: 멀티모달 파운데이션 모델의 시각적 시간 추론 능력 평가
기존 벤치마크들이 Multimodal Foundation Models (MFMs)의 시각적 시간 추론 능력을 과대평가하고 있다는 문제의식에서 출발한 논문입니다. 이 논문은 시각적 시간 추론 벤치마크를 체계적으로 평가하기 위해 Multi-Frame Gain, Frame Order Sensitivity, Frame Information Disparity라는 세 가지 원칙을 제안합니다. 이를 바탕으로, MFMs의 시간 추론 능력을 엄격하게 평가하기 위해 설계된 새로운 벤치마크 TOMATO를 소개합니다. TOMATO는 자체 제작한 비디오를 포함한 1,417개의 비디오와 1,484개의 질문으로 구성되어 있으며, 평가 결과 최고 성능의 모델도 인간과 57.3%의 큰 성능 차이를 보였습니다. 또한, 현재 MFMs가 프레임을 연속적인 시퀀스로 해석하지 못하고 개별 프레임 단위로만 이해하는 근본적인 한계를 가지고 있음을 밝혀냈습니다. 논문 제목: tomato: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
VAGUE: 시각적 맥락으로 모호한 표현을 명확히 하다
인간의 의사소통은 모호함을 해결하기 위해 종종 시각적 단서에 의존합니다. VAGUE는 이러한 멀티모달 추론 능력을 평가하기 위한 새로운 벤치마크로, 모호한 텍스트 표현과 이미지를 쌍으로 제공하여 시각적 맥락 없이는 정답을 알 수 없도록 설계되었습니다. 실험 결과, 기존 Multimodal AI 모델들은 화자의 실제 의도를 추론하는 데 어려움을 겪으며, 특히 피상적인 시각 정보에 의존할 뿐 깊이 있는 추론에는 실패하는 경향을 보였습니다. 이는 인간의 수준과 상당한 격차를 나타내며, VAGUE 벤치마크가 향후 멀티모달 추론 연구의 중요한 과제를 제시함을 시사합니다. 논문 제목: VAGUE: Visual Contexts Clarify Ambiguous Expressions