Temporal LocalizationVideo-Language Model
Chrono: Multimodal LLM을 위한 간단한 시간 표현 청사진
Chrono는 비디오-언어 Multimodal LLM (MLLM)이 시간 정보를 이해하도록 돕는 간단한 청사진을 제안합니다. 기존 모델들은 비디오 내 특정 순간을 찾는 시간적 위치 파악(temporal localization) 문제 해결을 위해 복잡한 아키텍처나 추가 모듈을 사용했습니다. 반면, Chrono는 비디오 프레임과 해당 프레임의 타임스탬프를 텍스트 토큰으로 변환하여 번갈아 입력하는 간단한 시퀀스 설계만으로 이 문제를 해결합니다. 이 접근법은 기존의 이미지-텍스트 MLLM에 쉽게 적용 가능하며, 복잡한 구조 변경 없이도 Charades-STA, QVHighlights 등 주요 벤치마크에서 SOTA 성능을 달성하여, 단순하고 의도적인 설계의 효과를 입증합니다. 논문 제목: Chrono : A Simple Blueprint for Representing Time in MLLMs