Referring Video Object SegmentationMultimodal LLM
DTOS: 대규모 멀티모달 모델을 활용한 동적 시간 객체 감지
DTOS는 Referring Video Object Segmentation (RVOS) 분야에서 기존 Multimodal Large Language Models (MLLMs)가 겪는 주요 문제들을 해결하기 위해 제안된 새로운 프레임워크입니다. 이 모델은 텍스트의 수치 데이터 표현 부족, 반복적인 응답 템플릿, 텍스트 가이드 없는 비디오 샘플링으로 인한 시각 정보 손실 문제를 해결합니다. DTOS는 Text-guided Clip Sampler (TCS)가 사용자 지시에 따라 관련 비디오 클립을 선택하고, Text-guided Clip Detector (TCD)가 해당 클립 내 타겟을 정밀하게 탐지하는 2단계 구조로 동작합니다. 특히, 이벤트 경계와 객체 좌표를 직접 회귀(regression)하는 특수 토큰을 도입하여 수치적 정확도를 높이고 다중 타겟을 효과적으로 처리합니다. 이 접근법은 RVOS 및 Moment Retrieval 벤치마크에서 SOTA 성능을 달성했습니다. 논문 제목: DTOS: Dynamic Time Object Sensing with Large Multimodal Model