
MS-DETR: Joint Motion-Semantic Learning을 통한 효과적인 비디오 모멘트 검색 및 하이라이트 탐지
MS-DETR은 텍스트 쿼리를 기반으로 비디오의 특정 순간을 찾아내는 Video Moment Retrieval (MR)과 클립별 관련성을 평가하는 Highlight Detection (HD) 작업을 위한 통합 프레임워크입니다. 이 모델은 비디오 콘텐츠 내의 시간적 움직임(temporal motion)과 공간적 의미(spatial semantics) 사이의 복잡한 관계를 효과적으로 활용합니다. MS-DETR은 Motion-Semantics Disentangled Encoder (MSDE)를 통해 움직임과 의미론 차원을 분리하여 모델링하고, Mutual Task-Collaborated Decoder (MTCD)를 사용하여 MR과 HD 작업 간의 상호 시너지를 극대화합니다. 또한, 데이터셋의 희소성 문제를 해결하기 위해 데이터 생성 전략과 Contrastive Denoising Learning을 제안하여 모델이 더 견고하게 학습하도록 합니다. 논문 제목: MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning