Highlight Detection
2개의 포스트
What and Where: Moment Retrieval 및 Highlight Detection을 위한 Semantic Grasping과 Contextual Scanning
본 논문은 moment retrieval (MR) 및 highlight detection (HD) 작업의 두 가지 주요 문제점, 즉 약하게 정렬된 multimodal feature와 인접 클립 간의 불분명한 구분을 해결하기 위해 "what and where"라는 점진적 프레임워크를 제안합니다. "what" 단계에서는 Initial Semantic Projection (ISP) loss를 통해 서로 다른 modal feature를 명시적으로 정렬하고, Clip Semantic Mining 모듈을 사용하여 쿼리와의 의미적 관련성을 깊이 탐색합니다. "where" 단계에서는 Multi-Context Perception 모듈을 통해 모호한 clip-level 컨텍스트 대신 moment-level 컨텍스트(Event Context, Chronological Context)를 모델링하여 특징의 구별성을 강화합니다. 이 W2W 모델은 추가 사전 학습 없이 벤치마크 데이터셋에서 SOTA 성능을 달성했습니다. 논문 제목: What and Where: Semantic Grasping and Contextual Scanning for Moment Retrieval and Highlight Detection
MS-DETR: Joint Motion-Semantic Learning을 통한 효과적인 비디오 모멘트 검색 및 하이라이트 탐지
MS-DETR은 텍스트 쿼리를 기반으로 비디오의 특정 순간을 찾아내는 Video Moment Retrieval (MR)과 클립별 관련성을 평가하는 Highlight Detection (HD) 작업을 위한 통합 프레임워크입니다. 이 모델은 비디오 콘텐츠 내의 시간적 움직임(temporal motion)과 공간적 의미(spatial semantics) 사이의 복잡한 관계를 효과적으로 활용합니다. MS-DETR은 Motion-Semantics Disentangled Encoder (MSDE)를 통해 움직임과 의미론 차원을 분리하여 모델링하고, Mutual Task-Collaborated Decoder (MTCD)를 사용하여 MR과 HD 작업 간의 상호 시너지를 극대화합니다. 또한, 데이터셋의 희소성 문제를 해결하기 위해 데이터 생성 전략과 Contrastive Denoising Learning을 제안하여 모델이 더 견고하게 학습하도록 합니다. 논문 제목: MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning