Moment Retrieval
2개의 포스트
What and Where: Moment Retrieval 및 Highlight Detection을 위한 Semantic Grasping과 Contextual Scanning
본 논문은 moment retrieval (MR) 및 highlight detection (HD) 작업의 두 가지 주요 문제점, 즉 약하게 정렬된 multimodal feature와 인접 클립 간의 불분명한 구분을 해결하기 위해 "what and where"라는 점진적 프레임워크를 제안합니다. "what" 단계에서는 Initial Semantic Projection (ISP) loss를 통해 서로 다른 modal feature를 명시적으로 정렬하고, Clip Semantic Mining 모듈을 사용하여 쿼리와의 의미적 관련성을 깊이 탐색합니다. "where" 단계에서는 Multi-Context Perception 모듈을 통해 모호한 clip-level 컨텍스트 대신 moment-level 컨텍스트(Event Context, Chronological Context)를 모델링하여 특징의 구별성을 강화합니다. 이 W2W 모델은 추가 사전 학습 없이 벤치마크 데이터셋에서 SOTA 성능을 달성했습니다. 논문 제목: What and Where: Semantic Grasping and Contextual Scanning for Moment Retrieval and Highlight Detection
SA-DETR: Span Aware Detection Transformer를 이용한 Moment Retrieval
본 논문은 주어진 텍스트와 관련된 비디오 세그먼트를 찾는 Moment Retrieval 문제를 해결하기 위해 Span Aware DEtection TRansformer (SA-DETR)를 제안합니다. 기존 DETR 기반 방법들이 Query Initialization에서 비디오-텍스트 인스턴스 관련 정보를 간과하고 Query Refinement에서 span anchor의 역할을 충분히 활용하지 못하는 문제를 지적합니다. SA-DETR은 인스턴스에 관련된 span anchor의 중요성을 활용하여, 학습 가능한 파라미터 대신 비디오-텍스트 쌍을 기반으로 span anchor를 생성하고 GT 레이블로 감독합니다. 또한, denoise learning을 적용하여 모델의 span 인지 능력을 향상시킵니다. 논문 제목: SA-DETR:Span Aware Detection Transformer for Moment Retrieval