Video Moment RetrievalFeature Alignment
A²FA & F²SGD: 앵커 프레임과 2D 유사도 공간을 활용한 Video Moment Retrieval
본 논문은 Video Moment Retrieval (VMR) 작업의 두 가지 주요 과제인 쿼리와 비디오 프레임 간의 정확한 정렬 및 시간 경계 예측을 해결하기 위한 새로운 프레임워크를 제안합니다. 제안된 A²FA (Anchor-Aware Feature Alignment)는 VLM을 통해 쿼리와 가장 관련성이 높은 '앵커 프레임'을 식별하고, 이를 중심으로 의미적으로 응집된 세그먼트를 구성하여 관련 프레임에 대한 쿼리 정렬을 유도합니다. 이 과정을 통해 관련 프레임 간의 유사도가 높아지며, F²SGD (Frame-Frame Similarity Guided Detection)는 이를 활용해 시간 경계 예측 문제를 2D 유사도 공간에서의 단일 지점 탐지 문제로 변환합니다. 이 접근 방식은 프레임 의미와 시간 경계 간의 정보 격차를 효과적으로 해소하여 기존 방법론들보다 뛰어난 성능을 달성합니다. 논문 제목: Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2D