Video Moment RetrievalPretraining
Vid-Morp & ReCorrect: 레이블 없는 영상으로 Video Moment Retrieval 모델 사전학습하기
Video Moment Retrieval (VMR)은 대규모 수동 레이블링에 크게 의존하는 문제에 직면해 있습니다. 이 논문은 레이블이 없는 실제 비디오를 활용하는 새로운 사전학습 패러다임을 제안합니다. 이를 위해, 최소한의 인간 개입으로 수집된 대규모 데이터셋 Vid-Morp를 구축하고, 이 데이터셋의 불완전한 의사 레이블(pseudo-annotations)이 가진 노이즈 문제를 해결하기 위해 ReCorrect 알고리즘을 제시합니다. ReCorrect는 semantics-guided refinement를 통해 부정확한 데이터를 정제하고, memory-consensus correction을 통해 점진적으로 시간적 경계를 교정합니다. 이 방법을 통해 사전학습된 모델은 zero-shot 및 unsupervised 환경에서도 높은 성능을 보여주며, VMR의 레이블링 비용 문제를 효과적으로 해결할 수 있는 가능성을 제시합니다. 논문 제목: Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild