PRVRCross-Modal Retrieval
Inter- and Intra-Sample 분석과 Coherence Prediction을 통한 부분 관련 영상 검색(PRVR) 성능 향상
본 논문은 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)의 핵심 과제인 cross-modal dual nature, 즉 inter-sample correlation과 intra-sample redundancy 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. 이 프레임워크는 세 가지 핵심 모듈로 구성됩니다: 1) Inter Correlation Enhancement (ICE) 모듈은 페어링되지 않은 텍스트와 비디오 순간에서 의미적으로 유사한 pseudo-positive pair를 발굴하여 학습에 활용합니다. 2) Intra Redundancy Mining (IRM) 모듈은 쿼리와 무관한 중복 순간들을 식별하고 구분하여 모델이 더 판별력 있는 표현을 학습하도록 합니다. 3) Temporal Coherence Prediction (TCP) 모듈은 무작위로 섞인 비디오 프레임의 원래 순서를 예측하는 self-supervised task를 통해 시간적 구조 학습을 강화합니다. 이 접근 방식은 보다 정교한 cross-modal semantic space를 구축하여 PRVR 성능을 크게 향상시킵니다. 논문 제목: Enhanced Partially Relevant Video Retrieval through Inter–and Intra-Sample Analysis with Coherence Prediction