PRVRText-to-Video Retrieval
Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval
Partially Relevant Video Retrieval (PRVR)은 긴 영상에서 텍스트 쿼리와 관련된 일부 구간을 찾는 기술입니다. 기존 PRVR 방법들은 세밀한 프레임 단위 영상 특징과 포괄적인 의미를 담은 문장 단위 텍스트를 직접 정렬하여, 'semantic granularity gap' 문제가 발생했습니다. 이로 인해 프레임 특징이 의도보다 넓은 맥락을 포착하고 지역적 디테일을 놓치게 됩니다. 본 논문은 이 문제를 해결하기 위해 문장을 프레임 수준의 의미 단위로 분해하여 정렬하는 Semantic-Decomposed Matching (SDM)과, 영상 인코딩 시 지역적 세부 정보를 강화하는 Adaptive Local Aggregator (ALA)를 제안합니다. 이 프레임워크는 프레임 수준에서의 텍스트-영상 정렬을 정교화하여 PRVR 성능을 크게 향상시킵니다. 논문 제목: Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval