PRVR
5개의 포스트
PRVR: 텍스트 쿼리와 부분적으로만 관련된 영상도 정확하게 찾아내는 비디오 검색
기존의 Text-to-Video Retrieval (T2VR)은 검색 대상 비디오가 텍스트 쿼리와 완전히 관련이 있다고 가정하지만, 실제 비디오는 다양한 내용을 포함하고 있어 쿼리와 부분적으로만 일치하는 경우가 많습니다. 이 논문은 이러한 현실적인 문제를 해결하기 위해 부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)이라는 새로운 태스크를 제안합니다. PRVR 문제를 Multiple Instance Learning (MIL)으로 공식화하고, 비디오를 클립(clip-scale)과 프레임(frame-scale)의 다중 스케일에서 분석하여 부분적 관련성을 판단하는 MS-SL++ (Multi-Scale Similarity Learning) 네트워크를 제안합니다. 이 모델은 거친 수준의 클립 유사도와 세밀한 수준의 프레임 유사도를 함께 학습하여, 쿼리와 관련된 일부 장면만 포함된 긴 비디오도 효과적으로 검색할 수 있습니다. 논문 제목: PRVR: Partially Relevant Video Retrieval
UEM: 부분 관련 비디오 검색을 위한 불균일 이벤트 모델링
기존의 부분 관련 비디오 검색(PRVR)은 비디오를 고정된 길이의 클립으로 분할하여 이벤트 경계가 모호해지는 문제가 있었습니다. Uneven Event Modeling (UEM) 프레임워크는 이를 해결하기 위해 두 가지 핵심 모듈을 제안합니다. 첫째, Progressive-Grouped Video Segmentation (PGVS) 모듈은 프레임 간의 의미적 유사성과 시간적 연속성을 고려하여 가변적인 길이의 이벤트로 동적 분할을 수행합니다. 둘째, Context-Aware Event Refinement (CAER) 모듈은 주어진 텍스트 쿼리와의 cross-attention을 활용하여 이벤트 표현을 정제하고, 쿼리와 가장 관련성 높은 프레임에 집중하도록 합니다. 이 접근법은 보다 정확한 텍스트-비디오 정렬을 가능하게 하여 PRVR 벤치마크에서 SOTA 성능을 달성했습니다. 논문 제목: Uneven Event Modeling for Partially Relevant Video Retrieval
AMDNet: 능동적 순간 탐색을 통한 효율적인 부분 관련 비디오 검색
본 논문은 텍스트 쿼리와 부분적으로만 관련된 긴 비디오를 효율적으로 검색하는 PRVR (Partially Relevant Video Retrieval) 문제를 다룹니다. 기존 방법들이 사용하는 비효율적인 dense clip 모델링 방식의 한계를 극복하기 위해, 쿼리와 의미적으로 일치하는 비디오 moment를 능동적으로 발견하는 AMDNet (Active Moment Discovering Network)을 제안합니다. AMDNet은 learnable span anchor를 사용하여 구별되는 moment들을 포착하고, masked multi-moment attention을 통해 중요한 moment는 강조하고 불필요한 배경은 억제하여 더 압축적이고 정보성 있는 비디오 표현을 생성합니다. 또한, moment diversity loss와 moment relevance loss를 도입하여 모델이 의미적으로 다양하고 쿼리와 관련성 높은 moment를 학습하도록 합니다. 결과적으로 AMDNet은 기존 모델보다 훨씬 작은 크기로 더 높은 검색 성능과 효율성을 달성했습니다. 논문 제목: Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering
Inter- and Intra-Sample 분석과 Coherence Prediction을 통한 부분 관련 영상 검색(PRVR) 성능 향상
본 논문은 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)의 핵심 과제인 cross-modal dual nature, 즉 inter-sample correlation과 intra-sample redundancy 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. 이 프레임워크는 세 가지 핵심 모듈로 구성됩니다: 1) Inter Correlation Enhancement (ICE) 모듈은 페어링되지 않은 텍스트와 비디오 순간에서 의미적으로 유사한 pseudo-positive pair를 발굴하여 학습에 활용합니다. 2) Intra Redundancy Mining (IRM) 모듈은 쿼리와 무관한 중복 순간들을 식별하고 구분하여 모델이 더 판별력 있는 표현을 학습하도록 합니다. 3) Temporal Coherence Prediction (TCP) 모듈은 무작위로 섞인 비디오 프레임의 원래 순서를 예측하는 self-supervised task를 통해 시간적 구조 학습을 강화합니다. 이 접근 방식은 보다 정교한 cross-modal semantic space를 구축하여 PRVR 성능을 크게 향상시킵니다. 논문 제목: Enhanced Partially Relevant Video Retrieval through Inter–and Intra-Sample Analysis with Coherence Prediction
Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval
Partially Relevant Video Retrieval (PRVR)은 긴 영상에서 텍스트 쿼리와 관련된 일부 구간을 찾는 기술입니다. 기존 PRVR 방법들은 세밀한 프레임 단위 영상 특징과 포괄적인 의미를 담은 문장 단위 텍스트를 직접 정렬하여, 'semantic granularity gap' 문제가 발생했습니다. 이로 인해 프레임 특징이 의도보다 넓은 맥락을 포착하고 지역적 디테일을 놓치게 됩니다. 본 논문은 이 문제를 해결하기 위해 문장을 프레임 수준의 의미 단위로 분해하여 정렬하는 Semantic-Decomposed Matching (SDM)과, 영상 인코딩 시 지역적 세부 정보를 강화하는 Adaptive Local Aggregator (ALA)를 제안합니다. 이 프레임워크는 프레임 수준에서의 텍스트-영상 정렬을 정교화하여 PRVR 성능을 크게 향상시킵니다. 논문 제목: Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval