Video-Text Retrieval
3개의 포스트
AVIGATE: Gated Attention으로 오디오를 효과적으로 활용하는 Video-Text Retrieval
Video-text retrieval에서 기존 방법들은 오디오 정보를 무시하거나, 관련 없는 오디오 신호가 오히려 성능을 저하시키는 문제가 있었습니다. AVIGATE는 gated attention 메커니즘을 통해 유용한 오디오 정보는 선택적으로 활용하고 불필요한 노이즈는 필터링하여 비디오 표현을 효과적으로 학습하는 새로운 프레임워크입니다. 또한, adaptive margin-based contrastive loss를 도입하여 비디오와 텍스트 간의 정렬을 개선합니다. 이를 통해 AVIGATE는 주요 벤치마크에서 최고 수준의 검색 성능을 달성하며 오디오를 활용한 검색의 새로운 가능성을 제시합니다. 논문 제목: Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
PEAN: 부분 관련 영상 검색을 위한 점진적 이벤트 정렬 네트워크
본 논문은 텍스트 설명이 영상의 일부 내용만 묘사하는 긴 영상(untrimmed video)을 검색하는 Partially Relevant Video Retrieval (PRVR) 문제를 다룹니다. 이를 해결하기 위해 텍스트 쿼리와 영상의 지역적 콘텐츠를 점진적으로 정렬하는 새로운 모델인 Progressive Event Alignment Network (PEAN)를 제안합니다. PEAN은 세 가지 주요 모듈로 구성됩니다: (1) 다중 모드 표현을 위한 Multimodal Representation Module (MRM), (2) 관련 이벤트를 대략적으로 찾는 Event Searching Module (ESM), (3) 텍스트와 이벤트를 세밀하게 정렬하는 Event Aligning Module (EAM). 특히, ESM과 EAM에서는 Gaussian-based pooling 전략을 사용하여 대표적인 비디오 프레임의 의미 정보를 효과적으로 활용합니다. 제안된 PEAN 모델은 주요 PRVR 벤치마크에서 기존 SOTA 모델들을 크게 상회하는 성능을 보여주었습니다. 논문 제목: Progressive Event Alignment Network for Partial Relevant Video Retrieval
Partially Relevant Video Retrieval
기존의 Text-to-Video Retrieval (T2VR)은 전체 비디오가 텍스트 쿼리와 완전히 관련이 있다고 가정하지만, 현실에서는 긴 비디오의 특정 순간만이 쿼리와 관련될 수 있습니다. 이 논문은 이러한 문제를 해결하기 위해 새로운 태스크인 Partially Relevant Video Retrieval (PRVR)을 제안합니다. PRVR은 텍스트 쿼리와 관련된 순간을 포함하는 긴 비디오(untrimmed video)를 검색하는 것을 목표로 합니다. 이를 위해, 비디오를 클립과 프레임의 집합으로 간주하는 Multiple Instance Learning (MIL) 문제로 정의하고, coarse-to-fine 방식으로 유사도를 학습하는 Multi-Scale Similarity Learning (MS-SL) 네트워크를 제안합니다. MS-SL은 먼저 쿼리와 가장 관련성이 높은 핵심 클립을 찾고, 이를 가이드 삼아 프레임 단위의 세밀한 중요도를 측정하여 최종적으로 비디오-텍스트 유사도를 계산합니다. 논문 제목: Partially Relevant Video Retrieval