Multiple Instance Learning

1개의 포스트

2025. 9. 12.

Video-Text RetrievalMultiple Instance Learning

Partially Relevant Video Retrieval

기존의 Text-to-Video Retrieval (T2VR)은 전체 비디오가 텍스트 쿼리와 완전히 관련이 있다고 가정하지만, 현실에서는 긴 비디오의 특정 순간만이 쿼리와 관련될 수 있습니다. 이 논문은 이러한 문제를 해결하기 위해 새로운 태스크인 Partially Relevant Video Retrieval (PRVR)을 제안합니다. PRVR은 텍스트 쿼리와 관련된 순간을 포함하는 긴 비디오(untrimmed video)를 검색하는 것을 목표로 합니다. 이를 위해, 비디오를 클립과 프레임의 집합으로 간주하는 Multiple Instance Learning (MIL) 문제로 정의하고, coarse-to-fine 방식으로 유사도를 학습하는 Multi-Scale Similarity Learning (MS-SL) 네트워크를 제안합니다. MS-SL은 먼저 쿼리와 가장 관련성이 높은 핵심 클립을 찾고, 이를 가이드 삼아 프레임 단위의 세밀한 중요도를 측정하여 최종적으로 비디오-텍스트 유사도를 계산합니다. 논문 제목: Partially Relevant Video Retrieval

모든 태그 보기