Video Retrieval

11개의 포스트

Video RetrievalPRVR

PRVR: 텍스트 쿼리와 부분적으로만 관련된 영상도 정확하게 찾아내는 비디오 검색

기존의 Text-to-Video Retrieval (T2VR)은 검색 대상 비디오가 텍스트 쿼리와 완전히 관련이 있다고 가정하지만, 실제 비디오는 다양한 내용을 포함하고 있어 쿼리와 부분적으로만 일치하는 경우가 많습니다. 이 논문은 이러한 현실적인 문제를 해결하기 위해 부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)이라는 새로운 태스크를 제안합니다. PRVR 문제를 Multiple Instance Learning (MIL)으로 공식화하고, 비디오를 클립(clip-scale)과 프레임(frame-scale)의 다중 스케일에서 분석하여 부분적 관련성을 판단하는 MS-SL++ (Multi-Scale Similarity Learning) 네트워크를 제안합니다. 이 모델은 거친 수준의 클립 유사도와 세밀한 수준의 프레임 유사도를 함께 학습하여, 쿼리와 관련된 일부 장면만 포함된 긴 비디오도 효과적으로 검색할 수 있습니다. 논문 제목: PRVR: Partially Relevant Video Retrieval

PRVRVideo Retrieval

AMDNet: 능동적 순간 탐색을 통한 효율적인 부분 관련 비디오 검색

본 논문은 텍스트 쿼리와 부분적으로만 관련된 긴 비디오를 효율적으로 검색하는 PRVR (Partially Relevant Video Retrieval) 문제를 다룹니다. 기존 방법들이 사용하는 비효율적인 dense clip 모델링 방식의 한계를 극복하기 위해, 쿼리와 의미적으로 일치하는 비디오 moment를 능동적으로 발견하는 AMDNet (Active Moment Discovering Network)을 제안합니다. AMDNet은 learnable span anchor를 사용하여 구별되는 moment들을 포착하고, masked multi-moment attention을 통해 중요한 moment는 강조하고 불필요한 배경은 억제하여 더 압축적이고 정보성 있는 비디오 표현을 생성합니다. 또한, moment diversity loss와 moment relevance loss를 도입하여 모델이 의미적으로 다양하고 쿼리와 관련성 높은 moment를 학습하도록 합니다. 결과적으로 AMDNet은 기존 모델보다 훨씬 작은 크기로 더 높은 검색 성능과 효율성을 달성했습니다. 논문 제목: Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering

Video RetrievalCLIP

ProPy: CLIP 기반의 상호작용적 Prompt Pyramid를 이용한 부분 관련 영상 검색

ProPy는 텍스트 쿼리가 비디오의 특정 부분에만 관련된 경우에 해당 비디오를 검색하는 Partially Relevant Video Retrieval(PRVR) 작업을 위해 제안된 모델입니다. 강력한 pretrained vision-language model인 CLIP의 구조를 PRVR에 맞게 체계적으로 적용한 ProPy는 두 가지 핵심 아이디어를 제시합니다. 첫째, 다중 세분성(multi-granularity) 수준에서 이벤트 의미를 포착하는 Prompt Pyramid 구조를 도입합니다. 둘째, 피라미드 위에서 이벤트 간의 동적인 의미 상호작용을 가능하게 하는 Ancestor-Descendant Interaction Mechanism을 설계합니다. 이 접근법을 통해 ProPy는 비디오 내 이벤트들의 복잡한 관계(intra-segment 및 inter-segment)를 효과적으로 모델링하여 여러 공개 데이터셋에서 SOTA 성능을 달성했습니다. 논문 제목: ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval

Hyperbolic LearningVideo Retrieval

HLFormer: 쌍곡 학습(Hyperbolic Learning)을 통한 부분 관련 비디오 검색 성능 향상

HLFormer는 텍스트 쿼리가 일부 내용만 설명하는 미편집 비디오를 매칭하는 PRVR(Partially Relevant Video Retrieval) 문제를 해결하기 위해 제안된 최초의 쌍곡 학습(Hyperbolic Learning) 프레임워크입니다. 기존 방법들이 사용하는 Euclidean 공간은 비디오의 본질적인 계층 구조를 왜곡할 수 있는 반면, HLFormer는 쌍곡 공간을 활용하여 이러한 계층적 의미 모델링을 보완합니다. 이 모델은 Lorentz Attention Block과 Euclidean Attention Block을 결합하여 하이브리드 공간에서 비디오 임베딩을 인코딩하고, Mean-Guided Adaptive Interaction Module을 통해 동적으로 특징을 융합합니다. 또한, Partial Order Preservation Loss를 도입하여 "text ≺ video"라는 계층 구조를 기하학적으로 강제함으로써 텍스트와 비디오 간의 부분적 관련성 매칭을 강화합니다. 논문 제목: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

Efficient AttentionVideo Retrieval

PRVR을 위한 효율적인 어텐션: 정확도와 효율성 벤치마킹 연구

긴 비디오 시퀀스를 처리할 때 Transformer 기반 모델의 표준 어텐션 메커니즘이 갖는二次 복잡도는 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR) 분야의 주요 병목 현상입니다. 이 논문은 PRVR을 위한 효율적인 어텐션 메커니즘에 대한 최초의 체계적인 연구로, Linear Attention, Agent Attention, FFT Attention 세 가지 대표적인 접근 방식을 Charades-STA 벤치마크에서 평가합니다. 또한, 정확도와 계산 비용 간의 상충 관계를 정량화하기 위해 새로운 Harmonic Performance-Efficiency Score (HPES)를 제안합니다. 실험 결과, FFT Attention이 가장 높은 HPES를 달성하며 Softmax 베이스라인보다 1.3배 빠른 속도와 더 높은 SumR을 보여, 효율성과 글로벌 컨텍스트 모델링 능력의 균형에서 우수함을 입증했습니다. 논문 제목: Efficient Attention in Partially Relevant Video Retrieval: A Benchmarking Study on Accuracy-Efficiency Trade-offs

Video RetrievalUncertainty Modeling

RAL: 견고한 정렬 학습을 통한 부분 관련 비디오 검색 성능 향상

이 논문은 주어진 쿼리와 부분적으로만 관련된 긴 비디오를 검색하는 Partially Relevant Video Retrieval (PRVR) 문제를 다룹니다. PRVR의 핵심 과제는 데이터 불확실성(모호한 쿼리, 비디오의 부분적 관련성)에서 발생하는 잘못된 의미적 상관관계를 극복하고 견고한 쿼리-비디오 정렬을 학습하는 것입니다. 이를 해결하기 위해 본 논문에서는 데이터의 불확실성을 명시적으로 모델링하는 Robust Alignment Learning (RAL) 프레임워크를 제안합니다. RAL의 핵심은 비디오와 쿼리를 다변량 Gaussian 분포로 인코딩하여 데이터 불확실성을 정량화하고, 다양한 cross-modal 관계를 포착하는 것입니다. 또한, 쿼리 단어의 중요도가 다른 점을 고려하여 동적으로 유사도 가중치를 부여하는 confidence-aware alignment 메커니즘을 도입하여 무의미한 단어의 노이즈를 줄입니다. RAL은 기존 아키텍처에 쉽게 통합 가능한 plug-and-play 방식으로, 다양한 벤치마크에서 기존 방법들의 성능을 크게 향상시켰습니다. 논문 제목: Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning

Video RetrievalUncertainty Modeling

GMMFormer v2: 불확실성을 고려한 부분 관련 영상 검색 프레임워크

GMMFormer v2는 텍스트 쿼리를 기반으로 관련 순간을 포함하는 미편집 비디오를 검색하는 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)을 위한 불확실성 인식 프레임워크입니다. 이 모델은 모멘트 어노테이션 부재로 인한 클립 모델링 및 텍스트-클립 대응의 불확실성 문제를 해결합니다. GMMFormer v2는 가변 길이의 비디오 모멘트를 더 잘 포착하기 위해 `temporal consolidation module`을 도입했으며, `semantic collapse` 문제를 완화하고 정교한 텍스트-클립 정렬을 위해 개선된 `query diverse loss`와 새로운 `optimal matching loss`를 제안합니다. 논문 제목: GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval

Video RetrievalTransformer

GMMFormer: 효율적인 부분 관련 비디오 검색(PRVR)을 위한 Gaussian-Mixture-Model 기반 Transformer

GMMFormer는 부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)의 효율성 문제를 해결하기 위해 제안된 Gaussian-Mixture-Model 기반 Transformer입니다. 기존 PRVR 방식은 스캐닝 기반의 명시적 클립 모델링으로 인해 정보 중복과 큰 저장 공간 오버헤드를 유발했습니다. GMMFormer는 Gaussian-Mixture-Model 제약을 프레임 상호작용에 통합하여 각 프레임이 인접 프레임에 집중하도록 하는 암시적 클립 모델링을 수행합니다. 이를 통해 다중 스케일 클립 정보를 포함하는 압축된 표현을 생성하여 효율성을 높입니다. 또한, 동일 비디오에 대한 여러 텍스트 쿼리 간의 의미적 차이를 보존하기 위해 query diverse loss를 제안하여 임베딩 공간을 더 밀도 높고 의미적으로 풍부하게 만듭니다. 논문 제목: GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

Video RetrievalRepresentation Learning

ARL: 부분 관련 비디오 검색을 위한 모호성 억제 텍스트-비디오 표현 학습

Partially Relevant Video Retrieval (PRVR)은 텍스트 쿼리와 부분적으로만 관련된 비디오를 찾는 기술입니다. 기존 모델들은 텍스트-비디오 쌍이 1:1 관계라고 가정하여, 라벨링되지 않은 관련성 높은 비디오들을 부정적(negative) 샘플로 잘못 학습하는 모호성(ambiguity) 문제를 가집니다. 본 논문은 이러한 모호성을 억제하는 표현 학습 프레임워크인 ARL (Ambiguity-Restrained representation Learning)을 제안합니다. ARL은 uncertainty와 similarity라는 두 가지 기준을 사용하여 모호한 텍스트-비디오 쌍을 탐지하고, multi-positive contrastive learning 및 dual triplet margin loss를 통해 이들을 유연하게 학습합니다. 또한, 텍스트-프레임 레벨까지 학습을 확장하고, 단일 모델의 오류 전파를 막기 위해 cross-model ambiguity detection을 도입하여 PRVR 성능을 크게 향상시켰습니다. 논문 제목: Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval

Knowledge DistillationVideo Retrieval

DL-DKD: 동적 지식 증류와 듀얼 러닝을 통한 부분 관련 비디오 검색

이 논문은 편집되지 않은 긴 비디오에서 텍스트 쿼리와 부분적으로 관련된 내용을 검색하는 PRVR(Partially Relevant Video Retrieval) 문제를 해결합니다. 이를 위해 DL-DKD (Dual Learning with Dynamic Knowledge Distillation)라는 새로운 프레임워크를 제안합니다. DL-DKD는 CLIP과 같은 대규모 vision-language 모델(teacher)의 지식을 PRVR 전용 모델(student)에 전달하는 knowledge distillation 방식을 사용합니다. 특히, student 모델은 teacher의 지식을 흡수하는 inheritance branch와 데이터셋 고유의 특성을 학습하는 exploration branch로 구성된 듀얼 구조를 가집니다. 또한, 훈련 과정에서 두 branch의 학습 비중을 동적으로 조절하는 dynamic knowledge distillation 전략을 통해 teacher 모델의 domain gap 문제를 완화하고, ActivityNet 및 TVR 데이터셋에서 SOTA 성능을 달성합니다. 논문 제목: Dual Learning with Dynamic Knowledge Distillation for Partially Relevant Video Retrieval

Video RetrievalPrototypical Learning

프로토타입: 효율성과 정확성을 모두 잡는 부분 관련 영상 검색(PRVR) 기법

영상 검색 시스템에서 정확성과 효율성을 동시에 달성하는 것은 어려운 과제입니다. 특히, 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)에서는 다양한 시간적 스케일의 컨텍스트를 표현할수록 정확도는 높아지지만 계산 및 메모리 비용이 증가합니다. 이 논문은 영상 내의 다양한 컨텍스트를 고정된 수의 프로토타입(prototypes)으로 인코딩하는 새로운 프레임워크를 제안하여 이 문제를 해결합니다. 텍스트 연관성과 영상 이해도를 높이기 위해 cross-modal 및 uni-modal 재구성 작업을 도입하고, 프로토타입의 다양성을 확보하기 위한 직교 목적 함수를 사용합니다. 이 접근법을 통해 효율성을 희생하지 않으면서도 TVR, ActivityNet-Captions 등 주요 벤치마크에서 최고의 성능을 달성합니다. 논문 제목: Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval