Video Moment Retrieval

12개의 포스트

Video Moment RetrievalVariational Inference

VGCI: 글로벌 단서 추론을 통한 약한 지도 비디오 모멘트 검색

Weakly supervised video moment retrieval task에서 기존 mask reconstruction 기반 방법들은 불완전한 정보로 인해 재구성에 혼란을 겪는 문제가 있습니다. VGCI (Variational Global Clue Inference)는 비디오에 해당하는 전체 쿼리 집합으로부터 "global clue"를 모델링하여 이 문제를 해결합니다. 이 global clue를 Gaussian latent variable로 모델링하여 정보 유출 및 노이즈 문제를 방지하고, variational inference를 통해 재구성 과정에 명확한 가이드를 제공합니다. 결과적으로, 모델은 더 정확하고 안정적으로 비디오-쿼리 정렬을 학습하여 비디오 모멘트 검색 성능을 향상시킵니다. 논문 제목: Variational global clue inference for weakly supervised video moment retrieval

Video Moment RetrievalPretraining

Vid-Morp & ReCorrect: 레이블 없는 영상으로 Video Moment Retrieval 모델 사전학습하기

Video Moment Retrieval (VMR)은 대규모 수동 레이블링에 크게 의존하는 문제에 직면해 있습니다. 이 논문은 레이블이 없는 실제 비디오를 활용하는 새로운 사전학습 패러다임을 제안합니다. 이를 위해, 최소한의 인간 개입으로 수집된 대규모 데이터셋 Vid-Morp를 구축하고, 이 데이터셋의 불완전한 의사 레이블(pseudo-annotations)이 가진 노이즈 문제를 해결하기 위해 ReCorrect 알고리즘을 제시합니다. ReCorrect는 semantics-guided refinement를 통해 부정확한 데이터를 정제하고, memory-consensus correction을 통해 점진적으로 시간적 경계를 교정합니다. 이 방법을 통해 사전학습된 모델은 zero-shot 및 unsupervised 환경에서도 높은 성능을 보여주며, VMR의 레이블링 비용 문제를 효과적으로 해결할 수 있는 가능성을 제시합니다. 논문 제목: Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild

Video Moment RetrievalHypergraph Neural Network

HyperAux: Hyper-Interaction으로 보조 모멘트-쿼리 쌍을 생성하여 Video Moment Retrieval 성능 개선

기존 Video Moment Retrieval (VMR) 데이터셋은 주석이 부족한(sparse annotations) 문제를 겪고 있습니다. 이 논문은 HyperAux라는 새로운 방법을 제안하여, 비디오와 언어 간의 multi-modal hyper-interaction을 모델링함으로써 고품질의 보조 모멘트-쿼리 쌍(auxiliary moment-query pairs)을 생성합니다. HyperAux는 모멘트 내/외부 프레임과 쿼리를 포함한 여러 노드를 연결하는 hyperedge를 가진 hypergraph를 구성합니다. 이 hypergraph 상에서 Hypergraph Neural Network (HGNN)를 사용하여 문맥을 고려한 표현을 학습하고, 이를 통해 더 정확하게 고품질의 데이터를 선택하고 모멘트 경계를 조정합니다. 이 방법은 별도의 수동 주석 없이 학습 가능하며, 생성된 보조 데이터는 기존 VMR 모델들의 성능을 크게 향상시킵니다. 논문 제목: Improving Video Moment Retrieval by Auxiliary Moment-Query Pairs With Hyper-Interaction

Video Moment RetrievalHighlight Detection

MS-DETR: Joint Motion-Semantic Learning을 통한 효과적인 비디오 모멘트 검색 및 하이라이트 탐지

MS-DETR은 텍스트 쿼리를 기반으로 비디오의 특정 순간을 찾아내는 Video Moment Retrieval (MR)과 클립별 관련성을 평가하는 Highlight Detection (HD) 작업을 위한 통합 프레임워크입니다. 이 모델은 비디오 콘텐츠 내의 시간적 움직임(temporal motion)과 공간적 의미(spatial semantics) 사이의 복잡한 관계를 효과적으로 활용합니다. MS-DETR은 Motion-Semantics Disentangled Encoder (MSDE)를 통해 움직임과 의미론 차원을 분리하여 모델링하고, Mutual Task-Collaborated Decoder (MTCD)를 사용하여 MR과 HD 작업 간의 상호 시너지를 극대화합니다. 또한, 데이터셋의 희소성 문제를 해결하기 위해 데이터 생성 전략과 Contrastive Denoising Learning을 제안하여 모델이 더 견고하게 학습하도록 합니다. 논문 제목: MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning

Video Moment RetrievalTransformer

CDTR: Concept Decomposition Transformer를 이용한 비디오 순간 검색을 위한 Semantic Alignment

CDTR (Concept Decomposition Transformer)은 자연어 쿼리를 기반으로 비디오 내 특정 순간을 찾는 Video Moment Retrieval (VMR) 작업을 위한 새로운 모델입니다. 이 모델은 비디오와 텍스트 쿼리를 독립적인 concept 표현으로 분해하는 semantic concept decomposition module을 도입하여, cross-modal 매칭에 중요한 세분화된 의미(fine-grained semantics)를 포착합니다. 분해된 concept 표현을 pseudo-label로 사용하여 비디오 내부 및 텍스트-비디오 간의 fine-grained concept alignment를 수행함으로써, 미묘한 의미적 차이를 구별하는 모델의 능력을 향상시키고 semantic overlap 및 sparse constraints와 같은 기존의 문제들을 완화합니다. 논문 제목: CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer

Video Moment RetrievalPseudo Clips

Aggregate and Discriminate: Pseudo Clips를 활용한 Video Moment Retrieval 경계 인식

본 논문은 Video Moment Retrieval (VMR) 성능 향상을 위해, 쿼리와 관련성이 높거나 낮은 비디오 클립을 의미론적 가이드로 활용하는 점진적 프레임워크를 제안합니다. 이 방법은 먼저 쿼리와 가장 관련 있는 pseudo-positive 클립과 관련 없는 pseudo-negative 클립을 생성하여 비디오와 텍스트 간의 의미적 격차를 해소합니다. 이후 Pseudo Clips Guided Aggregation 모듈이 관련 클립들을 효과적으로 집계하고, Discriminative Boundary-Enhanced Decoder가 혼란스러운 경계 정보를 명확히 구분하여 목표 모멘트의 시작과 끝 타임스탬프를 정확하게 localize합니다. 논문 제목: Aggregate and Discriminate: Pseudo Clips-Guided Boundary Perception for Video Moment Retrieval

Video Moment RetrievalFeature Alignment

A²FA & F²SGD: 앵커 프레임과 2D 유사도 공간을 활용한 Video Moment Retrieval

본 논문은 Video Moment Retrieval (VMR) 작업의 두 가지 주요 과제인 쿼리와 비디오 프레임 간의 정확한 정렬 및 시간 경계 예측을 해결하기 위한 새로운 프레임워크를 제안합니다. 제안된 A²FA (Anchor-Aware Feature Alignment)는 VLM을 통해 쿼리와 가장 관련성이 높은 '앵커 프레임'을 식별하고, 이를 중심으로 의미적으로 응집된 세그먼트를 구성하여 관련 프레임에 대한 쿼리 정렬을 유도합니다. 이 과정을 통해 관련 프레임 간의 유사도가 높아지며, F²SGD (Frame-Frame Similarity Guided Detection)는 이를 활용해 시간 경계 예측 문제를 2D 유사도 공간에서의 단일 지점 탐지 문제로 변환합니다. 이 접근 방식은 프레임 의미와 시간 경계 간의 정보 격차를 효과적으로 해소하여 기존 방법론들보다 뛰어난 성능을 달성합니다. 논문 제목: Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2D

Video Moment RetrievalPoint Supervision

ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval

ADTC는 단일 프레임만 주석으로 사용하는 point-supervised Video Moment Retrieval (VMR) 작업을 위한 새로운 프레임워크입니다. 기존 방법들이 cross-modal 의미 정렬과 영상의 전역적 구조를 제대로 활용하지 못하는 문제를 해결하기 위해, ADTC는 지역적(local) 트리와 전역적(global) 트리를 통합하는 이중 단계 트리 아키텍처를 제안합니다. 이 모델은 프레임 클러스터링과 장면 분할을 통해 영상의 구조적 특성을 파악하고, 이를 기반으로 적응형 병합 및 가지치기(pruning) 전략을 사용하여 트리를 최적화합니다. 그 결과, Charades-STA 및 ActivityNet Captions 데이터셋에서 기존 point-supervised 방식들을 뛰어넘는 최고 수준의 성능을 달성했으며, 주석 비용을 크게 줄이면서도 일부 완전 지도 학습(fully supervised) 방법보다 우수한 성능을 보입니다. 논문 제목: ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval

Multimodal RetrievalVideo Moment Retrieval

TVR: 비디오와 자막을 함께 이해하는 순간 검색을 위한 대규모 데이터셋

TVR (TV show Retrieval)은 비디오의 시각적 내용과 자막 텍스트를 모두 이해해야 하는 새로운 멀티모달 순간 검색 데이터셋입니다. 이 논문은 6개 TV 쇼의 21.8K 비디오에 대한 109K 개의 쿼리를 포함하며, 각 쿼리는 정확한 시간 정보와 연결됩니다. 또한, Cross-modal Moment Localization (XML)이라는 새로운 모델을 제안하여, late fusion 방식과 Convolutional Start-End (ConvSE) detector를 통해 기존의 베이스라인 모델들보다 훨씬 높은 성능과 효율성을 보여줍니다. 논문 제목: TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval

Video Moment RetrievalMultimodal

CHAPVIDMR: 자연어 쿼리를 이용한 챕터 기반 비디오 순간 검색

Video Moment Retrieval (VMR)은 쿼리와 비디오의 특정 순간을 연결하는 기술입니다. 본 논문에서는 YouTube 비디오의 챕터 정보를 활용하여 단일 쿼리에 여러 비디오 순간을 연결하는 새로운 데이터셋인 ChapVidMR (Chapter-based Video Moment Retrieval)을 제안합니다. ChapVidMR은 챕터 이름과 메타데이터를 기반으로 GPT4를 사용하여 생성된 10.8K개의 사용자 쿼리로 구성됩니다. 이 데이터셋을 사용하여 두 가지 VMR 작업, 즉 챕터 분류 기반 VMR과 세분화 기반 VMR에 대한 벤치마크를 제공합니다. 실험 결과, 챕터 분류 작업에서는 Sentence-BERT가, 세분화 작업에서는 UniVTG가 가장 높은 성능을 보였습니다. 논문 제목: CHAPVIDMR: Chapter-based Video Moment Retrieval using Natural Language Queries

Video Moment RetrievalMultimodal Learning

Audio Does Matter: 중요도 인식 다중 세분성 융합을 통한 비디오 순간 검색

본 논문은 Video Moment Retrieval (VMR) 작업에서 기존 모델들이 간과했던 오디오 정보의 중요성을 강조합니다. 이를 위해, 제안하는 IMG (Importance-aware Multi-Granularity fusion) 모델은 오디오의 유용성을 동적으로 판단하는 Audio Importance Predictor를 도입하여 노이즈의 영향을 줄이고, Multi-Granularity Fusion 모듈을 통해 다양한 수준(local, event, global)에서 시청각 정보를 효과적으로 융합합니다. 또한, 추론 시 오디오가 없는 상황에서도 성능을 유지하기 위해 Cross-modal knowledge distillation 전략을 사용합니다. 이 모델은 주어진 텍스트 쿼리와 의미적으로 가장 관련 있는 비디오의 특정 순간을 정확하게 찾아내는 것을 목표로 합니다. 논문 제목: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval

Video Moment RetrievalDETR

LA-DETR: 짧은 영상 순간을 정확하게 포착하는 Length-Aware DETR

LA-DETR은 기존 DETR 기반 Video Moment Retrieval (MR) 모델들이 짧은 길이의 순간(moment)을 정확히 찾아내지 못하는 문제를 해결하기 위해 제안된 프레임워크입니다. 데이터 관점에서 짧은 순간의 feature 다양성이 부족하다는 점에 착안하여, ForegroundMix와 BackgroundMix 두 전략으로 구성된 MomentMix 데이터 증강 기법을 도입했습니다. 또한, 모델 관점에서 짧은 순간의 중심점 예측 정확도가 낮다는 문제를 해결하기 위해, 길이를 조건으로 부여하는 새로운 양분 매칭(bipartite matching) 프로세스를 포함한 Length-Aware Decoder를 제안합니다. 이 방법론들을 통해 LA-DETR은 짧은 순간 탐색 성능을 크게 향상시켰으며, QVHighlights, TACoS, Charades-STA와 같은 벤치마크 데이터셋에서 SOTA DETR 기반 모델들을 능가하는 성능을 달성했습니다. 논문 제목: Length-Aware DETR for Robust Moment Retrieval