Video Moment Retrieval
4개의 포스트
TVR: 비디오와 자막을 함께 이해하는 순간 검색을 위한 대규모 데이터셋
TVR (TV show Retrieval)은 비디오의 시각적 내용과 자막 텍스트를 모두 이해해야 하는 새로운 멀티모달 순간 검색 데이터셋입니다. 이 논문은 6개 TV 쇼의 21.8K 비디오에 대한 109K 개의 쿼리를 포함하며, 각 쿼리는 정확한 시간 정보와 연결됩니다. 또한, Cross-modal Moment Localization (XML)이라는 새로운 모델을 제안하여, late fusion 방식과 Convolutional Start-End (ConvSE) detector를 통해 기존의 베이스라인 모델들보다 훨씬 높은 성능과 효율성을 보여줍니다. 논문 제목: TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval
CHAPVIDMR: 자연어 쿼리를 이용한 챕터 기반 비디오 순간 검색
Video Moment Retrieval (VMR)은 쿼리와 비디오의 특정 순간을 연결하는 기술입니다. 본 논문에서는 YouTube 비디오의 챕터 정보를 활용하여 단일 쿼리에 여러 비디오 순간을 연결하는 새로운 데이터셋인 ChapVidMR (Chapter-based Video Moment Retrieval)을 제안합니다. ChapVidMR은 챕터 이름과 메타데이터를 기반으로 GPT4를 사용하여 생성된 10.8K개의 사용자 쿼리로 구성됩니다. 이 데이터셋을 사용하여 두 가지 VMR 작업, 즉 챕터 분류 기반 VMR과 세분화 기반 VMR에 대한 벤치마크를 제공합니다. 실험 결과, 챕터 분류 작업에서는 Sentence-BERT가, 세분화 작업에서는 UniVTG가 가장 높은 성능을 보였습니다. 논문 제목: CHAPVIDMR: Chapter-based Video Moment Retrieval using Natural Language Queries
Audio Does Matter: 중요도 인식 다중 세분성 융합을 통한 비디오 순간 검색
본 논문은 Video Moment Retrieval (VMR) 작업에서 기존 모델들이 간과했던 오디오 정보의 중요성을 강조합니다. 이를 위해, 제안하는 IMG (Importance-aware Multi-Granularity fusion) 모델은 오디오의 유용성을 동적으로 판단하는 Audio Importance Predictor를 도입하여 노이즈의 영향을 줄이고, Multi-Granularity Fusion 모듈을 통해 다양한 수준(local, event, global)에서 시청각 정보를 효과적으로 융합합니다. 또한, 추론 시 오디오가 없는 상황에서도 성능을 유지하기 위해 Cross-modal knowledge distillation 전략을 사용합니다. 이 모델은 주어진 텍스트 쿼리와 의미적으로 가장 관련 있는 비디오의 특정 순간을 정확하게 찾아내는 것을 목표로 합니다. 논문 제목: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
LA-DETR: 짧은 영상 순간을 정확하게 포착하는 Length-Aware DETR
LA-DETR은 기존 DETR 기반 Video Moment Retrieval (MR) 모델들이 짧은 길이의 순간(moment)을 정확히 찾아내지 못하는 문제를 해결하기 위해 제안된 프레임워크입니다. 데이터 관점에서 짧은 순간의 feature 다양성이 부족하다는 점에 착안하여, ForegroundMix와 BackgroundMix 두 전략으로 구성된 MomentMix 데이터 증강 기법을 도입했습니다. 또한, 모델 관점에서 짧은 순간의 중심점 예측 정확도가 낮다는 문제를 해결하기 위해, 길이를 조건으로 부여하는 새로운 양분 매칭(bipartite matching) 프로세스를 포함한 Length-Aware Decoder를 제안합니다. 이 방법론들을 통해 LA-DETR은 짧은 순간 탐색 성능을 크게 향상시켰으며, QVHighlights, TACoS, Charades-STA와 같은 벤치마크 데이터셋에서 SOTA DETR 기반 모델들을 능가하는 성능을 달성했습니다. 논문 제목: Length-Aware DETR for Robust Moment Retrieval