AMDNet: 능동적 순간 탐색을 통한 효율적인 부분 관련 비디오 검색

본 논문은 텍스트 쿼리와 부분적으로만 관련된 긴 비디오를 효율적으로 검색하는 PRVR (Partially Relevant Video Retrieval) 문제를 다룹니다. 기존 방법들이 사용하는 비효율적인 dense clip 모델링 방식의 한계를 극복하기 위해, 쿼리와 의미적으로 일치하는 비디오 moment를 능동적으로 발견하는 AMDNet (Active Moment Discovering Network)을 제안합니다. AMDNet은 learnable span anchor를 사용하여 구별되는 moment들을 포착하고, masked multi-moment attention을 통해 중요한 moment는 강조하고 불필요한 배경은 억제하여 더 압축적이고 정보성 있는 비디오 표현을 생성합니다. 또한, moment diversity loss와 moment relevance loss를 도입하여 모델이 의미적으로 다양하고 쿼리와 관련성 높은 moment를 학습하도록 합니다. 결과적으로 AMDNet은 기존 모델보다 훨씬 작은 크기로 더 높은 검색 성능과 효율성을 달성했습니다. 논문 제목: Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering

Song, Peipei, et al. "Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering." arXiv preprint arXiv:2504.10920 (2025).

Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering

Peipei Song, Long Zhang, Long Lan, Weidong Chen, Dan Guo, Senior Member, IEEE, Xun Yang*, and Meng Wang, Fellow, IEEE

Abstract

**부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR)**은 텍스트-투-비디오 검색(text-to-video retrieval) 분야에서 실용적이지만 도전적인 task이다. 이 task에서는 비디오가 untrimmed되어 있으며 많은 배경 콘텐츠를 포함하고 있다. 여기서의 목표는 텍스트 쿼리와 untrimmed 비디오 간의 부분적인 대응 관계를 효과적이고 효율적으로 포착하는 솔루션을 찾는 것이다.
기존의 PRVR 방법들은 일반적으로 multi-scale clip representation 모델링에 초점을 맞추지만, 콘텐츠 독립성(content independence)과 정보 중복성(information redundancy) 문제로 인해 검색 성능이 저하되는 한계가 있었다.
이러한 한계를 극복하기 위해 우리는 능동적인 모멘트 발견(active moment discovering) 기능을 갖춘 간단하면서도 효과적인 접근 방식인 AMDNet을 제안한다. 우리는 쿼리와 의미적으로 일관된 비디오 모멘트를 발견하는 데 중점을 둔다.
학습 가능한 span anchor를 사용하여 개별 모멘트를 포착하고, masked multi-moment attention을 적용하여 중요한 모멘트를 강조하면서 중복되는 배경을 억제함으로써, 더욱 compact하고 정보가 풍부한 비디오 representation을 얻는다.
모멘트 모델링을 더욱 강화하기 위해 우리는 다음을 도입한다:

  • moment diversity loss: 서로 다른 영역의 모멘트들이 다양성을 갖도록 장려
  • moment relevance loss: 쿼리와 의미적으로 관련된 모멘트를 촉진

이 두 loss는 partially relevant retrieval loss와 협력하여 end-to-end 최적화를 수행한다.
두 개의 대규모 비디오 데이터셋(TVR 및 ActivityNet Captions)에 대한 광범위한 실험은 우리 AMDNet의 우수성과 효율성을 입증한다. 특히, AMDNet은 TVR 데이터셋에서 최신 방법인 GMMFormer보다 약 15.5배 더 적은 파라미터 수를 가지면서도 6.0점 더 높은 SumR 성능을 달성한다.

Index Terms—Text-to-video retrieval, partially relevant video retrieval, untrimmed video, active moment discovering

I. Introduction

소셜 미디어의 급속한 성장과 함께, 비디오 후보와 텍스트 쿼리를 정렬하는 텍스트-투-비디오 검색(T2VR) task는 상당한 관심과 발전을 이루었다 [1], [2].

이 연구는 중국 국가자연과학기금(No. 62402471, No. U22A2094, No. 62272435, No. 62302474)과 중국 박사후 과학기금(No. 2024M763154)의 지원을 받았다. 또한 이 연구는 중국과학기술대학교(USTC) 슈퍼컴퓨팅 센터에서 제공하는 고급 컴퓨팅 자원과 USTC 정보과학기술연구소 MCC Lab에서 구축한 GPU 클러스터의 지원을 받았다.

Peipei Song, Long Zhang, Weidong Chen, Xun Yang은 USTC 정보과학기술대학 소속이다 (이메일: beta.songpp@gmail.com; dragonzhang@mail.ustc.edu.cn; chenweidong@ustc.edu.cn; xyang21@ustc.edu.cn). Xun Yang은 또한 USTC의 MoE Key Laboratory of Brain-inspired Intelligent Perception and Cognition 소속이다. (* 교신저자: Xun Yang.)

Long Lan은 국방과학기술대학교(NUDT) 양자정보연구소 및 고성능 컴퓨팅 국가핵심연구소 소속이다 (이메일: long.lan@nudt.edu.cn).

Dan Guo와 Meng Wang은 교육부 빅데이터 지식공학 핵심연구소(HFUT) 및 허페이공업대학교(HFUT) 컴퓨터과학정보공학부 소속이며, 허페이종합국가과학센터 인공지능연구소 소속이다 (이메일: guodan@hfut.edu.cn; eric.mengwang@gmail.com).

Fig. 1. 기존 PRVR 방법 (a)과 우리 방법 (b)의 비교. 기존의 콘텐츠 독립적이고 정보 중복성이 높은 dense clip modeling과 달리, 우리는 학습 가능한 moment span을 통해 untrimmed video에서 compact moment를 발견하는 데 중점을 둔다.

[3], [4], [5], [6], [7], [8], [9]. 그러나 T2VR 데이터셋의 비디오는 해당 텍스트 쿼리와 완전히 관련되도록 미리 잘려져(pre-trimmed) 있어, 실제 세계와의 간극이 존재한다. 실제 소셜 미디어 또는 비디오 플랫폼(예: YouTube)에서는 비디오가 일반적으로 길고 여러 moment를 포함하며, 그중 하나의 moment만이 해당 텍스트 쿼리와 완전히 관련되어 있다 [10], [11], [12], [13]. 이러한 불일치(congruity)로 인해 T2VR 모델은 이러한 untrimmed video에서 성능이 저조하다. 위에서 언급된 문제를 극복하기 위해 연구자들은 부분적으로 관련 있는 비디오 검색(PRVR) 이라는 실용적이지만 도전적인 시나리오에서 T2VR을 해결할 것을 제안했다 [10], [14]. PRVR은 주어진 쿼리와 관련된 최소한 하나의 내부 moment를 포함하는 부분적으로 관련 있는 untrimmed video를 검색하는 것을 목표로 한다.

T2VR에서 놀라운 진전이 있었음에도 불구하고, untrimmed video와 텍스트 쿼리 간의 부분적인 대응 관계moment-query 정렬의 불가능성으로 인해 도전적인 PRVR은 여전히 미해결 문제로 남아있다. PRVR에서 대상 비디오는 쿼리와 관련 없는 많은 콘텐츠를 포함한다. 이러한 차이(divergence)는 비디오-텍스트 쌍 간의 매핑을 설정하는 것을 목표로 하는 T2VR 모델의 기존 학습 목표와 상충된다 [2], [15]. 텍스트 쿼리를 기반으로 주어진 untrimmed video에서 특정 moment를 검색하는 것을 목표로 하는 비디오 moment 검색(VMR) task는 텍스트 쿼리와 moment 분할을 정렬하는 데 적용될 수 있다 [16], [17], [18], [19]. 그러나 VMR은 대규모 비디오 데이터셋이 아닌 단일 비디오로 제한된다. 결과적으로 VMR의 방법들은 종종 쿼리 의존적인 비디오 모델링으로부터 이점을 얻지만 [17], PRVR의 경우 관련된 방대한 수의 쿼리-비디오 후보로 인해 극도로 시간이 많이 소요된다. untrimmed video에서 내재적인 moment를 효율적으로 포착하는 방법은 PRVR의 근본적인 과제 중 하나이다.

대부분의 기존 PRVR 방법들 [10], [15], [14], [20]은 텍스트와 비디오 간의 부분적인 대응 관계를 매핑하기 위해 dense clip representation을 모델링하는 데 중점을 두었다 (Fig. 11 (a) 참조). 이들은 다양한 길이의 clip proposal을 모두 탐색함으로써 관련 moment를 드러낼 수 있다는 가정에 기반하여 개발되었다. 지배적인 접근 방식은 일반적으로 연속적인 프레임에 다중 스케일 슬라이딩 윈도우 전략을 사용하여 clip proposal을 형성한다 [10], [15]. 그런 다음, 쿼리 임베딩과 clip 임베딩 간의 유사성으로부터 텍스트-비디오 유사성이 도출된다. 그러나 이러한 dense clip modeling은 콘텐츠 독립적이며 정보 중복성이 높다. 이는 두 가지 내재적인 병목 현상을 초래한다:

  1. 높게 겹치는 clip들은 유사한 의미를 가지므로, 다른 쿼리-clip 쌍의 유사성 계산을 혼란스럽게 할 것이다.
  2. 다중 스케일 clip 구성은 과도하게 관련 없는 clip 임베딩을 생성하고 많은 저장 오버헤드를 요구한다. 예를 들어, 과거 PRVR 방법인 MS-SL [10]은 총 528개의 길이 clip 임베딩을 유지하는데, 이 중 TVR 데이터셋에서 해당 텍스트 설명과 관련된 clip은 단 5개뿐이다.

본 논문에서는 위에서 언급된 문제들을 해결하기 위해 compact moment discovery를 활용하는 새로운 솔루션을 제안한다. 우리의 동기는 자연스러운 특성에 있다: 긴 비디오는 쿼리와 정보적이고 의미적으로 일관된 몇 가지 salient moment를 포함한다. 이러한 moment를 식별하는 것은 비디오-쿼리 관련성을 명확하게 만든다. Fig. 1 (b)에서 보듯이, 우리는 untrimmed video에서 다른 moment를 특징짓는 두 개의 학습 가능한 span anchor (즉, center와 width) 를 비디오로부터 추론한다. 이 접근 방식은 PRVR을 해결하는 데 두 가지 주요 이점을 제공한다.

  1. untrimmed video는 다른 텍스트 쿼리에 해당하는 여러 moment를 포함하며, PRVR 모델은 이를 구별해야 한다. span anchor로 다른 시간적 영역을 커버함으로써, 우리는 구별되는 의미를 가진 별개의 moment를 추출할 수 있으며, 이를 통해 모델은 주어진 텍스트 쿼리에 대해 가장 관련 있는 moment를 식별할 수 있다.
  2. 학습 가능한 moment span의 안내를 받아, 우리는 masked video encoding을 통해 compact moment-enhanced representation을 구성할 수 있다. 각 moment span에 대해, 그 안에 있는 비디오 clip은 보존되고, 그 밖에 있는 clip은 마스킹된다. 이 전략은 비디오 feature에서 moment와 관련된 부분을 강조하고 관련 없는 부분을 억제한다. 결과적으로, 향상된 비디오는 중복되는 의미가 적고 텍스트-투-비디오 검색에 더 유용하다.

우리의 아이디어를 구현하기 위해, 우리는 active moment discovering (AMDNet) 을 갖춘 간단하면서도 효과적인 PRVR 네트워크를 개발한다. Fig. 2에서 보듯이, untrimmed video와 해당 텍스트 쿼리가 주어지면, AMDNet은 먼저 입력 텍스트 쿼리 q\mathbf{q}와 비디오 프레임 V 모두에 대한 feature embedding을 추출한다. 이어서, 비디오에 조건화된 center 및 width anchor를 예측하고, 이는 masked multi-moment attention을 통해 비디오 인코딩을 조절하는 mask matrix M으로 변환된다. 특히, M은 각 정보적인 moment를 강조하고 moment 외부의 배경 콘텐츠를 억제하여, 우리는 moment-enhanced video representation Vg\mathbf{V}^{g} 를 얻는다. 새로운 Vg\mathbf{V}^{g}V\mathbf{V}의 차원을 유지하지만, untrimmed video 내의 여러 moment proposal의 풍부한 의미를 포착하도록 향상된다. 마지막으로, 우리는 Vg\mathbf{V}^{g}q\mathbf{q} 간의 유사성 관계를 max-pooling하여 텍스트-비디오 유사성을 계산한다. 우리는 교차 모달 검색 및 moment discovery task 모두에 대해 모델을 end-to-end로 최적화한다. 여기에는 단일 비디오 및 다중 쿼리의 이중 검색을 보장하는 partially relevant retrieval loss Lret\mathcal{L}^{\text {ret}}, moment 간의 겹침을 줄이는 moment diversity loss Ldiv\mathcal{L}^{\text {div}}, 그리고 moment가 쿼리와 의미적으로 관련되도록 보장하는 moment relevance loss Lrel\mathcal{L}^{\text {rel}} 가 포함된다.

전반적으로, 우리의 주요 기여는 다음과 같다:

  • 우리는 PRVR에서 dense clip modeling의 기존 한계(효과성 및 효율성 측면 모두) 를 해결하기 위해 active moment discovery라는 새로운 관점을 제안한다.
  • 우리는 untrimmed video에서 compact하고 의미 있는 moment를 포착하여 쿼리와의 부분적인 정렬을 개선하는 간단하면서도 효과적인 AMDNet을 고안한다. 의미적으로 타당한 moment 예측을 보장하기 위해 moment relevance loss가 설계되었다.
  • 두 개의 대규모 데이터셋(즉, TVR 및 ActivityNet Captions)에 대한 광범위한 실험 및 ablation study는 우리 AMDNet의 우수성과 효율성을 입증한다. 시각화 결과는 moment 학습의 효과성을 더욱 잘 보여준다.

A. Text-to-video Retrieval

이미지-텍스트 검색 [21], [22] 및 referring expression grounding [23]을 포함한 cross-modal learning의 최근 발전은 시각 및 텍스트 모달리티 간의 **의미론적 간극(semantic gap)**을 해결함으로써 T2VR task에 대한 관심이 증가하고 있다. 텍스트 쿼리가 주어졌을 때, T2VR task는 사전 트리밍된(pre-trimmed) 비디오 클립 세트에서 쿼리와 관련된 비디오를 검색하는 것을 목표로 한다.

표준 파이프라인은 다음과 같다:

  1. 먼저 비디오와 텍스트를 인코딩하여 비디오 및 문장 표현(representation)을 얻는다.
  2. 그런 다음 이들을 공통 임베딩 공간(common embedding space)에 매핑하여 cross-modal 유사도를 측정한다 [24], [4], [7], [8], [25].

이러한 방법들은 일반적으로 각각의 사전학습된 unimodal 모델을 통해 비디오 및 텍스트 feature를 추출하고, 대량의 비디오-텍스트 쌍을 기반으로 cross-modal 유사도를 학습한다. 대규모 이미지-텍스트 사전학습 모델인 CLIP [26]의 큰 성공에 힘입어, 대부분의 최근 연구들은 T2VR task에 CLIP encoder를 활용하여 효율적인 학습 패러다임으로 state-of-the-art 결과를 달성하고 있다 [27], [28], [29], [30], [31].

그러나 위에 언급된 T2VR 방법들은 사전 트리밍된 비디오 검색에만 국한되어 있으며, 이 비디오들의 의미는 현재 멀티미디어 애플리케이션에서 사용되는 비디오보다 훨씬 단순하다는 한계가 있다.

B. Partially Relevant Video Retrieval

PRVR(Partially Relevant Video Retrieval) task [10]는 T2VR(Text-to-Video Retrieval)보다 실제 세계에 더 부합하는, 주어진 쿼리에 부분적으로 관련된 untrimmed video를 검색하는 것을 목표로 한다. PRVR에서는 텍스트와 untrimmed video 간의 부분적인 관계를 포착하는 것이 중요하다. 이전 연구들은 텍스트 쿼리와 clip-level 비디오 표현 간의 dense matching을 사용하여 이 task를 해결했다. Dong et al. [10]은 **multi-scale similarity learning (MS-SL)**을 제안했는데, 이는 인코딩된 frame-level 표현으로부터 여러 클립을 구성하고 클립과 텍스트 쿼리 간의 cross-modal similarity를 계산한다. 이후, 대규모 멀티모달 사전학습 모델의 능력에 영감을 받아, CLIP으로부터 텍스트-프레임 정렬을 증류(distill)하기 위한 DL-DKD 모델 [14]을 개발했다. Wang et al. [15]는 multi-scale Gaussian window를 활용하여 다양한 범위의 프레임 상호작용을 제약하고, 인접 프레임의 가중치 집계(weighted aggregation)를 통해 클립 feature를 생성했다. 그런 다음, multi-scale feature aggregation을 위한 학습 가능한 쿼리 및 가중치 생성기를 도입한 GMMFormer v2 [32]를 제안했다. Jiang et al. [20]은 dense Gaussian-weighted pooling을 사용하여 비디오 프레임을 요약하고 coarse-grained event representation을 얻었다. PRVR의 효율성을 개선하기 위해 Nishimura et al. [12]는 고정된 수의 인접 프레임을 이미지 패치로 super-image에 이어 붙이는 방식을 제안했다. 자원 친화적이지만, 그들의 결과는 super-image가 프레임 시퀀스보다 훨씬 성능이 떨어진다는 것을 보여준다.

Fig. 2. 제안하는 AMDNet의 개요. untrimmed video와 쿼리 입력이 주어지면, 먼저 이들의 feature V\mathbf{V}q\mathbf{q}를 추출한다. 그런 다음, center와 width anchor [c,w][\mathbf{c}, \mathbf{w}]를 예측하고 이를 mask matrix M\mathbf{M}으로 변환한다. M\mathbf{M}masked multi-moment attention을 통해 비디오 인코딩을 조절하고 **moment-enhanced video representation Vg\mathbf{V}^{g}**를 생성하는 데 사용된다. 마지막으로, Vg\mathbf{V}^{g}q\mathbf{q} 간의 유사도 관계를 max-pooling하여 텍스트-비디오 유사도를 얻는다. 이 모델은 **부분적으로 관련된 검색 손실(partially relevant retrieval loss), moment 다양성 손실(moment diversity loss), moment 관련성 손실(moment relevance loss)**을 포함하는 multi-task loss로 공동 최적화된다.

본 논문에서는 PRVR task에 중점을 둔다. 모든 가능한 클립을 탐색하고 수많은 관련 없는 클립 임베딩을 생성하는 이전 방식과 달리, 우리는 학습 가능한 span anchor를 사용하여 유망한 moment를 능동적으로 발견하는 방식을 제안한다. 이는 비디오 프레임의 정보성 그룹화에 효과적이고 효율적이다.

C. Video Moment Retrieval

PRVR과 달리, VMR (Video Moment Retrieval) task주어진 단일 untrimmed 비디오에서 텍스트 쿼리에 기반하여 특정 순간을 검색하는 것을 목표로 한다 [16], [17], [18], [19], [33], [34]. VMR task는 untrimmed 비디오에 적용되어 텍스트와 비디오 모달리티를 정렬할 수 있지만, 대규모 비디오 데이터셋이 아닌 단일 비디오에만 제한적이라는 한계가 있다.
VCMR (Video Corpus Moment Retrieval) task는 VMR의 발전된 형태로, 주어진 쿼리에 기반하여 untrimmed 비디오 컬렉션에서 순간을 검색하는 것을 목표로 한다 [35], [36], [37], [38]. VCMR 방법들은 일반적으로 두 단계 파이프라인을 채택한다:

  • 첫 번째 단계: 여러 후보 비디오를 검색
  • 두 번째 단계: 후보 비디오에서 순간을 검색

그러나 VCMR은 모든 쿼리에 대해 시간적 경계(temporal boundaries)에 대한 수고로운 수동 어노테이션이 필요하므로, 실제 애플리케이션에서의 확장성과 실용성이 제한된다.

D. Grouping Video Information Units

연속적인 비디오 프레임은 매우 반복적인 정보를 포함하고 있기 때문에, 인간이 비디오를 이해하는 방식을 모방하여 비디오를 정보 단위로 인코딩하는 것이 중요하다 [39], [40], [41], [42]. 이러한 정보 단위의 유형은 다양하다.

  • 연속적인 프레임으로 구성된 고정 또는 적응형 수의 세그먼트로 비디오를 분할하는 방법 [43], [44],
  • 비디오 요약에 유용한 핵심 프레임을 선택하는 방법 [45],
  • 객체 수준 [46], [47], [48], [49], [50] 또는 의미 수준 [51]에서 비디오 프레임의 모든 feature를 수집하는 방법 등이 있다.

최근 연구들은 또한 오디오 및 시각 feature를 결합하고 [52], 멀티모달 feature 상호작용 융합을 수행하여 [53] 비디오 표현을 더욱 향상시키는 방법을 탐구하고 있다. PRVR의 경우, 텍스트 정렬을 위해 비디오에서 의미 있는 순간 단위(moment units)를 어떻게 발견할 것인가가 해결해야 할 과제이다.

III. Method

A. Overview

PRVRtext-to-video retrieval 분야에서 도전적인 task이다. PRVR 데이터베이스의 각 비디오는 여러 moment를 포함하며, 여러 텍스트 설명과 연결되어 있다. 이때 각 텍스트 설명은 해당 비디오의 특정 moment 내용을 나타낸다. 텍스트 쿼리 tt가 주어졌을 때, PRVR task는 대규모의 untrimmed 비디오 코퍼스에서 주어진 쿼리와 의미적으로 관련된 moment mvm^v를 포함하는 비디오 vv를 검색하는 것을 목표로 한다. PRVR에서는 moment의 시작 또는 종료 시점이 제공되지 않으므로, 즉 (t,mv)(t, m^v)의 정렬(alignment) 정보가 없다는 점을 언급할 가치가 있다.

일반적인 PRVR 모델은 텍스트 쿼리와 모든 비디오 클립 간의 유사도를 측정하는 유사도 함수 S(t,v)S(t, v)를 학습하는 것이다 [10], [15]. 그러나 불필요한 클립이 많으면 검색의 정확도와 효율성에 심각한 영향을 미친다. 우리는 새로운 관점에서 비디오 내에서 판별력 있는(discriminative) moment를 발견하고자 노력하며, 이를 통해 잠재적으로 S(t,mv)S(t, m^v)의 유사도를 학습할 수 있다. Fig. 2에서 보듯이, 우리 방법은 **능동적인 moment 발견 모듈(active moment discovering module)**을 도입한다. 이 모듈은 먼저 비디오에서 span anchor를 추론한 다음, **moment-enhanced video representation Vg\mathbf{V}^g**를 구성한다. 우리는 쿼리와 moment-enhanced representation을 기반으로 텍스트-비디오 쌍의 유사도를 계산한다. 학습을 위해 우리는 cross-modal retrievalmoment discovery 관점에서 모델을 공동으로 최적화하며, 이때 **부분적으로 관련된 검색 손실(partially relevant retrieval loss), moment 다양성 손실(moment diversity loss), moment 관련성 손실(moment relevance loss)**을 사용한다. 각 구성 요소의 세부 사항은 다음 하위 섹션에서 설명될 것이다.

B. Multimodal Representation

주어진 untrimmed video와 자연어 query에 대해, 우리는 먼저 이들을 feature vector로 인코딩한다. 기존 방법들 [14], [12], [11]을 따라, 우리는 CLIP [26]을 encoder backbone으로 사용한다. 먼저, 사전학습된 CLIP visual encoder를 사용하여 untrimmed video의 frame feature를 추출한다. 그 다음, 검색 효율성을 높이기 위해, 해당하는 여러 연속적인 frame feature들을 mean pooling하여 NN개의 feature vector를 균일하게 샘플링하고, ReLU activation을 가진 FC layer를 사용하여 차원을 축소한다. 마지막으로, 학습 가능한 positional embedding을 가진 Transformer block을 사용하여 시간적 종속성(temporal dependency)을 포착하고 clip feature V={vn}n=1NRN×d\mathbf{V}= \left\{\mathbf{v}_{n}\right\}_{n=1}^{N} \in \mathbb{R}^{N \times d}를 얻는다. 여기서 dd는 feature dimension이다.

텍스트 query의 경우, 사전학습된 CLIP text encoder를 사용하여 문장 수준의 feature를 추출한다. vision과 language domain을 연결하기 위해, ReLU activation을 가진 FC layer를 사용하여 텍스트 query를 비디오 표현 V\mathbf{V}와 동일한 dd-차원 semantic vector space qRd\mathbf{q} \in \mathbb{R}^{d}로 임베딩한다. 이는 문장 내의 semantic context를 고려한다.

C. Active Video Moment Discovering

쿼리 feature q\mathbf{q}와 clip feature V\mathbf{V}가 주어졌을 때, 텍스트-비디오 정렬(text-video alignment)을 얻는 기본적인 방법q\mathbf{q}V\mathbf{V}feature 유사도를 계산하는 것이다 [14], [10]. 이 경우, 각 clip vn\mathbf{v}_{n}은 텍스트 쿼리에 대한 **대략적인(coarse) 순간 후보(moment candidate)**로 취급된다. 그러나 [14]의 경험적 발견에 따르면, 기본 CLIP feature는 쿼리 관련 활동과 쿼리 비관련 활동이 혼합된 untrimmed video를 처리하는 데 실패한다. 이는 쿼리에 의해 설명될 가능성이 있는 untrimmed video 내의 유익한 순간(informative moments)을 포착해야 할 필요성을 제기한다.

Moment Span Prediction
비디오 내의 여러 순간(moment)을 표현하기 위해, 우리는 중심 c={ch}h=1H\mathbf{c}=\left\{c_{h}\right\}_{h=1}^{H}과 너비 w={wh}h=1HRH\mathbf{w}=\left\{w_{h}\right\}_{h=1}^{H} \in \mathbb{R}^{H}의 두 span anchor를 사용한다. 여기서 0ch10 \leqslant c_{h} \leqslant 10wh10 \leqslant w_{h} \leqslant 1비디오 길이에 대한 상대적인 위치를 나타내며, HH는 비디오 내에서 사전 정의된 moment proposal의 개수이다.

Fig. 3. Masked multi-moment attention의 시각화. 이는 moment mask M의 안내에 따라 비디오 clip feature V\mathbf{V}moment-enhanced feature Vg\mathbf{V}^{g}로 업데이트한다. HH는 비디오 내의 moment proposal 개수이다.

정식으로, 각 비디오에 대해 우리는 전역 비디오 semantic v\overline{\mathbf{v}}에 조건화된 moment span을 다음과 같이 예측한다:

v=Linear(AvgPooling(V))Rd,[c,w]=sigmoid(Linear(v))RH×2.\begin{gathered} \overline{\mathbf{v}}=\operatorname{Linear}(\operatorname{AvgPooling}(\mathbf{V})) \in \mathbb{R}^{d}, \\ {[\mathbf{c}, \mathbf{w}]=\operatorname{sigmoid}(\operatorname{Linear}(\overline{\mathbf{v}})) \in \mathbb{R}^{H \times 2} .} \end{gathered}

학습 중에 moment prediction 파라미터는 backpropagation을 통해 학습될 수 있다.

다음으로, 우리는 후속 feature 계산을 위한 moment mask matrix를 준비한다. 실험에서는 [54]를 참조하여 Gaussian 함수를 사용하여 span-to-mask 변환을 구현한다. 이 방법은 미분 가능하며 span 생성과 함께 end-to-end로 최적화될 수 있다 [20], [15], [54]. 구체적으로, **moment mask matrix M={mh,nh=1,,H,n=1,,N}RH×N\mathbf{M}=\left\{m_{h, n} \mid h=1, \ldots, H, n= 1, \ldots, N\right\} \in \mathbb{R}^{H \times N}**는 다음 공식으로 계산된다:

mh,n=1(σwh)2πexp(12(n/Nch)2(σwh)2),m_{h, n}=\frac{1}{\left(\sigma w_{h}\right) \sqrt{2 \pi}} \exp \left(-\frac{1}{2} \frac{\left(n / N-c_{h}\right)^{2}}{\left(\sigma w_{h}\right)^{2}}\right),

여기서 σ\sigma는 너비와 관련된 하이퍼파라미터이다. hh-번째 moment proposal에서, nn-clip의 mask 값 mh,nm_{h, n}moment의 중심에 가까울수록 1에 가까워지고, moment에서 멀어질수록 0에 가까워진다. span-to-mask 변환의 구현은 유연하다는 점에 유의해야 한다. Section IV-D에서는 Rectangular window 및 Triangular window [15]와 같은 다양한 변환 전략을 테스트하기 위한 실험 연구를 수행했으며, 우리의 방법은 지속적으로 상당한 개선을 달성한다.

Masked Multi-moment Encoding
moment 단서를 모델에 통합하고 moment-enhanced video representation을 얻기 위해, 여기서는 Fig. 3에 나타난 대로 **moment mask matrix M을 사용하여 비디오 인코딩을 조절(modulate)**한다. HH개의 moment proposal이 주어졌을 때, 우리는 세 가지 선형 변환을 통해 각각 HH개의 쿼리, 키, 값 세트를 얻는다. hh-번째 moment proposal에 대해 쿼리 Qh=VWhq\mathcal{Q}_{h}=\mathbf{V} W_{h}^{q}, 키 Kh=VWhk\mathcal{K}_{h}=\mathbf{V} W_{h}^{k}, 값 Vh=VWhv\mathcal{V}_{h}=\mathbf{V} W_{h}^{v}를 얻는다. 그런 다음 mask 값 mh={mh,1,,mh,N}\mathbf{m}_{h}=\left\{m_{h, 1}, \ldots, m_{h, N}\right\}을 사용하여 query-key attention score에 대해 element-wise product를 수행하고, softmax 함수를 사용하여 값에 대한 attentional distribution을 결정한다. 결과적으로 **가중 평균된 값은 hh-번째 moment에 대한 요약된 비디오 representation Vhatt\mathbf{V}_{h}^{a t t}**를 형성한다.

Vhatt=softmax(mhNQhKhdk)VhRN×dk,\mathbf{V}_{h}^{a t t}=\operatorname{softmax}\left(\mathbf{m}_{h} \|_{N} \odot \frac{\mathcal{Q}_{h} \mathcal{K}_{h}^{\top}}{\sqrt{d_{k}}}\right) \mathcal{V}_{h} \in \mathbb{R}^{N \times d_{k}},

여기서 N\|_{N}, \odot, dk=d/Hd_{k}=d / H는 각각 NN-번의 행별 연결(row-wise concatenation), element-wise product, 쿼리/키/값 차원을 나타낸다.

마지막으로, 개별 moment를 강조하는 모든 Vhatt\mathbf{V}_{h}^{\text {att}}와 전체 비디오를 설명하는 V\mathbf{V}를 feed-forward network에 입력하여, 비디오의 **moment-enhanced representation Vg\mathbf{V}^{g}**를 얻는다. Vg\mathbf{V}^{g}V\mathbf{V}의 전체 컨텍스트를 유지하면서 moment semantic을 강조하여 비디오에 대한 포괄적인 이해를 촉진한다.

Vg=FFN([V1att,,VHatt],V)RN×d\mathbf{V}^{g}=\operatorname{FFN}\left(\left[\mathbf{V}_{1}^{a t t}, \ldots, \mathbf{V}_{H}^{a t t}\right], \mathbf{V}\right) \in \mathbb{R}^{N \times d}

여기서 [,]는 열별 연결(column-wise concatenation)을 나타낸다. vanilla Transformer block [55], [56]과 마찬가지로, FFN(•)은 residual connection, multi-layer perceptron, layer normalization을 결합한다.

D. Partially Relevant Text-Video Retrieval

쿼리 및 비디오 표현, 즉 q\mathbf{q}Vg\mathbf{V}^{g}를 사용하여, 텍스트와 비디오 간의 유사도dd-차원 임베딩 공간에서의 feature 유사도로 측정할 수 있다. 단일 텍스트 캡션이 전체 비디오 콘텐츠의 일부만을 포착할 수 있다는 점을 고려하여, 우리는 쿼리 feature q\mathbf{q}와 임의의 moment-enhanced feature Vg\mathbf{V}^{g} 사이의 최대 유사도를 선택하여 텍스트-비디오 쌍의 유사도를 나타낸다.

S(t,v)=max(sim(q,Vg))S(t, v)=\max \left(\operatorname{sim}\left(\mathbf{q}, \mathbf{V}^{g}\right)\right)

여기서 sim(,)\operatorname{sim}(\cdot, \cdot)은 임베딩 공간에서의 유사도 함수이며 [57], [58], 우리 실험에서는 일반적인 **내적(inner product)**으로 구현된다.

E. Learning

우리의 AMDNet은 crossmodal retrieval 및 moment discovery task와 관련된 세 가지 loss 항목을 포함한다:

  1. **부분적으로 관련된 retrieval loss Lret \mathcal{L}^{\text {ret }}**는 의미적으로 가장 관련성이 높은 비디오와 텍스트 쿼리 간의 이중 정렬(dual alignment)을 장려하는 데 사용되며,
  2. **moment diversity loss Ldiv \mathcal{L}^{\text {div }}**는 모델이 여러 개의 서로 다른 moment proposal을 생성하도록 훈련하는 데 사용되고,
  3. **moment relevance loss Lrel \mathcal{L}^{\text {rel }}**는 moment proposal과 해당 쿼리 간의 의미적 관련성을 보장하는 데 사용된다.

위에서 언급된 세 가지 목표를 모두 공동으로 최적화하기 위한 최종 loss 함수는 다음과 같이 정의된다:

L=λretLret+λdivLdiv+λrelLrel,\mathcal{L}=\lambda_{r e t} \mathcal{L}^{r e t}+\lambda_{d i v} \mathcal{L}^{d i v}+\lambda_{r e l} \mathcal{L}^{r e l},

여기서 λ\lambda_{*}는 세 가지 loss의 균형을 맞추기 위한 하이퍼파라미터이다.

부분적으로 관련된 Retrieval Loss (Partially Relevant Retrieval Loss)
retrieval 부분에서는 infoNCE loss [59], [36]를 채택하여 text-to-video 및 video-to-text task의 이중 학습 패러다임을 제약한다. PRVR에서 다중 moment 비디오와 단일 moment 쿼리 간의 상이한 granularity를 고려하여, mini-batch B\mathcal{B}에 걸쳐 텍스트-비디오 쌍에 대한 loss Lret \mathcal{L}^{\text {ret }}를 다음과 같이 계산한다:

Lret=1BvB{1PttPtlog(S(t,v)S(t,v)+tNtS(t,v))Video-to-multiquery +log(S(t,v)S(t,v)+vNvS(t,v))Query-to-video }\begin{aligned} \mathcal{L}^{r e t}=-\frac{1}{|\mathcal{B}|} & \sum_{v \in \mathcal{B}}\{\underbrace{\frac{1}{\left|\mathcal{P}_{t}\right|} \sum_{t \in \mathcal{P}_{t}} \log \left(\frac{S(t, v)}{S(t, v)+\sum_{t^{-} \in \mathcal{N}_{t}} S\left(t^{-}, v\right)}\right)}_{\text {Video-to-multiquery }} \\ & +\underbrace{\log \left(\frac{S(t, v)}{S(t, v)+\sum_{v^{-} \in \mathcal{N}_{v}} S\left(t, v^{-}\right)}\right)}_{\text {Query-to-video }}\} \end{aligned}

여기서 Pt\mathcal{P}_{t}는 mini-batch 내 비디오 vv의 모든 positive text를 나타내고, Nt\mathcal{N}_{t}는 mini-batch 내 비디오 vv의 모든 negative text를 나타내며, Nv\mathcal{N}_{v}는 mini-batch 내 쿼리 tt의 모든 negative video를 나타낸다. 간결성을 위해 exp 함수는 생략하였다. video-to-multiquery 항목에서 입력 비디오에 대해 Pt\mathcal{P}_{t}의 모든 positive text를 고려한다는 점은 주목할 만하다. 이는 비디오와 모든 positive text 간의 유사도를 높이도록 장려한다.

Moment Diversity Loss (Moment Diversity Loss)
moment discovery 과정에서 두 개의 span anchor c\mathbf{c}w\mathbf{w}는 학습 가능하며 end-to-end 최적화 중에 튜닝된다. 모델이 서로 다른 영역의 다양한 moment를 포착하도록 장려하기 위해, 우리는 [60], [54]와 같이 HH개의 moment에 **diversity loss Ldiv \mathcal{L}^{\text {div }}**를 적용한다:

Ldiv=MMαIF2,\mathcal{L}^{d i v}=\left\|\mathbf{M} \mathbf{M}^{\top}-\alpha \mathbf{I}\right\|_{F}^{2},

여기서 I\mathbf{I}는 identity matrix이고, α[0,1]\alpha \in[0,1]는 하이퍼파라미터이다. Ldiv \mathcal{L}_{\text {div }}moment들이 겹치는 부분을 줄이고 동일한 중심과 너비로 수렴하는 것을 방지한다.

Moment Relevance Loss (Moment Relevance Loss)
다양성 외에도 moment는 해당 쿼리와 의미적으로 관련성이 있어야 한다. 그러나 PRVR 데이터셋은 쿼리와 moment 간의 대응 관계에 대한 주석이 부족하다. 이를 위해 우리는 두 가지 관련성 점수 세트로 작동하는 **moment relevance loss Lrel \mathcal{L}^{\text {rel }}**를 도입한다: 하나는 높은 순위의 moment에 대한 것이고, 다른 하나는 전체 비디오와 쿼리 간의 관련성에 대한 것이다.
구체적으로, 쿼리 q\mathbf{q}에 대해 우리는 max(sim(q,Vm))\max \left(\operatorname{sim}\left(\mathbf{q}, \mathbf{V}^{m}\right)\right)를 관련 moment에 대한 positive relevance score로 간주한다. 여기서 Vm\mathbf{V}^{m}HH개의 moment proposal의 RoI feature를 나타내며, Vm=MVRH×d\mathbf{V}^{m}=\mathbf{M} \cdot \mathbf{V} \in \mathbb{R}^{H \times d}로 정의된다. moment 그룹이 q\mathbf{q}높은 관련성이 있는 프레임만 포함하도록 보장하기 위해, 우리는 전체 비디오를 negative moment 후보로 요약한다. negative relevance score는 Eq. (1)에서 q\mathbf{q}와 global video feature v\overline{\mathbf{v}}를 사용하여 계산된다.
그런 다음, positive 및 negative relevance score의 상대적 값을 제약하기 위해 Lrel \mathcal{L}^{\text {rel }}가 제안된다. Lrel \mathcal{L}^{\text {rel }}는 다음과 같이 공식화된다:

Lrel=[β+sim(q,v)max(sim(q,Vm))]+,\mathcal{L}^{r e l}=\left[\beta+\operatorname{sim}(\mathbf{q}, \overline{\mathbf{v}})-\max \left(\operatorname{sim}\left(\mathbf{q}, \mathbf{V}^{m}\right)\right)\right]_{+},

여기서 β\beta는 margin parameter 역할을 한다. [x]+=max(x,0)[x]_{+}=\max (x, 0)이다. Lrel \mathcal{L}^{\text {rel }}negative relevance score에 비해 positive relevance score가 증가함에 따라 감소하며, 이를 통해 쿼리 관련 moment 예측을 장려한다.

IV. Experiment

A. Experimental Setup

  1. 데이터셋 (Dataset)
    우리는 두 개의 긴 untrimmed 비디오 데이터셋인 **ActivityNet Captions [61]**와 **TVR [35]**에 대해 우리의 방법을 평가한다. PRVR task에서는 이 데이터셋들이 제공하는 moment annotation은 사용되지 않는다.
    **ActivityNet Captions [61]**는 YouTube에서 가져온 약 2만 개의 비디오를 포함하며, 비디오의 평균 길이는 약 118초이다. 평균적으로 각 비디오는 3.7개의 moment와 해당 문장 설명을 가지고 있다. 공정한 비교를 위해, 우리는 [10]에서 사용된 것과 동일한 데이터 분할을 채택하여, 학습용으로 10,009개 비디오(37,421개 annotation), **테스트용으로 4,917개 비디오(17,505개 annotation)**를 사용한다. 참조의 편의를 위해 이 데이터셋을 ActivityNet이라고 부른다.
    **TV show Retrieval (TVR) [35]**은 6개의 TV 쇼에서 수집된 21.8K개의 비디오를 포함하며, 비디오의 평균 길이는 약 76초이다. 각 비디오는

TABLE I ActivityNet에서 SOTA 모델들과의 성능 비교. DL-DKD-Multi는 CLIP과 TCL [62]을 함께 사용하여 DL-DKD를 확장한 모델이다. *는 CLIP-ViT-B/32 사전학습 가중치를 사용한 공식 코드를 통한 재현 결과를 나타낸다.

MethodVenueR@1R@5R@10R@100\mathbf{R} @ 100SumR
T2VR Models
W2VV [24]TMM'182.29.516.645.573.8
HTM 55ICCV'193.713.722.366.2105.9
HGR [4]CVPR'204.015.024.863.2107.0
RIVRL [2]TCSVT'225.218.028.266.4117.8
VSE++ [8]BMVC'194.917.728.267.1117.9
DE++ [3]TPAMI'215.318.429.268.0121.0
DE [9]CVPR'195.618.829.467.8121.7
W2VV++ 7ACM MM'195.418.729.768.8122.6
CE [6]BMVC'195.519.129.971.1125.6
CLIP4Clip 27Neuro.'225.919.330.471.6127.3
Cap4Video [28]CVPR'236.320.430.972.6130.2
VCMR Models w/o Moment Localization
ReLoCLNet 36SIGIR'215.718.930.072.0126.6
XML 35ECCV'205.319.430.673.1128.4
CONQUER 37ACM MM'216.520.431.874.3133.1
PRVR Models
MS-SL 10]ACM MM'227.122.534.775.8140.1
PEAN 20]]ICME'237.423.035.575.9141.8
GMMFormer 15AAAI'248.324.936.776.1146.0
DL-DKD 14ICCV'238.025.037.577.1147.6
DL-DKD-Multi [14]ICCV'238.125.337.777.6148.6
GMMFormer* 15AAAI'2410.629.542.679.7162.4
MS-SL* [10]ACM MM'2211.330.743.581.7167.2
AMDNetOurs12.332.545.982.1172.8

TABLE II TVR에서 SOTA 모델들과의 성능 비교.

MethodVenueR@1R@5R@10R@100SumR
T2VR Models
W2VV [24]TMM'182.65.67.520.636.3
HGR [4]CVPR'201.74.98.335.250.1
HTM 55]ICCV'193.812.019.163.298.2
CE [6]BMVC'193.712.820.164.5101.1
W2VV++ 77ACM MM'195.014.721.761.8103.2
VSE++ [8]BMVC'197.519.927.766.0121.1
DE [9]CVPR'197.620.128.167.6123.4
DE++ [3]TPAMI'218.821.930.267.4128.3
RIVRL [2]TCSVT'229.423.432.270.6135.6
CLIP4Clip 27Neuro.'229.924.334.372.5141.0
Cap4Video [28]CVPR'2310.326.436.874.0147.5
VCMR Models w/o Moment Localization
XML 35ECCV'2010.026.537.381.3155.1
ReLoCLNet 36SIGIR'2110.728.138.180.3157.1
CONQUER 37ACM MM'2111.028.939.681.3160.8
PRVR Models
MS-SL [10]ACM MM'2213.532.143.483.4172.4
PEAN [20]ICME'2313.532.844.183.9174.2
GMMFormer 15AAAI'2413.933.344.584.9176.6
DL-DKD [14]ICCV'2314.434.945.884.9179.9
DL-DKD-Multi [14]ICCV'2315.135.446.584.5181.6
MS-SL* [10]ACM MM'2217.839.450.788.2196.1
GMMFormer* 15AAAI'2418.140.251.789.0199.1
AMDNetOurs19.742.454.188.9205.1

비디오 내 특정 moment를 설명하는 5개의 자연어 문장과 연결되어 있다. [10]을 따라, 우리는 학습용으로 17,435개 비디오(87,175개 moment), **테스트용으로 2,179개 비디오(10,895개 moment)**를 활용한다.

  1. 평가 지표 (Evaluation Metric)
    우리는 **검색 성능(retrieval performance)**과 검색 효율성(retrieval efficiency) 측면에서 모델을 종합적으로 평가한다.
    성능 지표 (Performance Metrics)
    이전 연구 [10]를 따라, 우리는 **순위 기반 지표인 R@K (K=1, 5, 10, 100)**를 활용한다. R@K랭킹 목록의 상위 K개 내에서 원하는 항목을 올바르게 검색한 쿼리의 비율을 나타내며, 백분율(%)로 보고된다. SumR 또한 전체 성능 지표로 사용되며, 이는 모든 recall 점수의 합으로 정의된다. 점수가 높을수록 성능이 우수함을 의미한다.
    효율성 지표 (Efficiency Metrics)
    우리는 메모리 소비량을 위해 총 파라미터 수를, **처리량(throughput)**을 위해 FLOPs를 보고한다. FLOPs는 시각/텍스트 backbone 인코딩부터 비디오-텍스트 유사도 계산까지의 총 부동 소수점 연산 수를 계산한다. 또한, 우리는 다양한 데이터베이스 크기에서 단일 텍스트 쿼리에 대한 검색 프로세스를 완료하는 데 걸리는 평균 런타임 및 메모리 사용량을 측정한다.

Fig. 4. 다양한 유형의 쿼리에 대한 성능. 쿼리는 **moment-to-video 비율(M/V)**에 따라 그룹화된다. M/V 값이 작을수록 더 어려운 쿼리임을 나타낸다.

TABLE III ActivityNet 및 TVR 데이터셋에 대한 비디오-텍스트 검색(video-to-text retrieval) task 결과. R@K는 관련 설명 중 하나라도 상위 K개에 랭크되었는지 여부를 나타낸다.

DatasetMethodR@1R@5R@10R@100SumR
ActivityNetMS-SL* [10]10.130.746.693.2180.5
GMMFormer* [15]11.234.951.393.6190.9
AMDNet14.7\mathbf{14 . 7}40.8\mathbf{40 . 8}56.9\mathbf{5 6 . 9}95.7\mathbf{9 5 . 7}208.1\mathbf{2 0 8 . 1}
TVRGMMFormer* [15]22.651.466.096.2236.3
MS-SL* [10]27.156.569.296.9249.7
AMDNet26.5\mathbf{26 . 5}59.6\mathbf{5 9 . 6}72.1\mathbf{7 2 . 1}97.4\mathbf{9 7 . 4}255.6\mathbf{25 5 . 6}
  1. 구현 세부 사항 (Implementation Details)
    우리는 각 비디오에서 N=32N=32개의 클립을 균일하게 샘플링한다. vision 및 text encoder로는 OpenAI에서 제공하는 Vision Transformer 기반 ViT-B/32를 채택하고, 비디오 프레임과 쿼리 문장을 512-D feature로 인코딩한다. 멀티모달 feature 공간의 차원은 d=256d=256으로 설정된다. moment proposal의 수는 ActivityNet 및 TVR 데이터셋 모두에 대해 최적값인 H=4H=4로 설정된다. Eq. (3) 및 Eq. (9)의 하이퍼파라미터는 두 데이터셋 모두에 대해 σ=1/9\sigma=1/9α=0.15\alpha=0.15로 경험적으로 설정된다. Eq. (10)에서는 ActivityNet 데이터셋에 대해 β=0.1\beta=0.1, TVR 데이터셋에 대해 β=0.05\beta=0.05로 설정한다. 손실 계수는 λret=0.02\lambda_{\text{ret}}=0.02, λdiv=1\lambda_{\text{div}}=1, λrel=1\lambda_{\text{rel}}=1로 설정하여 세 가지 손실 항이 동일한 크기를 갖도록 한다. 모델 학습을 위해 Adam [63] optimizer를 사용하며, 학습률 3e43e-4 및 배치 크기 128100 epoch 동안 학습한다. [14]와 같이 SumR이 10 epoch 동안 개선되지 않으면 모델 학습을 중단하는 early stop 스케줄을 사용한다.

B. Comparison with State-of-the-art Methods

  1. 성능 비교 (Performance Comparison): Table II와 Table II에서 우리는 ActivityNet 및 TVR 데이터셋에 대해 기존 text-to-video retrieval 방법들과 철저한 비교를 수행한다. 관련 연구는 세 가지 그룹으로 나눌 수 있다: Fig. 5. TVR 데이터셋에서 다양한 PRVR 모델의 성능(즉, SumR), FLOPs, 그리고 학습 가능한 파라미터 수. 버블의 중심은 SumR 값을 나타낸다. 버블 또는 별의 지름은 파라미터 수(M)에 비례하며, 가로축은 FLOPs(G)를 나타낸다.

(1) T2VR 모델은 주로 비디오와 텍스트 간의 전체적인 관련성에 초점을 맞추며, 우리는 최신 CLIP4Clip [27] 및 CapVideo [28]를 포함한 다양한 오픈소스 모델과 비교한다. (2) VCMR 모델은 untrimmed 비디오에서 moment를 검색하는 데 중점을 두며, 첫 번째 단계 모듈은 후보 비디오를 검색하는 데 사용되고, 이어서 두 번째 단계 모듈은 후보 비디오 내에서 특정 moment를 지역화하는 데 사용된다. 이 표들은 moment localization 모듈을 제거하여 PRVR 데이터셋에 대한 성능을 보고한다. (3) PRVR 모델은 주로 비디오와 텍스트 간의 부분적인 관련성을 학습하기 위한 clip modeling을 연구한다. 기존 연구에는 multi-scale similarity learning (MS-SL [10]), Gaussian-based frame aggregation (PEAN [10] 및 GMMFormer [15]), 그리고 CLIP-based knowledge distill (DL-DKD [14])이 포함된다. 또한, 우리는 CLIP feature를 사용하여 MS-SL 및 GMMFormer(표시 *)를 재학습시켰다.

Table II와 Table II에서 볼 수 있듯이, 우리가 제안한 AMDNet은 두 데이터셋 모두에서 모든 경쟁 모델을 명확한 차이로 능가한다. T2VR 및 VCMR 모델은 moment annotation 없이 비디오와 텍스트 간의 부분적인 관련성을 처리할 수 없기 때문에 성능이 좋지 않다. PRVR 모델과 비교했을 때도 우리는 우수한 성능을 달성한다. 다음과 같은 관찰 사항이 있다:

  • DL-DKD-Multi [14]는 강력한 vision-language pre-training 모델인 CLIP 및 TCL [62]을 기반으로 한 multi-teacher distillation의 이점을 얻는다. 이에 비해, 우리의 AMDNet은 CLIP 가중치만을 사용하여 ActivityNet 및 TVR에서 각각 24.2 및 23.5의 상당한 SumR 개선을 달성한다.
  • 우리와 동일한 feature extraction backbone을 사용하는 MS-SL* 및 GMMFormer*와 비교했을 때, 우리의 AMDNet은 ActivityNet에서 R@1을 상대적으로 8.8% 및 16.0% 향상시킨다. MS-SL [10]과 GMMFormer [15]는 모두 가능한 모든 text-clip 쌍 간의 일관성을 발견하려고 시도하며, 전자는 multi-scale sliding window를 통해 clip embedding을 구축하고 후자는 multi-scale Gaussian window를 채택한다. 이와 대조적으로, 제안된 AMDNet은 end-to-end moment modeling을 수행하고 각 비디오에서 핵심 moment를 포착하는 moment-enhanced representation을 생성한다. 이 representation은 해당 텍스트 쿼리와 더 잘 정렬될 수 있다.
  • 흥미롭게도, 우리는 GMMFormer*가 ActivityNet보다 TVR에서 CLIP 가중치로부터 더 많은 개선을 얻는다는 것을 관찰했다.

TABLE IV TVR 및 ActivityNet 테스트 세트의 복잡도 및 성능 비교. 상단: TVR에서 다양한 데이터베이스 크기에 대한 단일 텍스트 쿼리 검색 프로세스의 평균 런타임 및 메모리 사용량을 측정한다. 하단: 런타임은 다양한 테스트 세트의 전체 검색 시간을 나타낸다. *는 CLIP-ViT-B/32 사전 학습 가중치를 사용한 공식 코드를 통한 우리의 재현을 나타낸다.

ItemDatabase Size5001,0001,5002,0002,500
Runtime (ms)MS-SL [10]4.896.118.0610.4212.93
GMMFormer 152.682.933.403.944.56
AMDNet0.871.011.091.311.63
Memory (M)MS-SL [10]50.02100.04150.06200.08250.11
GMMFormer 152.535.077.6010.1412.67
AMDNet1.623.254.876.508.12
DatasetMethodR@1R@5R@10R@100Runtime
TVRMS-SL* 10317.839.450.788.23,357.66 ms3,357.66 \mathrm{~ms}
GMMFormer* 1518.140.251.789.0454.55 ms
AMDNet19.742.454.188.9355.85ms\mathbf{355.85m s}
ActivityNetMS-SL* 107.122.534.775.810,610.54 ms10,610.54 \mathrm{~ms}
GMMFormer* 15]8.324.936.776.11,335.99 ms1,335.99 \mathrm{~ms}
AMDNet12.332.545.982.1521.98ms\mathbf{521.98m s}

ActivityNet은 TVR보다 더 긴 비디오(평균 118초 대 76초)를 포함하고 있어 image-based CLIP에 문제가 될 수 있기 때문이라고 추측한다. 그러나 우리가 제안한 모델은 방해 요소에 대한 강력한 견고성을 보여주며 두 데이터셋 모두에서 일관되게 최고의 성능을 발휘한다. 2) Moment-to-video 성능 (Moment-to-video Performance): 보다 세분화된 비교를 위해, 우리는 테스트 쿼리를 moment-to-video 비율 rr (M/V) [10]에 따라 그룹화한다. 이는 전체 비디오에서 관련 moment의 길이 비율로 정의된다. M/V가 작을수록 쿼리에 대한 대상 비디오에 관련 콘텐츠가 적고 관련 없는 콘텐츠가 많다는 것을 나타내며, 이는 해당 쿼리의 난이도가 더 높다는 것을 의미한다. [14]와 마찬가지로, 우리는 세 가지 M/V 설정에 대해 sumR 점수를 계산한다. 여기서 moment는 짧은 (r(0,0,2])(r \in(0,0,2]), 중간 (r(0.2,0.4])(r \in(0.2,0.4]), 긴 (r(0.4,1.0])(r \in (0.4, 1.0]) 경우이다. Fig. 4는 ActivityNet 및 TVR에 대한 M/V 결과를 보여준다. 우리가 제안한 모델은 일관되게 최고의 성능을 발휘하며, 이는 그 효과를 다시 한번 입증한다. 3) Video-to-text 검색 평가 (Evaluation on Video-to-text Retrieval): 또한, 우리는 GMMFormer [15], MS-SL [10], 그리고 우리의 AMDNet의 video-to-text task에 대한 성능을 두 데이터셋 모두에서 보고한다. Table III에서 볼 수 있듯이, 우리의 모델은 두 데이터셋의 모든 메트릭에서 비교 모델에 비해 상당한 개선을 보여준다. 예를 들어, ActivityNet에서 우리는 SumR을 180.5 및 190.9에서 208.1로 향상시킨다. 이는 우리의 compact video moment learning이 긴 비디오와 여러 텍스트 간의 이중 대응을 촉진한다는 것을 시사한다.

C. Efficiency Comparison

Figure 5에서 우리는 FLOPs와 모델 파라미터 측면에서 몇몇 경쟁 모델들을 비교한다. 이전 연구들 [9], [15]의 관례에 따라, 우리는 학습 가능한 파라미터 수와 visual/textual backbone 인코딩부터 video-text 유사도 계산까지의 floating point 연산 수만을 보고한다. 제안된 AMDNet단 0.89M 파라미터를 가진 경량 모델이다. 이 모델은 **가장 작은 FLOPs (MS-SL* [10]보다 32.25배 작음)**를 가지면서도 **최고의 성능 (GMMFormer* [15]보다 6.0 SumR 더 좋음)**을 달성한다. 이는 우리의 상당한 성능 우위가 폭발적인 파라미터 증가와는 무관하다는 것을 보여준다.

TABLE V ActivityNet 데이터셋에 대한 Ablation study. Vg\mathbf{V}^{g} 제거는 Active Moment Discovering Module을 제거하는 것을 의미하며, 이때 Vg\mathbf{V}^{g}는 기본 V\mathbf{V}로 퇴화한다.

Vg\mathbf{V}^{g}Ldiv \mathcal{L}^{\text {div }}Lrel \mathcal{L}^{\text {rel }}R@1\mathbf{R} @ \mathbf{1}R@5\mathbf{R} @ \mathbf{5}R@10\mathbf{R} @ \mathbf{10}R@100\mathbf{R} @ \mathbf{100}SumR
X\boldsymbol{X}X\boldsymbol{X}X\boldsymbol{X}10.430.543.480.8165.1
\checkmarkX\boldsymbol{X}X\boldsymbol{X}11.431.544.381.5168.7
\checkmark\checkmarkX\boldsymbol{X}11.631.944.681.7169.9
\checkmark\checkmark\checkmark12.3\mathbf{1 2 . 3}32.5\mathbf{3 2 . 5}45.9\mathbf{45 . 9}82.1\mathbf{8 2 . 1}172.8\mathbf{1 7 2 . 8}

TABLE VI Moment proposal의 개수 HH의 영향. 더 큰 HH는 가능한 모든 moment를 발견하는 데 도움이 되지만, 짧고 불완전한 moment를 유발하기도 한다. ActivityNet과 TVR에서 최적 값은 H=4H=4이다.

DatasetMethodR@1R@5R@10R@100SumR
ActivityNetH=1H=111.331.744.581.7169.1
H=2H=211.132.445.481.9170.9
H=4H=412.332.545.982.1172.8
H=8H=811.632.044.781.8170.1
TVRH=1H=118.941.652.788.4201.6
H=2H=219.341.952.988.8202.9
H=4H=419.742.454.188.9205.1
H=8H=819.041.553.088.5202.0

우리는 또한 테스트 세트에서 추론 시 비교 방법들의 런타임과 메모리 사용량을 측정한다. 실험 설정을 실제 시나리오에 가깝게 하고 공정한 비교를 위해, 우리는 랭킹 절차에 대한 공간 및 시간 소비만을 모니터링한다. MS-SL [10] 및 GMMFormer [15]와 비교하여, 우리가 제안한 방법은 비디오 클립의 dense modeling이나 frame-branch와 clip-branch의 score fusion을 필요로 하지 않는다. Table IV (상단)에 나타난 바와 같이, 우리 모델은 MS-SL/GMMFormer보다 약 5.6/3.1배 빠르며, 500개 비디오에서 MS-SL/GMMFormer보다 30.9/1.6배 작은 저장 공간 오버헤드를 가진다. 비디오 데이터베이스 크기가 500개에서 2,500개로 증가함에 따라, 검색 시간은 0.87ms에서 1.63ms로만 증가한다. 우리 모델은 애플리케이션에 대한 높은 효율성을 보여준다. 한편, AMDNet은 Table IV (하단)에 나타난 바와 같이 검색 시간과 정확도 간의 trade-off에서 명확한 이점을 보여준다. TVR (2,179개 비디오)에서 ActivityNet (4,917개 테스트 비디오)으로 확장함에 따라, AMDNet은 데이터셋 크기가 증가하더라도 속도와 정확도의 균형을 효과적으로 유지한다.

D. Ablation Study

  1. 주요 구성 요소 (Main Components): Table V에서는 moment-enhanced representation Vg\mathbf{V}^{g}, moment diversity loss Ldiv \mathcal{L}^{\text {div }}, 그리고 **moment relevance loss Lrel \mathcal{L}^{\text {rel }}**에 대해 전체 AMDNet에 대한 ablation study를 수행한다. 순수한 baseline (Line 1)에서 시작하여, clip-level representation V\mathbf{V}Vg\mathbf{V}^{g}로 대체함으로써 AMDNet은 SumR에서 3.6점 향상을 얻는다 (Line 2). moment diversity loss를 추가하면 baseline 대비 4.8점까지 추가적인 성능 향상을 가져온다 (Line 3). 우리가 설계한 moment encoding, moment diversity loss, moment relevance loss를 함께 사용함으로써 AMDNet은 SumR에서 7.7점 향상을 달성한다 (Line 4). 이러한 ablation 결과는 검색 성능 향상에 있어 우리가 설계한 구성 요소들의 효과성을 입증한다.

Fig. 6. ActivityNet 및 TVR 데이터셋에서 SumR metric을 기준으로 하이퍼파라미터 λdiv\lambda_{d i v}λrel\lambda_{r e l}의 영향을 보여준다. 공정한 비교를 위해 λret \lambda_{\text {ret }}는 0.02로 고정되었다. 성능은 λdiv =1\lambda_{\text {div }}=1λrel =1\lambda_{\text {rel }}=1에서 최고점을 기록한다.

  1. 하이퍼파라미터의 영향 (Effect of Hyperparameters): 우리 모델에서 HH모델이 생성하는 moment proposal의 수masked multi-moment encoder의 attention head 수를 결정하는 핵심 하이퍼파라미터이다. 일반적으로 HH 값이 클수록 모델은 비디오 내에서 더 많은 moment를 발견할 수 있으며, 이는 모든 잠재적인 moment를 포착하는 능력을 증가시킨다. 그러나 HH 값이 커지면 각 moment의 평균 지속 시간이 줄어들어 타겟 moment의 불완전한 representation으로 이어질 수 있다. 더 나은 trade-off를 찾기 위해 우리는 H={1,2,4,8}H=\{1,2,4,8\} 값에 대한 영향을 연구한다. Table [VI]에서 볼 수 있듯이, 우리 모델의 성능은 ActivityNet 및 TVR 비디오에서 H=4H=4일 때 최고점에 도달한다. 이 설정은 검색을 위한 충분하고 구별 가능한 moment 힌트를 제공한다.

또한, 우리는 ActivityNet 및 TVR 데이터셋에서 loss 계수 λret ,λdiv \lambda_{\text {ret }}, \lambda_{\text {div }}, λrel \lambda_{\text {rel }}의 민감도를 연구한다. retrieval loss 계수 λret =0.02\lambda_{\text {ret }}=0.02로 시작하여, λdiv \lambda_{\text {div }}λrel \lambda_{\text {rel }}{0.2,0.4,1,2,4}\{0.2,0.4,1,2,4\} 값으로 변경한다. Fig. 6에서 볼 수 있듯이, 우리 모델은 다양한 하이퍼파라미터 값 범위에서 견고한 성능을 유지하며, 두 데이터셋 모두에서 λdiv =1\lambda_{\text {div }}=1λrel =1\lambda_{\text {rel }}=1일 때 최적의 trade-off를 달성한다. 각 loss는 검색 성능에 기여하므로, 이들을 유사한 크기(order of magnitude)로 유지하는 것이 검색 및 moment 학습 목표 간의 균형을 보장한다.

  1. 대체 Span-to-mask 함수 (Alternative Span-to-mask Function): 우리 연구의 초점은 moment-level modeling의 활용이다. moment 학습 과정에서 다양한 span-to-mask 변환을 유연하게 채택할 수 있다. Table VII는 **세 가지 대체 window 함수 (즉, Rectangular window, Triangular window, Gaussian window [15])**를 조사한다. 보시다시피, 세 모델 모두 두 데이터셋에서 기존 방법보다 더 나은 성능을 달성하며, 이는 PRVR을 위한 active moment learning의 효과성을 입증한다. 또한, Gaussian window가 Rectangular 및 Triangular window보다 약간 더 우수한 성능을 보인다. 우리는 이를 Gaussian 분포의 부드럽고 자연스러운 특성 [15], [54] 때문이라고 생각한다. 날카로운 가중치 경계를 가진 Rectangular 및 Triangular window와 달리, Gaussian window는 중심에서 멀리 떨어진 프레임에 점진적으로 약해지는 초점을 적용한다. 이러한 전환은 비디오 moment의 자연스러운 진행을 표현하는 데 유익하며, 활동이나 이벤트의 중심에 가까운 프레임이 쿼리에 가장 관련성이 높은 경우가 많다.

  2. 모델 규모의 영향 (Effect of Model Scale): 알고리즘의 확장성과 다양한 모델 크기에 따른 성능을 연구하기 위해, 우리는 더 큰 CLIP-ViT-L/14 backbone으로 실험하여 전체 모델 크기를 152.17M에서 428.63M 파라미터로 증가시켰다. Table VIII에서 볼 수 있듯이, TVR 데이터셋에서 SumR이 205.1에서 236.1로 증가하는 등 상당한 성능 향상이 있다. 이 결과는 우리 방법이 더 큰 모델에서도 효과적으로 확장됨을 보여준다. 본 연구에서는 CLIP-ViT-B/32가 비디오-텍스트 검색 task [14], [27], [28]에서 널리 사용되며 성능과 계산 효율성 사이의 trade-off를 제공하므로, 주로 이 모델로 우리 접근 방식을 검증한다.

Fig. 7. ActivityNet 및 TVR에서 텍스트-비디오 검색 결과 시각화. 각 블록에는 쿼리, Top-1 검색 비디오, 그리고 타임라인을 따른 텍스트-클립 유사도 점수가 제공된다. 점선은 다양한 쿼리에 대한 ground-truth (GT) moment를 나타낸다. GT moment 구간은 표시용이며 학습에는 사용되지 않는다.

TABLE VII ActivityNet 및 TVR 데이터셋에서 다양한 SPAN-TO-MASK 함수에 따른 성능. 우리 AMDNet은 일관된 성능 우위를 보인다.

DatasetMethodR@1R@5R@10R@100SumR
ActivityNetRectangular12.032.345.581.9171.7
Triangular12.032.645.781.9172.2
Gaussian12.332.545.982.1172.8
TVRRectangular19.342.053.588.9203.7
Triangular19.142.354.088.9204.3
Gaussian19.742.454.188.9205.1

E. Qualitative Results

  1. Text-clip Similarity: 이 하위 섹션에서는 moment-enhanced video representation이 텍스트 쿼리에 얼마나 민감하게 반응하는지 조사한다. Fig. 7에 제시된 바와 같이, 우리는 두 데이터셋 모두에서 text-to-video retrieval의 8가지 예시를 제공하며, 여기에는 쿼리, Top-1으로 검색된 비디오, 그리고 fine-grained text-clip similarity score가 포함된다. 다음을 확인할 수 있다: (1) 비디오의 특정 부분에만 해당하는 쿼리가 주어졌을 때, 우리의 접근 방식은 ground-truth 비디오를 성공적으로 검색한다. (2) 텍스트-비디오 쌍 간의 similarity score는 명확한 moment 경계를 보여주며, ground-truth moment와 잘 일치한다. 첫 번째 비디오를 예로 들면, 우리의 AMDNet은 Query1과 Query2에 대해 ground-truth 비디오를 반환한다. 두 쿼리에 대한 비디오의 similarity score는 서로 다른 관련 moment를 구별한다. 이는 우리 모델이 moment 경계를 정교하게 이해하고 있음을 시사한다.

  2. Prediction of Moment Span: Fig. 8은 moment 예측에 대한 몇 가지 정성적 예시를 보여준다. 회색 사각형 안에는 다양한 쿼리에 대한 GT moment span을 다채로운 점선으로 표시했다. 파란색 사각형 안에는 "w/o Ldiv &Lrel \mathcal{L}^{\text {div }} \& \mathcal{L}^{\text {rel }}"과 AMDNet이 각각 예측한 moment span을 제공한다. Fig. 8에는 두 가지 관찰 결과가 있다. (1) "w/o Ldiv &Lrel \mathcal{L}^{\text {div }} \& \mathcal{L}^{\text {rel }}"의 예측 구간은 특히 여러 복잡한 이벤트가 포함된 비디오에서 유사한 범위 내에 집중되어 있다. 이와 대조적으로, AMDNet은 서로 다른 영역에 걸쳐 있는 활동들을 포착한다. (2) "w/o Ldiv &Lrel \mathcal{L}^{\text {div }} \& \mathcal{L}^{\text {rel }}"은 쿼리 관련 moment를 인식하지 못한다. 예를 들어, Fig. 8 (a)의 Q1과 Q4에 대한 예측 span은 GT와 전혀 겹치지 않는다. AMDNet은 텍스트 쿼리와 의미적으로 관련된 구간을 인지하여 유용한 moment 힌트를 제공한다. 이러한 시각화는 Table V의 우수한 결과를 더욱 뒷받침한다.

TABLE VIII TVR 데이터셋에서 CLIP-ViT-B/32 및 CLIP-ViT-L/14를 사용한 모델 크기 및 검색 성능 비교.

Backbone#ParamsR@1R@5R@10R@100SumR
CLIP-ViT-B/32152.17 M19.742.454.188.9205.1
CLIP-ViT-L/14428.63 M27.552.663.692.3236.1

Fig. 8. ActivityNet에서 AMDNet과 Ldiv\mathcal{L}^{d i v}Lrel\mathcal{L}^{r e l} 없이 학습된 변형 모델이 예측한 moment span (c,w)의 정성적 비교. 참조를 위해 GT moment span을 제공한다. 제안된 moment 최적화는 다양성과 쿼리 관련 moment를 촉진하는 데 효과적임을 보여준다.

  1. Text-to-video Results: Fig. 9에서는 우리의 AMDNet과 moment discovering을 활성화하지 않은 baseline("w/o Vg\mathbf{V}^{g}")이 검색한 비디오의 두 가지 예시를 제공한다. moment 기반 비디오 그룹화(grouping)를 도입하는 것이 PRVR의 결과를 크게 향상시킨다는 것을 알 수 있다. 예를 들어, Query1은 달리기, 뜨개질, 악기 연주 등 여러 활동을 포함하는 복잡한 moment를 설명한다. "w/o Vg\mathbf{V}^{g}"는 유사한 활동을 포함하는 비디오에 혼란을 겪어 GT 비디오가 38위라는 낮은 순위를 기록한다. 이에 비해 우리의 접근 방식은 GT 비디오를 성공적으로 검색하여 1위로 랭크한다.

Fig. 9. ActivityNet 테스트 세트의 text-to-video 결과. 랭킹 결과는 moment discovering을 활성화하지 않은 baseline("w/o Vg\mathbf{V}^{g}")과 우리의 AMDNet이 각각 예측한 것이다.

또한, 관련 moment가 겹치는 어려운 쿼리에 대해서도 우리 모델이 좋은 성능을 보인다는 것을 발견했다. 우리는 각 쿼리에 대해 **관련 moment와 동일 비디오 내의 다른 moment 간의 최대 겹침 정도를 나타내는 moment overlap degree U[0,1]\mathbb{U} \in[0,1]**를 정의하고, U\mathbb{U} 값에 따라 테스트 쿼리를 그룹화했다. Fig. 10에서 보듯이, AMDNet은 다양한 겹침 설정에서 견고한 성능을 보인다. 흥미롭게도, 중간에서 높은 겹침(즉, U>0.2\mathbb{U}>0.2)을 가진 쿼리에 대한 성능은 모든 쿼리에 대한 전반적인 성능과 비교하여 경쟁력이 있거나, 일부 경우에는 더 우수하다. 우리는 겹치는 moment가 PRVR에 도움이 되는 추가적인 의미론적 맥락을 제공하기 때문이라고 생각한다.

V. Limitations and Discussion

우리의 접근 방식이 PRVR에서 state-of-the-art를 달성했음에도 불구하고, 여전히 몇 가지 한계점이 존재한다. 본 논문에서 상세히 설명했듯이, 우리는 untrimmed 비디오에서 핵심적인 순간들을 강조하고, 주어진 텍스트 쿼리와의 일치 수준을 추정하는 것을 목표로 한다. 따라서 제안된 구성 요소들은 주어진 쿼리가 의미 있는 맥락을 유지하고 비디오 내에서 구별 가능한 순간들을 설명할 것을 기대한다. 만약 그렇지 않다면, 특히 데이터베이스에서 흔히 발생하는 순간들에 해당하는 모호한 쿼리의 경우, 검색 순위 결과에 영향을 미칠 수 있다. 향후에는 쿼리와 비디오의 semantic context를 강화하여 robustness를 개선하는 연구에 관심을 가지고 있다.

VI. Conclusion

본 논문은 **PRVR(Phrase-based Video Retrieval)**을 위한 새로운 모델인 AMDNet을 제안한다. AMDNet은 의미적으로 관련된 비디오 순간(moment)을 발견하고 강조하는 동시에, 불필요한 배경 콘텐츠를 억제하는 데 중점을 둔다.
기존 방법들은 multi-scale clip representation에 의존하며 콘텐츠 독립성(content independence)과 정보 중복성(information redundancy) 문제를 겪는 반면, 우리의 접근 방식은 학습 가능한 span anchor와 masked multi-moment attention을 활용하여 더욱 compact하고 정보가 풍부한 비디오 representation을 생성한다.
또한 우리는 모델이 서로 다른 moment를 구별하고 텍스트 쿼리와의 정렬을 보장하는 능력을 향상시키기 위해 두 가지 loss function을 도입한다:

  • moment diversity loss
  • moment relevance loss

이러한 loss들은 부분적으로 관련된 retrieval loss와 결합되어 AMDNet의 end-to-end 최적화를 가능하게 한다.
TVR 및 ActivityNet Captions를 포함한 대규모 데이터셋에 대한 광범위한 실험을 통해 AMDNet의 우수한 성능과 효율성을 입증한다.

Fig. 10. moment overlap 정도가 다른 쿼리에 대한 text-to-video retrieval 성능. 우리 모델은 다양한 overlap 설정에서 강력한 성능을 보여준다.