Partially Relevant Video Retrieval

기존의 Text-to-Video Retrieval (T2VR)은 전체 비디오가 텍스트 쿼리와 완전히 관련이 있다고 가정하지만, 현실에서는 긴 비디오의 특정 순간만이 쿼리와 관련될 수 있습니다. 이 논문은 이러한 문제를 해결하기 위해 새로운 태스크인 Partially Relevant Video Retrieval (PRVR)을 제안합니다. PRVR은 텍스트 쿼리와 관련된 순간을 포함하는 긴 비디오(untrimmed video)를 검색하는 것을 목표로 합니다. 이를 위해, 비디오를 클립과 프레임의 집합으로 간주하는 Multiple Instance Learning (MIL) 문제로 정의하고, coarse-to-fine 방식으로 유사도를 학습하는 Multi-Scale Similarity Learning (MS-SL) 네트워크를 제안합니다. MS-SL은 먼저 쿼리와 가장 관련성이 높은 핵심 클립을 찾고, 이를 가이드 삼아 프레임 단위의 세밀한 중요도를 측정하여 최종적으로 비디오-텍스트 유사도를 계산합니다. 논문 제목: Partially Relevant Video Retrieval

Dong, Jianfeng, et al. "Partially relevant video retrieval." Proceedings of the 30th ACM International Conference on Multimedia. 2022.

Partially Relevant Video Retrieval

Jianfeng Dong<br>Xianke Chen<br>Zhejiang Gongshang University

Minsong Zhang<br>Zhejiang Gongshang University

Xun Yang<br>University of Science and Technology of China

Shujie Chen<br>Zhejiang Gongshang University

Xirong Li\mathrm{Li}^{*}<br>Key Lab of DEKE, Renmin University of China

Xun Wang*<br>Zhejiang Gongshang University

Query: Sheldon was browsing a book whilst sitting at the couch.

Query: Penny walks in the living room and sits down on the couch, holding her cup of coffee.

Figure 1: 주어진 비디오와 부분적으로 관련된 두 가지 텍스트 쿼리. 비디오의 특정 순간만이 해당 쿼리와 관련이 있으며, 다른 프레임들은 관련이 없다. 우리는 부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR) task를 multiple instance learning 문제로 공식화하고, MS-SL 네트워크를 제안한다. MS-SL은 먼저 쿼리와 가장 관련성이 높은 key clip을 감지한다. 그런 다음, key clip의 안내에 따라 미세한 시간적 스케일에서 각 프레임의 중요도를 측정한다. 최종 유사도는 key clip과 프레임에 대한 쿼리의 유사도를 종합적으로 고려하여 계산된다.

Abstract

**텍스트-비디오 검색(Text-to-Video Retrieval, T2VR)**을 위한 현재 방법들은 MSVD, MSRVTT, VATEX와 같은 비디오 캡셔닝 중심의 데이터셋으로 학습되고 테스트된다. 이러한 데이터셋의 핵심 특징은 비디오가 짧은 길이로 시간적으로 미리 잘려져(pre-trimmed) 있다고 가정하며, 제공된 캡션이 비디오 콘텐츠의 핵심을 잘 설명한다는 것이다. 결과적으로, 주어진 비디오와 캡션 쌍에 대해 비디오는 캡션과 완전히 관련되어야 한다고 전제된다.

그러나 실제로는 쿼리가 사전에 알려져 있지 않기 때문에, 미리 잘려진 비디오 클립이 쿼리를 완전히 충족시킬 만큼 충분한 콘텐츠를 포함하지 않을 수 있다. 이는 학계 연구와 실제 세계 사이의 간극을 시사한다. 이 간극을 메우기 위해, 본 논문에서는 **부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR)**이라는 새로운 T2VR 하위 task를 제안한다.

정리되지 않은(untrimmed) 비디오는 주어진 텍스트 쿼리에 대해 쿼리와 관련된 순간(moment)을 포함하고 있다면 부분적으로 관련되어 있다고 간주된다. PRVR은 대규모의 정리되지 않은 비디오 컬렉션에서 이러한 부분적으로 관련된 비디오를 검색하는 것을 목표로 한다. PRVR은 단일 비디오 순간 검색(single video moment retrieval) 및 **비디오 코퍼스 순간 검색(video corpus moment retrieval)**과는 다르다. 후자의 두 task는 정리되지 않은 비디오 자체가 아닌 순간(moment)을 검색하는 것을 목표로 하기 때문이다.

우리는 PRVR을 다중 인스턴스 학습(Multiple Instance Learning, MIL) 문제로 공식화한다. 여기서 비디오는 **비디오 클립들의 묶음(bag of video clips)**이자 **비디오 프레임들의 묶음(bag of video frames)**으로 동시에 간주된다. 클립과 프레임은 서로 다른 시간 스케일에서 비디오 콘텐츠를 나타낸다. 우리는 PRVR을 위해 클립 스케일 및 프레임 스케일 유사도를 공동으로 학습하는 Multi-Scale Similarity Learning (MS-SL) 네트워크를 제안한다.

세 가지 데이터셋(TVR, ActivityNet Captions, Charades-STA)에 대한 광범위한 실험은 제안된 방법의 타당성을 입증한다. 또한, 우리의 방법이 비디오 코퍼스 순간 검색 성능을 향상시키는 데 사용될 수 있음을 보여준다.

CCS CONCEPTS

  • Information systems \rightarrow 비디오 검색.

KEYWORDS

Video-Text Retrieval, Partially Relevant, Multiple Instance Learning, Video Representation Learning

ACM Reference Format:

Jianfeng Dong, Xianke Chen, Minsong Zhang, Xun Yang, Shujie Chen, Xirong Li, and Xun Wang. 2022. Partially Relevant Video Retrieval. In Proceedings of the 30th ACM International Conference on Multimedia (MM '22), October 10-14, 2022, Lisboa, Portugal. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3503161.3547976

1 INTRODUCTION

빅데이터 시대의 도래와 함께 매일 수백만 개의 비디오가 인터넷에 업로드되고 있으며, 빅데이터에서 비디오를 검색할 필요성이 점점 커지고 있다. 일반 사용자들은 자연어 쿼리를 통해 정보 요구를 표현하는 것을 선호하므로, 텍스트-투-비디오 검색(Text-to-Video Retrieval, T2VR) 연구는 매우 중요하다 [8, 32, 60]. T2VR은 자연어 문장 형태의 쿼리가 주어졌을 때, 주어진 쿼리와 의미적으로 관련된 비디오를 비디오 갤러리에서 검색하는 task이다. 현재 T2VR 방법들 [7, 18, 22, 27, 37, 39]은 MSVD [4], MSRVTT [59], VATEX [54]와 같은 비디오 캡셔닝 지향 데이터셋으로 학습 및 테스트된다. 이러한 데이터셋의 주요 특징은 비디오가 시간적으로 미리 잘려져(pre-trimmed) 짧은 길이를 가지며, 제공된 캡션이 비디오 내용의 핵심을 잘 설명한다고 가정한다는 점이다. 결과적으로, 주어진 비디오-캡션 쌍에 대해 비디오는 캡션과 완전히 관련되어 있다고 간주된다. 그러나 실제로는 쿼리가 사전에 알려져 있지 않기 때문에, 미리 잘려진 비디오 클립이 쿼리를 완전히 충족시킬 만큼 충분한 내용을 포함하지 않을 수 있다. 이는 기존 연구와 실제 세계 사이의 간극을 시사한다.

위 간극을 메우기 위해, 본 논문에서는 **부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR)**이라는 새로운 T2VR 하위 task를 제안한다. 미리 잘려지지 않은(untrimmed) 비디오는 주어진 텍스트 쿼리에 대해 관련된 (짧은) 순간을 포함하는 한 부분적으로 관련되어 있다고 간주된다 (Fig. 1 참조). PRVR은 이러한 부분적으로 관련된 비디오를 대규모의 untrimmed 비디오 컬렉션에서 검색하는 것을 목표로 한다. 관련된 순간이 어디에 위치하는지, 그리고 얼마나 오래 지속되는지 모두 알 수 없기 때문에 (Fig. 2 참조), PRVR은 기존의 T2VR task보다 더 도전적이다.

PRVR과 다중 인스턴스 학습(Multiple Instance Learning, MIL) [9, 40] 간의 높은 수준의 연결성을 관찰하여, 우리는 다중 스케일 MIL 접근 방식으로 이 새로운 task를 해결한다. 현재 맥락에서, 비디오는 비디오 클립들의 bag이자 비디오 프레임들의 bag으로 동시에 간주된다. 클립과 프레임은 서로 다른 시간 스케일에서 비디오 콘텐츠를 표현하며, 이는 다양한 시간 길이를 가진 순간들을 처리하는 데 유용하다. 또한, 다중 스케일 비디오 표현을 기반으로 다중 스케일 유사성 학습(Multi-Scale Similarity Learning, MS-SL) 네트워크를 제안한다. MS-SL에서 우리는 클립 스케일을 coarse한 시간적 granularity로 간주하는데, 이는 일반적으로 더 긴 지속 시간을 가지기 때문이다. 반면, 프레임 스케일은 fine-grained한 시간적 granularity로 간주되는데, 프레임은 일반적으로 비디오의 더 상세한 내용을 반영하기 때문이다. 다중 스케일 유사성 학습은 클립 스케일 비디오 표현을 기반으로 구축된 클립 스케일 SL branch프레임 스케일 비디오 표현을 기반으로 구축된 프레임 스케일 SL branch로 구성된다. 이들은 coarse-to-fine 방식으로 공동으로 학습된다. 두 유사성 학습 branch는 독립적이지 않다는 점에 유의해야 한다. 클립 스케일 SL에서는 쿼리와 가장 관련성이 높을 것으로 예상되는 핵심 클립(key clip)이 감지된다. 그런 다음 클립 스케일 유사성은 핵심 클립과 쿼리 간의 유사성으로 계산된다. 또한, 핵심 클립은 프레임 스케일 SL에서 각 프레임의 중요도를 fine-grained 시간 스케일로 측정하기 위한 가이드로 간주된다. 프레임 스케일 유사성은 가중치가 부여된 프레임과 쿼리 간의 유사성으로 계산된다. 마지막으로, 클립 스케일 유사성과 프레임 스케일 유사성은 최종 비디오-텍스트 유사성을 측정하기 위해 공동으로 사용된다.

PRVR은 단일 비디오 순간 검색(Single Video Moment Retrieval, SVMR) [58, 61, 65, 69] 및 비디오 코퍼스 순간 검색(Video Corpus Moment Retrieval, VCMR) [24, 29, 66, 68]과 다르다는 점에 주목할 필요가 있다. 후자 두 가지는 untrimmed 비디오가 아닌 순간(moment)을 검색하는 task이기 때문이다. 또한, 우리 모델은 PRVR을 위해 제안되었지만, VCMR을 개선하는 데에도 사용될 수 있다. 요약하면, 우리의 주요 기여는 다음과 같다:

Figure 2: (a) TVR 및 (b) ActivityNet Captions 데이터셋에서 순간-대-비디오 비율(moment-to-video ratio) 분포. 순간-대-비디오 비율은 전체 비디오에서 순간이 차지하는 길이 비율을 나타낸다. 순간들은 시간적 길이에서 큰 분산을 보인다.

  • 우리는 새로운 T2VR 하위 task인 PRVR을 제안한다. PRVR에서는 untrimmed 비디오가 쿼리와 관련된 순간을 포함하는 경우, 주어진 텍스트 쿼리에 대해 부분적으로 관련되어 있다고 간주된다. PRVR은 대규모 untrimmed 비디오 컬렉션에서 이러한 부분적으로 관련된 비디오를 검색하는 것을 목표로 한다.
  • 우리는 PRVR 하위 task를 MIL 문제로 공식화하며, 비디오를 비디오 클립들의 bag이자 비디오 프레임들의 bag으로 동시에 간주한다. 클립과 프레임은 서로 다른 시간 스케일에서 비디오 콘텐츠를 표현한다. 다중 스케일 비디오 표현을 기반으로, 우리는 coarse-to-fine 방식으로 비디오와 쿼리 간의 관련성을 계산하는 MS-SL을 제안한다.
  • 세 가지 데이터셋(TVR [29], ActivityNet Captions [28], Charades-STA [19])에 대한 광범위한 실험은 PRVR에 대한 제안된 방법의 타당성을 입증한다. 또한 우리 방법이 비디오 코퍼스 순간 검색을 개선하는 데 사용될 수 있음을 보여준다. 소스 코드와 데이터셋은 http://danieljf24.github.io/prvr 에서 확인할 수 있다.

T2VR (Text-to-Video Retrieval)
T2VR task는 최근 몇 년간 많은 주목을 받아왔으며 [7, 10, 21, 22, 25, 36, 49, 53, 60], 주어진 쿼리에 따라 미리 잘라낸(pre-trimmed) 비디오 클립 세트에서 관련 비디오를 검색하는 것을 목표로 한다. 검색된 클립은 주어진 쿼리와 완전히 관련되어야 한다. T2VR의 일반적인 해결책은 먼저 비디오와 텍스트 쿼리를 인코딩한 다음, cross-modal 유사성을 측정하는 공통 임베딩 공간에 매핑하는 것이다. 따라서 현재 연구들은 주로 비디오 인코딩 [17, 27, 37, 48], 문장 인코딩 [7, 8, 32], 그리고 cross-modal 유사성 학습 [12, 18, 57, 63]에 초점을 맞추고 있다.
위의 연구들과 달리, 우리는 비디오가 특정 쿼리와 부분적으로만 관련되어 있다고 가정하는 보다 현실적인 시나리오를 고려한다. 따라서 우리는 텍스트 쿼리와 비디오 간의 부분적 관련성을 측정하는 방법에 더 중점을 둔다.

VMR (Video Moment Retrieval)
VMR task는 주어진 단일 untrimmed 비디오 또는 대규모 untrimmed 비디오 컬렉션에서 주어진 쿼리와 의미적으로 관련된 순간(moment)을 검색하는 것이다. 전자는 SVMR (Single Video Moment Retrieval) [1, 34, 35, 47, 56, 62, 70]로 알려져 있으며, 후자는 VCMR (Video Collection Moment Retrieval) [14, 45, 55, 66]로 알려져 있다.
SVMR에서 기존 방법들은 주로 타겟 순간의 시간적 경계(temporal bounding)를 정확하게 지역화하는 방법에 집중하며, 일반적으로 proposal-based methods [5, 20, 52, 64, 67]와 proposal-free methods [6, 47, 65]로 분류될 수 있다.

Proposal-based methods는 먼저 여러 순간 proposal을 생성한 다음, 이를 쿼리와 매칭하여 proposal 중에서 가장 관련성이 높은 것을 결정한다. 순간 proposal을 생성하지 않는 proposal-free methods융합된 비디오-쿼리 feature를 기반으로 타겟 순간의 시작 및 종료 시점을 예측한다.
SVMR의 확장으로서, VCMR task는 주어진 쿼리에 대해 의미적으로 관련된 순간(또는 비디오 세그먼트)을 untrimmed 비디오 컬렉션에서 검색하는 것이다. VCMR의 **state-of-the-art 방법들(예: ReLoCLNet [68] 및 XML [29])**은 두 단계의 워크플로우를 가진다. 첫 번째 단계는 타겟 순간을 포함할 수 있는 여러 후보 비디오를 검색하는 것이고, 두 번째 단계는 후보 비디오에서 순간을 검색하는 것이다.

순간을 검색하는 비디오 순간 검색과 달리, 우리가 제안하는 PRVR (Partial Relevance Video Retrieval) task는 untrimmed 비디오를 검색하는 것을 목표로 한다. 또한, PRVR은 VCMR의 첫 번째 단계와 유사하지만, VCMR에 일반적으로 필요한 순간 수준의 어노테이션을 요구하지 않는다. 따라서 PRVR을 위한 방법은 원칙적으로 VCMR을 위한 2단계 방법을 개선하는 데 사용될 수 있으며, 우리가 제안하는 모델은 PRVR을 위해 설계되었지만 VCMR을 개선하는 데에도 사용될 수 있다.

MIL (Multiple Instance Learning)
MIL [9, 40]은 약하게 어노테이션된 데이터로부터 학습하기 위한 고전적인 프레임워크이며, 분류 task [30, 33]에 널리 사용된다. MIL에서 샘플은 여러 인스턴스의 bag으로 정의되며, 인스턴스 대신 bag에만 레이블이 연결된다. 또한, bag은 **적어도 하나의 긍정적인 인스턴스를 포함하면 긍정적(positive)**이고, **그러한 긍정적인 인스턴스를 포함하지 않으면 부정적(negative)**이다. 기존 MIL 방법들은 대략 인스턴스 기반 방법 [16, 44, 46]과 임베딩 기반 방법 [26, 30, 50]으로 분류될 수 있다. 전자는 일반적으로 bag 내의 각 인스턴스 점수를 예측하고 이를 집계하여 bag 점수를 생성한다. 후자는 일반적으로 모든 인스턴스의 임베딩을 bag 임베딩으로 집계한 다음, bag 임베딩을 기반으로 bag 점수를 출력한다.
본 연구에서는 PRVR task를 MIL 문제로 공식화한다. 이전 MIL 연구들이 일반적으로 샘플을 특정 인스턴스 bag으로 간주하는 것과 달리, 본 연구에서는 비디오를 비디오 클립 bag이자 비디오 프레임 bag으로 동시에 간주한다. 또한, 우리는 분류 task 대신 검색 task에 MIL을 적용한다.

3 OUR METHOD

우리는 PRVRMIL(Multiple Instance Learning) 문제로 정식화한다. 쿼리와 관련된 순간들은 일반적으로 시간적 길이가 크게 변동하기 때문에, 우리는 **다중 스케일 비디오 표현(multi-scale video representation)**을 고안하여 다양한 시간 스케일에서 비디오를 표현한다. 이를 통해 **다양한 길이의 비디오 클립 묶음(bag of video clips)**과 **비디오 프레임 묶음(bag of video frames)**을 얻는다. 이 두 묶음을 기반으로, 우리는 **부분적인 쿼리-비디오 관련성(partial query-video relevance)을 측정하기 위한 다중 스케일 유사도 학습(multi-scale similarity learning)**을 제안한다 (Fig. 3 참조).

3.1 Formulation of PRVR

자연어 쿼리가 주어졌을 때, PRVR (Partially Relevant Video Retrieval) task는 대규모의 untrimmed 비디오 코퍼스에서 주어진 쿼리와 의미론적으로 관련된 순간(moment)을 포함하는 비디오를 검색하는 것을 목표로 한다. 쿼리가 참조하는 순간은 일반적으로 비디오의 작은 부분이기 때문에, 우리는 쿼리가 비디오와 부분적으로만 관련되어 있다고 주장한다. PRVR은 기존의 T2V (Text-to-Video) 검색 [7, 11, 22]과는 다르다는 점을 지적할 가치가 있다. 기존 T2V 검색에서는 비디오가 미리 trim되어 훨씬 짧고, 쿼리는 일반적으로 전체 비디오와 완전히 관련되어 있다.

Figure 3: 부분적으로 관련된 비디오 검색을 위한 제안 모델의 프레임워크. #k는 stride가 1인 크기 kk의 temporal sliding window를 나타낸다.

PRVR 모델을 구축하기 위해, 학습용으로 untrimmed 비디오 세트가 주어진다. 각 비디오는 여러 자연어 문장과 연결되어 있으며, 각 문장은 해당 비디오 내 특정 순간의 내용을 설명한다. 여기서 중요한 점은, 우리는 문장이 참조하는 순간의 시작/종료 시점(moment annotation)에 접근할 수 없다는 것이다.

3.2 Sentence Representation

**문장 표현(sentence representation)**을 위해 우리는 Lei et al. [29]의 방법을 채택하는데, 이는 VCMR에서 좋은 성능을 보였기 때문이다. 구체적으로, nqn_q개의 단어로 구성된 문장이 주어지면, 먼저 사전학습된 RoBERTa [38]를 사용하여 단어 feature를 추출한다. 그런 다음, ReLU 활성화 함수를 가진 fully connected (FC) layer를 활용하여 단어 feature를 더 낮은 차원의 공간으로 매핑한다. 매핑된 feature에 학습된 positional embedding을 추가한 후, 표준 Transformer layer [51]를 추가로 사용하여 dd-차원의 contextualized word feature vector 시퀀스 Q={qi}i=1nqRd×nqQ=\left\{q_{i}\right\}_{i=1}^{n_{q}} \in \mathbb{R}^{d \times n_{q}}를 얻는다. Transformer 내부에서 feature는 multi-head attention layer에 입력된 후 feed-forward layer를 거치며, 두 layer 모두 residual connection [23]과 layer normalization [2]으로 연결된다. 마지막으로, QQ에 대한 간단한 attention을 사용하여 문장 수준의 표현 qRdq \in \mathbb{R}^{d}를 얻는다:

q=i=1nqαiq×qi,αq=Softmax(wQ),q=\sum_{i=1}^{n_{q}} \alpha_{i}^{q} \times q_{i}, \quad \alpha^{q}=\operatorname{Softmax}\left(w^{\top} Q\right),

여기서 Softmax는 softmax layer를 나타내고, wRd×1w \in \mathbb{R}^{d \times 1}는 학습 가능한 벡터이며, αqR1×nq\alpha^{q} \in \mathbb{R}^{1 \times n_{q}}는 attention 벡터를 나타낸다.

3.3 Multi-Scale Video Representation

주어진 untrimmed video에 대해, 우리는 먼저 이를 dvd_v-차원 feature vector들의 시퀀스 VRdv×nvV \in \mathbb{R}^{d_v \times n_v}로 표현한다. 여기서 nvn_v는 벡터의 개수를 나타낸다. 이 feature 시퀀스는 사전학습된 2D CNN을 사용하여 frame-level feature를 추출하거나, 사전학습된 3D CNN을 사용하여 segment-level feature를 추출함으로써 얻어진다. 설명의 편의를 위해, 이하에서는 VV를 frame-level feature들의 시퀀스로 간주한다. VV를 기반으로, 우리는 clip-scale feature learning branchframe-scale feature learning branch를 함께 사용하여 multi-scale video representation을 구성한다.

3.3.1 Clip-scale video representation

비디오 클립을 구성하기 전에, 모델의 계산 복잡도를 줄이기 위해 먼저 시간 도메인에서 입력을 다운샘플링하여 feature 시퀀스의 길이를 줄인다. 구체적으로, 입력으로 주어진 frame feature vector 시퀀스 VV를 고정된 수의 feature vector로 다운샘플링한다. 이때 각 feature vector는 해당되는 여러 연속적인 frame feature들을 **평균 풀링(mean pooling)**하여 얻어진다. 그러면 비디오는 새로운 feature vector 시퀀스 URdv×nuU \in \mathbb{R}^{d_v \times n_u}로 기술되며, 여기서 nun_u는 해당 feature vector의 개수를 나타낸다.

feature를 더욱 compact하게 만들기 위해, 우리는 ReLU 활성화 함수를 갖는 FC layer를 사용한다. 또한, feature들의 시간적 종속성을 향상시키기 위해 **학습된 positional embedding을 갖는 표준 Transformer [51]**를 사용한다. 공식적으로, FC layer와 1-layer Transformer를 통해 URd×nuU^{\prime} \in \mathbb{R}^{d \times n_u}를 얻는다:

U={u1,u2,,unu}=Transformer(FC(U)+PE)U^{\prime}=\left\{u_{1}, u_{2}, \ldots, u_{n_{u}}\right\}=\operatorname{Transformer}(F C(U)+P E)

여기서 PEPE는 positional embedding의 출력을 나타낸다. 이렇게 차원이 축소된 feature 배열 UU^{\prime}clip-scale video representation 학습에 추가적으로 사용된다.

클립 구성을 위해, Fig. 3에 나타난 바와 같이 multi-scale sliding window 전략을 사용하여 비디오 클립을 생성한다. 이전 연구 [66]에서는 비디오 클립의 길이가 동일하고 겹치지 않았던 것과 달리, 우리의 비디오 클립은 길이가 다양하고 겹친다는 점에 유의해야 한다. 구체적으로, 우리는 UU^{\prime}에 대해 시간 차원을 따라 다양한 크기의 sliding window를 stride 1로 적용한다. 크기 kk의 sliding window가 주어지면, 해당 window 내의 feature들을 평균 풀링하여 클립 feature를 얻는다. 결과로 생성된 feature 시퀀스는 Φk\Phi_k로 표기된다. 결과적으로, {1,2,,nu}\{1, 2, \ldots, n_u\}와 같이 다양한 크기의 sliding window를 함께 사용함으로써, 우리는 {Φ1,Φ2,,Φnu}\{\Phi_1, \Phi_2, \ldots, \Phi_{n_u}\}를 얻을 수 있다. 이들을 모두 합치면, 비디오는 비디오 클립 시퀀스 CRd×ncC \in \mathbb{R}^{d \times n_c}로 표현될 수 있다:

C={Φ1,Φ2,,Φnu}={c1,c2,,cnc}C=\left\{\Phi_{1}, \Phi_{2}, \ldots, \Phi_{n_{u}}\right\}=\left\{c_{1}, c_{2}, \ldots, c_{n_{c}}\right\}

여기서 ciRdc_i \in \mathbb{R}^dii-번째 클립의 feature representation을 나타내며, ncn_c는 생성된 모든 클립의 개수로 nc=nu(nu+1)/2n_c = n_u(n_u+1)/2를 만족한다.

3.3.2 Frame-scale video representation

초기 frame feature들은 독립적으로 추출되었기 때문에, 자연적으로 시간적 종속성이 부족하다. 이러한 종속성을 다시 부여하기 위해, 우리는 다시 Transformer를 활용한다. 구체적으로, frame feature 시퀀스 VV가 주어지면, 우리는 먼저

Figure 4: Multi-scale similarity learning의 도식.

입력의 차원을 줄이기 위해 ReLU 활성화 함수를 갖는 FC layer를 사용하고, 이어서 positional embedding layer를 갖는 표준 Transformer를 사용한다. 재인코딩된 frame feature FRd×nvF \in \mathbb{R}^{d \times n_v}는 다음과 같이 계산된다:

F={f1,f2,,fnv}=Transformer(FC(V)+PE)F=\left\{f_{1}, f_{2}, \ldots, f_{n_{v}}\right\}=\operatorname{Transformer}(F C(V)+P E)

Transformer, FC, PE의 네트워크 구조는 clip-scale branch와 동일하지만, 학습 가능한 파라미터는 공유되지 않는다는 점에 유의해야 한다. 이는 각 branch가 자신의 스케일에 적합한 파라미터를 학습할 수 있도록 한다.

3.4 Multi-Scale Similarity Learning

PRVR에서 관련 콘텐츠가 어디에 위치하는지에 대한 사전 정보가 없기 때문에, 세밀한(fine-grained) 스케일에서 비디오-텍스트 유사도를 직접 계산하는 것은 어렵다.
이에 우리는 **다중 스케일 유사도 학습(multi-scale similarity learning)**을 제안한다. 이 방법은 거친(coarse) 스케일에서 세밀한(fine) 스케일로 유사도를 계산한다.
먼저 쿼리와 가장 관련성이 높을 것으로 예상되는 핵심 클립(key clip)을 감지한다.
그 다음, 이 핵심 클립의 안내(guidance) 하에 각 프레임의 중요도를 세밀한 시간 스케일에서 측정한다.
최종 유사도는 쿼리와 핵심 클립, 그리고 프레임 간의 유사도를 종합적으로 고려하여 계산된다.
여기서의 가설은, 모델이 쿼리에 대한 거친 관련 콘텐츠를 대략적으로 알고 있다면, 더 세밀한 스케일에서 더 정확한 관련 콘텐츠를 찾는 데 도움이 될 것이라는 것이다.
다중 스케일 유사도 학습의 프레임워크는 Fig. 4에 설명되어 있다.

3.4.1 Clip-scale Similarity

비디오가 비디오 클립들의 시퀀스로 주어졌을 때, 우리는 먼저 각 비디오 클립과 쿼리 간의 cross-modal 유사도를 측정한 다음, 개별 유사도들을 집계하여 clip-scale 유사도를 얻는다.
구체적으로, 비디오 클립 시퀀스 C={c1,c2,,cnc}C=\left\{c_{1}, c_{2}, \ldots, c_{n_{c}}\right\}가 주어지면, 우리는 각 인스턴스 표현과 쿼리 표현 간의 cosine similarity를 사용하고, 그 다음 유사도에 대해 max-pooling 연산자를 적용한다.
더 공식적으로, clip-scale 유사도는 다음과 같이 얻어진다:

Sc(v,q)=max{cos(c1,q),cos(c2,q),,cos(cnc,q)}S_{c}(v, q)=\max \left\{\cos \left(c_{1}, q\right), \cos \left(c_{2}, q\right), \ldots, \cos \left(c_{n_{c}}, q\right)\right\}

여기서 cos()\cos (\cdot)는 cosine similarity 함수를 나타낸다.
max-pooling은 가장 높은 유사도를 가진 클립을 결정하며, 우리는 이 클립과 쿼리 간의 유사도를 전체 비디오와 쿼리 간의 유사도로 활용한다.
또한, 우리는 이 클립을 **핵심 클립(key clip)**으로 선택하며, 이는 이후의 frame-scale 유사도 학습에 사용된다.

3.4.2 Frame-scale Similarity

frame-scale 유사도를 얻기 위해, 우리는 먼저 Section 3.4.1에서 얻은 핵심 클립의 안내(guidance) 하에 프레임 feature 벡터들의 시퀀스를 하나의 feature 벡터로 집계한 다음, 이 벡터와 쿼리 간의 유사도를 frame-scale 유사도로 계산한다.
구체적으로, 비디오 프레임 시퀀스 F={f1,f2,,fnv}F=\left\{f_{1}, f_{2}, \ldots, f_{n_{v}}\right\}가 주어지면, 우리는 프레임 feature를 집계하기 위해 Key Clip Guided Attention (KCGA)을 고안한다.
KCGA의 구현은 Transformer [51]의 multi-head self-attention (MHSA) 메커니즘 아이디어를 차용한다.
MHSA는 먼저 입력을 queries, keys, values로 투영한 다음, values의 가중합으로 출력을 계산한다. 각 value에 할당되는 가중치는 query와 해당 key의 호환성 함수(compatibility function)에 의해 계산된다.
MHSA가 동일한 입력을 사용하여 queries, keys, values를 구성하는 것과 달리, 여기서는 핵심 클립의 feature 벡터를 query로 사용하고, 비디오 프레임 feature를 keys와 values로 사용한다.
공식적으로, 집계된 프레임 feature 벡터는 다음과 같이 얻어진다:

r=Softmax(c~K)Z,K=WkF,Z=WvF,r=\operatorname{Softmax}\left(\tilde{c}^{\top} K\right) Z^{\top}, \quad K=W_{k} F, \quad Z=W_{v} F,

여기서 c~Rd×1\tilde{c} \in \mathbb{R}^{d \times 1}는 핵심 클립의 feature 벡터를 나타내고, WkRd×dW_{k} \in \mathbb{R}^{d \times d}WkRd×dW_{k} \in \mathbb{R}^{d \times d}는 두 개의 학습 가능한 투영 행렬이다.
dot product는 프레임과 핵심 클립 간의 유사도를 측정하며, 핵심 클립과 더 유사한 프레임에 대해 더 큰 값을 생성한다. 따라서 핵심 클립과 더 유사한 프레임은 더 큰 attention 가중치를 갖게 된다.

마지막으로, frame-scale 유사도는 집계된 프레임 feature 벡터 rr과 쿼리 feature 벡터 qq 간의 cosine similarity로 측정된다. 즉:

Sf(v,q)=cos(r,q)S_{f}(v, q)=\cos (r, q)

3.4.3 Similarity Learning

이 섹션에서는 유사도 학습을 위한 긍정(positive) 및 부정(negative) 쌍의 정의를 먼저 소개한다.
MIL [9, 40]에서 영감을 받아, 우리는 쿼리와 비디오 쌍이 긍정(positive)인 경우비디오가 쿼리와 관련된 특정 콘텐츠를 포함할 때로 정의하고, 부정(negative)인 경우비디오에 관련 콘텐츠가 없을 때로 정의한다.
위 정의를 기반으로, 우리는 검색 관련 task에서 널리 사용되며 상호 보완적이라고 판단된 triplet ranking loss [12, 15]와 InfoNCE loss [41, 68]를 함께 사용한다.
긍정 비디오-쿼리 쌍 (v,q)(v, q)가 주어졌을 때, 미니배치 B\mathcal{B}에 대한 triplet ranking loss는 다음과 같이 정의된다:

Ltrip =1n(q,v)B[max(0,m+S(q,v)S(q,v))+max(0,m+S(q,v)S(q,v))]\begin{aligned} \mathcal{L}^{\text {trip }}=\frac{1}{n} \sum_{(q, v) \in \mathcal{B}} & {\left[\max \left(0, m+S\left(q^{-}, v\right)-S(q, v)\right)\right.} \\ & \left.+\max \left(0, m+S\left(q, v^{-}\right)-S(q, v)\right)\right] \end{aligned}

여기서 mm은 margin 상수이고, S()S(\cdot)는 유사도 함수를 나타내며, 우리는 clip-scale 유사도 S()cS(\cdot)_{c} 또는 frame-scale 유사도 S()fS(\cdot)_{f}를 사용할 수 있다.
또한, qq^{-}vv^{-}는 각각 vv에 대한 부정 문장 샘플과 ss에 대한 부정 비디오 샘플을 나타낸다.
부정 샘플은 학습 초반에는 미니배치에서 무작위로 샘플링되지만, 20 epoch 이후에는 가장 어려운 부정 샘플(hardest negative samples)이 된다.

긍정 비디오-쿼리 쌍 (v,q)(v, q)가 주어졌을 때, 미니배치 B\mathcal{B}에 대한 InfoNCE loss는 다음과 같이 계산된다:

Lnce=1n(q,v)B[log(S(q,v)S(q,v)+qiNqS(qi,v))+log(S(q,v)S(q,v)+viNvS(q,vi))]\begin{aligned} \mathcal{L}^{n c e}=-\frac{1}{n} \sum_{(q, v) \in \mathcal{B}} & {\left[\log \left(\frac{S(q, v)}{S(q, v)+\sum_{q_{i}^{-} \in \mathcal{N}_{q}} S\left(q_{i}^{-}, v\right)}\right)\right.} \\ + & \left.\log \left(\frac{S(q, v)}{S(q, v)+\sum_{v_{i}^{-} \in \mathcal{N}_{v}} S\left(q, v_{i}^{-}\right)}\right)\right] \end{aligned}

여기서 Nq\mathcal{N}_{q}는 미니배치 내 비디오 vv의 모든 부정 쿼리들을 나타내고, Nv\mathcal{N}_{v}는 미니배치 내 쿼리 qq의 모든 부정 비디오들을 나타낸다.

이전 연구 [32]에서 각 유사도 함수에 대해 하나의 loss를 사용하는 것이 여러 유사도의 합에 대해 하나의 loss를 사용하는 것보다 더 나은 성능을 보인다고 결론 내렸으므로, 우리는 clip-scale 유사도와 frame-scale 유사도 모두에 대해 위의 두 loss를 개별적으로 적용하며, 이들의 합을 사용하지 않는다.
최종적으로, 우리 모델은 다음의 전체 학습 loss를 최소화함으로써 학습된다:

L=Lctrip+Lftrip+λ1Lcnce+λ2Lfnce\mathcal{L}=\mathcal{L}_{c}^{t r i p}+\mathcal{L}_{f}^{t r i p}+\lambda_{1} \mathcal{L}_{c}^{n c e}+\lambda_{2} \mathcal{L}_{f}^{n c e}

여기서 Lctrip \mathcal{L}_{c}^{\text {trip }}Lftrip \mathcal{L}_{f}^{\text {trip }}는 각각 clip-scale 유사도 S()cS(\cdot)_{c}와 frame-scale 유사도 S()fS(\cdot)_{f}를 사용한 triplet ranking loss를 나타내며, Lcnce\mathcal{L}_{c}^{n c e}Lfnce\mathcal{L}_{f}^{n c e}도 이에 상응한다. λ1\lambda_{1}λ2\lambda_{2}는 InfoNCE loss의 기여도를 조절하는 하이퍼파라미터이다.

3.5 Model Inference

모델 학습 후, 비디오와 문장 쿼리 간의 유사도는 **클립 수준 유사도(clip-level similarity)**와 **프레임 수준 유사도(frame-level similarity)**의 합으로 계산된다. 즉:

S(v,s)=αSc(v,s)+(1α)Sf(v,s)S(v, s)=\alpha S_{c}(v, s)+(1-\alpha) S_{f}(v, s)

여기서 α\alpha는 두 유사도의 중요도를 조절하는 하이퍼파라미터로, [0,1][0,1] 범위 내의 값을 가진다. 주어진 쿼리에 대해, 우리는 비디오 갤러리 내의 모든 비디오를 해당 쿼리와의 유사도에 따라 내림차순으로 정렬한다.

4 EXPERIMENTS

4.1 Experimental Setup

4.1.1 데이터셋 (Datasets)
우리가 제안하는 PRVR 모델의 실현 가능성을 검증하기 위해서는 비디오와 부분적으로만 관련 있는 쿼리가 필요하다. MSR-VTT [59], MSVD [4], VATEX [54]와 같은 일반적인 T2VR 데이터셋의 비디오들은 쿼리와 완전히 관련되어 있다고 가정되므로, 우리의 실험에는 적합하지 않다.
여기서는 VCMR에 일반적으로 사용되는 세 가지 데이터셋, 즉 TVR [29], Activitynet Captions [28], Charades-STA [19]를 재활용한다. 이 데이터셋들은 자연어 쿼리가 해당 비디오와 부분적으로만 관련되어 있다고 간주된다 (쿼리는 일반적으로 비디오 내 특정 순간과 연관됨).
Table 1은 이 데이터셋들의 간략한 통계를 요약한 것으로, **순간(moment) 및 비디오의 평균 길이, 그리고 전체 비디오에서 순간 길이의 평균 비율(moment-to-video ratio)**을 포함한다.
우리는 비디오 검색(retrieving videos)에 초점을 맞추므로, 이 데이터셋들이 제공하는 순간(moment) 주석은 우리가 제안하는 새로운 PRVR task에서는 사용되지 않는다는 점에 유의해야 한다.

**TV show Retrieval (TVR) [29]**은 원래 **비디오 코퍼스 순간 검색(video corpus moment retrieval)**을 위한 멀티모달 데이터셋으로, 비디오는 자동 음성 인식으로 생성된 자막과 짝을 이룬다.

Table 1: 우리 실험에 사용된 세 가지 공개 데이터셋의 간략한 통계. 길이는 초 단위로 측정된다.

DatasetsAverage lengthMoment-to-video ratio
momentsvideosmin\minmax\maxmean\operatorname{mean}
TVR9.176.20.48%0.48 \%100%100 \%11.9%11.9 \%
Activitynet Captions36.2117.60.48%0.48 \%100%100 \%30.8%30.8 \%
Charades-STA8.130.04.3%4.3 \%100%100 \%26.3%26.3 \%

이 데이터셋은 6개의 TV 쇼에서 수집된 21.8K개의 비디오를 포함하며, 각 비디오는 비디오 내 특정 순간을 설명하는 5개의 자연어 문장과 연관되어 있다. 순간(moment)은 일반적으로 비디오의 일부이므로, 우리는 문장이 비디오와 부분적으로 관련되어 있다고 가정하고 이를 모델 평가에 사용한다. [66, 68]을 따라, 우리는 학습에 17,435개의 비디오와 87,175개의 순간을, 테스트에 2,179개의 비디오와 10,895개의 순간을 활용한다.

**ActivityNet Captions [28]**은 원래 dense video captioning task를 위해 개발되었으며, 현재는 **단일 비디오 순간 검색(single video moment retrieval)**을 위한 인기 있는 데이터셋이다. 이 데이터셋은 YouTube에서 약 20K개의 비디오를 포함하며, 비디오의 평균 길이는 우리가 사용한 세 데이터셋 중 가장 길다. 평균적으로 각 비디오는 약 3.7개의 순간과 해당 문장 설명을 가지고 있다. 우리는 [66, 68]에서 사용된 일반적인 데이터 분할을 사용한다.

**Charades-STA [19]**는 **단일 비디오 순간 검색(single video moment retrieval)**을 위한 데이터셋이다. 이 데이터셋은 6,670개의 비디오와 16,128개의 문장 설명을 포함한다. 각 비디오는 평균적으로 약 2.4개의 순간과 해당 문장 설명을 가지고 있다. 우리는 모델 학습 및 평가를 위해 공식 데이터 분할을 활용한다.

4.1.2 평가 지표 (Evaluation Metrics)
PRVR 모델을 평가하기 위해, 우리는 **기존 text-to-video retrieval [12, 53]에 일반적으로 사용되는 순위 기반 지표인 R@K(K=1,5,10,100)R@K (K=1,5,10,100)**를 활용한다. R@KR@K랭킹 목록의 상위 KK개 내에서 원하는 항목을 올바르게 검색한 쿼리의 비율을 나타낸다. 성능은 백분율(%)로 보고된다. R@KR@K 값이 높을수록 더 나은 성능을 의미한다. 전반적인 비교를 위해 **모든 Recall의 합(SumR)**도 보고한다.

4.1.3 구현 세부 사항 (Implementation Details)
우리는 딥러닝 환경으로 PyTorch를 사용하며, 소스 코드를 공개할 예정이다.
비디오 feature의 경우, TVR에서는 [29]에서 제공하는 feature, 즉 프레임 수준 ResNet152 [23] feature와 세그먼트 수준 I3D [3] feature를 연결하여 얻은 3,072-D 시각 feature를 활용한다. 편의상 이를 ResNet152-I3D라고 부른다. ActivityNet-Captions 및 Charades-STA에서는 [66] 및 [43]에서 각각 제공하는 동일한 I3D feature만 활용한다.
문장 feature의 경우, TVR에서는 [29]에서 제공하는 768-D RoBERTa feature를 사용한다. 여기서 RoBERTa는 TVR의 쿼리 및 자막 문장에 대해 fine-tuning되었다. ActivityNet-Captions 및 Charades-STA에서는 오픈 RoBERTa 툴킷을 사용하여 직접 추출한 1,024-D RoBERTa feature를 사용한다.
논문의 지면 제약으로 인해, 더 자세한 구현 세부 사항은 보충 자료에 제시한다.

4.2 Comparison with Baseline Methods

4.2.1 Baseline 선정
PRVR을 위해 특별히 설계된 모델은 존재하지 않으므로, 우리는 기존 T2VR 모델VCMR을 위해 개발된 모델들과 비교한다. 방대한 문헌을 고려할 때,

Table 2: TVR 데이터셋에서 PRVR의 성능. 모델은 전체 성능의 오름차순으로 정렬되어 있다. Visual feature: ResNet152-I3D.

ModelR@1R@5R@10R100SumR
T2VR models:
W2VV, TMM18 [10]2.65.67.520.636.3
HGR, CVPR20 [7]1.74.98.335.250.1
HTM, ICCV19 [42]3.812.019.163.298.2
CE, BMVC19 [37]3.712.820.164.5101.1
W2VV++, MM19 [31]5.014.721.761.8103.2
VSE++, BMVC19 [15]7.519.927.766.0121.1
DE, CVPR19 [11]7.620.128.167.6123.4
DE++, TPAMI21 [12]8.821.930.267.4128.3
RIVRL, TCSVT22 [13]9.423.432.270.6135.6
VCMR models w/o moment localization:
XML, ECCV20 [29]10.026.537.381.3155.1
ReLoCLNet, SIGIR21[68]10.728.138.180.3157.1
Ours13.532.143.483.4172.4

우리는 공정하고 재현 가능한 비교를 위해 오픈 소스 모델을 선별해야 했다. 특히, 우리는 다음 9개의 T2VR 모델을 선택했다: VSE++ [15], W2VV [10], CE [37], W2VV++ [31], DE [11], HTM [42], HGR [7], DE++ [12], RIVRL [13]. 그리고 다음 2개의 VCMR 모델을 선택했다: XML [29], ReLoCLNet [68]. XML과 ReLoCLNet은 모두 2단계 모델로, 1단계 모듈은 후보 비디오를 검색하는 데 사용되고, 2단계 모듈은 후보 비디오 내에서 특정 moment를 지역화하는 데 사용된다. PRVR에는 moment annotation이 제공되지 않으므로, 우리는 XML과 ReLoCLNet을 (moment localization 모듈을 제거한 상태로) 우리와 동일한 비디오 feature를 사용하여 재학습시켰다.

4.2.2 TVR 데이터셋 결과
Table 2는 TVR 데이터셋에서의 성능 비교를 요약한다. 우리가 제안한 모델은 모든 기존 T2VR 모델들을 명확한 차이로 일관되게 능가한다. T2VR 모델 중 가장 성능이 좋은 RIVRL보다도 우리 모델은 SumR에서 36.8점 더 높은 성능을 보인다. 이들 모델은 비디오와 쿼리 간의 전체적인 유사성(whole similarity)에 초점을 맞추고 있기 때문에, 이러한 결과는 그러한 유사성 모델링이 PRVR에는 최적이 아님을 시사한다.
두 번째 그룹의 모델들, 즉 ReLoCLNet과 XML은 기존 T2VR 모델들보다 더 나은 성능을 보이지만, 여전히 우리 모델보다는 떨어진다. ReLoCLNet과 XML은 moment 검색에 초점을 맞추고 있으며, 이는 어느 정도 부분적인 관련성(partial relevance)을 모델링하지만, 특정 스케일에서만 유사성을 계산한다. 이와 대조적으로, 우리는 클립 스케일과 프레임 스케일 모두에서 유사성을 계산한다. 이러한 결과는 PRVR을 위한 우리가 제안한 multi-scale 유사성 학습의 효과를 입증한다. 참고로, [29]에서 제공하는 추가 자막 feature를 사용하면 우리 모델은 더 나은 성능을 얻는다 (R@1 24.0, SumR 220.8).

개별 모델에 대한 추가적인 이해를 얻기 위해, 우리는 쿼리에 대한 **moment-to-video ratio (M/V)**를 정의한다. 이는 해당 moment의 전체 비디오 내 길이 비율로 측정된다. M/V가 작을수록 쿼리에 대한 관련 콘텐츠가 적고 관련 없는 콘텐츠가 많음을 나타낸다. 또한, M/V가 작다는 것은 어느 정도 쿼리가 해당 비디오에 대한 관련성이 낮음을 의미하며, M/V가 클수록 관련성이 높음을 의미한다. M/V에 따라 쿼리는 자동으로 다른 그룹으로 분류될 수 있으며, 이는 특정 모델이 다른 유형의 쿼리에 어떻게 반응하는지에 대한 **세분화된 분석(fine-grained analysis)**을 가능하게 한다. TVR 데이터셋에서 10,895개의 테스트 쿼리는 M/V에 따라 6개 그룹으로 나뉘며, 각 그룹의 성능은 Fig. 5에 나타나 있다.

Figure 5: 다양한 유형의 쿼리에 대한 여러 모델의 성능. 쿼리는 M/V에 따라 그룹화된다.

예상대로, 우리 모델은 모든 그룹에서 일관되게 최고의 성능을 보인다. 그림을 왼쪽에서 오른쪽으로 보면, 12개 비교 모델의 평균 성능은 M/V가 증가함에 따라 106.8, 114.2, 114.3, 118.6, 125.8, 127.7로 증가한다. 가장 낮은 M/V 그룹의 성능이 가장 작고, 가장 높은 M/V 그룹의 성능이 가장 크다. 이 결과는 현재 비디오 검색 baseline 모델들이 해당 비디오에 대한 관련성이 더 큰 쿼리를 더 잘 처리함을 시사한다. 이와 대조적으로, 우리가 달성한 성능은 모든 그룹에서 더 균형 잡혀 있다. 이 결과는 우리가 제안한 모델이 비디오 내의 관련 없는 콘텐츠에 덜 민감함을 보여준다.

4.2.3 ActivityNet Captions 및 Charades-STA 결과
ActivityNet Captions 및 Charades-STA 데이터셋에 대한 다양한 모델의 성능은 각각 Table 3과 Table 4에 요약되어 있다. 두 데이터셋 모두에서 우리 모델은 여전히 선두 위치에 있다. 이 결과는 비디오와 쿼리 간의 부분적 관련성(partial relevance)을 측정하는 우리 모델의 효과를 다시 한번 입증한다. 흥미롭게도, HTM은 TVR과 ActivityNet Captions에서는 좋지 않은 성능을 보이지만, Charades-STA에서는 T2VR 모델 중 최고의 SumR 점수를 달성한다. 우리는 이것이 Charades-STA가 세 데이터셋 중 가장 적은 학습 데이터를 가지고 있기 때문이라고 추측한다. 게다가, HTM의 모델 구조는 매우 간단하며, gating mechanism을 가진 FC layer를 사용하여 비디오와 문장을 공통 공간에 임베딩하는데, 이는 소규모 데이터 학습에서 이점을 보여준다. 우리가 제안한 모델은 다양한 수의 학습 샘플을 가진 세 데이터셋 모두에서 일관되게 최고의 성능을 보이며, 이는 어느 정도 우리 모델이 학습 데이터의 규모에 민감하지 않음을 보여준다.

Table 3: ActivityNet Captions 데이터셋에서 PRVR의 성능. Visual feature: I3D.

ModelR@1R@5R@10R100SumR
T2VR models:
W2VV [10]2.29.516.645.573.8
HTM [42]3.713.722.366.2105.9
HGR [7]4.015.024.863.2107.0
RIVRL [13]5.218.028.266.4117.8
VSE++ [15]4.917.728.267.1117.9
DE++ [12]5.318.429.268.0121.0
DE [11]5.618.829.467.8121.7
W2VV++ [31]5.418.729.768.8122.6
CE [37]5.519.129.971.1125.6
VCMR models w/ow / o moment localization:
ReLoCLNet [68]5.718.930.072.0126.6
XML [29]5.319.430.673.1128.4
Ours7.122.534.775.8140.1

Table 4: Charades-STA 데이터셋에서 PRVR의 성능. Visual feature: I3D.

ModelR@1R@5R@10R100SumR
T2VR models:
W2VV [10]0.52.94.724.532.6
VSE++ [15]0.83.97.231.743.6
W2VV++ [31]0.93.56.634.345.3
HGR [7]1.23.87.333.445.7
CE [37]1.34.57.336.049.1
DE [11]1.55.79.536.953.7
DE++ [12]1.75.69.637.154.1
RIVRL[13]1.65.69.437.754.3
HTM [42]1.25.49.244.260.0
VCMR models w/o moment localization:
ReLoCLNet [68]1.25.410.045.662.3
XML [29]1.66.010.146.964.6
Ours1.87.111.847.768.4

4.3 Comparison on Model Complexity

Table 5는 시간 복잡도(time complexity)와 메모리 소비량(memory consumption) 측면에서 모델 복잡도를 비교한 표이다. 특정 방법의 시간 복잡도는 주어진 비디오-텍스트 쌍을 인코딩하는 데 필요한 FLOPs로 측정된다. FLOPs 측면에서 우리 모델은 중간 수준으로, XMLReLoCLNet보다 약간 느리지만, RIVRL, DE, HGR보다는 빠르다. 메모리 소비량 측면에서는 우리 모델이 비교 대상 모델들 중 대다수보다 더 많은 메모리를 요구하는데, 이는 주로 Transformermulti-scale 비디오 표현을 사용하기 때문이다. 그러나 비디오 임베딩이 사전 계산되어 있다고 가정할 때, 우리 모델은 20,000개의 후보 untrimmed 비디오에서 비디오를 검색하는 데 약 0.2초가 소요된다는 것을 확인했다. 이 검색 속도는 즉각적인 응답에 적합하다.

Table 5: FLOPs 및 메모리 소비량 측면에서의 모델 비교.

W2VVHGRHTMCEW2VV++VSE++DEDE++RIVRLXMLReLoCLNetOurs
FLOPs (G)0.422.960.060.060.40.205.245.308.640.800.961.22
Memory (MiB)123185551225143512811299583735154809245126735349

Figure 6: VCMR을 위한 첫 번째 단계로 우리 모델을 사용하지 않았을 때/사용했을 때의 XML 및 ReLoCLNet 성능.

Table 6: TVR 데이터셋에 대한 Ablation study.

ModelR@1R@5R@10R100SumR
Full setup13.532.143.483.4172.4
w/o frame-scale branch12.330.541.582.3166.6
w/o clip-scale branch8.021.030.074.0133.0
w/o key clip guide12.230.641.082.4166.3
w/o InfoNCE11.329.140.181.3161.8
w/o Triplet loss11.229.240.481.9162.6

4.4 PRVR for VCMR

우리의 PRVR 모델은 VCMR의 첫 번째 단계에서도 사용될 수 있다. 이를 위해 우리는 두 VCMR 모델, 즉 XML [29]과 ReLoCLNet [68]의 첫 번째 단계를 우리 모델로 대체하였다. 비디오 표현을 위해 시각적 feature와 자막 feature가 모두 사용된다.

Fig. 6은 TVR 데이터셋에서 원본 모델과 대체된 모델의 성능을 보여준다. 여기서는 R1/R5/R10/R100의 합인 SumR을 보고한다. 첫 번째 단계를 우리 모델로 대체함으로써 XML과 ReLoCLNet 모두 성능이 향상되었다.

4.5 Ablation Studies

4.5.1 Multi-scale branches의 효과.
multi-scale branches의 유용성을 검증하기 위해, 우리는 clip-scale branch 또는 frame-scale branch가 없는 모델과 비교하였다. Table 6에서 볼 수 있듯이, 어떤 branch라도 제거하면 성능 저하가 명확하게 나타난다. 이 결과는 multi-scale solution의 효과성을 입증할 뿐만 아니라, clip-scale branch와 frame-scale branch의 상호 보완적인 역할을 보여준다.

4.5.2 Key clip guided attention의 효과.
추가적으로, 우리는 key clip guide가 없는 모델도 비교하였다. 이 모델은 key clip guided attention을 단순한 attention으로 대체하여 구현되었다. 여기서 단순한 attention은 어떤 guide도 없이 Eq. 1과 같이 구현된다. Table 6에서 보듯이, 완전한 설정(full setup)을 갖춘 우리 모델이 여전히 더 나은 성능을 보이며, 이는 PRVR에서 key clip guided attention의 중요성을 나타낸다.

Figure 7: Eq. 11의 하이퍼파라미터 α\alpha의 영향.

4.5.3 Triplet ranking loss와 InfoNCE loss 조합의 효과.
두 loss를 함께 사용하는 것의 유효성을 검증하기 위해, 우리는 triplet ranking loss 또는 InfoNCE loss 중 하나만 사용한 결과와 비교하였다. Table 6에서 보듯이, triplet ranking loss와 InfoNCE는 단독으로 사용했을 때 비슷한 결과를 보였지만, 두 loss를 함께 사용하는 완전한 설정의 모델보다 훨씬 낮은 성능을 보였다. 이 결과는 두 loss를 함께 사용하는 것의 이점을 입증한다.

4.5.4 α\alpha가 검색 성능에 미치는 영향.
Eq. 11의 하이퍼파라미터 α\alpha의 영향은 다음과 같이 연구되었다. 우리는 α\alpha 값을 0.1부터 0.9까지 0.1 간격으로 변화시키며 실험하였다. Fig. 7에서 보듯이, α\alpha0.3보다 클 때 multi-scale similarity를 사용한 성능은 모두 170 이상이었으며, 이는 frame-scale 또는 clip-scale similarity만을 사용한 경우보다 일관되게 우수한 성능을 보여준다.

5 CONCLUSIONS

본 논문에서는 **PRVR(Partially Relevant Video Retrieval)**이라는 새로운 T2VR(Text-to-Video Retrieval) 하위 task를 제안하였다. 기존 T2VR에서는 쿼리가 해당 비디오와 완전히 관련되는 것이 일반적이었지만, PRVR에서는 쿼리가 비디오와 부분적으로만 관련된다. 또한, 기존 T2VR의 비디오는 짧은 길이로 시간적으로 미리 잘려(pre-trimmed) 있었던 반면, PRVR의 비디오는 untrimmed 상태이며, 하나의 비디오가 여러 문장(sentences)의 다양한 의미와 부분적으로 관련될 수 있다. 추가적으로, PRVR은 SVMR(Sentence-to-Video Moment Retrieval) 및 VCMR(Video-to-Clip Moment Retrieval)과도 다르다. 이 두 task는 untrimmed 비디오가 아닌 특정 순간(moment)을 검색하는 것을 목표로 하기 때문이다.

PRVR을 해결하기 위해 우리는 이를 MIL(Multiple Instance Learning) 문제로 공식화하고, 클립(clip) 스케일과 프레임(frame) 스케일 모두에서 유사도를 coarse-to-fine 방식으로 계산하는 MS-SL(Multi-Scale Similarity Learning)을 제안한다. 세 가지 데이터셋에 대한 광범위한 실험을 통해 PRVR에 대한 MS-SL의 효과를 검증했으며, MS-SL이 VCMR 성능 향상에도 사용될 수 있음을 보여주었다.

감사의 글 (Acknowledgements). 본 연구는 중국 국가 핵심 R&D 프로그램(2018YFB1404102), NSFC(62172420, 61902347, 61976188, 62002323), 저장성 공익 기술 연구 프로젝트(LGF21F020010), 국립 패턴 인식 연구소의 오픈 프로젝트 프로그램, 저장성 지방 대학의 기초 연구 기금, 그리고 RUC의 공공 컴퓨팅 클라우드의 지원을 받았다.

A APPENDIX

우리는 지면 제약으로 인해 논문에 포함되지 않은 추가적인 실험 결과와 기술적 세부 사항을 보고한다:

  • TVR 데이터셋에 대한 추가 비교: Transformer 모듈의 중요성을 탐구하기 위한 추가 ablation study, 추가 자막을 사용하는 모델과의 비교, 그리고 클립을 사용하는 기존 T2VR 모델과의 비교를 포함한다 (Section A.1).
  • 사전 트리밍된 비디오 데이터셋에 대한 성능 비교 (Section A.2).
  • Charades-STA 데이터셋의 moment-to-video 비율 분포 (Section A.3.1).
  • 우리 방법론에 대한 추가 기술적 세부 사항 (Section A.3.2).

A. 1 More Experiments on TVR

A.1.1 Transformer 사용에 대한 Ablation
TVR 데이터셋에서 비교된 방법들 중 상위 3개(ReLoCLNet, XML, RIVRL)는 Transformer 모듈을 사용한다. ReLoCLNet과 XML은 텍스트 및 비디오 표현을 위해 Transformer를 활용하고, RIVRL은 비디오 표현을 위해 Transformer를 사용한다. 따라서 우리는 Transformer 모듈의 사용이 우리 방법의 상당한 성능 향상에 주로 기여하는지 탐색하기 위해 추가적인 ablation study를 수행한다. 우리는 우리 모델의 세 가지 Transformer 모듈을 각각 1D-CNN, bi-GRU, bi-LSTM으로 대체한다. Table 7에 나타난 바와 같이, Transformer-free 설정에서 우리 모델은 각각 161.6, 170.2, 162.3의 SumR을 얻는다 [29] 데이터셋. 이들의 성능은 Transformer를 사용한 모델보다 나쁘지만, 여전히 최고의 baseline인 ReLoCLNet의 SumR 157.1보다 우수하다.

A.1.2 추가 자막을 사용하는 모델과의 비교
TVR 데이터셋은 각 비디오에 추가적으로 자막(대화) 텍스트가 연결된 멀티모달 데이터셋이므로, 이 실험에서는 추가 자막을 사용하는 모델과 비교한다. 여기서는 기존 T2VR 모델이 추가 자막 사용을 지원하지 않으므로 비교하지 않는다. 우리는 XML [29] 및 ReLoCLNet [68]과 비교하며, [29]에서 제공하는 동일한 768-D 자막 feature를 추가 비디오 feature로 사용한다.

Table 7: Transformer 사용에 대한 Ablation.

R@1R@5R@10R@100SumR
ReLoCLNet (best baseline)10.728.138.180.3157.1
Ours (1D-CNN)10.629.339.981.9161.6
Ours (bi-LSTM)11.229.040.281.9162.3
Ours (bi-GRU)12.431.642.983.3170.2
Ours (Transformer)13.532.143.483.4172.4

Table 8: 자막 feature를 사용한 PRVR 성능. Visual feature:ResNet152-I3D, Subtitle feature:RoBERTa.

MethodR@1R@5R@10R100SumR
XML[29]17.439.351.589.1197.3
ReLoCLNet[68]19.140.351.587.0197.9
Ours24.0\mathbf{24 . 0}47.8\mathbf{4 7 . 8}58.8\mathbf{5 8 . 8}90.2\mathbf{9 0 . 2}220.8\mathbf{2 2 0 . 8}

결과는 Table 8에 나타나 있으며, 제안된 우리 모델이 다시 한번 최고의 성능을 보인다.

A.1.3 클립을 사용하는 기존 T2VR 모델과의 비교
기존 T2VR 모델은 일반적으로 비디오 클립 검색을 위해 설계되었으므로, 이 실험에서는 클립을 사용하는 기존 T2VR 모델을 활용하여 PRVR에 대한 잠재력을 탐색한다. 구체적으로, 추론 시 먼저 비디오를 여러 클립으로 분할한 다음, 각 클립과 쿼리의 유사도를 계산한다. 최대 유사도를 비디오와 쿼리 간의 최종 유사도로 간주한다.

Figure 8: TVR 데이터셋에서 (a) content-agnostic 전략과 (b) content-aware 전략으로 생성된 클립을 사용하는 네 가지 기존 T2VR 모델의 성능. 이들의 성능은 SumR 점수 172.4를 달성한 제안된 우리 모델보다 여전히 훨씬 낮다.

또한, 우리는 비디오에서 클립을 생성하기 위해 두 가지 전략, 즉 content-agnostic 전략content-aware 전략을 채택한다. content-agnostic 전략은 먼저 비디오를 NN개의 비디오 단위로 균등하게 분할한 다음, 특정 비디오 단위를 사용하거나 인접한 비디오 단위를 연결하여 비디오 클립을 구성한다. NN이 클수록 더 많은 비디오 클립이 생성되며, N=1N=1은 추론에 전체 비디오를 사용함을 나타낸다. content-aware 전략은 자체 제공된 임계값 θ\theta를 가진 장면 감지 툴킷을 사용하여 비디오 클립을 생성한다.

이는 콘텐츠 변경에 따라 비디오를 개별 클립으로 자동 분할한다. 임계값이 작을수록 더 많은 비디오 클립이 생성된다.

우리는 TVR에서 상위 4개 T2VR 모델인 VSE++, DE, DE++, RIVRL로 실험을 수행했으며, 결과는 Fig. 8에 나타나 있다. 8 (a)에 나타난 바와 같이, 모든 모델은 NN이 1보다 클 때 성능 향상을 달성하며, N=3N=3일 때 최고의 성능을 얻는다. N=1N=1은 추론에 전체 비디오를 사용함을 나타낸다. 이 결과는 T2VR 모델이 content-agnostic 전략으로 비디오를 여러 클립으로 분할함으로써 개선될 수 있음을 시사한다. 그러나 이들의 성능은 TVR에서 SumR 점수 172.4를 달성한 제안된 우리 모델보다 여전히 훨씬 낮다. Fig. 8 (b)는 content-aware 전략을 사용했을 때의 결과를 보여준다. θ=inf\theta=\inf는 분할 없이 전체 비디오를 사용함을 나타낸다. 우리는 content-aware 전략으로 비디오를 여러 클립으로 분할하는 것이 상대적인 성능 저하를 초래한다는 것을 발견했으며, 이는 장면 감지기가 PRVR에 적합하지 않음을 보여준다. 또한, 우리는 순간의 콘텐츠에 장면 변화가 있을 수 있으며, 장면 감지기가 순간을 여러 부분으로 분할할 가능성이 있기 때문이라고 추측한다.

Table 9: MSR-VTT 및 MSVD 데이터셋의 성능 비교. Visual feature:ResNeXt101+ResNet-152.

R@1R@5R@10SumR
On MSR-VTT:
CE, BMVC19[37]7.923.634.666.1
VSE++, BMVC19[15]8.724.334.167.1
DE, CVPR19[11]11.129.440.380.8
W2VV++, MM19[31]11.129.640.581.2
DE++, TPAMI21[12]11.630.341.383.2
HGR, CVPR20[7]11.130.542.183.7
SEA, TMM21[32]12.432.143.387.8
RIVRL, TCSVT22[13]13.033.444.891.2
Ours11.330.442.283.9
On MSVD:
DE, CVPR19[11]20.346.859.7126.8
CF-GNN, TMM21[53]22.850.963.6137.3
W2VV++, MM19[31]22.451.664.8138.8
SEA, TMM21[32]24.655.067.9147.5
Ours22.052.667.2141.8

A. 2 Results on Pre-trimmed Datasets

우리가 제안하는 모델은 untrimmed video를 위해 설계되었지만, 텍스트를 이용한 pre-trimmed video 검색에도 활용될 수 있다. 따라서 우리는 T2VR(Text-to-Video Retrieval)에 일반적으로 사용되는 두 가지 pre-trimmed 데이터셋인 **MSR-VTT [59]와 MSVD [4]**에 대해 실험을 수행한다.

  • MSR-VTT의 경우, 공식 분할을 따르며, 6,513개의 비디오 클립은 학습에, 497개는 검증에, 나머지 2,990개는 테스트에 사용된다.
  • MSVD의 경우에도 공식 분할을 따르며, 1,200개의 비디오 클립은 학습에, 100개는 검증에, 670개는 테스트에 사용된다.

이전 연구들 [12, 13, 31]에 따라, 우리는 2048차원 ResNeXt-101과 2048차원 ResNet-152 feature의 연결(concatenation)을 비디오 feature로 사용한다. 텍스트 표현을 위해서는 open RoBERTa 툴킷을 사용하여 1,024차원 문장 feature를 추출한다.

결과는 Table 9에 제시되어 있으며, 모든 방법은 동일한 비디오 feature를 사용한다. 비교된 모든 방법이 두 데이터셋 모두에서 성능을 보고하지는 않았다는 점에 유의해야 한다. 예상대로, 우리 모델은 두 pre-trimmed 데이터셋에서 state-of-the-art 모델들과 동등한 수준은 아니다. 우리 모델의 기본 아이디어는 먼저 쿼리와 가장 관련성이 높은 key clip을 감지한 다음, 이 key clip의 안내에 따라 다른 프레임들의 중요도를 미세한 시간 단위(fine-grained temporal scale)로 측정하는 것이다. MSR-VTT와 MSVD의 pre-trimmed video의 경우, 대부분의 프레임이 실제로는 관련 설명과 관련성이 높기 때문에 key clip 감지가 불필요하다. 따라서 우리 방법은 MSR-VTT 및 MSVD에서의 text-to-video retrieval에는 최적화되지 않은 방식이다.

A. 3 Others

A.3.1 Moment-to-Video 비율 분포. Figure 9는 Charades-STA 데이터셋에서 moment-to-video 비율의 분포를 보여준다. Moment-to-video 비율전체 비디오에서 특정 moment가 차지하는 길이 비율을 나타낸다. Charades-STA의 moment들은 시간적 길이에서 큰 분산을 보인다.

Figure 9: Charades-STA에서 moment-to-video 비율의 분포. Moment-to-video 비율은 전체 비디오에서 moment의 길이 비율을 나타낸다.

A.3.2 추가 구현 세부사항. 비디오 표현 모듈의 경우, downsampling 전략에서 고정된 숫자 nun_u를 32로 설정하였다. 또한, 최대 프레임 수 nvn_v를 128로 설정하였다. 프레임 수가 nvn_v를 초과하면 nvn_v로 downsampling된다. 문장의 경우, TVR 및 Charades-STA에서는 쿼리의 최대 길이 nqn_q를 30으로, ActivityNet Captions에서는 64로 설정하였으며, 최대 길이를 초과하는 단어는 단순히 버려진다. 우리 모델에 사용된 Transformer 모듈의 경우, hidden size dd를 384로 설정하고 4개의 attention head를 사용하였다. 손실 함수(loss function)의 하이퍼파라미터는 모델 학습 초기에 모든 손실 요소가 유사한 손실 값을 갖도록 λ1=0.02\lambda_1=0.02λ2=0.04\lambda_2=0.04로 경험적으로 설정하였다. 모델 학습을 위해 mini-batch size 128의 Adam optimizer를 사용하였다. 초기 learning rate는 0.00025로 설정되었으며, [29]와 유사한 learning rate 조정 스케줄을 따른다. 10 epoch 연속으로 validation 성능이 향상되지 않으면 early stop이 발생한다. 최대 epoch 수는 100으로 설정되었다. 우리는 소스 코드와 데이터를 공개할 예정이다.