Jiang, Xun, et al. "Progressive event alignment network for partial relevant video retrieval." 2023 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2023.

Progressive Event Alignment Network for Partial Relevant Video Retrieval

Xun Jiang ${ }^{\dagger}$ School of Computer Science and Engineering University of Electronic Science and Technology of China Chengdu, China

Zhiguo Chen ${ }^{\dagger}$ School of Computer Science and Engineering University of Electronic Science and Technology of China Chengdu, China

Xing Xu* School of Computer Science and Engineering University of Electronic Science and Technology of China Chengdu, China

Fumin Shen School of Computer Science and Engineering University of Electronic Science and Technology of China Chengdu, China

Zuo Cao Meituan Shanghai, China

Xunliang Cai Meituan Shanghai, China

Abstract

현재 대부분의 기존 텍스트 기반 비디오 검색(text-based video retrieval) 방법들은 trimmed video에만 적합하게 개발되었다. 그러나 오늘날 멀티미디어 애플리케이션에서는 더 복잡한 untrimmed video가 흔히 사용된다. 본 논문에서는 부분적인 텍스트 설명으로 untrimmed long video를 검색하는 Partially Relevant Video Retrieval (PRVR) task에 초점을 맞춘다. 이 어려운 문제를 해결하기 위해 우리는 **텍스트 쿼리와 로컬 비디오 콘텐츠를 점진적으로 정렬(align)하는 새로운 방법인 Progressive Event Alignment Network (PEAN)**를 제안한다.

구체적으로 PEAN은 세 가지 핵심 구성 요소로 이루어져 있다: (1) Multimodal Representation Module (MRM): 텍스트 표현과 계층적 비디오 표현을 추출한다. (2) Event Searching Module (ESM): 설명된 비디오 콘텐츠를 대략적으로 지역화(localize)한다. (3) Event Aligning Module (EAM): 텍스트 쿼리와 로컬 비디오 콘텐츠를 fine-grained 수준으로 정렬한다.

또한, 우리는 ESM과 EAM 모두에서 Gaussian-based pooling 전략을 설계하여, 대표적인 비디오 프레임 내의 의미 정보를 철저히 탐색한다. 세 가지 PRVR 벤치마크에 대한 광범위한 실험은 우리가 제안한 PEAN 방법이 현재 state-of-the-art 방법들을 크게 능가함을 입증한다.

Index Terms—Video-Text Retrieval, Video Analysis, Contrastive Learning, Multimodal Alignment, Multimedia Applications

I. Introduction

Video-Text Retrieval (VTR) [2], [4]-[6], [13], [15]은 대부분의 멀티미디어 애플리케이션에서 주어진 텍스트 쿼리에 대해 관련 비디오를 검색하는 것을 목표로 하는 기본적인 task이다. 현재 대부분의 VTR 방법들은 비디오 갤러리의 모든 후보 비디오들이 사전 트리밍(pre-trimmed)되어 텍스트 쿼리가 대상 비디오와 의미적으로 잘 정렬될 수 있다고 가정한다. 그러나 인터넷의 발전과 함께 오늘날 대부분의 비디오(예:

Fig. 1. PRVR task의 예시. 쿼리는 부분적인 비디오 콘텐츠에 대한 자연어 설명이다. 텍스트 modality는 전체 대상 비디오 대신 특정 비디오 이벤트와 잘 정렬될 수 있다. 또한 설명된 이벤트 내의 프레임들이 텍스트 쿼리와 다른 의미적 매칭 강도(낮음 또는 높음)를 갖는 것을 관찰할 수 있다.

영화 플레이어 또는 감시 시스템)는 점점 길어지고 짧은 텍스트 쿼리로 완전히 표현하기 어려운 복잡한 의미를 포함한다. 이러한 멀티미디어 애플리케이션에서 비디오를 검색하는 것은 untrimmed 비디오가 텍스트 쿼리와 부분적으로만 관련되어 있기 때문에 전통적인 VTR 방법으로는 어렵다.

이를 위해 우리는 Partially Relevant Video Retrieval (PRVR) task에 초점을 맞춘다. 이 task에서는 비디오 갤러리가 untrimmed 비디오로 구성되며, 각 텍스트 쿼리는 전체 비디오가 아닌 비디오 콘텐츠의 일부를 설명한다. 최근 Dong et al. [3]은 PRVR task에 대한 초기 연구인 **Multi-Scale Similarity Learning (MS-SL)**을 제안했으며, 이는 Multiple Instance Learning 관점에서 이 문제를 해결한다. 잘 설계된 multi-scale similarity learning 메커니즘을 통해 MS-SL 방법은 기존 VTR 방법들과 비교하여 유망한 결과를 달성했다. 그럼에도 불구하고 PRVR task에서 검색 성능을 제한하는 두 가지 결함이 여전히 존재한다: (1) 부분적으로 관련된 의미가 비디오에 희소하게(sparsely) 숨겨져 있다고 가정하여, MS-SL 방법의 프레임 수준(frame-level) 브랜치는 텍스트 쿼리와 다른 비디오 프레임 간의 **멀티모달 정렬(multimodal alignment)**을 수행한다. 이러한 설계는 설명된 이벤트의 의미적 완전성을 깨뜨려 멀티모달 정렬 학습의 효과를 감소시킨다. 대조적으로, Fig. 1에 묘사된 바와 같이, 최적의 비디오-쿼리 매칭은 자연스럽게 연속적인 비디오 세그먼트, 즉 이벤트의 관점에서 고려되어야 한다. (2) 비디오의 모든 프레임이 동등하게 취급된다. 우리는 텍스트 쿼리와 비디오 프레임 간의 의미적 상관관계의 강도가 다르다고 주장한다. Fig. 1에서 볼 수 있듯이, 텍스트 쿼리와 더 관련성이 높은 몇몇 대표적인 프레임이 존재한다.

위의 두 가지 결함을 극복하기 위해 우리는 **Progressive Event Alignment Network (PEAN)**라는 새로운 방법을 제안한다. 이 방법은 텍스트 쿼리와 로컬 비디오 콘텐츠를 점진적으로 정렬함으로써 도전적인 PRVR task를 해결한다. Fig. 2에 설명된 바와 같이, 우리의 PEAN 방법은 세 가지 핵심 구성 요소로 이루어져 있다: (1) Multimodal Representation Module (MRM): 비디오 및 텍스트 modality를 contextualized feature로 표현한다. 또한, coarse-grained 비디오 표현을 생성하기 위해 학습 가능한 downsampling 전략을 사용한다. (2) Event Searching Module (ESM): 텍스트 쿼리에 의해 설명된 비디오 이벤트를 대략적으로 검색한다. 특히, 대표적인 프레임을 강화하기 위해 Gaussian weighted pooling 메커니즘을 설계한다. (3) Event Aligning Module (EAM): 비디오 이벤트와 텍스트 쿼리 간의 멀티모달 정렬을 수행한다. ESM에 의해 생성된 대략적인 시간적 위치를 기반으로, 대상 이벤트의 더 많은 의미적 단서(semantical cues)를 탐색하고 비디오-쿼리 매칭 점수를 추정한다. 우리는 제안된 PEAN 방법을 CharadesSTA, ActivityNet-Captions, TVR의 세 가지 벤치마크에서 평가한다. 광범위한 실험을 통해 PEAN이 최신 state-of-the-art 방법들을 능가함을 입증한다.

우리는 PRVR task를 위한 Progressive Event Alignment Network (PEAN) 방법을 설계했으며, 이는 텍스트 쿼리와 로컬 비디오 콘텐츠를 점진적으로 정렬하여 untrimmed 비디오를 검색할 수 있다.
우리는 **잠재적으로 관련된 이벤트를 대략적으로 지역화하는 Event Searching Module (ESM)**을 사용한다. 이를 통해 우리 모델은 완전한 비디오를 전체적으로 파악하고 텍스트 쿼리와의 전역적 상관관계를 추정할 수 있다.
우리는 **텍스트 쿼리와 fine-grained 비디오 콘텐츠를 매칭하기 위해 Event Aligning Module (EAM)**을 제안한다. 이는 untrimmed 비디오에서 대상 이벤트를 추가로 탐색하고 부분적인 설명과 정렬한다.

Video-Text Retrieval (VTR). VTR은 주어진 자연어 텍스트에 따라 가장 관련성이 높은 비디오를 검색하는 것을 목표로 하는 전통적인 crossmodal retrieval task이다. 현재 대부분의 연구 [2], [4], [5], [13], [15]는 먼저 텍스트와 시각적 feature를 공통 임베딩 부분 공간으로 투영한 다음, 두 modality 간의 유사도를 추정한다.

일반적으로 Dong et al. [6]은 cross-modal 비디오 표현을 학습하기 위해 feature 추출 과정에서 previewing branch와 intensive-reading branch를 설계했다. Wang et al. [18]은 contextualized text feature와 비디오 프레임 간의 시간적 관계를 견고하게 학습하기 위해 attention 기반 관계 추론 방법을 제안했다. 그러나 이러한 VTR 방법들은 현재 멀티미디어 애플리케이션의 비디오보다 의미론적으로 훨씬 단순한 trimmed 비디오 검색에만 국한된다.

Video Moment Retrieval (VMR). VTR과 달리 VMR [8]-[10], [16], [17]의 목표는 untrimmed 긴 비디오에서 텍스트 쿼리를 사용하여 특정 비디오 이벤트(moment)를 검색하는 것이다. cross-modal retrieval의 아이디어를 따라, Wang et al. [17]은 dynamical convolutional kernel을 후보 생성에 도입하여 VMR 방법을 VTR 패러다임으로 전환했다. 또한, 모델 효율성 또는 더 복잡한 쿼리 설정을 다루기 위해 일련의 VMR 방법들 [8], [9], [16]도 제안되었다. VMR task는 untrimmed 비디오에 적용되어 텍스트와 비디오 modality를 정렬할 수 있지만, 대규모 비디오 데이터셋이 아닌 단일 비디오에만 국한된다.

Partially Relevant Video Retrieval (PRVR). 오늘날 멀티미디어 애플리케이션을 위한 새로운 cross-modal retrieval task로서, PRVR은 전통적인 VTR 또는 VMR보다 더 도전적이다. 이는 대규모 untrimmed 비디오 데이터셋에서 텍스트 쿼리와 가장 잘 상관되는 비디오를 검색하는 것을 요구한다. 초기 PRVR 연구 [12], [19]는 VTR과 VMR task를 결합하도록 설계되었다. 구체적으로, Lei et al. [12]는 비디오 콘텐츠 검색을 위한 텔레비전 애플리케이션용 멀티모달 데이터셋을 소개했다. 그들은 또한 convolutional start-end detector를 사용한 late multimodal fusion을 통해 이 task를 위한 baseline 방법을 설계했다. 그럼에도 불구하고, 이러한 방법들은 비디오 코퍼스에서 결정적인 순간을 검색하도록 설계되었으며 시간적 주석에 크게 의존한다. 최근 Dong et al. [3]은 PRVR task를 위한 초기 방법을 제안했는데, 이는 비디오 수준 검색에만 초점을 맞춰 이전 연구들보다 훨씬 뛰어난 성능을 보여주었다.

III. Proposal Method

A. Multimodal Representation Module

텍스트 모달리티 (Text Modality)
[3]을 따라, 우리는 사전학습된 자연어 처리 모델인 RoBERTa [14]를 사용하여 각 텍스트 쿼리의 word embedding을 추출한다. $l_{\mathrm{Q}}$ 개의 단어로 구성된 문장 쿼리가 주어졌을 때, 우리는 word-level representation $\mathbf{Q}=\left\{\mathbf{w}_{i}\right\}_{i=1}^{l_{\mathrm{Q}}}$ 를 추출한다. 여기서 $\mathbf{w}_{i} \in \mathbb{R}^{d_{q}}$ 는 $i$ -번째 word-level embedding이고, $d_{q}$ 는 텍스트 embedding 차원이다.
우리는 또한 Transformer encoder와 attention mechanism을 사용하여 sentence-level representation을 생성한다. 구체적으로, $\phi_{\mathrm{q}}(\cdot)$ 를 Transformer encoder라고 할 때, 우리는 **contextualized word-level feature $\mathbf{Q}^{\prime}=\phi_{\mathrm{q}}(\mathbf{Q})$ **를 얻는다. 텍스트 sentence-level feature $\mathbf{F}_{\mathrm{q}}$ 의 추출은 다음과 같이 표현될 수 있다:

\mathbf{F}_{\mathrm{q}}=\sum_{i=1}^{l_{\mathrm{Q}}} \alpha_{i}^{q} \mathbf{w}_{i}, \quad \alpha^{q}=\operatorname{Softmax}\left(\mathbf{W}_{q}^{\top} \mathbf{Q}^{\prime}\right),

여기서 $\mathbf{W}_{q} \in \mathbb{R}^{d_{q} \times d}$ 는 학습 가능한 가중치 행렬을 나타내고, $d$ 는 hidden dimension이다.

Fig. 2. 우리가 제안하는 PEAN 방법의 도식. 이는 세 가지 핵심 구성 요소로 이루어져 있다: (1) Multimodal Representation Module (MRM): 텍스트 feature와 계층적 비디오 feature를 추출한다. (2) Event Searching Module (ESM): 텍스트로 설명된 target 이벤트를 대략적으로 지역화(localize)한다. (3) Event Aligning Module (EAM): ESM으로부터 얻은 대략적인 지역화 정보를 바탕으로, 지역 비디오 콘텐츠와 텍스트 쿼리 간의 멀티모달 정렬(alignment)을 추가적으로 학습한다. "Sim"은 cosine similarity 계산을 나타낸다.

비디오 모달리티 (Video Modality)
untrimmed 비디오가 주어졌을 때, 우리는 먼저 비디오를 고정된 길이 $l_{\mathrm{V}}$ 로 균등하게 샘플링한 다음, 사전학습된 visual backbone을 사용하여 비디오 feature를 추출한다.
추출된 비디오 feature를 $\mathbf{V}= \left\{\mathbf{v}_{j}\right\}_{j=1}^{l_{\mathrm{v}}}, \mathbf{v}_{j} \in \mathbb{R}^{d_{v}}$ 라고 할 때, 여기서 $d_{v}$ 는 비디오 embedding 차원이다. 우리는 또한 Transformer encoder를 사용하여 contextualized representation $\mathbf{V}^{\prime}=\phi_{\mathrm{v}}(\mathbf{V})=\left\{\mathbf{v}_{j}^{\prime}\right\}_{j=1}^{l_{\mathrm{v}}}, \mathbf{v}_{j}^{\prime} \in \mathbb{R}^{d}$ 를 학습한다.
[10]에서 영감을 받아, 여기서는 temporal convolution을 포함하는 학습 가능한 비디오 downsampling 전략을 사용하여 coarse-grained visual representation을 추출한다. 구체적으로, 학습 가능한 비디오 downsampling 과정은 다음과 같이 표현될 수 있다:

\mathbf{F}_{\mathrm{v}}=\mathrm{f}_{\mathrm{tc}}\left(\operatorname{MaxPooling}\left(\mathbf{V}^{\prime}, \mathrm{K}, \mathbf{S}\right)\right)=\left\{\mathbf{f}_{v}^{k}\right\}_{k=1}^{l_{\mathrm{v}}^{\prime}},

여기서 K와 S는 maxpooling layer의 kernel size와 stride이며, 이는 contextualized video feature의 길이를 $l_{\mathrm{V}}^{\prime}$ 로 downsample한다 ( $l_{\mathrm{V}}^{\prime}<l_{\mathrm{V}}$ ). $\mathrm{f}_{\mathrm{tc}}$ 는 stride가 1로 설정된 temporal convolution을 나타낸다. 이러한 방식으로, 우리는 coarse-grained contextualized visual feature 시퀀스를 생성하며, 각 feature는 넓은 temporal receptive field를 가진다.

B. Event Searching Module

Gaussian Weighted Pooling (GWP)
타겟 비디오 이벤트 내에는 항상 대표적인 프레임이 존재한다는 동기 부여에 따라, 우리는 이벤트 표현을 생성하기 위해 GWP를 제안한다. 구체적으로, 우리는 $\mathbf{F}_{\mathrm{v}}$ 내 각 coarse-grained feature의 상대적 위치를 가변 $\sigma$ 를 갖는 Gaussian 분포의 기댓값으로 간주한다. 이러한 Gaussian 분포를 사용하여 $\mathbf{F}_{\mathrm{v}}$ 의 가중합을 계산함으로써, coarse-grained 비디오 이벤트 표현들의 리스트를 얻는다. $\mathbf{F}_{\mathrm{v}}$ 내 $k$ -번째 feature를 예로 들면, Gaussian Weighted Pooling 과정은 다음과 같이 표현될 수 있다:

\mathbf{F}_{\mathrm{esm}}^{k}=\sum_{i=1}^{l_{\mathrm{v}}^{\prime}} \frac{\mathbf{f}_{v}^{i}}{\sqrt{2 \pi}(\sigma / \gamma)} \exp \left(-\frac{\left(i / l_{\mathrm{V}}^{\prime}-k / l_{\mathrm{V}}^{\prime}\right)^{2}}{2(\sigma / \gamma)^{2}}\right),

여기서 $\mathbf{f}_{v}^{i}$ 는 $\mathbf{F}_{v}$ 내 $i$ -번째 feature를 나타내고, $\gamma$ 는 scale factor의 하이퍼파라미터이다.

Coarse-grained Multimodal Alignment Learning (CMAL)
우리는 untrimmed 비디오에서 타겟 이벤트의 대략적인 위치를 찾기 위해 ESM에서 CMAL을 수행한다. 구체적으로, 각 coarse-grained 비디오 이벤트 표현과 sentence-level 텍스트 쿼리 표현 간의 **코사인 유사도(cosine similarity)**를 계산한 다음, 최적의 것을 잠재 비디오 이벤트로 선택한다. 최적의 표현은 $\mathbf{F}_{\mathrm{esm}}^{k^{*}}$ 로 표현될 수 있으며, 여기서 $k^{*}=\arg \max _{k} \mathbf{F}_{\mathrm{q}}^{\top} \mathbf{F}_{\mathrm{esm}}^{k}$ 이다. 또한, 우리는 비디오 쿼리와 최적의 coarse-grained 비디오 이벤트 표현 간의 멀티모달 정렬(multimodal alignment)을 학습하기 위해 contrastive learning을 도입한다. 구체적으로, 비디오 또는 텍스트 feature를 positive case로 간주함으로써, contrastive learning은 각각 비디오 및 텍스트 모달리티 관점에서 수행될 수 있다. 명확성을 위해, 비디오 모달리티의 CMAL은 다음과 같이 공식화한다:

\mathcal{L}_{\mathrm{cmal}}^{v}=\frac{1}{N} \sum_{\mathbf{F}_{\mathrm{cm}}^{k *} \in \mathcal{B}}\left[\mathcal{L}_{\mathrm{T}}\left(\mathbf{F}_{\mathrm{esm}}^{k^{*}}, \mathbf{F}_{\mathrm{q}}^{+}, \mathbf{F}_{\mathrm{q}}^{-}\right)+\lambda_{1} \mathcal{L}_{\mathrm{N}}\left(\mathbf{F}_{\mathrm{esm}}^{k^{*}}, \mathbf{F}_{\mathrm{q}}^{+}, \mathbf{F}_{\mathrm{q}}^{-}\right)\right],

여기서 $N$ 은 학습 배치 내 positive anchor의 수이고 $\lambda_{1}$ 은 균형 인자이다. $\mathcal{L}_{\mathrm{T}}(\cdot)$ 와 $\mathcal{L}_{\mathrm{N}}(\cdot)$ 은 [3]에 따라 각각 Triplet Loss와 Noisy Cross-Entropy Loss를 나타낸다. $\mathbf{F}_{\mathrm{q}}^{+}$ 와 $\mathbf{F}_{\mathrm{q}}^{-}$ 는 비디오 anchor에 대한 positive 및 negative 텍스트 쿼리이다. 유사하게, 비디오 anchor $\mathbf{F}_{\text {esm }}^{k^{*}}$ 를 텍스트 anchor $\mathbf{F}_{\mathrm{q}}$ 로 역전시킴으로써, 텍스트 모달리티의 CMAL $\mathcal{L}_{\text {cmal }}^{q}$ 를 계산한다.

C. Event Aligning Module

Latent Event Proposal (LEP). ESM에서 최적의 coarse-grained 비디오 이벤트 표현에 따라, 우리는 잠재된 타겟 이벤트의 대략적인 시간적 위치를 얻는다. 나아가, 두 가지 모달리티를 더욱 정밀하게 정렬하기 위해, 우리는 fine-grained 수준에서 LEP 메커니즘을 설계한다. 대략적인 상대적 시간적 위치를 고정된 기대 중심(expectation center)으로 삼아, 우리는 0.05에서 1.0까지 균등하게 분포된 multiscale 변수를 사용하여 fine-grained 비디오 feature에 **GWP(Gaussian Windowing Process)**를 적용하며, 총 개수는 $H$ 로 설정된다. 구체적으로, ESM에서 선택된 최적 위치를 $k^{*}$ 라고 할 때, $h$ -번째 이벤트는 다음과 같이 표현될 수 있다:

\mathbf{F}_{\mathrm{eam}}^{h}=\sum_{i=1}^{l_{\mathrm{V}}} \frac{\mathbf{v}^{i}}{\sqrt{2 \pi}\left(\sigma_{h} / \gamma\right)} \exp \left(-\frac{\left(i / l_{\mathrm{V}}-l_{\mathrm{V}} \cdot k^{*} / l_{\mathrm{V}}^{\prime}\right)^{2}}{2\left(\sigma_{h} / \gamma\right)^{2}}\right),

여기서 $\sigma_{h}$ 는 $h$ -번째 잠재 이벤트 표현을 위한 GWP의 변수이다. $\mathbf{v}^{i}$ 는 MRM의 Transformer encoder에 의해 처리된 $i$ -번째 fine-grained contextualized 비디오 feature이다. 이러한 방식으로, 우리는 방대한 관련 없는 비디오 콘텐츠를 점진적으로 필터링하고 더 많은 세부 정보를 포함하는 이벤트 표현을 생성한다.

또한, 우리는 멀티모달 정렬을 위한 정보 보완으로 [3]에서 채택된 Key-clip Guided Attention (KGA) 메커니즘도 사용한다. 구체적으로, ESM의 $\mathbf{F}_{\mathrm{v}}$ 에서 $k^{*}$ -번째 coarse-grained 비디오 feature를 $\mathbf{F}_{\text {esm }}^{k^{*}}$ 라고 할 때, 우리는 KGA를 사용하여 fine-grained 비디오 feature를 전역 표현(global representation)으로 통합하며, 이는 다음과 같이 표현될 수 있다:

\mathbf{F}_{\mathrm{eam}}^{\prime}=\sum_{j=1}^{l_{\mathrm{v}}} \alpha_{j}^{v} f_{1}\left(\mathbf{v}_{j}\right), \quad \alpha^{v}=\operatorname{Softmax}\left(\mathbf{F}_{\mathrm{esm}}^{k^{*} \top} f_{2}\left(\mathbf{V}^{\prime}\right)\right)

여기서 $f_{1}$ 과 $f_{2}$ 는 project layer이다.

Fine-grained Multimodal Alignment Learning (FMAL). ESM의 CMAL과 유사하게, 우리는 이벤트-쿼리 멀티모달 정렬을 촉진하기 위해 fine-grained 수준에서 contrastive learning을 적용한다. 구체적으로, 텍스트 쿼리 표현과 각 이벤트 제안(event proposal) 사이의 코사인 유사도를 계산한다. 이어서, 최적의 이벤트 제안을 선택하여 멀티모달 정렬 학습을 수행한다. 최적의 표현은 $\mathbf{F}_{\text {eam }}^{h^{*}}$ 로 표현될 수 있으며, 여기서 $h^{*}=\arg \max _{h} \mathbf{F}_{\mathrm{q}}^{\top} \mathbf{F}_{\text {eam }}^{h}$ 이다. 우리는 또한 최적의 이벤트 제안과 텍스트 쿼리를 정렬하는 것을 목표로, 비디오 및 텍스트 모달리티 각각의 관점에서 contrastive learning을 수행한다. 비디오 모달리티를 positive anchor로 삼아, 우리는 contrastive learning $\mathcal{L}_{\text {fmal }}^{v}=\mathcal{L}_{\text {kga }}^{v}+\lambda_{2} \mathcal{L}_{\text {lep }}^{v}$ 를 표현하며, 여기서 $\mathcal{L}_{\text {kga }}^{v}$ 와 $\mathcal{L}_{\text {lep }}^{v}$ 는 LEP 및 KGA 프로세스를 위한 contrastive learning loss이다:

\begin{aligned} \mathcal{L}_{\mathrm{kga}}^{v} & =\frac{1}{N} \sum_{\mathbf{F}_{\mathrm{cam}}^{\prime} \in \mathcal{B}}\left[\mathcal{L}_{\mathrm{T}}\left(\mathbf{F}_{\mathrm{eam}}^{\prime}, \mathbf{F}_{\mathrm{q}}^{+}, \mathbf{F}_{\mathrm{q}}^{-}\right)+\lambda_{3} \mathcal{L}_{\mathrm{N}}\left(\mathbf{F}_{\mathrm{eam}}^{\prime}, \mathbf{F}_{\mathrm{q}}^{+}, \mathbf{F}_{\mathrm{q}}^{-}\right)\right] \\ \mathcal{L}_{\mathrm{lep}}^{v} & =\frac{1}{N} \sum_{\mathbf{F}_{\mathrm{eam}}^{h^{*}} \in \mathcal{B}} \mathcal{L}_{\mathrm{T}}\left(\mathbf{F}_{\mathrm{eam}}^{h^{*}}, \mathbf{F}_{\mathrm{q}}^{+}, \mathbf{F}_{\mathrm{q}}^{-}\right) \end{aligned}

마찬가지로, 두 모달리티를 교환하여 텍스트 모달리티에 대한 contrastive learning loss $\mathcal{L}_{\text {fmal }}^{q}$ 를 얻을 수 있으며, 이때 텍스트 쿼리 표현이 positive anchor로 선택된다.

D. Training and Testing

우리는 PEAN 방법을 end-to-end 방식으로 학습시킨다. 전체 학습 objective는 다음과 같이 표현된다:

\mathcal{L}_{\text {total }}=\mathcal{L}_{\mathrm{cmal}}^{v}+\mathcal{L}_{\mathrm{cmal}}^{q}+\mathcal{L}_{\mathrm{fmal}}^{v}+\mathcal{L}_{\mathrm{fmal}}^{q}

모델 추론(inference)의 경우, 우리는 ESM에서의 coarse-grained 검색 유사도와 EAM에서의 fine-grained 정렬 유사도를 모두 고려하여 비디오-쿼리 매칭 점수를 종합적으로 추정한다. 구체적으로, 각 비디오에 대해 ESM과 EAM에서 정규화된 최적의 비디오 이벤트 표현을 각각 $\hat{\mathbf{F}}_{\text {esm }}^{k^{*}}$ 와 $\hat{\mathbf{F}}_{\text {eam }}^{h^{*}}$ 라고 할 때, 매칭 점수는 다음과 같이 계산된다:

\text { Score }=\eta \cdot \hat{\mathbf{F}}_{\mathrm{q}}^{\top} \hat{\mathbf{F}}_{\mathrm{esm}}^{k^{*}}+(1-\eta) \cdot \hat{\mathbf{F}}_{\mathrm{q}}^{\top} \hat{\mathbf{F}}_{\mathrm{eam}}^{h^{*}}

여기서 $\hat{\mathbf{F}}_{\mathrm{q}}$ 는 정규화된 텍스트 쿼리 표현이며, $\eta$ 는 하이퍼파라미터이다.

IV. Experiments

A. Experimental Settings

데이터셋 (Datasets)
우리는 세 가지 벤치마크에서 우리의 방법을 평가한다. (1) Charades-STA [7]: 일상적인 실내 활동 비디오 6,670개를 포함하며, 각 비디오는 평균 2.4개의 이벤트와 해당 문장 설명을 포함한다. 평균 비디오 길이는 30.0초이다. (2) ActivityNet-Captions [11]: 약 20,000개의 비디오와 총 100,000개의 설명으로 구성되며, 200가지 다른 유형의 활동에 속한다. 평균 비디오 길이는 약 117.6초이다. (3) TVR [12]: TV 프로그램에서 가져온 21,800개의 비디오와 109,000개의 텍스트 설명을 포함한다. 각 비디오는 약 5개의 설명에 해당한다. 비디오와 이벤트의 평균 길이는 각각 76.2초와 9.1초이다. [3], [12], [19]를 따라, 우리는 각각 17,435개와 2,179개의 비디오를 학습 및 테스트에 사용한다.

구현 세부 사항 (Implementation Details)
이전 연구 [3]를 따라, 우리는 Charade-STA 및 ActivityNet-Captions 데이터셋의 시각 feature 추출기로 사전학습된 I3D [1] backbone을 사용하며, TVR 데이터셋에는 ResNet152와 I3D를 사용한다. 또한, RoBERTa [14]로 추출된 feature를 사용하며, 임베딩 차원은 세 데이터셋에 대해 각각 1024, 1024, 768로 설정된다.
하이퍼파라미터의 경우, EAM의 proposal 개수는 8로 설정되고, 균형 파라미터 $\alpha$ 는 0.4로 설정된다. 또한, 균형 계수 $\lambda_1, \lambda_2, \lambda_3$ 는 각각 0.02, 2, 0.04로 설정된다. 우리는 단일 NVIDIA RTX 2080Ti GPU에서 모델을 학습시키며, batch size는 128로 설정된다. 특히, ESM 모듈에서는 GWP 전략을 위해 32개의 center와 10개의 scale을 설정한다. EAM 모듈의 LEP 메커니즘에서는 하이퍼파라미터 $H$ 를 8로 설정한다.
평가 지표로는 Video-Text Retrieval task에 일반적으로 사용되는 **Recall@K (R@K)**를 채택한다. 또한, 종합적인 성능을 보여주기 위해 **recall rate의 합(SumR)**도 보고한다.

B. Overall Comparisons

PRVR task가 완전히 탐색되지 않았기 때문에, 우리는 제안하는 PEAN 방법을 최신 PRVR 방법들, 즉 **XML [12], ReLoCLNet [19], MS-SL [3]**과 VTR 방법들, 즉 **W2VV++ [13], DE [4], HTM [15], HGR [2], DE++ [5], RIVRL [6]**과 비교한다. 세 가지 벤치마크에 대한 전반적인 성능은 각각 Table I, II, III에 보고되어 있다.

실험 결과를 비교하여 다음과 같은 관찰 사항을 제시한다: (1) 우리가 제안하는 PEAN 방법은 모든 최신 방법들을 능가하며 새로운 state-of-the-art를 수립한다. 특히, 우리의 방법은 최신 MS-SL [3] 방법과 비교하여 세 가지 벤치마크에서 일반 검색 성능을 각각 6.7%, 1.7%, 1.8% 향상시킨다.

TABLE I Charades-STA에서 state-of-the-art와 비교한 성능.

Method	R@1	R@5	R@10	R@100	SumR
W2VV++ [13] (MM'19)	0.9	3.5	6.6	34.3	45.3
DE [4] (CVPR'19)	1.5	5.7	9.5	36.9	53.7
HTM [15] (ICCV'19)	1.2	5.4	9.2	44.2	60.0
HGR [2] (CVPR'20)	1.2	3.8	7.3	33.4	45.7
XML [12] (ECCV'20)	1.6	6.0	10.1	46.9	64.6
DE++ [5] (TPAMI'21)	1.7	5.6	9.6	37.1	54.1
ReLoCLNet [19] (SIGIR'21)	1.2	5.4	10.0	45.6	62.3
RIVRL [6] (TCSVT'22)	1.6	5.6	9.4	37.7	54.3
MS-SL [3] (MM'22)	1.8	7.1	11.8	47.7	68.4
PEAN (Ours)	2.7	8.1	13.5	50.3	74.7

TABLE II ActivityNet-Captions 데이터셋에서 state-of-the-art와 비교한 성능.

Method	R@1	R@5	R@10	R@100	SumR
W2VV++ [13] (MM'19)	5.4	18.7	29.7	68.8	122.6
DE [4] (CVPR'19)	5.6	18.8	29.4	67.8	121.7
HTM [15] (ICCV'19)	3.7	13.7	22.3	66.2	105.9
HGR [2] (CVPR'20)	4.0	15.0	24.8	63.2	107.0
XML [12] (ECCV'20)	5.3	19.4	30.6	73.1	128.4
DE++ [5] (TPAMI'21)	5.3	18.4	29.2	68.0	121.0
ReLoCLNet [19] (SIGIR'21)	5.7	18.9	30.0	72.0	126.6
RIVRL [6] (TCSVT'22)	5.2	18.0	28.2	66.4	117.8
MS-SL [3] (MM'22)	7.1	22.5	34.7	75.8	140.1
PEAN (Ours)	7.4	23.0	35.5	75.9	141.8

TABLE III TVR 데이터셋에서 state-of-the-art와 비교한 성능.

Method	R@1	R@5	R@10	R@100	SumR
W2VV++ [13] (MM'19)	5.0	14.7	21.7	61.8	103.2
DE [4] (CVPR'19)	7.6	20.1	28.1	67.6	123.4
HTM [15] (ICCV'19)	3.8	12.0	19.1	63.2	98.2
HGR [2] (CVPR'20)	1.7	4.9	8.3	35.2	50.1
XML [12] (ECCV'20)	10.0	26.5	37.3	81.3	155.1
DE++ [5] (TPAMI'21)	8.8	21.9	30.2	67.4	128.3
ReLoCLNet [19] (SIGIR'21)	10.7	28.1	38.1	80.3	157.1
RIVRL [6] (TCSVT'22)	9.4	23.4	32.2	70.6	135.6
MS-SL [3] (MM'22)	13.5	32.1	43.4	83.4	172.4
PEAN (Ours)	13.5	32.8	44.1	83.9	174.2

이는 이벤트 의미론의 완전성을 유지하고 멀티모달 정렬을 점진적으로 수행하는 것의 효과를 입증한다. (2) 우리의 방법은 기존 VTR 방법들 [5], [6]보다 untrimmed long video 검색에서 우수하다. 이는 부분적으로 관련된 비디오-텍스트 매칭이 충분히 고려되었기 때문이다. 이는 멀티미디어 애플리케이션의 실제 문제를 해결하기 위해 PEAN을 개발하는 것이 의미 있음을 다시 한번 증명한다. (3) 또한, Charades-STA에서의 성능 향상이 다른 두 데이터셋보다 훨씬 더 두드러진다는 점에 주목한다. 그 이유는 동일한 비디오 내에서 겹치는 타겟 이벤트(target events)를 가진 쿼리 사례가 상당 부분 존재하기 때문이다. 우리의 방법은 희소하고 세분화된 시각적 fragment 대신 텍스트 쿼리를 비디오 이벤트와 정렬함으로써 이러한 상황에서 탁월한 우위를 보여준다.

C. Ablation Studies

모델 구조 분석 (Analysis on Model Structures)
PEAN 방법의 각 구성 요소가 미치는 영향을 탐구하기 위해, 우리는 모델 구조에 대한 ablation study를 수행한다. 구체적으로, 다음 ablated 모델들의 성능을 관찰한다:
(1) w/o LD: 비디오 feature 추출에서 학습 가능한 downsampling 전략을 비활성화하고, 대신 meanpooling layer를 직접 사용한다.
(2) w/o GWP: ESM과 EAM 모두에서 Gaussian Weighted Pooling을 meanpooling layer로 대체한다.
(3) w/o LEP: Latent Event Proposal을 비활성화하고, EAM의 GWP 과정에서 Gaussian expectation을 무작위로 선택한다.
(4) w/o KGA: EAM에서 Key-clip Guided Attention을 비활성화한다.

Table IV에 보고된 ablation 실험 결과에 따르면, 우리는 다음과 같은 관찰을 할 수 있다:
(1) GWP 과정을 비활성화하면 PEAN 방법의 성능이 낮아진다. 이는 대표 프레임(representative frames)이 비디오 이벤트를 이해하는 데 중요하다는 우리의 가설을 다시 한번 입증한다.
(2) PEAN w/o KGA는 더 낮은 성능을 보인다. 한 가지 가능한 이유는 KGA 메커니즘이 전역 정보(global information) 관점에서 두 가지 modality를 정렬하기 위한 추가적인 전역 단서(global cues)를 제공하기 때문이다.
(3) 전체 모델과 비교했을 때, PEAN w/o LEP는 PRVR task에서 훨씬 더 나쁜 성능을 보인다. 이는 LEP 메커니즘이 비디오와 텍스트 modality를 fine-grained 수준에서 정렬하도록 설계되었기 때문이며, 이는 쿼리가 untrimmed 비디오와 일치하는지 여부를 구별하는 데 필수적이다.

TABLE IV Charades-STA 데이터셋에 대한 모델 구조 분석.

Method	R@1	R@5	R@10	R@100	SumR
w/o LD	1.7	6.7	12.1	49.5	70.1
w/o GWP	2.5	7.9	12.3	49.5	72.2
w/o LEP	1.8	6.8	11.3	48.4	68.3
w/o KGA	1.6	6.2	10.5	49.3	67.7
Full Model	$\mathbf{2 . 7}$	$\mathbf{8 . 1}$	$\mathbf{1 3 . 5}$	$\mathbf{5 0 . 3}$	$\mathbf{7 4 . 7}$

학습 목표 분석 (Analysis on Training Objectives)
점진적인 멀티모달 정렬 학습의 효과를 더 깊이 탐구하기 위해, 우리는 학습 목표에 대한 추가 분석을 수행한다. 구체적으로, 다양한 loss function으로 전체 모델을 학습시켰으며, 그 실험 결과는 Table V에 제시되어 있다. 각 ablated 모델의 검색 성능을 비교하면 다음을 알 수 있다:
(1) 우리의 점진적 이벤트 정렬 학습 전략은 텍스트 쿼리와 untrimmed 비디오 간의 매칭 관계를 효과적으로 학습한다. 세 가지 학습 목표를 적용함으로써, 우리 모델은 점진적으로 놀라운 개선을 달성하고 최종적으로 state-of-the-art 성능을 확립한다.
(2) $\mathcal{L}_{\text {lep }}$ 는 쿼리와 untrimmed 비디오 간의 멀티모달 정렬 학습에 중요한 역할을 한다. 이는 EAM의 비디오 proposal들이 의미적으로 텍스트 쿼리와 더 관련성이 높기 때문에, 학습 중에 모델이 더 어려운 샘플들을 구별하도록 유도하기 때문이다.

하이퍼파라미터 분석 (Analysis on Hyperparameters)
이 부분에서는 EAM의 proposal 개수와 하이퍼파라미터 $\eta$ 를 포함하여, PEAN 방법의 다양한 하이퍼파라미터의 영향을 탐구한다. Fig. 3의 실험 결과에 따르면 다음을 알 수 있다:
(1) 이벤트 proposal의 수가 많아질수록, PEAN 방법은 처음에는 더 나은 검색 성능을 얻지만, 개수가 8보다 높아지면 점차 성능이 하락한다. 한 가지 가능한 이유는 더 많은 계층(hierarchy)에서 이벤트 proposal 간의 차이가 작아져, contrastive learning에서 모델이 proposal을 구별하는 데 혼란을 야기하기 때문이다.
(2) 전반적인 성능은 EAM의 성능과 큰 양의 상관관계를 보이며, 이는 이벤트 수준의 정렬이 untrimmed 비디오 검색에 필수적임을 다시 한번 증명한다.

TABLE V Charades-STA 데이터셋에 대한 loss function 분석.

$\mathcal{L}_{\mathrm{esm}}$	$\mathcal{L}_{\mathrm{kga}}$	$\mathcal{L}_{\text {lep }}$	$\mathrm{R} @ 1$	$\mathrm{R} @ 5$	$\mathrm{R} @ 10$	$\mathrm{R} @ 100$	SumR
$\boldsymbol{X}$	$\boldsymbol{X}$	$\boldsymbol{X}$	0.1	0.5	0.7	8.9	10.1
$\checkmark$	$\boldsymbol{X}$	$\boldsymbol{X}$	1.2	4.8	9.1	43.7	58.8
$\checkmark$	$\checkmark$	$\boldsymbol{X}$	1.3	5.3	10.2	47.7	64.5
$\checkmark$	$\boldsymbol{X}$	$\checkmark$	1.7	6.8	11.5	49.8	69.8
$\checkmark$	$\checkmark$	$\checkmark$	$\mathbf{2 . 7}$	$\mathbf{8 . 1}$	$\mathbf{1 3 . 5}$	$\mathbf{5 0 . 3}$	$\mathbf{7 4 . 7}$

Fig. 3. Charades-STA 데이터셋에 대한 하이퍼파라미터 분석.

Fig. 4. Charades-STA 데이터셋에 대한 EAM의 검색 결과 및 GWP 과정 시각화. 색상의 어두운 정도는 Gaussian 분포의 밀도를 나타낸다.

D. 정성적 분석 (Qualitative Analysis)

우리 모델의 품질을 더 자세히 설명하기 위해, Charades-STA 데이터셋에 대한 몇 가지 검색 결과를 시각화한다. Fig. 4에서 보여지듯이, MS-SL [3] 방법과 비교했을 때, 우리가 제안한 PEAN은 목표 untrimmed 비디오를 성공적으로 반환한다. 더욱이, EAM의 GWP 과정을 시각화함으로써, 우리 PEAN 방법이 관련 비디오 콘텐츠에 대해 정확하게 높은 가중치를 생성한다는 것을 알 수 있다.

V. Conclusion

본 논문에서는 부분적인 텍스트 설명만으로 복잡한 untrimmed 비디오를 검색하는 Partially Relevant Video Retrieval (PRVR) task를 연구하였다. 이 도전적인 문제를 해결하기 위해 우리는 **Progressive Event Alignment Network (PEAN)**라는 새로운 방법을 제안하였다. PEAN은 **텍스트 쿼리와 로컬 비디오 콘텐츠를 점진적으로 정렬(align)**한다. 세 가지 벤치마크에 대한 실험 결과는 우리 방법이 최신 state-of-the-art PRVR 방법들보다 우수한 성능을 보였음을 입증하였다. 향후 연구에서는 대규모 비디오 데이터셋에서의 event retrieval을 연구할 예정이다.