GMMFormer: 효율적인 부분 관련 비디오 검색(PRVR)을 위한 Gaussian-Mixture-Model 기반 Transformer

GMMFormer는 부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)의 효율성 문제를 해결하기 위해 제안된 Gaussian-Mixture-Model 기반 Transformer입니다. 기존 PRVR 방식은 스캐닝 기반의 명시적 클립 모델링으로 인해 정보 중복과 큰 저장 공간 오버헤드를 유발했습니다. GMMFormer는 Gaussian-Mixture-Model 제약을 프레임 상호작용에 통합하여 각 프레임이 인접 프레임에 집중하도록 하는 암시적 클립 모델링을 수행합니다. 이를 통해 다중 스케일 클립 정보를 포함하는 압축된 표현을 생성하여 효율성을 높입니다. 또한, 동일 비디오에 대한 여러 텍스트 쿼리 간의 의미적 차이를 보존하기 위해 query diverse loss를 제안하여 임베딩 공간을 더 밀도 높고 의미적으로 풍부하게 만듭니다. 논문 제목: GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

Wang, Yuting, et al. "Gmmformer: Gaussian-mixture-model based transformer for efficient partially relevant video retrieval." Proceedings of the AAAI conference on artificial intelligence. Vol. 38. No. 6. 2024.

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

Yuting Wang 1,3{ }^{1,3}, Jinpeng Wang 1,3{ }^{1,3}, Bin Chen 2,3{ }^{2,3 *}, Ziyun Zeng 1,3{ }^{1,3}, Shu-Tao Xia 1,3{ }^{1,3}<br>1{ }^{1} 칭화대학교 선전 국제 대학원 (Tsinghua Shenzhen International Graduate School, Tsinghua University)<br>2{ }^{2} 하얼빈 공업대학교 선전 (Harbin Institute of Technology, Shenzhen)<br>3{ }^{3} 펑청 연구소 인공지능 연구 센터 (Research Center of Artificial Intelligence, Peng Cheng Laboratory)<br>{wangyt22, wjp20, zengzy21}@mails.tsinghua.edu.cn, chenbin2021@hit.edu.cn, xiast@sz.tsinghua.edu.cn

Abstract

주어진 텍스트 쿼리에 대해, **부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR)**은 데이터베이스에서 관련성 있는 순간을 포함하는 untrimmed 비디오를 찾는 것을 목표로 한다. PRVR을 위해서는 텍스트와 비디오 간의 부분적인 관계를 포착하는 clip modeling이 필수적이다. 현재의 PRVR 방법들은 명시적인 clip modeling을 달성하기 위해 scanning-based clip construction을 채택하고 있는데, 이는 정보 중복성이 높고 막대한 저장 공간 오버헤드를 요구한다.

PRVR 방법들의 효율성 문제를 해결하기 위해, 본 논문에서는 clip representation을 암묵적으로 모델링하는 Gaussian-Mixture-Model 기반 Transformer인 GMMFormer를 제안한다. 프레임 상호작용 과정에서, 우리는 Gaussian-Mixture-Model 제약 조건을 통합하여 각 프레임이 전체 비디오 대신 인접 프레임에 집중하도록 한다. 이렇게 생성된 representation은 multi-scale clip 정보를 포함하게 되어 암묵적인 clip modeling을 달성한다.

또한, PRVR 방법들은 동일한 비디오와 관련된 텍스트 쿼리 간의 의미적 차이를 무시하여 희소한(sparse) embedding space를 초래한다. 우리는 이러한 텍스트 쿼리들을 구별하기 위해 query diverse loss를 제안하여, embedding space를 더욱 밀집시키고 더 많은 의미 정보를 포함하도록 한다.

세 가지 대규모 비디오 데이터셋(즉, TVR, ActivityNet Captions, Charades-STA)에 대한 광범위한 실험은 GMMFormer의 우수성과 효율성을 입증한다. 코드는 https://github.com/ huangmozhi9527/GMMFormer 에서 확인할 수 있다.

1 Introduction

사회가 발전함에 따라 비디오는 정보 확산의 주요 수단이 되었다. 그 결과, text-to-video retrieval (T2VR) (Dong, Li, and Snoek 2018; Chen et al. 2020; Miech et al. 2019; Liu et al. 2019a; Li et al. 2019; Faghri et al. 2017; Dong et al. 2019, 2021, 2022b)은 학계와 산업계로부터 점점 더 많은 관심을 받고 있다. T2VR은 텍스트 쿼리가 주어졌을 때, 비디오 데이터베이스에서 의미적으로 관련된 비디오를 검색하는 것을 목표로 한다. 그러나 T2VR 데이터셋의 비디오는 해당 텍스트 쿼리와 완전히 관련되도록 미리 잘려져(pre-trimmed) 있어, 실제 세계와는 차이가 존재한다. 실제 소셜 미디어 또는 비디오 플랫폼(예: YouTube)에서는 비디오가 일반적으로 길고 여러 순간(moment)을 포함하며, 그중 단 하나의 순간만이 해당 텍스트 쿼리와 완전히 관련되어 있다. 이러한 untrimmed 비디오를 처리할 때, 미리 잘려진 비디오 데이터셋으로 학습된 T2VR 모델은 제대로 작동하지 않아 사용자 경험이 저하될 수 있다. 위에서 언급된 문제를 극복하기 위해 (Dong et al. 2022a)는 partially relevant video retrieval (PRVR) task를 제안했으며, untrimmed 비디오를 수집하여 비디오 데이터베이스를 구성한다. 특히, PRVR에서 하나의 비디오는 여러 텍스트 쿼리에 해당하며, 하나의 텍스트 쿼리는 비디오 내의 한 순간에만 관련된다. T2VR과 비교하여 PRVR은 실제 세계와 더 잘 부합하며 더 많은 연구적 중요성을 가진다.

Figure 1: 전통적인 text-to-video retrieval 파이프라인 (a)은 압축된 비디오 임베딩을 생성하여 클립 정보를 손실한다. 이전의 partially relevant video retrieval 파이프라인 (b)은 명시적인 클립 모델링을 채택하여 정보가 중복되고 많은 저장 공간 오버헤드를 요구한다. 우리는 **암시적인 클립 모델링 (c)**을 활용하여 다중 스케일 클립 정보를 포함하는 압축된 클립 임베딩을 얻는다.

텍스트-비디오 쌍이 주어졌을 때, 이전 PRVR 방법들은 사전학습된 vision-language 모델을 사용하여 프레임 및 단어 feature를 추출한다. 이러한 feature들은 순차 모델(sequential models) (예: RNN, LSTM, Transformer (Vaswani et al. 2017) 등)을 통과하여 전역적인 순차적 상호작용을 모델링하고, 프레임 및 문장 임베딩을 생성한다. 그 후, 텍스트와 비디오 간의 부분적인 관계를 포착하기 위해 클립 표현(clip representations)을 모델링한다. 구체적으로, 다중 스케일 슬라이딩 윈도우(multi-scale sliding window) 전략이 프레임 임베딩에 적용되어 클립 임베딩을 구성한다. 마지막으로, 문장 임베딩과 클립 및 프레임 임베딩 간의 유사성으로부터 텍스트-비디오 유사성을 도출할 수 있다.

이러한 PRVR 방법들은 untrimmed 비디오 데이터셋에서 T2VR 방법들보다 뛰어난 성능을 보였다. 그러나 그들의 검색 파이프라인은 여전히 두 가지 문제점을 가지고 있다.

  1. 전역적인 프레임 상호작용(Global frame interactions)은 untrimmed 비디오의 다른 순간들을 혼동시킨다. untrimmed 비디오는 여러 순간을 포함한다. 이 순간들은 PRVR 모델이 구별해야 하는 다른 텍스트 쿼리에 해당한다. 그러나 우리는 전역적인 프레임 상호작용이 프레임 임베딩을 서로 유사하게 만든다는 것을 발견했다. 이러한 유사한 임베딩으로는 모델이 주어진 텍스트 쿼리의 정확한 시간 구간을 찾을 수 없어 성능이 저하된다.
  2. 스캐닝 기반 클립 구성(scanning-based clip construction)을 통한 명시적인 클립 모델링(explicit clip modeling)은 정보가 중복되고 많은 저장 공간 오버헤드를 요구한다. 다중 스케일 슬라이딩 윈도우 전략은 가능한 모든 클립을 탐색하여 많은 관련 없는 클립 임베딩을 생성하고 정보 중복을 초래한다. 길이가 MM인 프레임 임베딩의 경우, 생성된 클립 임베딩은 M(M+1)/2M(M+1)/2의 길이를 갖게 된다. 예를 들어, 과거 SOTA PRVR 방법인 MS-SL (Dong et al. 2022a)은 프레임 feature를 32 길이로 다운샘플링하고 528 길이의 클립 임베딩을 구성하는데, TVR 데이터셋에서 이 중 단 5개의 클립만이 해당 텍스트 설명과 관련이 있다. 이러한 중복된 클립 임베딩이 모델이 시간 구간을 더 정확하게 지역화하도록 돕지만, 많은 저장 공간 오버헤드를 요구하고 검색 효율성을 저하시킨다.

위에서 언급된 두 가지 문제를 해결하기 위해, 본 논문에서는 GMMFormer, 즉 Gaussian-Mixture-Model 기반 Transformer를 제안하여 클립 표현을 암시적으로 모델링한다. 우리의 동기는 자연스러운 특성에 있다: 비디오의 순간들은 연속적이며 제한된 지속 시간을 가지며, 그 안에서 각 프레임은 인접 프레임에 더 많은 주의를 기울여야 하고, 가까울수록 더 많은 주의를 기울여야 한다. (Fu et al. 2022; Qu et al. 2020; Zhou, Yu, and Yang 2023; Kim, El-Khamy, and Lee 2020)에서 영감을 받아, 우리는 GMMFormer 블록을 설계하여 프레임 상호작용 중에 Gaussian-Mixture-Model 제약 조건을 통합함으로써 각 프레임이 인접 프레임에 집중하도록 한다. 특히, 우리는 **다중 스케일 가우시안 윈도우(multi-scale Gaussian windows)**를 활용하여 다른 범위의 프레임 상호작용을 모델링하고, 여러 수용 필드(receptive fields)를 가진 클립 feature를 생성한다. 그런 다음 이러한 feature들을 집계하여 클립 임베딩을 얻는다. 이 클립 임베딩은 다중 스케일 클립 정보를 포함하며, 다른 길이의 비디오 순간을 인지할 수 있다. 다른 검색 파이프라인의 비교는 Figure 1에 설명되어 있다.

PRVR에서 비디오의 관련 텍스트 쿼리는 의미적으로 다양하다. 그러나 일반적으로 사용되는 triplet ranking loss (Dong et al. 2021; Faghri et al. 2017) 및 infoNCE loss (Miech et al. 2020; Zhang et al. 2021)는 이들을 동등하게 취급하고 임베딩 공간에서 함께 당긴다. 이러한 손실은 텍스트 표현의 의미 구조를 방해하여 임베딩 공간에서 희소한 분포를 초래한다. 본 논문에서는 동일한 비디오와 관련된 텍스트 쿼리를 구별하기 위한 query diverse loss를 제안한다. (Wang and Isola 2020)에서 영감을 받아, untrimmed 비디오가 주어졌을 때, 우리는 관련 텍스트 쿼리들을 서로 밀어내어 **판별적인 문장 임베딩(discriminative sentence embeddings)**을 생성한다. 그러면 임베딩 공간은 더 밀집되고 더 많은 의미 정보를 포함하게 될 것이다.

우리는 세 가지 대규모 비디오 데이터셋인 TVR (Lei et al. 2020), ActivityNet Captions (Krishna et al. 2017), Charades-STA (Gao et al. 2017)에 대해 광범위한 실험을 수행했다. 실험 결과는 우리 GMMFormer의 우수성과 효율성을 입증한다. 특히, GMMFormer는 세 데이터셋에서 state-of-the-art 결과를 달성한다. 그리고 과거 SOTA인 MS-SL과 비교하여 GMMFormer는 약 2.5배 빠르며 저장 공간 오버헤드는 20배 작다. 전반적으로, 우리의 주요 기여는 다음과 같다:

  • 우리는 GMMFormer, 즉 Gaussian-Mixture-Model 기반 Transformer를 제안하여 클립 표현을 암시적으로 모델링한다. GMMFormer는 다중 스케일 가우시안 제약 조건으로 인해 효과적이며, 높은 정보 밀도를 가진 압축된 클립 임베딩으로 인해 효율적이다.
  • 우리는 동일한 비디오와 관련된 다른 텍스트 쿼리를 구별하고 텍스트 표현의 의미 구조를 보존하기 위한 query diverse loss를 제안한다.
  • 세 가지 대규모 데이터셋(즉, TVR, ActivityNet Captions, Charades-STA)에 대한 광범위한 실험 및 ablation study는 우리 GMMFormer의 우수성과 효율성을 입증한다.

Text-to-video Retrieval
최근 인터넷상의 비디오 데이터 증가로 인해 비디오 분석(Wang et al. 2023, 2022; Zeng et al. 2022; Liu et al. 2023b,a; Jin et al. 2022)이 많은 주목을 받고 있다. 그중 Text-to-video Retrieval (T2VR) task (Dong, Li, and Snoek 2018; Chen et al. 2020; Li et al. 2019; Faghri et al. 2017; Gao et al. 2023; Lei, Berg, and Bansal 2021; Li et al. 2023)는 주어진 텍스트 설명에 따라 미리 잘라낸(pre-trimmed) 비디오 클립 세트에서 관련 비디오를 검색하는 것을 목표로 한다. T2VR의 표준 파이프라인은 먼저 비디오와 텍스트를 인코딩하여 비디오 및 문장 표현을 얻은 다음, 이를 공통 임베딩 공간에 매핑하여 cross-modal 유사도를 측정하는 방식이다.

Partially Relevant Video Retrieval
Partially Relevant Video Retrieval (PRVR) task (Dong et al. 2022a)는 주어진 쿼리에 부분적으로 관련된 untrimmed 비디오를 검색하는 것을 목표로 하며, 이는 T2VR보다 실제 세계에 더 부합한다. PRVR의 경우, 텍스트와 비디오 간의 부분적인 관계를 포착하는 데 clip modeling이 중요하다. 기존 PRVR 방법들은 명시적인 clip modeling을 위해 clip construction을 채택한다. 이들은 frame embedding에 multi-scale sliding window 전략을 적용하여 clip embedding을 얻는다. 이러한 방식은 가능한 모든 클립을 탐색하고 많은 관련 없는 clip embedding을 생성하여, 큰 저장 공간 오버헤드를 요구하고 검색 효율성을 저해한다. 또한, PRVR 모델은 과적합(overfit)되기 쉬운데, 이는 adversarial training (Gao et al. 2023; Bai et al. 2021, 2020; Gudibande et al. 2022)을 통해 개선될 수 있다. 본 논문에서는 clip representation을 암묵적으로 모델링하기 위해 Gaussian-Mixture-Model 기반 Transformer인 GMMFormer를 제안한다. GMMFormer는 정보 밀도가 높은 compact한 clip embedding을 생성할 수 있어 효과적이고 효율적이다.

Video Corpus Moment Retrieval
Video Corpus Moment Retrieval (VCMR) task (Song et al. 2021; Lei et al. 2020)는 untrimmed 비디오 컬렉션에서 주어진 쿼리에 의미적으로 관련된 순간(moment)을 검색하는 것을 목표로 한다. VCMR 방법들은 2단계 파이프라인을 채택한다. 첫 번째 단계에서는 대상 순간을 포함할 수 있는 여러 후보 비디오를 검색하고, 두 번째 단계에서는 후보 비디오에서 순간을 검색한다. VCMR의 첫 번째 단계는 PRVR과 유사하다. 그러나 VCMR은 moment-level annotation을 요구하는데, 이는 시간과 노동력이 많이 소모된다.

3 Methodology

우리는 PRVR에 대한 접근 방식을 자세히 설명한다. 먼저 Section 3.1에서 PRVR의 정식화를 다루고, 이어서 Section 3.2에서 GMMFormer의 개요를 상세히 설명한다. 다음으로 Section 3.3에서는 우리가 설계한 GMMFormer block을 소개하고, Section 3.4에서는 학습 전략을 제시한다.

3.1 Problem Formulation

주어진 텍스트 쿼리에 대해, **부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR)**은 대규모의 untrimmed 비디오 코퍼스에서 주어진 쿼리와 의미론적으로 관련된 순간(moment)을 포함하는 비디오를 검색하는 것을 목표로 한다. PRVR 데이터베이스의 각 비디오는 여러 순간을 포함하며, 다수의 텍스트 설명과 연결되어 있다. 이때 각 텍스트 설명은 해당 비디오 내 특정 순간의 내용을 나타낸다. PRVR에서는 순간의 시작 또는 종료 시점이 제공되지 않는다는 점을 언급할 가치가 있다.

3.2 Overview

이 섹션에서는 Figure 2에 나타난 바와 같이, **문장 표현 인코딩(sentence representation encoding), 비디오 표현 인코딩(video representation encoding), 그리고 유사도 측정(similarity measure)**을 포함하는 GMMFormer의 전체 프레임워크를 소개한다.

문장 표현 (Sentence Representation)
NN개의 단어를 포함하는 문장이 주어졌을 때, 우리는 먼저 사전학습된 RoBERTa (Liu et al. 2019b)를 활용하여 단어 feature를 추출한다. 그런 다음 ReLU 활성화 함수를 가진 FC layer를 사용하여 단어 feature를 저차원 공간으로 임베딩한다. 매핑된 feature에 학습 가능한 positional embedding을 추가한 후, vanilla Transformer layer를 적용하여 dd-차원의 contextualized word feature vector 시퀀스 Q={qi}i=1NRN×dQ= \left\{q_{i}\right\}_{i=1}^{N} \in \mathbb{R}^{N \times d}를 얻는다. 여기서 GMMFormer block은 untrimmed video를 위해 설계되었으므로 사용하지 않는다. 마지막으로, QQ간단한 attention module을 사용하여 문장 임베딩 qRdq \in \mathbb{R}^{d}를 얻는다:

q=i=1Naiq×qi,aq=softmax(wQT)q=\sum_{i=1}^{N} a_{i}^{q} \times q_{i}, a^{q}=\operatorname{softmax}\left(w Q^{T}\right)

여기서 wR1×dw \in \mathbb{R}^{1 \times d}는 학습 가능한 벡터이고, aqR1×Na^{q} \in \mathbb{R}^{1 \times N}는 attention vector를 나타낸다.

비디오 표현 (Video Representation)
MfM_{f}개의 프레임을 포함하는 untrimmed video가 주어졌을 때, 우리는 먼저 사전학습된 2D 또는 3D CNN을 사용하여 프레임 feature를 추출한다. 그런 다음 이 feature들을 두 개의 브랜치(branch)를 통해 clip 및 video 임베딩을 얻는다. Clip 임베딩은 모델이 관련 순간을 찾는 데 도움을 주며, video 임베딩은 전역적인 텍스트-비디오 유사도를 측정한다.

Figure 2: GMMFormer의 전체 프레임워크. \otimes는 행렬 곱셈을 나타낸다.

clip-level 브랜치에서는 해당하는 여러 연속 프레임 feature에 대해 mean pooling을 수행하여 고정된 수의 feature vector를 균일하게 샘플링한다. 그런 다음 ReLU 활성화 함수를 가진 FC layer를 사용하여 차원을 축소하여 clip feature를 얻는다. 마지막으로, clip feature에 학습 가능한 positional embedding을 적용한 두 개의 GMMFormer block을 사용하여 clip 임베딩 Vc={ci}i=1McRMc×dV_{c}=\left\{c_{i}\right\}_{i=1}^{M c} \in \mathbb{R}^{M_{c} \times d}를 얻는다. 여기서 McM_{c}는 샘플링된 개수이고 dd는 차원이다.

video-level 브랜치에서는 유사하게, 먼저 ReLU 활성화 함수를 가진 FC layer를 사용하여 차원을 축소한 다음, 학습 가능한 positional embedding을 적용한 두 개의 GMMFormer layer를 사용하여 contextualized feature Vf={vi}i=1MfRMf×dV_{f}=\left\{v_{i}\right\}_{i=1}^{M_{f}} \in \mathbb{R}^{M_{f} \times d}를 얻는다. 마지막으로, VfV_{f}간단한 attention module을 사용하여 video 임베딩 VvRdV_{v} \in \mathbb{R}^{d}를 얻는다:

Vv=i=1Mfaif×vi,af=softmax(wVfT)V_{v}=\sum_{i=1}^{M_{f}} a_{i}^{f} \times v_{i}, a^{f}=\operatorname{softmax}\left(w V_{f}^{T}\right)

여기서 wR1×dw \in \mathbb{R}^{1 \times d}는 학습 가능한 벡터이고, afR1×Mfa^{f} \in \mathbb{R}^{1 \times M_{f}}는 attention vector를 나타낸다.

유사도 측정 (Similarity Measure)
텍스트-비디오 쌍이 주어졌을 때, 우리는 먼저 위에서 언급한 q,Vc,Vvq, V_{c}, V_{v}를 계산한다. 그런 다음 video-level 유사도는 문장 임베딩 qq와 비디오 임베딩 VvV_{v} 사이의 코사인 유사도로 측정된다:

Sv(t,v)=cos(q,Vv)S_{v}(t, v)=\cos \left(q, V_{v}\right)

또한, 문장 임베딩 qq와 clip 임베딩 VcV_{c} 사이의 clip-level 유사도를 계산하기 위해 코사인 유사도와 max-pooling 연산을 사용한다:

Sc(t,v)=max{cos(q,c1),,cos(q,cMc)}S_{c}(t, v)=\max \left\{\cos \left(q, c_{1}\right), \ldots, \cos \left(q, c_{M_{c}}\right)\right\}

텍스트-비디오 쌍의 유사도는 video-level 유사도와 clip-level 유사도의 가중합으로 계산할 수 있다:

S(t,v)=αvSv(t,v)+αcSc(t,v)S(t, v)=\alpha_{v} S_{v}(t, v)+\alpha_{c} S_{c}(t, v)

여기서 αv,αc[0,1]\alpha_{v}, \alpha_{c} \in[0,1]는 두 유사도의 균형을 맞추는 하이퍼파라미터이며, αv+αc=1\alpha_{v}+\alpha_{c}=1이다.

3.3 GMMFormer Block

비디오 표현의 Gaussian-Mixture-Model (GMM) 분포를 모델링하기 위해, 우리는 먼저 프레임 상호작용 동안 Gaussian 제약 조건을 통합하는 Gaussian block을 제안한다. 그런 다음, Figure 3에서 보여지듯이, 다중 스케일 Gaussian block들을 병렬로 사용하고 그 출력을 집계하여 Gaussian-Mixture-Model 제약 조건을 만든다.

추출된 MM개의 feature가 주어졌을 때, 이를 행렬 형태 XiRM×dX_{i} \in \mathbb{R}^{M \times d}로 표현한다. 여기서 dd는 feature 차원이고 ii는 비디오 인덱스이다. 우리가 설계한 Gaussian block에서, 우리는 입력 행렬 XiX_{i}를 세 개의 학습 가능한 파라미터 Wq,Wk,WvW^{q}, W^{k}, W^{v}를 통해 query, key, value 세 행렬로 투영한다. 우리는 query 행렬을 사용하여 key 행렬에 대해 scaled dot-product attention을 수행하고, attention score 행렬을 얻는다. 그런 다음, MM개의 Gaussian window로 구성된 Gaussian 행렬 WgRM×MW^{g} \in \mathbb{R}^{M \times M}를 설계하여 attention score 행렬에 대해 element-wise product를 수행한다. 그 후, softmax 함수를 통해 생성된 값을 처리하여 value 행렬에 대한 attentional distribution을 결정한다. 결과적으로 가중 평균된 value 행렬은 Gaussian block 내 Gaussian attention module의 출력을 형성한다:

Xiattn=softmax(WgXiWq(XiWk)Tdk)XiWvWg(i,j)=12πe(ji)2σ2\begin{gathered} X_{i}^{a t t n}=\operatorname{softmax}\left(W^{g} \odot \frac{X_{i} W^{q}\left(X_{i} W^{k}\right)^{T}}{\sqrt{d_{k}}}\right) X_{i} W^{v} \\ W^{g}(i, j)=\frac{1}{2 \pi} e^{-\frac{(j-i)^{2}}{\sigma^{2}}} \end{gathered}

여기서 dkd_{k}는 query와 key의 차원이고, σ2\sigma^{2}는 Gaussian 밀도 분포의 분산이며, \odot는 element-wise product 함수를 나타낸다.

Gaussian attention module 이후, 우리는 Xiattn X_{i}^{\text {attn }}을 **Feed-Forward Network (FFN)**에 입력하여 **Gaussian block 출력 Xioutput X_{i}^{\text {output }}**을 얻는다. 바닐라 Transformer block과 유사하게, 우리는 Gaussian attention module과 FFN module에 residual connection (He et al. 2016)과 Layer Normalization (Ba, Kiros, and Hinton 2016)을 추가한다. 따라서 Gaussian block은 다음과 같이 공식화될 수 있다:

Xioutput =FFN( LayerNorm (Xiinter ))+Xiinter Xiinter =GauAttn( LayerNorm (Xi))+Xi\begin{gathered} X_{i}^{\text {output }}=F F N\left(\text { LayerNorm }\left(X_{i}^{\text {inter }}\right)\right)+X_{i}^{\text {inter }} \\ X_{i}^{\text {inter }}=\operatorname{GauAttn}\left(\text { LayerNorm }\left(X_{i}\right)\right)+X_{i} \end{gathered}

여기서 GauAttn은 Gaussian attention module을 나타내고, FFN은 두 개의 fully connected (FC) layer로 구성된다.

Gaussian block 출력고정된 길이의 클립 정보를 포함할 것이다. 그러나 비디오 모먼트(moment)는 길이가 다양하다. 따라서 우리는 다중 스케일 Gaussian block들을 병렬로 사용하고 그 출력을 집계한다. 여기서 우리는 평균 풀링(average pooling)을 사용하여 집계를 달성한다:

XiGMM=1Kk=1KGB(Xi,σk2)X_{i}^{G M M}=\frac{1}{K} \sum_{k=1}^{K} G B\left(X_{i}, \sigma_{k}^{2}\right)

여기서 GB(Xi,σk2)G B\left(X_{i}, \sigma_{k}^{2}\right)는 분산 σk2\sigma_{k}^{2}를 갖는 Gaussian block이고, KK는 Gaussian block의 개수이다. 구체적으로, 우리는 K=4K=4로 설정하고 각각 낮은, 중간, 높은, 그리고 무한 분산을 갖는 Gaussian block들을 선택한다. XiGMMX_{i}^{G M M}GMMFormer block의 출력을 나타내며, 이는 MM의 길이를 유지하고 다중 스케일 클립 정보를 포함한다.

Figure 3: GMMFormer block (GMMBlock)의 도해.

3.4 Learning

비디오가 텍스트와 관련된 순간을 포함하면 텍스트-비디오 쌍을 positive로 간주하고, 관련 내용이 없으면 negative로 간주한다. 우리는 retrieval task에서 널리 사용되는 triplet ranking loss (Dong et al. 2021; Faghri et al. 2017)와 infoNCE loss (Miech et al. 2020; Zhang et al. 2021)를 채택한다.

positive 텍스트-비디오 쌍 (t,v)(t, v)가 주어졌을 때, 미니배치 B\mathcal{B}에 대한 triplet ranking loss는 다음과 같이 정의된다:

Ltrip =1n(t,v)B{max(0,m+S(t,v)S(t,v))+max(0,m+S(t,v)S(t,v))}\begin{aligned} \mathcal{L}^{\text {trip }}= & \frac{1}{n} \sum_{(t, v) \in \mathcal{B}}\left\{\max \left(0, m+S\left(t^{-}, v\right)-S(t, v)\right)\right. \\ & \left.+\max \left(0, m+S\left(t, v^{-}\right)-S(t, v)\right)\right\} \end{aligned}

여기서 mmmargin constant이고, tt^{-}vv에 대한 negative text를, vv^{-}tt에 대한 negative video를 나타낸다. (Dong et al. 2022a)와 유사하게, 우리는 학습 초기에 미니배치에서 negative sample을 무작위로 샘플링하고, 20 epoch 이후에는 가장 어려운 negative sample을 선택한다.

positive 텍스트-비디오 쌍 (t,v)(t, v)가 주어졌을 때, 미니배치 B\mathcal{B}에 대한 infoNCE loss는 다음과 같이 계산된다:

Lnce=1n(t,v)B{log(S(t,v)S(t,v)+tiNtS(ti,v))+log(S(t,v)S(t,v)+viNvS(t,vi))}\begin{aligned} \mathcal{L}^{n c e}= & -\frac{1}{n} \sum_{(t, v) \in \mathcal{B}}\left\{\log \left(\frac{S(t, v)}{S(t, v)+\sum_{t_{i}^{-} \in \mathcal{N}_{t}} S\left(t_{i}^{-}, v\right)}\right)\right. \\ & \left.+\log \left(\frac{S(t, v)}{S(t, v)+\sum_{v_{i}^{-} \in \mathcal{N}_{v}} S\left(t, v_{i}^{-}\right)}\right)\right\} \end{aligned}

여기서 Nt\mathcal{N}_{t}는 미니배치 내 비디오 vv의 모든 negative text를 나타내고, Nv\mathcal{N}_{v}는 미니배치 내 쿼리 tt의 모든 negative video를 나타낸다.

또한, 미니배치 내 텍스트 컬렉션 TT가 주어졌을 때, 동일한 비디오와 관련된 서로 다른 텍스트 쿼리를 구별하기 위한 query diverse loss를 다음과 같이 설계한다:

Ldiv=1nti,tjT1ti,tjlog(1+eα(cos(ti,tj)+δ))\mathcal{L}^{d i v}=\frac{1}{n} \sum_{t_{i}, t_{j} \in T} \mathbb{1}_{t_{i}, t_{j}} \log \left(1+e^{\alpha\left(\cos \left(t_{i}, t_{j}\right)+\delta\right)}\right)

여기서 δ>0\delta>0margin이고, α>0\alpha>0scaling factor이며, 1ti,tj{0,1}\mathbb{1}_{t_{i}, t_{j}} \in\{0,1\}indicator function이다. tit_{i}tjt_{j}가 동일한 비디오와 관련될 때 1ti,tj=1\mathbb{1}_{t_{i}, t_{j}}=1이다. Ldiv \mathcal{L}^{\text {div }}동일한 비디오와 관련된 의미적으로 다양한 텍스트들을 서로 밀어내어, 텍스트 표현의 의미론적 구조를 보존한다. 그러면 embedding space는 더욱 밀집되고 더 많은 의미론적 정보를 포함하게 될 것이다.

ModelR@1R@5R@10R@100SumR
T2VR models:
W2VV2.65.67.520.636.3
HGR1.74.98.335.250.1
HTM3.812.019.163.298.2
CE3.712.820.164.5101.1
DE++8.821.930.267.4128.3
RIVRL9.423.432.270.6135.6
CLIP4Clip9.924.334.372.5141.0
Cap4Video10.326.436.874.0147.5
VCMR models w/o moment localization:
XML10.026.537.381.3155.1
ReLoCLNet10.728.138.180.3157.1
CONQUER11.028.939.681.3160.8
PRVR models:
MS-SL13.532.143.483.4172.4
GMMFormer13.933.344.584.9176.6

Table 1: TVR 데이터셋에서 다양한 모델의 성능. 모델은 SumR을 기준으로 오름차순으로 정렬되어 있다.

ModelR@1R@5R@10R@100SumR
T2VR models:
W2VV2.29.516.645.573.8
HTM3.713.722.366.2105.9
HGR4.015.024.863.2107.0
RIVRL5.218.028.266.4117.8
DE++5.318.429.268.0121.0
CE5.519.129.971.1125.6
CLIP4Clip5.919.330.471.6127.3
Cap4Video6.320.430.972.6130.2
VCMR models w/o moment localization:
ReLoCLNet5.718.930.072.0126.6
XML5.319.430.673.1128.4
CONQUER6.520.431.874.3133.1
PRVR models:
MS-SL7.122.534.775.8140.1
GMMFormer8.324.936.776.1146.0

Table 2: ActivityNet Captions 데이터셋에서 다양한 모델의 성능.

마지막으로, 우리 모델은 다음의 **전체 학습 손실(overall training loss)**을 최소화하여 학습된다:

L=Lctrip +Lvtrip +λ1Lcnce +λ2Lvnce +λ3Ldiv \mathcal{L}=\mathcal{L}_{c}^{\text {trip }}+\mathcal{L}_{v}^{\text {trip }}+\lambda_{1} \mathcal{L}_{c}^{\text {nce }}+\lambda_{2} \mathcal{L}_{v}^{\text {nce }}+\lambda_{3} \mathcal{L}^{\text {div }}

여기서 Lctrip \mathcal{L}_{c}^{\text {trip }}Lvtrip \mathcal{L}_{v}^{\text {trip }}는 각각 clip-level 유사도 ScS_{c}와 video-level 유사도 SvS_{v}를 사용한 triplet ranking loss를 나타내며, Lcnce\mathcal{L}_{c}^{n c e}Lvnce\mathcal{L}_{v}^{n c e}도 마찬가지이다. λ1,λ2\lambda_{1}, \lambda_{2}λ3\lambda_{3}해당 손실들의 균형을 맞추기 위한 하이퍼파라미터이다.

4 Experiments

4.1 Experimental Setup

데이터셋 (Datasets)
우리는 세 가지 대규모 비디오 데이터셋(즉, TV show Retrieval (TVR) (Lei et al. 2020), ActivityNet Captions (Krishna et al. 2017), Charades-STA (Gao et al. 2017))으로 GMMFormer를 평가한다. 이 데이터셋들이 제공하는 moment annotation은 PRVR task에서는 사용할 수 없다는 점에 유의해야 한다. TVR은 6개의 TV 쇼에서 수집된 21.8K개의 비디오를 포함한다.

ModelR@1R@5R@10R@100SumR
T2VR models:
W2VV0.52.94.724.532.6
HGR1.23.87.333.445.7
CE1.34.57.336.049.1
DE++1.75.69.637.154.1
RIVRL1.65.69.437.754.3
HTM1.25.49.244.260.0
CLIP4Clip1.86.510.944.263.4
Cap4Video1.96.711.345.065.0
VCMR models w/o moment localization:
ReLoCLNet1.25.410.045.662.3
XML1.66.010.146.964.6
CONQUER1.86.310.347.566.0
PRVR models:
MS-SL1.87.111.847.768.4
GMMFormer2.17.812.550.672.9

Table 3: Charades-STA 데이터셋에 대한 다양한 모델의 성능.

각 비디오에는 비디오 내의 다른 moment를 설명하는 5개의 자연어 문장이 연결되어 있다. (Dong et al. 2022a)에 따라, 우리는 17,435개의 비디오와 87,175개의 moment를 학습에 사용하고, 2,179개의 비디오와 10,895개의 moment를 테스트에 사용한다. ActivityNet Captions는 YouTube에서 약 20K개의 비디오를 포함한다. 평균적으로 각 비디오는 약 3.7개의 moment와 해당 문장 설명을 가지고 있다. 우리는 (Zhang et al. 2021, 2020)에서 사용된 인기 있는 데이터 분할을 사용한다. Charades-STA는 6,670개의 비디오와 16,128개의 문장 설명을 포함한다. 각 비디오는 평균적으로 약 2.4개의 moment와 해당 텍스트 쿼리를 가지고 있다. 우리는 모델 학습 및 테스트를 위해 공식 데이터 분할을 사용한다.

Baselines
SOTA PRVR 모델인 MS-SL (Dong et al. 2022a) 외에도, 우리는 T2VR 및 VCMR을 위해 설계된 모델들과 GMMFormer를 비교한다. 특히, 우리는 다음 8개의 T2VR 모델(즉, W2VV (Dong, Li, and Snoek 2018), CE (Liu et al. 2019a), HTM (Miech et al. 2019), HGR (Chen et al. 2020), DE++ (Dong et al. 2021), RIVRL (Dong et al. 2022b), CLIP4Clip (Luo et al. 2022), Cap4Video (Wu et al. 2023))과 다음 3개의 VCMR 모델(즉, XML (Lei et al. 2020), ReLoCLNet (Zhang et al. 2021), CONQUER (Hou, Ngo, and Chan 2021))을 선택한다. 이 VCMR 모델들은 2단계로 구성되어 있으며, 1단계 모듈이 후보 비디오를 검색하고, 2단계 모듈이 후보 비디오 내의 특정 moment를 localize한다. PRVR에서는 moment annotation을 사용할 수 없으므로, 우리는 VCMR 모델들을 (moment localization 모듈을 제거하고) 우리와 동일한 비디오 feature를 사용하여 재학습시켰다. Cap4Video의 경우, 보조 캡션을 얻기 위해 수동 크롤링 방식을 활용한다.

평가 프로토콜 (Evaluation Protocols)
(Dong et al. 2022a)에 따라, 우리는 순위 기반 metric인 R@K(K=1,5,10,100)R@K (K=1,5,10,100)를 활용한다. R@KR@K는 랭킹 목록의 상위 KK개에서 원하는 항목을 올바르게 검색한 쿼리의 비율이다. 전반적인 비교를 위해 모든 Recall의 합(SumR)도 보고한다.

구현 세부 사항 (Implementation Details)
TVR의 비디오 표현을 위해, 우리는 (Lei et al. 2020)에서 제공하는 feature, 즉 frame-level ResNet152 (He et al. 2016) feature와 segment-level I3D (Carreira and Zisserman 2017) feature를 연결하여 얻은 3,072D3,072-\mathrm{D} 시각 feature를 활용한다. ActivityNet Captions 및 Charades-STA에서는 각각 (Zhang et al. 2020) 및 (Mun, Cho, and Han 2020)에서 제공하는 I3D feature만 활용한다. 문장 표현을 위해, TVR에서는 (Lei et al. 2020)에서 제공하는 768-D RoBERTa feature를 사용한다. ActivityNet Captions 및 Charades-STA에서는 (Dong et al. 2022a)에 의해 추출된 1,024-D RoBERTa feature를 사용한다. 네 가지 유형의 Gaussian block(즉, low, medium, high, infinite)에 대해 Gaussian variance를 각각 0.5,1.0,5.0,0.5, 1.0, 5.0, \infty로 설정한다.

The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24)

CLIP4ClipCap4VideoCONQUERMS-SLGMMFormer
FLOPs (G)5.777.355.651.291.95
Params (M)103.65104.8422.554.8512.85

Table 4: FLOPs 및 파라미터 측면에서의 모델 비교.

Database Size5001,0001,5002,0002,500
runtime (ms):
MS-SL4.896.118.0610.4212.93
GMMFormer2.682.933.403.944.56
memory usage ( MM ):
MS-SL50.02100.04150.06200.08250.11
GMMFormer2.535.077.6010.1412.67

Table 5: PRVR 모델의 검색 효율성 측면에서의 비교.

4.2 Main Results

검색 성능 (Retrieval Performance)
Table 1, 2, 3은 세 가지 대규모 비디오 데이터셋에 대한 다양한 모델의 검색 성능을 보고한다. 보시다시피, T2VR 모델은 VCMR 및 PRVR 모델에 비해 성능이 좋지 않다. T2VR 모델은 비디오와 텍스트 간의 **전체적인 관련성(entire relevance)**에 초점을 맞추는데, 이는 T2VR task에서는 매우 중요하지만 PRVR에는 최적화되지 않은 방식이다. VCMR 모델은 **모멘트 검색(retrieving moments)**에 초점을 맞추며, 이는 비디오와 텍스트 간의 **부분적인 관련성(partial relevance)**을 어느 정도 학습하여 T2VR 모델보다 더 나은 성능을 보인다. PRVR 모델은 clip modeling 덕분에 뛰어난 성능을 보여준다. 이들 중 우리의 GMMFormer는 state-of-the-art 성능을 달성한다. GMMFormer의 주요 장점은 다음과 같다:

  1. multi-scale Gaussian block이 다양한 비디오 모멘트를 인지하는 능력을 향상시키고,
  2. query diverse loss가 텍스트 표현의 의미론적 구조를 보존한다.

검색 효율성 (Retrieval Efficiency)
또한, 우리는 위에서 언급된 몇몇 경쟁력 있는 모델들을 FLOPs와 모델 파라미터 측면에서 비교한다. Table 4에서 보듯이, PRVR 모델은 T2VR 및 VCMR 모델보다 더 가벼우면서도 더 높은 검색 성능을 달성한다. 우리의 GMMFormer는 병렬 Gaussian block 때문에 MS-SL보다 더 많은 파라미터와 계산량을 가진다. 그러나 이러한 Gaussian block은 비디오 브랜치에 위치하며, 미리 오프라인으로 계산될 것이다. 우리는 실제 상황에서 검색 효율성 측면에서 GMMFormer와 MS-SL을 추가로 비교한다. 구체적으로, 우리는 TVR에서 비디오 서브셋을 구축하고, 다양한 데이터베이스 크기 설정에서 단일 텍스트 쿼리에 대한 검색 프로세스를 완료하는 데 걸리는 평균 런타임과 메모리 사용량을 측정한다.

GBQDLR@1R@5R@10R@100SumR
11.629.640.481.8163.5
\checkmark12.932.243.983.9172.9
\checkmark12.331.442.583.6169.9
\checkmark\checkmark13.9\mathbf{1 3 . 9}33.3\mathbf{33 . 3}44.5\mathbf{44 . 5}84.9\mathbf{8 4 . 9}176.6\mathbf{1 7 6 . 6}

Table 6: TVR에 대한 GMMFormer의 ablation study. GB는 GMMFormer block을, QDL은 query diverse loss를 의미한다.

CWR@1R@5R@10R@100SumR
Boxcar12.932.143.383.9172.1
Bartlett13.132.643.884.4174.0
Gaussian13.9\mathbf{1 3 . 9}33.3\mathbf{3 3 . 3}44.5\mathbf{4 4 . 5}84.9\mathbf{8 4 . 9}176.6\mathbf{1 7 6 . 6}

Table 7: TVR에 대한 constraint window의 ablation study. CW는 constraint window를 의미한다.

공정한 비교를 위해 보고된 런타임은 동일한 Nvidia RTX3080Ti GPU에서 측정되었다. Table 5에서 보듯이, GMMFormer는 MS-SL보다 약 2.5배 빠르며, GMMFormer의 저장 공간 오버헤드는 MS-SL보다 20배 작다. 효율성 측면에서 GMMFormer의 주요 우위는 implicit clip modeling에 의해 생성되는 compact clip embedding에 있다.

4.3 Ablation Study

GMMFormer Block.
제안된 GMMFormer block에 대한 ablation을 위해, 먼저 GMMFormer block을 vanilla Transformer block으로 대체하고 query diverse loss를 제거하여 네트워크를 baseline으로 변경하였다. Table 6에서 볼 수 있듯이, baseline 모델에 GMMFormer block을 유지하면 검색 성능이 향상되고, 이를 대체하면 전체 설정(full setup)에 비해 검색 성능이 저하된다. 이는 PRVR에서 GMMFormer block의 효과를 입증한다. 우리는 GMMFormer block이 multi-scale clip 정보를 제공하고 다양한 길이의 비디오 순간을 인지할 수 있기 때문이라고 생각한다.

Gaussian Block.
Section 3.3에서는 서로 다른 길이의 비디오 순간을 인지하기 위해 각각 낮은, 중간, 높은, 무한 분산을 가진 네 가지 유형의 Gaussian block을 선택하였다. 이 하위 섹션에서는 이러한 Gaussian block의 영향을 조사한다. 우리는 이 Gaussian block 중 하나씩을 순차적으로 제거하고 **네 가지 변형(즉, w/o low, w/o medium, w/o high, w/o infinite)**을 구성한다. 그런 다음, 쿼리의 **moment-to-video ratio (M/V)**를 해당 순간의 전체 비디오 내 길이 비율로 측정하여 정의한다. 이어서, ActivityNet Captions를 M/V에 따라 네 그룹(즉, 0.00-0.25, 0.25-0.50, 0.50-1.00, 0.00-1.00)으로 나눈다. Figure 4에서는 **다양한 그룹에 대한 각 변형의 성능(SumR)**을 보고한다. 모든 변형은 전체 설정보다 성능이 좋지 않으며, 이는 네 가지 유형의 Gaussian block이 모두 GMMFormer에서 각자의 역할을 수행함을 보여준다. 흥미롭게도, 우리는 낮은 M/V 그룹(0.00-0.25)에서 w/o low 변형이 가장 낮은 성능을 보인다는 것을 발견했다. 동일한 현상이 중간 M/V 그룹(0.25-0.50)에서는 w/o medium 변형에서, 높은 M/V 그룹(0.50-1.00)에서는 w/o high 또는 infinite 변형에서 발생하며, 이는 설계된 multi-scale Gaussian block의 합리성을 입증한다.

Figure 4: 다양한 유형의 쿼리를 사용한 ActivityNet Captions에서 Gaussian block의 ablation 연구. 쿼리는 **moment-to-video ratio (M/V)**에 따라 그룹화된다. 서로 다른 Gaussian block은 서로 다른 M/V 그룹을 처리하는 데 능숙하다. 그리고 어떤 Gaussian block도 없는 GMMFormer 변형은 해당 그룹에서 성능이 저조할 것이다.

전체 설정보다 성능이 좋지 않으며, 이는 네 가지 유형의 Gaussian block이 모두 GMMFormer에서 각자의 역할을 수행함을 보여준다. 흥미롭게도, 우리는 낮은 M/V 그룹(0.00-0.25)에서 w/o low 변형이 가장 낮은 성능을 보인다는 것을 발견했다. 동일한 현상이 중간 M/V 그룹(0.25-0.50)에서는 w/o medium 변형에서, 높은 M/V 그룹(0.50-1.00)에서는 w/o high 또는 infinite 변형에서 발생하며, 이는 설계된 multi-scale Gaussian block의 합리성을 입증한다.

Constraint Window.
우리는 또한 프레임 상호작용 중 constraint window의 설계를 조사한다. 구체적으로, 우리는 **세 가지 유형의 constraint window (즉, Boxcar, Bartlett, Gaussian)**를 번갈아 사용하고 Table 7에 그 성능을 보고한다. 보시다시피, Boxcar window를 사용한 변형은 성능이 좋지 않은데, 이는 비디오 프레임이 인접 프레임에 더 많은 주의를 기울여야 한다는 직관과 일치한다. 또한, Gaussian window는 Bartlett window보다 우수한 성능을 보인다. 우리는 이를 Gaussian 분포의 부드럽고 자연스러운 특성에 기인한다고 본다.

Query Diverse Loss.
Table 6에서는 PRVR을 위해 제안된 query diverse loss에 대한 ablation을 제공한다. 전체 설정과 비교하여, query diverse loss를 제거하면 검색 성능이 저하되고, 이를 baseline에 추가하면 검색 성능이 향상되어 PRVR task에서 그 효과를 입증한다.

4.4 Qualitative Results

Text-Clip 유사도. 설계된 GMMFormer block이 비디오와 텍스트 간의 부분적인 관련성을 탐색하는 능력을 더 잘 보여주기 위해, 우리는 TVR 데이터셋에서 몇 가지 text-clip 유사도 예시를 제시한다. 구체적으로, GMMFormer blockvanilla Transformer block으로 대체하여 w/o GB라는 baseline 모델을 구축했다. Figure 5에서 볼 수 있듯이, GMMFormer block을 포함한 모델은 더 판별력 있는 clip embedding을 생성할 수 있다. 예를 들어, Figure 5 (a)에서 w/o GB 모델은 텍스트와 관련된 순간을 정확히 localize하지 못한다. 그리고 Figure 5 (b)와 (c)에서 w/o GB 모델은 서로 다른 순간들을 혼동하는 반면, GMMFormer block을 포함한 모델은 관련 있는 순간과 관련 없는 순간을 정확하게 구별한다.

Figure 5: TVR 데이터셋에 대한 text-clip 유사도 시각화. w/o GBGMMFormer block을 vanilla Transformer block으로 대체한 GMMFormer의 변형 모델을 의미한다. 더 나은 관찰을 위해 유사도 간격을 부드럽게 처리했음에 유의하라.

Figure 6: TVR subset에 대한 t-SNE 시각화. 서로 다른/같은 비디오와 관련된 텍스트는 서로 다른/같은 색상으로 표시된다.

t-SNE 시각화. 설계된 query diverse loss가 텍스트 표현의 의미론적 구조를 보존하는 능력을 더 잘 보여주기 위해, 우리는 query diverse loss가 없는 GMMFormer와 전체 설정(full setup)의 t-SNE 시각화를 제시한다. 더 나은 관찰을 위해 TVR 데이터셋에서 해당 텍스트 쿼리와 함께 비디오의 작은 subset을 무작위로 샘플링했다. Figure 6에서 볼 수 있듯이, query diverse loss를 포함한 모델은 관련 텍스트 embedding을 더 크게 집계(aggregate)하고 전체 embedding 공간을 더 판별력 있게 만든다.

5 Conclusions

본 논문은 PRVR task를 위한 Gaussian-Mixture-Model 기반 Transformer인 GMMFormer를 제안한다. GMMFormer는 Gaussian-Mixture-Model 제약 조건을 통합하여 클립 표현(clip representation)을 암묵적으로 모델링하고, 높은 정보 밀도를 가진 압축된 클립 임베딩(compact clip embedding)을 생성한다.
또한, 우리는 동일한 비디오와 관련된 텍스트 쿼리들을 구별하고 텍스트 표현의 의미론적 구조를 보존하기 위해 query diverse loss를 제안한다.
세 가지 대규모 비디오 데이터셋에 대한 광범위한 실험 및 ablation study는 GMMFormer의 효과성과 효율성을 입증한다. 특히, GMMFormer는 기존 SOTA인 MS-SL보다 약 2.5배 빠르며, GMMFormer의 저장 공간 오버헤드(storage overhead)는 MS-SL보다 20배 작다.

Acknowledgments

본 연구는 중국 국가자연과학기금(National Natural Science Foundation of China) 보조금 62171248, 62301189, 광둥성 기초 및 응용 기초 연구 기금(Guangdong Basic and Applied Basic Research Foundation) 보조금 2021A1515110066, 광둥성 신 보안 지능 기술 핵심 연구소(Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies, 2022B1212010005), PCNL KEY 프로젝트(PCL2023AS6-1), 그리고 선전 과학 기술 프로그램(Shenzhen Science and Technology Program) 보조금 JCYJ20220818101012025, RCBS20221008093124061, GXWD20220811172936001의 지원을 받아 수행되었다.