Jun, WooJin, et al. "Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 39. No. 4. 2025.

Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval

WooJin Jun, WonJun Moon, Cheol-Ho Cho, MinSeok Jung, and Jae-Pil Heo*<br>Sungkyunkwan University<br>{junwoojinjin, wjun0830, hoonchcho, minseokjung0328, jaepilheo}@gmail.com

Abstract

**Partially Relevant Video Retrieval (PRVR)**은 untrimmed 비디오가 흔한 실제 시나리오에서 **텍스트-비디오 검색(text-to-video retrieval)**의 어려움을 해결하는 task이다. 전통적인 PRVR 방법들은 비디오를 두 가지 feature scale로 인코딩한다:

프레임 레벨(frame-level): 미세한 디테일을 포착하기 위함.
클립 레벨(clip-level): 더 넓은 범위의 콘텐츠를 인식하기 위함.

그러나 이러한 접근 방식들은 두 가지 scale 모두를 단일 문장 표현(sentence representation)과 정렬시키는데, 이는 최적화되지 않은 성능으로 이어진다. 특히, 우리는 **프레임 레벨 비디오 feature를 문장 표현과 정렬할 때 발생하는 수준 불일치(level mismatch)**를 지적한다. 문장 전체의 의미는 프레임 레벨 feature가 인코딩할 수 있는 것보다 더 넓고 다양한 내용을 포함하기 때문이다. 이러한 불일치는 프레임 레벨 feature가 넓은 문맥을 포착하게 만들고, 국소적인 미세 디테일을 간과하게 만든다.

이 문제를 해결하기 위해 우리는 문장을 여러 구성 요소(multiple components)의 집합으로 표현하는 프레임워크를 제안한다. 여기서 각 구성 요소는 프레임 레벨 의미(frame-level semantics)와 정렬된다. 구체적으로, 우리는 **Semantic-Decomposed Matching (SDM)**을 도입하여 텍스트 설명의 granularity를 프레임 레벨 비디오 feature와 일치시키도록 조정한다.

매칭 프로세스 외에도, 우리는 **Adaptive Local Aggregator (ALA)**를 개발하여 더 미세한 국소 디테일을 포착하는 비디오 인코딩을 강화하고, 프레임 레벨에서 정확한 텍스트-비디오 정렬을 보장한다. ALA는 엄격한 시간적 집계 범위(strict temporal aggregation range)를 강제하여 얻은 짧은 시간 범위 내에서 다중 스케일 국소 디테일을 적응적으로 통합한다.

마지막으로, 우리는 두 가지 modality 모두를 위한 새롭게 설계된 objective를 통해 프레임 레벨에서의 상세한 인코딩을 강화한다. 기존의 clip branch와 우리의 프레임워크를 통합한 광범위한 실험들은 그 효과성과 적용 가능성을 입증하며, PRVR 성능의 상당한 향상을 보여준다.

1 Introduction

비디오 수요와 공급이 증가함에 따라, text-to-video retrieval은 연구 커뮤니티에서 상당한 주목을 받아왔다. 텍스트 쿼리를 입력으로 받아, text-to-video retrieval은 비디오 데이터베이스에서 해당 쿼리에 가장 관련성이 높은 비디오를 검색하는 것을 목표로 한다 (Luo et al. 2022; Deng et al. 2023; Wang et al. 2024a; Tian et al. 2024; Wang et al. 2023; Gorti et al. 2022; Chen et al. 2020; Dong, Li, and Snoek 2018; Miech et al. 2019; Liu et al. 2019a). 기존의 text-to-video retrieval 패러다임은 비디오가 모든 프레임이 쿼리와 관련되도록 trimmed되어 있다는 가정 하에 작동한다. 그러나 실제 비디오는 종종 길고 untrimmed되어 있으며, 다양한 내용을 포함한다. 결과적으로, 일반적인 text-to-video retrieval 방법들은 관련 세그먼트를 식별하는 데 적합하지 않아, untrimmed 비디오에 적용될 때 최적의 성능을 달성하기 어렵다.

Figure 1: frame-level branch의 매칭 과정 비교. (a) 기존 방법들은 전체 문장 쿼리를 프레임 feature와 매칭하여, 내용의 granularity 불일치를 초래한다. (b) 우리의 접근 방식은 문장의 광범위한 의미를 각 프레임 feature가 완전히 포괄할 수 있는 더 작은 단위로 분해한다. 이는 매칭 과정에서 내용의 granularity를 일치시켜, frame-level branch가 미세한 세부 사항을 포착하는 데 집중할 수 있도록 한다.

이러한 문제를 해결하기 위해 **Partially Relevant Video Retrieval (PRVR)**이 제안되었다 (Dong et al. 2022a). PRVR은 주어진 텍스트 쿼리에 해당하는 가장 관련성 높은 세그먼트를 포함하는 untrimmed 비디오를 저장소에서 검색하는 것을 목표로 한다. PRVR의 핵심 과제는 1) 길고 untrimmed된 비디오 내의 다양한 길이의 콘텐츠를 정확하게 인코딩하는 것과 2) 텍스트 쿼리의 feature를 비디오 feature와 공동 표현 공간에서 정렬하는 것이다. 전통적인 PRVR 접근 방식 (Dong et al. 2022a; Wang et al. 2024c,b)은 주로 untrimmed 비디오 내의 다양한 contextual 길이를 처리하기 위해 이중 인코딩 전략을 구현함으로써 첫 번째 과제에 중점을 둔다. 일반적으로 이중 branch는 frame-level 및 clip-level branch로 구성된다. Frame-level feature는 짧은 시간 간격의 콘텐츠를 포착하도록 설계되었으며, clip-level feature는 비디오 내의 더 넓은 콘텐츠를 캡슐화한다. 이러한 feature들은 단일 문장 쿼리 표현과 정렬되어 비디오를 텍스트와 매칭한다.

Multi-stream 전략이 유망한 발전을 보였음에도 불구하고, 우리는 프레임 branch의 역할이 모호하게 설계되었다고 주장한다. 특히, 비디오 feature와 문장 표현 간의 매칭 과정은 frame level에 적합하지 않을 수 있는데, 이는 문장이 프레임이 묘사할 수 있는 것보다 더 넓은 context를 포괄하는 경우가 많기 때문이다. 이 매칭 과정은 frame-level 인코딩이 의도된 것보다 더 광범위한 콘텐츠를 포착하도록 유발한다. Figure 1에서 우리는 예시를 통해 이러한 동기를 설명한다. 보시다시피, 우리는 문장 쿼리 내의 의미가 다른 시간적 위치에서 여러 프레임에 걸쳐 있을 수 있으며, 따라서 단일 프레임 feature가 주어진 모든 콘텐츠를 포괄하지 못할 수 있다는 점을 지적한다. 결과적으로, 매칭 과정 중의 level 불일치는 프레임 feature에서 예상치 못한 포괄성을 초래한다.

이러한 관점에서, 우리는 PRVR의 frame-level branch를 위한 새로운 프레임워크를 제안한다. 우리 프레임워크의 핵심 목표는 frame-level 표현이 텍스트 및 비디오 양쪽 modality에 대해 더 미세한 세부 사항을 포착하도록 보장하는 것이다. 텍스트 modality의 경우, 우리는 먼저 **Semantic-Decomposed Matching (SDM)**을 제안한다. 이는 문장 내의 의미를 frame-level query 표현으로 분해하고 이를 비디오 프레임 feature와 매칭한다. 구체적으로, 문장의 각 단어는 학습 가능한 쿼리 벡터로 인코딩되어 분해된 의미 단위를 형성하며, 이를 frame-level query 표현이라고 한다. 쿼리 인코딩을 위해 우리는 slot attention (Locatello et al. 2020)을 활용하는데, 이는 유사성 기반 연산을 반복적으로 수행한다. 이러한 유사성 점수를 기반으로 단어 의미를 집계함으로써, 각 frame-level query 표현은 비디오의 frame level에 나타날 가능성이 있는 텍스트 문장 내의 특정 의미를 포괄한다. 이러한 의미 단위는 Semantic Diversity loss를 통해 서로 분리되어 의미 분해 과정 내의 다양성을 강화한다. 양쪽 modality의 프레임 표현 수준을 정렬함으로써, 우리는 프레임 branch 모델이 더 세분화된 세부 사항에 집중할 수 있도록 한다.

비디오 modality의 경우, 우리는 문장의 특정 콘텐츠와 정렬하기 위해 frame-level branch에서 로컬 이벤트 인코딩에 더욱 집중한다. Gaussian 기반 attention만으로는 로컬 feature 인코딩에 불충분하다는 점을 인식하여 (Figure 4 참조), 우리는 **Adaptive Local Aggregator (ALA)**를 도입한다. 이 ALA는 로컬 이벤트의 가변적인 길이를 처리하기 위해 multi-scale window attention 프로세스를 사용한다. 이어서, 이러한 multi-scale 로컬 세부 사항은 유사성을 기반으로 프레임 표현에 통합되어 frame-level 매칭을 위한 신뢰할 수 있는 로컬 context를 보장한다. 마지막으로, 동일한 비디오 내의 프레임 표현 간의 disentanglement를 장려하기 위해, 우리는 문장에서 파생된 다른 의미 단위와 매칭되는 프레임 간의 유사성을 억제하는 Frame-Semantic Alignment loss를 적용한다.

마지막으로, 우리는 제안된 방법을 기존 PRVR 방법에 통합하여 **두 개의 대규모 비디오 데이터셋(TVR 및 ActivityNet Captions)**에 걸쳐 광범위한 실험을 수행했다. 우리의 결과는 제안된 설계가 frame-level 인코딩에 대한 특수성을 보여주며 성능을 크게 향상시킨다는 것을 입증한다. 또한, 우리의 분석은 로컬 미세 세부 사항이 양쪽 modality에 대해 적절하게 활용됨을 보여준다. 자세한 결과는 Section 4를 참조하라.

전반적으로, 우리의 주요 기여는 다음과 같다: (1) 우리는 PRVR에서 문장 표현과 비디오 프레임 feature 간의 매칭 수준 불일치를 해결하기 위한 새로운 frame-level 프레임워크를 제안한다. 이는 미세한 세부 사항을 포착하는 프레임 branch의 역할을 명확히 한다. (2) 우리는 frame-level 텍스트 표현을 구성하기 위해 **Semantic-Decomposed Matching (SDM)**과 semantic diversity loss를 제안한다. (3) 우리는 frame-level 비디오 feature의 locality를 향상시키기 위해 **Adaptive Local Aggregator (ALA)**와 Frame-Semantic Alignment loss를 도입한다. (4) **두 개의 대규모 데이터셋(TVR 및 ActivityNet Captions)**에 대한 광범위한 실험은 우리 접근 방식의 효과를 입증한다.

Text-to-Video Retrieval (T2VR)
Text-to-video retrieval (T2VR)은 텍스트 쿼리를 기반으로 가장 관련성 높은 비디오를 검색하는 task이다 (Huang et al. 2023; Ma et al. 2023; Pei et al. 2023; Wu et al. 2023; Wang et al. 2024a; Tian et al. 2024; Li et al. 2019; Dong et al. 2019, 2021, 2022b). 최근에는 raw 비디오 데이터와 관련된 높은 학습 비용을 완화하기 위해 CLIP (Contrastive Language-Image Pretraining) (Radford et al. 2021)과 같은 대규모 이미지-언어 사전학습 모델을 활용하는 것이 주류가 되었다 (Fang et al. 2023; Li et al. 2024; Jin et al. 2023c).
그러나 초기 연구들은 유사도 매칭을 위해 텍스트와 비디오의 대표 벡터에만 의존했기 때문에 (Luo et al. 2022), 이후 **텍스트와 비디오 간의 다중 스케일 유사도 매칭 패러다임 (예: patch-word 및 video-sentence 레벨)**이 도입되었다 (Wang et al. 2023; Li et al. 2023a; Guan et al. 2023; Jin et al. 2023b,a; Li et al. 2023b).
그 후, 또 다른 인기 있는 접근 방식은 다중 스케일 매칭의 효과를 유지하면서 검색 효율성을 유지하는 데 중점을 두었다 (Liu et al. 2022; Deng et al. 2023). 이러한 연구들은 검색 프로세스를 간소화하기 위한 temporal feature aggregation 아키텍처를 제안한다.
그럼에도 불구하고, T2VR은 텍스트 설명과 매우 관련성이 높은 trimmed clip이 종종 사용 가능하다는 비교적 강한 가정에 의존하며, 이는 긴 비디오에서는 효과 감소 및 비용 증가로 이어진다.

Partially Relevant Video Retrieval (PRVR)
Partially relevant video retrieval (PRVR)은 검색 쿼리와 부분적인 clip만 관련이 있을 때에도 비디오를 검색하는 것을 목표로 한다.
초기에 MS-SL (Dong et al. 2022a)은 텍스트 쿼리의 다양한 contextual 범위에 맞춰 clip 및 frame 레벨 모두에서 비디오 feature를 인코딩하는 이중 인코딩 전략을 도입했다. 이 접근 방식은 각 쿼리 내의 context가 짧은 시간 범위에서 긴 시간 범위까지 걸쳐 있을 수 있다는 사실을 다룬다.
GMMFormer (Wang et al. 2024c)는 효율적인 검색 프레임워크 개발에 중점을 두었으며, context가 종종 순차적으로 형성된다는 가정 하에 저장해야 할 비디오 clip의 수를 효과적으로 줄였다.
이후 GMMFormer v2 (Wang et al. 2024b)는 더 많은 attention block과 consolidation module을 추가하고, uncertainty-aware loss coefficient를 개발하며, Hungarian matching을 채택하여 이전 버전을 개선했다.
그러나 이들의 한계는 frame feature를 sentence feature에 맞춰 투영함으로써 텍스트-비디오 매칭 프로세스의 granularity를 간과한다는 점에 있다. 본 연구에서는 문장을 개별 frame feature의 contextual 레벨에 맞춰 여러 segment로 분해하는 frame encoding 전략에 중점을 둔다.

3 Method

3.1 Preliminary

일반적인 PRVR(Progressive Retrieval for Video Retrieval) 방법은 untrimmed video를 처리하기 위해 long clip과 short clip을 모두 고려하는 이중 비디오 인코딩 전략을 사용한다. 이들은 크게 세 단계로 구성된다: 비디오 인코딩, 텍스트 인코딩, 검색 점수 측정.

Untrimmed video 인코딩
주어진 untrimmed video $\mathbf{v}$ 에 대해, 사전학습된 2D 또는 3D CNN을 활용하여 **프레임별 비디오 표현 $V^{\prime} \in \mathbb{R}^{L_{v} \times d_{v}}$ **를 얻는다. 여기서 $L_{v}$ 는 시퀀스 길이이고 $d_{v}$ 는 비디오 feature 차원이다 (clip branch의 경우, $V^{\prime}$ 를 사용하여 초기 clip을 구성하기 위해 temporal 축에 대해 mean pooling이 구현된다).
이후, 비디오 feature는 **fully connected layer와 Transformer encoder (Vaswani et al. 2017)**를 통해 처리되어 temporal 정보를 통합한다.
frame branch와 clip branch는 동일한 아키텍처 설계를 사용하지만, 서로 다른 가중치를 사용한다. 결과적으로 frame branch의 출력은 $V_{f} \in \mathbb{R}^{L_{v} \times d}=\left\{v_{i}^{f}\right\}_{i=1}^{L_{v}}$ 이고, clip branch의 출력은 $V_{c} \in \mathbb{R}^{L_{c} \times d}=\left\{v_{i}^{c}\right\}_{i=1}^{L_{c}}$ 이다. 여기서 $L_{c}$ 는 clip-level 비디오 feature의 길이이고 $d$ 는 text-video joint space로 투영된 feature 차원이다.

텍스트 쿼리 인코딩
$L_{q}$ 개의 단어로 구성된 텍스트 쿼리 $\mathbf{q}$ 가 주어지면, 사전학습된 text encoder가 초기 단어 feature $W^{\prime} \in \mathbb{R}^{L_{q} \times d_{w}}$ 를 추출한다. 여기서 $d_{w}$ 는 feature 차원이다. 이 feature들은 FC layer와 Transformer encoder를 통해 투영되어 **contextualized word feature $W \in \mathbb{R}^{L_{q} \times d}=\left\{w_{i}\right\}_{i=1}^{L_{q}}$ **를 얻는다.
그 다음, 단순한 attention 모듈이 적용되어 단어 feature들을 단일 문장 표현 $q \in \mathbb{R}^{d}$ 로 통합한다:

q=\sum_{i=1}^{L_{q}} \alpha_{i}^{q} \times w_{i}, \alpha^{q}=\operatorname{softmax}\left(\mathbf{u} W^{T}\right)

여기서 $\alpha^{q} \in \mathbb{R}^{1 \times L_{q}}$ 는 학습 가능한 벡터 $\mathbf{u} \in \mathbb{R}^{1 \times d}$ 로 생성된 attention vector를 나타낸다.

검색 점수 측정
각 텍스트와 비디오 간의 **검색 점수(retrieval score)**는 **유사도 매칭(similarity matching)**을 통해 결정된다. 구체적으로, 시퀀스 $V_{f}$ 와 $V_{c}$ 내의 비디오 세그먼트와 텍스트 쿼리 $q$ 간의 유사도가 계산된다. 각 branch에 대해 최대 유사도가 검색 점수로 간주된다. 이 과정은 다음과 같이 표현된다:

\begin{aligned} S_{f}(\mathbf{v}, \mathbf{q}) & =\max \left(\cos \left(v_{1}^{f}, q\right), \ldots, \cos \left(v_{L_{v}}^{f}, q\right)\right) \\ S_{c}(\mathbf{v}, \mathbf{q}) & =\max \left(\cos \left(v_{1}^{c}, q\right), \ldots, \cos \left(v_{L_{c}}^{c}, q\right)\right) \end{aligned}

여기서 $S_{f}$ 와 $S_{c}$ 는 각각 frame-level 및 clip-level 점수를 나타내며, $\cos ($ , $)는 cosine 유사도 함수를 의미한다.$

각 text-video 쌍에 대한 **전체 검색 점수 $S$ **는 다음과 같이 이 점수들을 결합하여 계산된다:

S(\mathbf{v}, \mathbf{q})=\beta \times S_{f}(\mathbf{v}, \mathbf{q})+(1-\beta) \times S_{c}(\mathbf{v}, \mathbf{q}),

여기서 $\beta$ 는 두 점수의 균형을 맞추는 데 사용되는 하이퍼파라미터이다.

학습 목표 (Training objective)
비디오와 텍스트 feature를 정렬하기 위해 **infoNCE $\mathcal{L}^{\text {nce}}$ (Faghri et al. 2017; Dong et al. 2022a)**와 triplet ranking $\mathcal{L}^{\text {trip }}$ (Miech et al. 2020; Luo et al. 2022) loss가 널리 사용된다. 이러한 loss들은 긍정적인 text-video 쌍이 부정적인 쌍보다 더 높은 유사도를 유지하도록 보장한다. 공식적으로, 일반적인 목표는 다음과 같이 표현된다:

\mathcal{L}^{\text {base }}=\mathcal{L}_{c}^{\text {nce }}+\mathcal{L}_{c}^{\text {trip }}+\mathcal{L}_{f}^{\text {nce }}+\mathcal{L}_{f}^{\text {trip }}

여기서 $\mathcal{L}_{c}^{*}$ 와 $\mathcal{L}_{f}^{*}$ 는 각각 clip-level 점수 $S_{c}$ 와 frame-level 점수 $S_{f}$ 를 사용한 loss를 나타낸다.

3.2 Method Overview

Sec. 3.1에서 설명했듯이, 기존 연구들은 두 가지 다른 수준의 비디오 branch를 동일하게 취급한다. 즉, 두 수준 모두를 단일 문장 쿼리와 정렬하고 동일한 아키텍처 설계를 사용한다. 특히, 문장 수준 쿼리와의 이러한 정렬은 frame branch가 미세한 세부 사항을 포착하는 능력을 제한한다. 이는 문장의 전체 의미가 frame 수준 feature가 인코딩할 수 있는 것보다 더 넓은 내용을 포함하기 때문이다. 그 결과, 역할이 중복되고 비디오 branch의 다양성이 감소한다. 이러한 문제를 해결하기 위해 우리는 텍스트 및 비디오 인코딩 스트림 모두에서 frame branch의 역할을 명확하게 정의하는 새로운 프레임워크를 제안한다.

Sec. 3.3에서는 먼저 **Semantic Decomposed Matching (SDM)**을 설명한다. SDM은 frame 수준에서 텍스트 인코딩을 포함한다. SDM은 문장을 여러 semantic unit으로 분해하고, 이를 비디오 프레임과 정렬하여 frame 수준 점수를 얻는다. 생성된 unit이 다양한 의미를 포착하도록 보장하기 위해 Semantic Diversity loss도 도입한다.

Sec. 3.4에서는 **비디오 modality에 대한 frame 수준 인코딩을 강화하기 위해 Adaptive Local Aggregator (ALA)**를 제시한다. ALA는 window attention을 사용하여 multi-scale local event를 모델링함으로써 프레임 feature를 정제하여 인접한 context를 포함할 수 있도록 한다. 그런 다음, Frame-Semantic Alignment loss를 통해 다양한 프레임 인코딩을 보완한다.

3.3 Semantic-Decomposed Matching (SDM)

쿼리 문장으로부터 분해된 표현 (Decomposed representation from query sentence)
일반적인 frame-level 매칭은 단일 문장 표현(sentence representation)을 비디오 프레임 feature와 정렬(align)하는 방식으로 이루어지며, 이로 인해 비디오 프레임 feature가 의도된 frame-level보다 더 넓은 범위의 내용을 포착하게 된다. 따라서 우리는 문장으로부터 다양한 의미 단위(semantic unit)를 인코딩하여 비디오 프레임 feature와 더 효과적으로 정렬하고자 의미 분해(semantic decomposition) 접근 방식을 제안한다.
우리의 의미 분해 과정은 투영(projection) layer, Transformer, 그리고 slot encoder의 세 가지 layer로 구성된다.
먼저, 초기 단어 feature $W'$ 를 투영 및 Transformer encoder를 통해 처리하여 단어 feature $W_f \in \mathbb{R}^{L_q \times d}$ 를 얻는다.
그 다음, Fig. 2에서 보여주듯이, slot encoder (Locatello et al. 2020)를 사용하여 의미적으로 관련된 단어 feature $W_f$ 를 학습 가능한 벡터 내에서 그룹화한다. 예를 들어, $n$ 개의 학습 가능한 벡터 $L_0 = \{l_i^0\}_{i=1}^n \in \mathbb{R}^{n \times d}$ 는

Figure 2: 우리의 frame-level 프레임워크 개요. **Semantic-Decomposed Matching (SDM)**은 slot encoder를 사용하여 문장 내의 frame-level 하위 의미(subsemantics)를 식별하고 의미 단위(frame-level query)를 생성한다. 이 의미 단위들은 frame-level 비디오 feature와 정렬되어 검색 점수 $S_f(\mathbf{v}, \mathbf{q})$ 를 계산한다. 비디오 feature는 **Adaptive Local Aggregator (ALA)**를 사용하여 추출되는데, ALA는 먼저 window attention block을 통해 multi-scale local feature를 생성한 다음, cross-attention layer를 사용하여 이 feature들을 frame-level feature로 통합한다. 오른쪽에는 우리가 제안하는 목적 함수들을 제시한다. Semantic Diversity loss는 단일 문장 내의 frame-level query들 간의 유사도를 감소시키고, Frame-Semantic Alignment loss는 서로 다른 의미 단위에 매칭되는 프레임 feature들의 얽힘(entanglement)을 더욱 억제한다.

무작위로 초기화된 후, 각 반복 $t=1 \ldots T$ 마다 단어 feature $W_f$ 내의 특정 의미와 결합하도록 정제된다. 반복 $t$ 에서 우리는 단어 feature $W_f$ 의 선형 투영된 feature를 key와 value로 사용하고, 학습 가능한 벡터 $L_{t-1} = \{l_i^{t-1}\}_{i=1}^n$ 를 cross-attention layer의 query로 사용한다. cross-attention의 softmax 연산은 각 학습 가능한 벡터에 대해 다른 단어 정보를 인코딩하기 위해 query 차원을 따라 적용된다는 점에 유의해야 한다. 그 다음, $t$ 번째 반복의 출력은 GRU (Chung et al. 2014)와 MLP layer로 구성된 정제 과정을 통해 생성된다. $T$ 번의 반복 후 최종 의미 단위는 $L_T = Q_f = \{q_i^f\}_{i=1}^n$ 로 표시되며, 여기서 각 학습 가능한 query는 frame-level feature와 매칭되는 특정 의미를 인코딩한다.

분해된 쿼리 표현을 사용한 검색 점수 (Retrieval score with decomposed query representations)
기존의 검색 과정은 단일 텍스트 표현을 기반으로 유사도만 측정하므로, 여러 텍스트 표현을 처리하기 위해서는 다른 전략이 필요하다. 각 단위가 지정된 문장 내에서 다른 의미를 포착하므로, 우리는 단위들에 주어진 모든 의미를 포함하는 비디오를 발견하는 것을 목표로 한다. 따라서, 우리는 각 단위에 대한 검색 점수를 평균하여 다음과 같이 frame-level 점수를 생성한다:

S_{f}(\mathbf{v}, \mathbf{q})=\frac{1}{n} \sum_{i=1}^{n} \max \left(\cos \left(v_{1}^{f}, q_{i}^{f}\right), \ldots, \cos \left(v_{L_{v}}^{f}, q_{i}^{f}\right)\right) .

모든 의미 단위에 동일한 가중치를 할당함으로써, 우리는 모델이 비디오 검색을 위해 단위 내의 각 의미를 동등하게 고려하기를 기대한다. 평균을 사용하는 것 외에 다른 점수 계산 옵션 간의 비교는 Sec. 4.3을 참조하라.

의미 다양성 손실 (Semantic Diversity loss)
서로 다른 의미 단위 간의 상관관계를 억제하기 위해 Semantic Diversity loss를 적용한다. 구체적으로, 의미 단위로 지칭되는 분해된 쿼리 표현 $Q_f = \{q_i^f\}_{i=1}^n$ 은 코사인 유사도에 대해 페널티를 받는다. $m$ 개의 쿼리를 포함하는 미니 배치 $\mathcal{B}$ 가 주어졌을 때, 손실은 다음과 같이 계산된다:

\mathcal{L}^{\mathrm{SD}}=\frac{1}{m n} \sum_{\mathbf{q} \in \mathcal{B}} \sum_{q_{i}^{f}, q_{j}^{f} \in Q^{f}} \cos \left(q_{i}^{f}, q_{j}^{f}\right),

여기서 $i \neq j$ 이고 $\cos(q_i^f, q_j^f) > 0$ 인 쌍만 포함된다.

3.4 Adaptive Local Aggregator (ALA)

텍스트 모달리티에 대한 개선 외에도, 프레임 수준에서 텍스트-비디오 정렬을 달성하려면 비디오 프레임 feature들이 동일한 세분화 수준(즉, 로컬의 미세한 디테일에 집중)에 있어야 한다. 비디오 프레임 브랜치에서 신뢰할 수 있는 로컬의 미세한 디테일을 제공하기 위해, 우리는 **Adaptive Local Aggregator (ALA)**를 도입한다.
백본(backbone)에서 프레임 feature $V^{\prime}$ 를 투영하여 생성된 프레임별 feature $V_{f}^{\prime} \in \mathbb{R}^{L_{v} \times d}$ 가 주어졌을 때, ALA는 인접 프레임 내의 디테일에 초점을 맞춘 프레임 수준 feature $V_{f}$ 를 생성하는 것을 목표로 한다.
Fig. 2에서 볼 수 있듯이, ALA는 window attention block과 aggregation process로 구성된다.
초기에, window attention block은 다양한 시간적 길이의 이벤트를 수용하기 위해 multi-scale 프레임 feature를 인코딩한다. 각 블록의 attention 메커니즘 내에서, window mask matrix $M^{W} \in \mathbb{R}^{L_{v} \times L_{v}}$ 는 attention score matrix에 요소별 합(element-wise sum)을 사용하여 적용된다. 여기서 $M^{W}$ 는 스칼라 0과 $-\infty$ 로 구성되며, $-\infty$ 위치의 feature는 마스킹된다. 이 window attention 메커니즘은 다음과 같이 공식화된다:

\operatorname{Attn}^{W}\left(V_{f}^{\prime}\right)=\operatorname{softmax}\left(M^{W}+\frac{V_{f}^{\prime} \Theta^{Q}\left(V_{f}^{\prime} \Theta^{K}\right)^{T}}{\sqrt{d_{k}}}\right) V_{f}^{\prime} \Theta^{V},

Model	TVR					ActivityNet Captions
	R@1	R@5	R@10	R@100	SumR	R@1	R@5	R@10	R@100	SumR
VCMR models w/o moment localization:
XML	10.0	26.5	37.3	81.3	155.1	5.3	19.4	30.6	73.1	128.4
ReLoCLNet	10.7	28.1	38.1	80.3	157.1	5.7	18.9	30.0	72.0	126.6
CONQUER	11.0	28.9	39.6	81.3	160.8	6.5	20.4	31.8	74.3	133.1
PRVR models:
PEAN	13.5	32.8	44.1	83.9	174.2	7.4	23.0	35.5	75.9	141.8
DL-DKD	14.4	34.9	45.8	84.9	179.9	8.0	25.0	37.4	77.1	147.6
MS-SL	13.5	32.1	43.4	83.4	172.4	7.1	22.5	34.7	75.8	140.1
MS-SL $\dagger$	12.9	32.0	43.1	83.3	171.3	6.9	22.2	34.6	76.0	139.7
+ Ours	15.7	36.7	47.9	85.8	186.2	7.2	23.5	35.8	76.9	143.4
GMMFormer	13.9	33.3	44.5	84.9	176.6	8.3	24.9	36.7	76.1	146.0
GMMFormer $\ddagger$	15.2	35.4	47.2	85.9	183.8	8	24.7	36.9	76.2	145.8
+ Ours	17.2	38.3	49.8	87.0	192.3	8.1	25.2	37.9	77.9	149.1
GMMFormer v2	16.2	37.6	48.8	86.4	189.1	8.9	27.1	40.2	78.7	154.9
GMMFormer v2 $\dagger$	15.3	36.4	48.5	86.7	186.9	8.9	27.1	40.0	78.6	154.6
+ Ours	17.4	39.7	51.4	87.9	196.4	9.1	27.3	40.4	79.8	156.6

Table 1: TVR 및 ActivityNet Captions에서의 성능 비교. 기호 $\dagger$ 는 재현된 성능을 나타내며, $\ddagger$ 는 비디오 프레임 수준 브랜치에서 pooling layer를 제외한 GMMFormer의 변형을 나타낸다. 원래 GMMFormer는 프레임 브랜치에 대해 단일 시각 프레임 feature만 출력한다.

여기서 $\Theta^{Q}, \Theta^{K}, \Theta^{V}$ 는 각각 query, key, value를 투영하기 위한 학습 가능한 행렬이며, $d_{k}$ 는 query와 key의 차원이다. ALA는 $o$ 개의 window attention block으로 구성되며, 각 블록은 출력 $\bar{V}^{2 i+1} \in \mathbb{R}^{L_{v} \times d}$ 를 생성한다. 여기서 $i(=1, \ldots, o)$ 는 attention mask에 사용된 window size를 나타낸다. 이 출력들은 window 축을 따라 연결되어 $\bar{V}^{A} \in \mathbb{R}^{o \times\left(L_{v} \times d\right)}$ 를 형성하며, 이는 각 프레임 feature 내의 로컬 디테일을 강화하면서 의미적으로 일관된 연속 프레임의 길이 변화를 수용하는 데 활용된다. 구체적으로, $\bar{V}^{A}$ 는 cross-attention layer를 통해 비디오 프레임 feature $V_{f}^{\prime} \in \mathbb{R}^{1 \times\left(L_{v} \times d\right)}$ 에 통합되어 최종 프레임 feature $V_{f}$ 를 얻는다. 잔여 연결(residual connection)을 포함한 이 과정은 다음과 같이 공식화된다:

\begin{gathered} \hat{V}=\mathrm{CA}\left(V_{f}^{\prime}, \bar{V}^{A}, \bar{V}^{A}\right)+V_{f}^{\prime} \\ V_{f}=\mathrm{FC}(\hat{V})+\hat{V} \end{gathered}

여기서 CA는 cross-attention layer를 나타내고, FC는 fully connected layer를 의미한다.

Frame-Semantic Alignment loss. Frame-Semantic Alignment loss는 프레임 feature 간의 의미적 얽힘(semantic entanglement)을 억제하는 것을 목표로 한다. 이는 각 의미 단위와 해당 프레임 간의 유사도를 높이는 동시에, 다른 쿼리와 일치하는 프레임과의 유사도에 페널티를 부여함으로써 달성된다. 긍정적인 비디오-텍스트 쌍의 프레임 수준 표현이 각각 $V_{f}=\left[v_{1}^{f}, \ldots, v_{L_{v}}^{f}\right]$ 및 $Q_{f}=\left[q_{1}^{f}, \ldots, q_{n}^{f}\right]$ 로 주어졌을 때, Frame-Semantic Alignment loss는 다음과 같이 정의된다:

\begin{aligned} \mathcal{L}^{\mathrm{FSA}}=-\frac{1}{m n} \sum_{(\mathbf{v}, \mathbf{q}) \in \mathcal{B}} & \sum_{i=1}^{n}\left[\log \left(\frac{\exp \left(\cos \left(v_{k_{i}}^{f}, q_{i}^{f}\right)\right)}{\sum_{j=1}^{n} \exp \left(\cos \left(v_{k_{i}}^{f}, q_{j}^{f}\right)\right)}\right)\right. \\ + & \left.\log \left(\frac{\exp \left(\cos \left(v_{k_{i}}^{f}, q_{i}^{f}\right)\right)}{\sum_{j=1}^{n} \exp \left(\cos \left(v_{k_{j}}^{f}, q_{i}^{f}\right)\right)}\right)\right] \end{aligned}

여기서 $k_{i}$ 는 프레임 수준 비디오 표현 $V_{f}$ 에서 프레임 수준 쿼리 $q_{i}^{f}$ 와 가장 높은 코사인 유사도를 갖는 $v^{f}$ 의 인덱스를 나타낸다. 이는 의미 단위와 비디오 feature 모두가 서로 다른 의미를 캡슐화하도록 촉진한다.

Total loss. 우리의 프레임 수준 프레임워크는 기존의 프레임 브랜치를 대체하여 간단히 적용할 수 있는 plug-and-play 모델이다. 따라서 우리는 각 baseline의 학습 손실을 $\mathcal{L}^{\text {base }}$ 로 채택한다. 우리의 손실과 결합된 학습 손실은 다음과 같이 표현된다:

\mathcal{L}=\mathcal{L}^{\text {base }}+\lambda_{1} \mathcal{L}^{\mathrm{SD}}+\lambda_{2} \mathcal{L}^{\mathrm{FSA}}

여기서 $\lambda_{1}$ 과 $\lambda_{2}$ 는 손실의 균형을 맞추기 위한 하이퍼파라미터이다. $\mathcal{L}^{\text {base }}$ 는 baseline의 목표에 따라 Sec. 3.1에 설명된 것보다 더 많은 objective를 포함할 수 있다.

4 Experiment

4.1 Experimental Setting

데이터셋 (Datasets)
우리는 제안하는 방법을 두 개의 긴 untrimmed 비디오 데이터셋인 **TVR (Lei et al. 2020a)**과 **ActivityNet Captions (Krishna et al. 2017)**에 대해 검증한다. TVR은 TV 쇼에서 수집된 도전적인 비디오 데이터셋으로, 21.8K개의 비디오와 109K개의 사람이 주석한 query-moment 쌍을 포함한다. 이 데이터셋의 각 query는 평균 13.4단어로 구성되며, 일반적으로 두 명 이상의 사람이 여러 동작을 수행하는 장면을 묘사한다. 반면, ActivityNet Captions는 15K개의 비디오와 72K개의 텍스트 주석을 포함하며, 각 query는 평균 14.8단어로 구성된다.

평가 지표 (Evaluation Metrics)
우리의 방법을 평가하기 위해 **rank-based recall ( $R@K$ )**을 사용한다. 특히, K를 1, 5, 10, 100으로 설정하여 다양한 엄격도(harshness) 하에서의 성능을 측정한다. 또한, 전반적인 성능 비교를 위해 모든 recall 값의 합인 SumR을 보고한다.

구현 세부 사항 (Implementation Details)
공정한 비교를 위해, 기존 연구들을 따라 **사전학습된 feature extractor (예: ResNet (He et al. 2016), I3D (Carreira and Zisserman 2017), Roberta (Liu et al. 2019b))**를 채택한다. 우리의 프레임워크를 baseline 방법들과 통합하기 위해, 텍스트 및 비디오 양쪽 modality를 처리하는 frame-level branch를 우리가 제안하는 방법으로 대체하였다. 학습 가능한 벡터(frame-level query representation)의 수 $n$ 은 5로 설정했으며, slot encoder는 $T=3$ 번의 iteration을 수행한다. 또한, ALA $o$ 의 window attention layer 수는 3으로 설정한다. 더 많은 구현 세부 사항은 appendix에 제공된다.

Figure 3: 우리의 semantic unit 내 단어 attention 점수와 해당 semantic unit의 매칭된 프레임(가장 높은 유사도) 시각화. 상단 행은 텍스트 query를 보여주며, 그 다음으로 각 query 단어에 대한 semantic unit의 attention 점수를 보여준다. 하단 행은 각 semantic unit과 최대 코사인 유사도를 갖는 비디오 내 프레임을 보여준다.

4.2 Comparison with the State-of-the-Art

우리는 제안하는 프레임워크를 state-of-the-art PRVR 및 VCMR 방법들과 비교한다 (Dong et al. 2022a, 2023; Jiang et al. 2023; Wang et al. 2024c,b; Lei et al. 2020b; Zhang et al. 2021; Hou, Ngo, and Chan 2021). (VCMR 방법들은 moment annotation 없이 학습되었다는 점에 유의하라.)
구체적으로, 우리는 이전 PRVR 연구들(즉, MS-SL, GMMFormer, GMMFormer v2)의 frame branch를 우리의 프레임워크로 대체하여 그 효과를 검증한다.
Table 1에서, 우리의 프레임워크가 모든 데이터셋에서 모든 rank-based recall metric에 걸쳐 baseline의 성능을 향상시키는 것을 관찰할 수 있으며, 이는 기존 PRVR 방법들과의 호환성을 보여준다. 특히, GMMFormer v2 기반의 우리 프레임워크는 TVR 데이터셋에서 이전 최고 방법보다 7.3%p 더 높은 상당한 성능 향상을 달성한다.
또한, 우리 프레임워크가 MS-SL처럼 locality를 고려하지 않는 방법들에 대해 더 큰 성능 향상을 제공한다는 것을 발견했다. 우리 방법은 ActivityNet-Captions 데이터셋에서도 이점을 제공한다.
전반적으로, 우리 프레임워크는 baseline에 적용될 때 상당한 성능 향상을 보여주며, 이는 다양한 dual encoding 방법들과의 호환성을 강조한다.

4.3 Ablation Studies and Analyses

제안된 구성 요소에 대한 ablation study.
Table 2에서 우리는 제안된 각 구성 요소를 GMMFormer v2에 점진적으로 통합하고, TVR 데이터셋에서 rank 기반 성능을 평가하는 ablation study를 수행한다.
먼저, (a)는 재현된 GMMFormer v2의 성능을 보여준다. (b)부터 (d)까지는 쿼리 브랜치에 대한 우리의 개선 사항으로 인한 성능 향상을 보여준다. 특히, (b)에서는 각 프레임 및 클립 브랜치에 대해 서로 다른 쿼리 브랜치를 초기화하여, 해당 텍스트 브랜치가 존재할 때 이러한 브랜치들이 서로 다른 세부 정보를 학습함으로써 이점을 얻는다는 것을 보여준다.

	Model	R@1	R@5	R@10	R@100	SumR
(a)	$*$ GMMFormer v2	15.3	36.4	48.5	86.7	186.9
(b)	(a) + query branch	16.0	37.7	49.1	86.7	189.5
(c)	(a) + SDM	17.1	38.5	50.2	87.0	192.8
(d)	(c) + $\mathcal{L}^{S D}$	16.8	38.9	50.4	87.4	193.5
(e)	(d) + ALA	17.2	39.4	51.2	87.7	195.6
(f)	(e) + $\mathcal{L}^{F S A}$ (Ours)	17.4	39.7	51.4	87.9	196.4
(g)	(b) + ALA	15.8	37	48.4	87.0	188.2

Table 2: TVR 데이터셋에 대한 제안된 구성 요소의 ablation study. 기호 $*$ 는 재현된 성능을 나타낸다.

이어서, (c)와 (d) 행은 semantic decomposition의 효과를 검증하며, (b)에 비해 상당한 성능 향상을 달성한다. 이 결과는 비디오 매칭을 위해 다양한 semantic query를 사용하는 것이 검색 성능을 향상시킨다는 것을 강조한다. 또한, (e)는 (d)에서 프레임 수준 비디오 인코딩을 우리의 ALA로 대체하면 추가적인 성능 향상이 있음을 보여준다. 그러나 (g)에서 보듯이, ALA가 제안된 쿼리 브랜치 설계인 SDM 없이 사용될 때 성능 저하가 관찰된다. 이는 다양한 컨텍스트를 가진 단일 쿼리 표현이 로컬 미세 디테일을 강조하는 feature와 잘 맞지 않는다는 우리의 가설을 뒷받침한다. 마지막으로, (f)는 시각 feature와 함께 추가적인 semantic decomposition을 위한 우리의 loss를 통합하는 것이 검색 성능을 향상시킨다는 것을 보여준다.

문장 분해(sentence decomposition) 분석.
Figure 3에서 우리는 각 semantic unit이 해당 비디오의 시각 프레임과 매칭되도록 어떻게 형성되는지 시각화한다. 관찰된 바와 같이, 우리는 각 semantic unit이 동일한 프레임에 우연히 나타날 가능성이 높은 단어들을 기반으로 구축된다고 주장한다 (예: 왼쪽 예시에서 "Abby"와 "Barney", "a note", "handed"). 또한, 우리는 각 semantic unit이 semantic unit 내의 내용을 완전히 설명하는 시각 프레임에 적절하게 매칭된다는 것을 발견한다. 이러한 결과는 우리가 제안한 SDM이 문장을 프레임 수준의 semantic unit으로 효과적으로 분해한다는 것을 보여준다.

Semantic unit 수 분석.
분해된 unit의 적절한 수를 선택하는 것은 성능과 런타임 효율성 사이의 균형을 맞추는 것을 요구한다.

Figure 4: 시각 쿼리를 사용한 프레임 검색의 정성적 결과. 왼쪽에서 오른쪽으로 입력 시각 쿼리, GMMFormer v2의 검색 결과, 그리고 우리의 ALA 기반 프레임 브랜치를 보여준다. 각 프레임 아래의 순위는 각 방법에 대한 전체 비디오 프레임 feature에 걸친 유사도 순위를 나타낸다. 이 결과는 110,078개의 프레임을 포함하는 TVR validation set을 기반으로 한다. 상위 순위 프레임은 종종 동일한 비디오 내에서 인접해 있으므로, 이러한 프레임에 대한 비교는 생략된다.

# Units	R@1	R@5	R@10	R@100	SumR	Runtime(ms)
1	16.2	38.2	49.7	86.9	191.0	2.209
3	17.0	38.5	50.4	87.4	193.3	2.211
5	17.4	39.7	51.4	87.9	196.4	2.225
7	17.9	39.5	51.0	87.6	196.0	2.261
9	17.8	39.7	51.2	88.1	196.8	2.274

Table 3: TVR 데이터셋에 대한 semantic unit 수 분석. 2000개 비디오를 사용하여 RTX 3090에서 평가된 런타임.

Table 3에서 우리는 unit 수 변화의 영향을 조사한다. Table 3에서 보듯이, unit 수를 1개에서 5개로 늘리면 런타임 증가를 대가로 rank 기반 recall 성능이 향상된다. 5개 unit을 초과하면 성능 향상은 미미해진다. 우리는 문장을 5개의 개별 구성 요소로 분해하는 것이 비디오의 로컬 feature와의 정렬을 충분히 포착한다고 가정한다. 이를 바탕으로 우리는 접근 방식에서 프레임 수준에서 5개의 표현을 선택했다.

비디오 feature의 로컬 디테일 평가.
우리가 제안한 ALA가 각 비디오 내의 미세한 로컬 디테일을 효과적으로 인코딩하는지 검증하기 위해, Figure 4에서 보듯이 시각 쿼리가 입력으로 주어졌을 때 프레임 브랜치의 검색 성능을 GMMFormer v2와 비교한다. 검색은 유사도 매칭을 사용하여 수행된다는 점에 유의하라. 우리의 분석에 따르면 GMMFormer v2는 시각 쿼리와 동일한 비디오에 속하는 프레임 feature 사이에 높은 유사도 점수를 생성하는 경향이 있으며, 이는 비디오 시퀀스 내의 얽힘(entanglement)을 나타낸다. 대조적으로, 우리의 방법은 동일한 비디오 내의 프레임을 성공적으로 분리하여, 다른 비디오에서 의미론적으로 관련 있는 프레임(예: 유사한 동작 또는 포즈를 가진 프레임)에 대해 더 낮은 검색 순위를 제공한다. 이는 ALA가 비디오 시퀀스 내에서 프레임 feature를 인코딩하는 데 적합한 설계 선택임을 보여준다.

프레임 수준 검색 점수 통합을 위한 변형.
Table 4에서 우리는 우리의 쿼리 표현(semantic unit)으로 계산된 5개의 프레임 수준 검색 점수를 통합하기 위해 max pooling 및 softmax와 같은 다른 연산을 사용한 결과를 제시한다.

Method	$\mathbf{R @ 1}$	$\mathbf{R @ 5}$	$\mathbf{R @ 1 0}$	$\mathbf{R @ 1 0 0}$	SumR
Max pooling	16.1	37.8	49.8	86.7	190.5
Softmax weight	16.7	39.1	51.1	88.0	194.8
Average (ours)	17.4	39.7	51.4	87.9	196.4

Table 4: Unit을 사용한 점수 매기기 방법 비교.

여기서 softmax에 사용된 값은 추가적인 선형 레이어를 통해 각 unit에서 파생된다. 보듯이, average 연산이 가장 좋은 검색 성능을 제공하는데, 이는 다른 방법들이 단일 unit에 크게 의존하여 문장 내의 모든 세부 사항을 고려하지 않기 때문이다. 이러한 결과는 프레임 수준 검색 점수를 통합하기 위해 average 연산을 사용하기로 한 우리의 결정이 유효하며, 모든 semantic unit이 검색 점수에 동등하게 기여하도록 보장한다는 것을 입증한다.

5 Conclusion

PRVR에 대한 일반적인 연구들은 클립(clip) 수준 및 프레임(frame) 수준의 시각적 feature를 문장 쿼리 feature와 매칭하도록 학습한다. 그러나 문장은 개별 프레임에 나타나는 것보다 더 넓은 맥락을 포함하는 경향이 있기 때문에, 이러한 방식은 프레임 수준 branch의 역할에 모호성을 야기한다. 따라서 본 논문은 **맥락 수준의 불일치(context-level mismatch)**를 해결하기 위해 PRVR을 위한 새로운 프레임 수준 프레임워크를 제안한다.

구체적으로, 우리는 프레임 수준의 의미론(semantics)을 추출하는 데 최적화된 텍스트 및 비디오 encoder 디자인을 모두 설계했다. 텍스트 표현을 위해 SemanticDecomposed Matching은 문장을 여러 의미 단위(semantic units)로 분해하여, 비디오 프레임에 나타날 가능성이 높은 부분적인 내용을 포착한다. 이와 병행하여, 우리는 Adaptive Local Aggregator를 도입하여 비디오 프레임 feature가 지역적인 미세한 세부 정보(local fine details)를 포착하도록 보장한다. 이는 다중 스케일(multi-scale) 지역 feature를 구성하고 집계하여 프레임 수준 표현으로 만드는 방식으로 달성된다. 마지막으로, 이러한 프레임 수준 표현은 제안된 objective를 통해 다양한 의미론을 인코딩하도록 더욱 정제된다. 다양한 baseline과 우리의 포괄적인 연구에서 관찰된 개선 사항들은 우리 프레임워크의 효과를 입증한다.

Acknowledgments

본 연구는 MSIT/IITP (No. 2022-0-00680, 2020-0-01821, 2019-0-00421, RS-202400459618, RS-2024-00360227, RS-2024-00437102, RS-2024-00437633) 및 MSIT/NRF (No. RS-202400357729)의 지원을 받아 수행되었다.