Ren, Junlong, et al. "Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval." arXiv preprint arXiv:2504.19637 (2025).

Enhanced Partially Relevant Video Retrieval through Inter- and Intra-Sample Analysis with Coherence Prediction

Junlong Ren* The Hong Kong University of Science and Technology (Guangzhou) Guangzhou, China jren686@connect.hkust-gz.edu.cn

Gangjian Zhang* The Hong Kong University of Science and Technology (Guangzhou) Guangzhou, China gzhang292@connect.hkust-gz.edu.cn

Hao Wang ${ }^{\dagger}$ The Hong Kong University of Science and Technology (Guangzhou) Guangzhou, China haowang@hkust-gz.edu.cn

Yu Hu The Hong Kong University of Science and Technology (Guangzhou) Guangzhou, China yhu847@connect.hkust-gz.edu.cn

Jian Shu The Hong Kong University of Science and Technology (Guangzhou) Guangzhou, China jshu704@connect.hkust-gz.edu.cn

Hui Xiong The Hong Kong University of Science and Technology (Guangzhou) Guangzhou, China xionghui@hkust-gz.edu.cn

Abstract

**Partially Relevant Video Retrieval (PRVR)**은 텍스트 쿼리와 부분적으로 관련된 타겟 비디오를 검색하는 것을 목표로 한다. PRVR의 주요 과제는 텍스트와 시각 양식 간의 의미적 비대칭성에서 발생하는데, 비디오는 종종 쿼리와 관련 없는 상당한 콘텐츠를 포함하기 때문이다. 기존 방법들은 쌍을 이루는 비디오와 텍스트 쿼리를 대략적으로 정렬하여 의미 공간을 구축하며, 이 task에 내재된 핵심적인 cross-modal 이중 특성, 즉 **샘플 간 상관관계(inter-sample correlation)**와 **샘플 내 중복성(intra-sample redundancy)**을 간과한다.

이를 해결하기 위해 우리는 이 두 가지 특성을 체계적으로 활용하는 새로운 PRVR 프레임워크를 제안한다. 우리 프레임워크는 세 가지 핵심 모듈로 구성된다.

첫째, Inter Correlation Enhancement (ICE) 모듈은 의미적으로 유사하지만 쌍을 이루지 않은 텍스트 쿼리와 비디오 모멘트를 식별하여 샘플 간 상관관계를 포착한다. 이를 통해 가짜 긍정 쌍(pseudo-positive pairs)을 형성하여 더욱 견고한 의미 공간을 구축한다.

둘째, Intra Redundancy Mining (IRM) 모듈은 중복되는 모멘트 feature를 마이닝하고 이를 쿼리 관련 모멘트와 구별함으로써 샘플 내 중복성을 완화하여, 모델이 더욱 판별력 있는 표현(discriminative representations)을 학습하도록 유도한다.

마지막으로, 이러한 모듈들을 강화하기 위해 Temporal Coherence Prediction (TCP) 모듈을 도입한다. 이 모듈은 무작위로 섞인 비디오 프레임과 모멘트의 원래 시간적 순서를 예측하도록 모델을 훈련시켜 시간적 구조 학습(temporal structure learning)을 향상시킨다.

광범위한 실험을 통해 우리 접근 방식이 이전 방법들에 비해 우수하며, state-of-the-art 결과를 달성함을 입증한다.

CCS Concepts

Information systems $\rightarrow$ 비디오 검색.

Keywords

Cross-Modal Retrieval, 멀티미디어 애플리케이션

1 Introduction

온라인 비디오 콘텐츠의 폭발적인 증가와 함께, 사용자들은 방대한 비디오 컬렉션 내에서 특정 비디오를 효율적으로 찾는 방법을 점점 더 많이 찾고 있다. 기존의 Text-to-Video Retrieval (T2VR)은 주어진 텍스트 쿼리와 완전히 일치하는 미리 잘라낸 짧은 클립을 식별하는 데 중점을 두는 반면,

Figure 1: Partially Relevant Video Retrieval (PRVR)에서 비디오-텍스트 샘플은 본질적인 **cross-modal 이중성(dual nature)**을 나타낸다: (a) Inter-sample correlation: 비디오는 다른 짝지어지지 않은 텍스트 쿼리와 의미론적으로 연관된 특정 순간들을 포함한다. (b) Intra-sample redundancy: 대상 순간 외에, 비디오 내의 다른 중복된 순간들은 짝지어진 텍스트 쿼리와 관련이 없다.

많은 실제 시나리오에서는 사용자의 텍스트 쿼리와 부분적으로만 관련된 순간들을 포함하는 긴 비디오를 식별해야 한다. 이 task는 공식적으로 **Partially Relevant Video Retrieval (PRVR)**로 알려져 있다.

PRVR의 근본적인 도전 과제는 **텍스트와 비디오 양식 간의 본질적인 의미론적 비대칭성(semantics asymmetry)**에서 발생한다. 비디오는 여러 순간들로 구성되지만, 그중 일부만이 주어진 텍스트 쿼리와 관련성을 보일 수 있다. 기존 방법들 [9, 14, 21, 48, 53, 58]은 주로 triplet ranking [15] 및 InfoNCE [40]와 같은 기존의 alignment constraint를 채택하여 주석이 달린 짝지어진 텍스트 쿼리와 대상 비디오 간의 **거친 연관성(coarse associations)**을 설정하는 제한된 관점에서 이 task에 접근한다. 이러한 접근 방식은 전통적인 T2VR에서처럼 두 양식의 의미론적 내용이 대체로 동일할 때 효과적일 수 있다. 그러나 PRVR에서는 이러한 설계가 동일한 비디오 내의 **세분화된 순간 이벤트(fine-grained moment events)**를 구별하지 못하여, 비디오의 풍부한 의미론을 탐색하지 못한다.

공식적으로, 이러한 방법들은 PRVR task에서 고유한 cross-modal 이중성(dual nature), 즉 inter-sample correlation과 intra-sample redundancy를 간과한다. Figure 1에서 보듯이, 비디오 양식은 해당 텍스트 쿼리보다 본질적으로 더 풍부한 의미론을 보여준다. 쿼리와 명시적으로 관련되지 않은 순간들도 데이터셋 내의 다른 짝지어지지 않은 쿼리와 연관될 수 있는 **가치 있는 시각적 의미론(valuable visual semantics)**을 포함할 수 있다. 반대로, 비디오 양식은 **의미론적 중복성(semantic redundancy)**도 겪는다. 왜냐하면 그 내용의 제한된 부분만이 주어진 텍스트 설명과 일치하기 때문이다 [9]. 이는 비디오 내용의 상당 부분이 텍스트 쿼리와 관련이 없게 만들며, 이는 검색 정확도에 기여하지 못할 뿐만 아니라 텍스트 쿼리와 해당 비디오 순간 간의 적절한 alignment를 적극적으로 방해할 수 있다.

이러한 관찰을 바탕으로, 우리는 inter-sample correlation을 동시에 활용하고 intra-sample redundancy를 완화함으로써 PRVR을 향상시키는 것을 목표로 한다. Inter-sample correlation을 활용하기 위해, 우리는 비디오에 제시된 풍부한 의미론을 완전히 활용할 것을 제안한다. 기술적으로, 우리의 방법은 학습 세트 내에서 짝지어지지 않은 비디오 순간과 텍스트 쿼리 간의 **기저 의미론적 관계(underlying semantic relationships)**를 식별하고 활용한다. Intra-sample redundancy를 해결하기 위해, 우리는 비디오-텍스트 매칭에서 관련 없는 비디오 순간으로 인해 발생하는 간섭을 명시적으로 완화한다. 우리는 모델이 이러한 **도전적인 중복 순간(challenging redundant moments)**과 **쿼리 관련 순간(query-relevant moments)**을 구별하도록 강제한다.

본 논문에서는 inter-sample correlation과 intra-sample redundancy라는 두 가지 핵심 특성을 통해 비디오-텍스트 관계의 **cross-modal 이중성(dual nature)**을 체계적으로 활용하는 PRVR을 위한 새로운 프레임워크를 소개한다. 제안된 프레임워크는 세 가지 주요 구성 요소로 이루어져 있다: (1) Inter Correlation Enhancement 모듈은 비디오-텍스트 양식의 inter-sample correlation을 완전히 활용하도록 설계되었다. 이 모듈은 비디오 순간과 짝지어지지 않은 텍스트 쿼리 간의 cross-modal 유사도를 계산한다. 높은 유사도를 가진 쌍들은 pseudo-positive sample로 식별되어 활용되며, 이들은 alignment objective에 통합되어 더욱 포괄적이고 판별적인 cross-modal embedding space를 구축한다. (2) Intra-sample redundancy를 해결하기 위해, Intra Redundancy Mining 모듈은 텍스트 feature, 전역 비디오 feature, 지역 순간 feature의 **공동 분석(joint analysis)**을 통해 **의미론적으로 중복된 비디오 순간(semantically redundant video moments)**을 추출한다. 이러한 중복 순간들은 학습 중에 쿼리 관련 순간과 구별되어, 모델이 텍스트와 관련 비디오 콘텐츠 간의 alignment를 강화하고 동일 비디오 내의 관련 없는 시각적 의미론에 대한 판별력을 향상시키도록 강제한다. (3) 위 모듈들을 보완하는 Temporal Coherence Prediction 모듈은 보조 self-supervised task를 통해 **시간 구조 학습(temporal structure learning)**을 향상시킨다. 모델은 무작위로 섞인 비디오 프레임/순간의 **원래 시간 순서(original temporal order)**를 예측하도록 학습하여, 비디오 의미론 및 시간 구조에 대한 **더욱 견고한 이해(robust understanding)**를 개발한다.

세 가지 대규모 데이터셋인 TVR [27], ActivityNet Captions [25], Charades-STA [17]에 대한 광범위한 실험은 제안된 방법의 우수한 성능과 견고성을 검증한다. 요약하자면, 우리의 주요 기여는 다음과 같다:

우리는 비디오 순간과 짝지어지지 않은 텍스트 쿼리 간의 높은 유사도 쌍을 식별하는 Inter Correlation Enhancement 모듈을 소개한다. 이러한 pseudo-positive 쌍은 cross-modal semantic space 구축을 풍부하게 하는 데 통합된다.
우리는 중복된 비디오 순간을 추출하고 쿼리 관련 순간과 구별하는 Intra Redundancy Mining 모듈을 제안한다. 이는 모델이 더욱 정확하고 판별적인 텍스트-비디오 alignment를 개발하도록 강제한다.
Temporal Coherence Prediction 모듈에서는 self-supervised 보조 task를 설계한다. 이는 섞인 비디오 프레임/순간의 원래 시간 순서를 예측하도록 모델에 요구함으로써 시간 구조 학습을 향상시킨다. 이는 더욱 견고한 비디오 feature를 생성한다.

2.1 Partially Relevant Video Retrieval

**Partially Relevant Video Retrieval (PRVR)**은 텍스트 쿼리와 부분적으로만 의미론적 관련성이 있는 untrimmed 비디오를 검색하는 task이다. 기존의 비디오 검색 task와 달리, PRVR에 의해 검색된 비디오는 텍스트 쿼리와 반드시 완전한 의미론적 정렬을 보이지 않으며, 종종 상당한 양의 중복 정보를 포함한다. 특히, **MS-SL [9]**은 PRVR task를 최초로 제안했다. MS-SL은 clip-scale과 frame-scale 모두에서 비디오 feature를 학습한다. **PEAN [21]**은 모델의 이벤트에 대한 전체적인 이해를 향상시키기 위해 Gaussian 기반 pooling 전략을 도입한다. **DL-DKD [14]**는 CLIP [42]의 이미지-텍스트 매칭에 대한 사전 지식을 증류(distill)하고 domain gap을 완화한다. **GMMFormer [48]**는 Transformer block [45]에 Gaussian window를 적용하여 비디오 인코딩의 정보 밀도를 높인다. **BGM-Net [53]**은 unimodal 유사도를 기반으로 멀티모달 정렬을 촉진하기 위한 새로운 loss function을 제안한다. 그러나 이러한 연구들은 PRVR의 고유한 cross-modal dual nature를 간과하여 제한적인 semantic space 구축으로 이어진다. 이와 대조적으로, 우리는 inter-sample correlation과 intra-sample redundancy를 활용하여 검색 정확도를 향상시키는 것을 목표로 한다.

2.2 Video Moment Retrieval

**Video Moment Retrieval (VMR)**은 텍스트 쿼리를 사용하여 정제되지 않은(untrimmed) 비디오에서 의미적으로 관련된 순간의 시작/종료 시간 경계를 추출하는 것을 목표로 한다. 기존 방법들은 일반적으로 proposal-based [16, 33, 49, 54, 59, 60] 접근 방식과 proposal-free [12, 18, 36, 57, 61, 62] 접근 방식으로 분류될 수 있다.

Proposal-based 방법은 먼저 후보 순간(candidate moment) proposal 집합을 생성한 다음, 가장 잘 일치하는 proposal을 식별한다.
이와 대조적으로 proposal-free 방법은 비디오와 쿼리 feature를 통합하여 시작 및 종료 타임스탬프를 직접 예측하므로, 명시적인 proposal이 필요 없다.

이러한 기존 방법들과는 다르게, 최근 연구들 [2, 23, 26, 32, 34, 38]은 DETR [3] 아키텍처를 활용하여 VMR을 set prediction task로 해결하기도 한다. VMR과 달리, PRVR은 순간의 시간적 위치 대신 정제되지 않은 비디오를 검색하는 데 중점을 두므로, PRVR에서는 시간적 주석(temporal annotation)이 제공되지 않는다.

2.3 Text-to-Video Retrieval

최근 몇 년간 Text-to-Video Retrieval (T2VR) 분야는 점점 더 많은 주목을 받고 있다. 일반적인 접근 방식 [6, 10, 11, 13, 31]은 텍스트 쿼리와 비디오 콘텐츠 간의 cross-modal 유사도를 비교하여 미리 잘라낸(pre-trimmed) 비디오를 검색하는 것을 포함한다. 이를 위해 많은 연구들 [28, 47, 51]은 서로 다른 modality의 feature들을 공유 임베딩 공간(shared embedding space)으로 투영하는 방법들을 제안해왔다. 그러나 이러한 방법들은 실제 비디오가 항상 단일 주제에 일관되게 대응하지 않으며, 일반적으로 비디오 내의 모든 순간(moment)이 텍스트 쿼리와 관련성이 있는 것은 아니라는 사실을 종종 간과한다.

Figure 2: 제안하는 프레임워크의 개요. 우리는 **PRVR(Pseudo-Relevance Video Retrieval)**에서 inter-sample correlation과 intra-sample redundancy라는 **cross-modal의 이중적 특성(dual nature)**을 체계적으로 활용하여 더욱 판별력 있는 cross-modal semantic space를 구축한다. 이 프레임워크는 세 가지 핵심 구성 요소로 이루어져 있다: (a) Inter Correlation Enhancement Module: 이 구성 요소는 비디오 moment와 짝지어지지 않은(unpaired) 텍스트 쿼리 간의 높은 유사도 쌍을 식별하여 cross-modal correlation을 분석한다. 이러한 pseudo-positive 쌍은 semantic space 구축을 풍부하게 하기 위해 학습 과정에 통합된다. (b) Intra Redundancy Mining Module: 이 모듈은 중복되는 비디오 moment를 추출한다. 이러한 중복 moment와 쿼리 관련 moment를 구별하는 학습을 통해, 모델은 쿼리 관련 시각적 의미에 집중하는 향상된 능력을 개발한다. (c) Temporal Coherence Prediction Module: 다른 구성 요소들을 보완하기 위해 설계된 이 모듈은 self-supervised sequence prediction task를 통해 시간적 구조 학습을 개선한다. 이 task에서 모델은 섞인 비디오 프레임/moment의 원래 시간적 순서를 예측한다.

3 Proposed Method

이 섹션에서는 Figure 2에 제시된 제안하는 프레임워크의 기술적 세부 사항을 제공한다. 먼저 Section 3.1에서 **문제 정식화(problem formulation)**를 소개한다. 이어서 Section 3.2에서 기반 모델 아키텍처를 제시한다. 세 가지 핵심 모듈, 즉 Inter Correlation Enhancement (ICE) 모듈, Intra Redundancy Mining (IRM) 모듈, 그리고 Temporal Coherence Prediction (TCP) 모듈은 각각 Section 3.3, Section 3.4, Section 3.5에서 소개된다. 마지막으로, Section 3.6에서 **모델 추론(inference)**에 대해 자세히 설명한다.

3.1 Problem Formulation

**부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR)**은 텍스트 쿼리에 의미적으로 관련된 순간(moment)을 포함하는 비디오를 대규모의 untrimmed 비디오 코퍼스에서 검색하는 것을 목표로 한다. 기존의 text-to-video retrieval과 달리, PRVR에서는 비디오가 untrimmed 상태로 훨씬 길며, 텍스트 쿼리는 비디오의 작은 부분에만 해당한다. PRVR에서는 순간의 시작/종료 타임스탬프를 사용할 수 없다는 점에 유의해야 한다.

3.2 Base Model

3.2.1 텍스트 표현 (Text Representation)
$N$ 개의 단어를 포함하는 문장이 주어졌을 때, 이전 연구들 [9, 48, 53]을 따라 우리는 먼저 사전학습된 RoBERTa [35]를 사용하여 단어 임베딩(word embeddings)을 추출한다. 그런 다음 **완전 연결(FC) layer를 활용하여 단어 임베딩을 더 낮은 차원의 공간으로 투영(project)**한다. 우리는 또한 표준 Transformer layer [45]를 텍스트 인코더(text encoder)로 채택한다. 인코딩된 단어 수준 feature는 $Q=\left\{q_{i}\right\}_{i=1}^{N} \in \mathbb{R}^{N \times D}$ 로 표기하며, 여기서 $D$ 는 feature 차원이다. 마지막으로, 우리는 $Q$ 에 additive attention mechanism [1]을 적용하여 집계된 문장 수준 feature $q \in \mathbb{R}^{D}$ 를 얻는다.

3.2.2 비디오 표현 (Video Representation)
untrimmed 비디오가 주어졌을 때, 우리는 먼저 사전학습된 2D [19] 또는 3D CNN [4]을 visual backbone으로 사용하여 $T_f$ 개의 프레임 feature를 추출한다. 이전 방법들 [9, 21, 48, 53]을 따라, 우리는 두 개의 개별 브랜치(branch)를 통해 비디오의 시간적 정보(temporal information)를 coarse-to-fine 방식으로 포착한다. 기술적으로, moment-level branch는 로컬(local) moment-텍스트 유사도를 측정하는 반면, video-level branch는 글로벌(global) 비디오-텍스트 유사도를 모델링한다.

moment-level branch의 경우, 우리는 먼저 $T_f$ 개의 프레임 feature를 연속적인 프레임 feature에 대한 평균 풀링(mean pooling)을 통해 $T_m$ 개의 moment feature로 압축한다. 그런 다음 FC layer를 사용하여 차원을 축소한다. moment encoder로는 표준 Transformer encoder [45]를 채택하여 문맥화된 moment feature $V_{m}=\left\{m_{i}\right\}_{i=1}^{T_{m}} \in \mathbb{R}^{T_{m} \times D}$ 를 얻는다.

video-level branch의 경우, 프레임 feature는 FC layer에 입력된 후, 표준 Transformer encoder인 비디오 인코더(video encoder)로 전달된다. 인코딩된 프레임 feature는 $V_{f}= \left\{f_{i}\right\}_{i=1}^{T_{f}} \in \mathbb{R}^{T_{f} \times D}$ 로 표기한다. 다음으로, 우리는 $V_{f}$ 에 additive attention mechanism [1]을 적용하여 집계된 비디오 수준 feature $v \in \mathbb{R}^{D}$ 를 얻는다.

3.2.3 유사도 학습 (Similarity Learning)
비디오-텍스트 쌍 $\mathcal{V}$ 와 $\mathcal{T}$ 가 주어졌을 때, 우리는 먼저 텍스트 표현과 앞서 언급된 두 브랜치에서 얻은 비디오 표현 간의 유사도를 계산한다. 구체적으로, 비디오 feature $v$ 와 문장 feature $q$ 간의 비디오 수준 유사도(video-level similarity)는 코사인 유사도(cosine similarity)로 측정된다:

\mathcal{S}_{v}(\mathcal{V}, \mathcal{T})=\cos (v, q)=\frac{v^{\top} q}{\|v\| \cdot\|q\|}

다음으로, moment feature $V_m$ 와 문장 feature $q$ 간의 moment 수준 유사도(moment-level similarity)를 max-pooling을 통해 계산하고, 가장 높은 유사도를 가진 핵심 moment feature $m^{k} \in \mathbb{R}^{D}$ 를 식별한다:

\mathcal{S}_{m}(\mathcal{V}, \mathcal{T})=\max \left\{\cos \left(m_{1}, q\right), \cdots, \cos \left(m_{T_{m}}, q\right)\right\}=\cos \left(m^{k}, q\right)

학습을 위해 우리는 triplet ranking [15] 및 InfoNCE [40] 손실 함수를 채택하며, 이는 [9, 14, 21, 48, 53]을 따르는 일반적인 접근 방식이다:

\begin{gathered} \mathcal{L}^{\text {trip }=\frac{1}{n} \sum_{(\mathcal{V}, \mathcal{T}) \in \mathcal{B}}\left[\max \left(0, m+\mathcal{S}\left(\mathcal{V}, \mathcal{T}^{-}\right)-\mathcal{S}(\mathcal{V}, \mathcal{T})\right)\right.} \\ \left.+\max \left(0, m+\mathcal{S}\left(\mathcal{V}^{-}, \mathcal{T}\right)-\mathcal{S}(\mathcal{V}, \mathcal{T})\right)\right] \\ \mathcal{L}^{\text {nce }}=-\frac{1}{n} \sum_{(\mathcal{V}, \mathcal{T}) \in \mathcal{B}}\left[\log \left(\frac{\mathcal{S}(\mathcal{V}, \mathcal{T})}{\sum_{\mathcal{T}_{i}} \mathcal{S}\left(\mathcal{V}, \mathcal{T}_{i}\right)}\right)+\log \left(\frac{\mathcal{S}(\mathcal{V}, \mathcal{T})}{\sum_{\mathcal{v}_{i}} \mathcal{S}\left(\mathcal{V}_{i}, \mathcal{T}\right)}\right)\right] \end{gathered}

여기서 $m$ 은 margin 상수, $n$ 은 미니배치 $\mathcal{B}$ 의 크기, $\mathcal{T}^{-}$ 와 $\mathcal{V}^{-}$ 는 $\mathcal{B}$ 에서 추출된 negative sample, $\mathcal{T}_{i}$ 와 $\mathcal{V}_{i}$ 는 모든 텍스트 및 비디오 샘플을 나타낸다. 기본 모델의 학습 손실은 다음과 같다:

\mathcal{L}_{\text {base }}=\mathcal{L}_{v}^{\text {trip }}+\mathcal{L}_{m}^{\text {trip }}+\lambda_{1} \mathcal{L}_{v}^{\text {nce }}+\lambda_{2} \mathcal{L}_{m}^{\text {nce }}

여기서 $\mathcal{L}_{v}^{\text {trip }}$ 와 $\mathcal{L}_{m}^{\text {trip }}$ 는 비디오 수준 유사도 $\mathcal{S}_{v}$ 와 moment 수준 유사도 $\mathcal{S}_{m}$ 를 $\mathcal{S}$ 로 사용하여 계산된 triplet loss를 나타내며, $\mathcal{L}_{v}^{n c e}$ 와 $\mathcal{L}_{m}^{n c e}$ 도 마찬가지이다. $\lambda_{1}$ 과 $\lambda_{2}$ 는 손실 균형을 맞추기 위한 하이퍼파라미터이다.

3.3 Inter Correlation Enhancement

PRVR task는 근본적인 의미론적 비대칭성을 보인다. 텍스트 쿼리는 대상 비디오의 내용을 부분적으로만 설명하며, 이로 인해 시각 모달리티는 본질적으로 더 풍부한 의미 정보를 포함하게 된다. 우리의 핵심 관찰은, 특정 비디오 순간들이 원래 짝지어진 텍스트 주석과 일치하지 않을 수 있지만, Figure 1에서 보여주듯이 데이터셋 내의 다른 짝지어지지 않은 텍스트 설명들과 강한 의미론적 대응 관계를 보일 수 있다는 점이다. 이러한 샘플 간 상관관계(inter-sample correlation)는 현재 PRVR 접근 방식에서 가치 있지만 탐구되지 않은 자원이다. 우리는 이러한 기저의 cross-modal 관계를 활용하고자 한다.

이를 위해 우리는 Inter Correlation Enhancement (ICE) 모듈을 제안한다. 기술적으로, 우리는 레이블이 없지만 상관관계가 있는 시각-텍스트 관계를 추가적으로 학습하여, 더 풍부한 의미 공간을 구축하는 것을 목표로 한다. 우리는 의미적으로 가장 잘 대응할 가능성이 있는 순간-텍스트 쌍을 활용하고, 동시에 의미적으로 관련 없는 쌍은 필터링하는 데 중점을 둔다.

Figure 3: ICE 모듈은 pseudo label 할당을 위해 2단계 선택 프로세스를 사용한다. 먼저 미니배치 내에서 짝지어지지 않은 비디오 순간(moment)과 텍스트 feature 간의 유사도를 계산한다. 상호 최대 유사도를 가진 쌍들이 후보 쌍으로 선택된다. 그런 다음, 임계값보다 높은 유사도를 가진 쌍들만 유지되어, 후속 학습을 위한 높은 신뢰도의 pseudo label을 보장한다.

pseudo label 할당 과정은 Figure 3에 나타나 있다.

$n$ 개의 비디오-텍스트 쌍으로 구성된 미니배치가 주어졌을 때, 우리는 먼저 Section 3.2에서 정의된 대로 텍스트 및 순간 feature를 추출한다. 그 결과 $n_m = n T_m$ 개의 순간 feature와 $n$ 개의 텍스트 feature가 생성된다. 그런 다음, 각 순간 feature와 텍스트 feature에 대한 유사도 행렬 $S = \{s_{ij}\} \in \mathbb{R}^{n_m \times n}$ 를 계산한다. 우리는 짝지어지지 않은 상관관계 있는 순간-텍스트 쌍을 발굴하는 것을 목표로 하므로, 각 텍스트와 그에 짝지어진 비디오의 순간들 사이의 유사도는 수동으로 -1로 설정한다. $\bar{i}$ -번째 순간과 $\bar{j}$ -번째 텍스트에 대해, 우리는 각각 가장 유사한 텍스트와 순간을 다음과 같이 찾는다:

\hat{j}=\underset{j \in\{1, \cdots, n\}}{\arg \max }\left(\left\{s_{\bar{i} j}\right\}\right), \hat{i}=\underset{i \in\left\{1, \cdots, n_{m}\right\}}{\arg \max }\left(\left\{s_{i \bar{j}}\right\}\right),

만약 $\hat{i}=\bar{i}$ 이고 $\hat{j}=\bar{j}$ 라면, 이들은 서로에게 상호적으로 가장 유사하며, 우리는 이들을 **후보 상관관계 쌍(candidate correlated pair)**으로 간주한다.

직관적으로, 진정으로 상관관계가 있는 쌍은 서로에게 가장 유사할 뿐만 아니라 높은 유사도를 보여야 한다. 잘못 매칭된 노이즈 쌍을 추가로 필터링하고 상관관계 쌍의 정확도를 높이기 위해, 상관관계 임계값 0.4보다 높은 유사도를 가진 쌍들만 선택된다.

마지막으로, 위 2단계 선택 과정을 통해 $n_c$ 개의 상관관계 쌍을 얻는다. 이 쌍들은 크기 $n_c$ 의 미니배치를 형성하며, 우리는 Equation (3) 및 (4)에 정의된 contrastive learning loss를 사용하여 이들을 정렬한다. ICE의 loss는 $\mathcal{L}_{\text{ice}}$ 로 표기된다.

3.4 Intra Redundancy Mining

ICE 모듈은 샘플 간의 상관관계를 효과적으로 활용하여 검색을 위한 cross-modal semantic space를 강화한다. 그러나 특정 비디오 semantic이 짝지어지지 않은 텍스트 쿼리와 일치할 수 있지만, 이는 원래 짝지어진 텍스트에 대해 중복된 정보를 나타낸다. 이러한 중복성은 비디오-텍스트 매칭 과정에서 노이즈를 유발하여 검색 정확도를 제한한다.

intra-sample redundancy를 완화하기 위해 우리는 Intra Redundancy Mining (IRM) 모듈을 제안한다. 이 모듈은 텍스트, 비디오, moment feature 간의 관계를 분석하여 중복되고 쿼리-무관한 moment feature를 식별한다. 기존의 negative sample(예: 무작위로 샘플링된 짝지어지지 않은 비디오)과 달리, 이렇게 마이닝된 negative sample은 타겟 moment에 대해 더 높은 feature 유사성을 보여주며,

Figure 4: Temporal Coherence Prediction (TCP) 모듈의 파이프라인. Frame feature는 먼저 개별 그룹으로 나뉘고, 그에 따라 그룹 레이블이 할당된다. 그런 다음, frame feature의 하위 집합이 무작위로 선택되고 섞이며, 이 frame들의 그룹 레이블이 예측된다.

이는 더 도전적인 판별 task를 제시한다. 모델이 중복된 moment와 쿼리-관련 moment를 구별하도록 강제함으로써, 우리는 더욱 판별적이고 쿼리-관련성이 높은 비디오 표현 학습을 촉진하여 검색 성능을 향상시킨다.

우리는 두 가지 다른 관점에서 중복된 moment feature를 구성한다. 기술적으로, 우리는 key moment feature $m^{k}$ , 비디오 feature $v$ , 쿼리 feature $q$ 사이의 latent space [30, 41, 50]에서의 semantic 변화를 모델링하여 **video-view redundant feature $r_{v} \in \mathbb{R}^{D}$ **와 **query-view redundant feature $r_{q} \in \mathbb{R}^{D}$ **를 얻는다:

r_{v}=F C\left(v-m^{k}\right), r_{q}=F C(v-q)

여기서 $F C$ 는 비디오-moment 차이와 비디오-쿼리 차이 간의 간극을 연결하는 fully-connected layer이다. 직관적으로, 비디오-레벨 feature $v$ 는 비디오 내 모든 moment의 전역 semantic을 포함한다. 비디오-레벨 feature $v$ 에서 key moment feature $m^{k}$ 를 빼면, **텍스트와 무관하다고 간주되는 video-view redundant feature $r_{v}$ **를 얻는다. 유사하게, 우리는 **대칭적인 연산을 사용하여 타겟 moment와 무관하다고 간주되는 query-view redundant feature $r_{q}$ **를 얻는다. 두 중복 feature $r_{v}$ 와 $r_{q}$ 는 key moment feature 및 쿼리 feature와 semantic적으로 무관해야 하므로, 우리는 moment-level 유사성 학습(Section 3.2.3)에서 $r_{v}$ 와 $r_{q}$ 를 negative sample로 사용하며, 이때 손실 함수는 $\mathcal{L}_{\text {neg }}$ 로 표시된다.

또한, 우리는 $r_{v}$ 와 $r_{q}$ 를 직접 정렬(align)할 것을 제안한다. 두 중복 feature는 각각 video-view와 query-view에서 얻어지므로, 이들의 정렬은 cross-modal semantic space에서 비디오와 텍스트 쿼리 간의 근본적인 관계 학습을 촉진한다. 해당 손실 $\mathcal{L}_{\text {red }}$ 또한 Equation (3)과 (4)의 공동 적용이다. 이 모듈의 전체 학습 목표는 위 두 손실의 합이다:

\mathcal{L}_{i r m}=\mathcal{L}_{n e g}+\mathcal{L}_{r e d}

3.5 Temporal Coherence Prediction

우리의 ICE 및 IRM 모듈은 샘플 간 상관관계를 효과적으로 활용하고 샘플 내 중복성을 완화하지만, 그 성능은 근본적으로 모델의 temporal modeling 능력에 달려 있다. 더 명확한 temporal feature 구분은 ICE에서 더 정확한 cross-modal 상관관계 측정과 IRM에서 더 정밀한 중복성 식별을 가능하게 한다. 이러한 능력을 더욱 향상시키기 위해, 우리는 self-supervised learning을 통해 temporal structure 학습을 강화하는 Temporal Coherence Prediction (TCP) 모듈을 도입한다. 전체 파이프라인은 Figure 4에 나타나 있다.

구체적으로, TCP 모듈은 보조적인 시퀀스 예측 task를 포함한다. 비디오의 temporal structure를 포착하기 위해, 우리는 인접 프레임 간의 연속성을 활용하여 비디오 시퀀스를 일관된 temporal segment로 나눈다. HERO [29]에서 영감을 받아, 우리는 비디오 feature들을 섞어(shuffle) 무작위 시퀀스를 형성한다. 모델은 원래의 temporal order를 예측하도록 학습된다. temporal coherence를 명시적으로 모델링함으로써, 이 task는 모델이 비디오 이벤트 간의 일관성(coherence)과 인과성(causality)을 학습하는 데 도움을 준다.
주목할 점은, 광범위한 고유 시퀀스 레이블을 할당하는 HERO와 달리, TCP는 그룹화된 레이블링(grouped labeling)을 채택한다는 것이다. 우리는 HERO의 레이블링 방식에서 문제를 발견했다. 고유 레이블을 예측하는 것은 지나치게 어렵고 노이즈를 유발한다. 우리는 그룹화된 레이블링을 통해 이를 해결하여, task 복잡도를 줄이고 견고한 temporal modeling을 가능하게 한다. 우리는 또한 Section 4.3.3에서 그룹 수에 대한 ablation 연구를 수행한다. TCP는 multi-grained temporal coherence 학습을 가능하게 하기 위해 Section 3.2.2의 video-level branch와 moment-level branch 모두에 적용된다. 여기서는 주로 video-level branch를 중심으로 설명한다.

구체적으로, 우리는 먼저 프레임 feature들을 $g$ 개의 그룹으로 나누고, 각 프레임 feature에는 1부터 $g$ 까지의 그룹 레이블이 부여된다. 매 $T_f / g$ 개의 연속적인 프레임 feature에는 동일한 그룹 레이블이 할당된다. 원래 인코딩된 프레임 feature $V_f$ 의 그룹 레이블은 $y_o \in \mathbb{R}^{T_f}$ 로 표시된다.
그런 다음, 우리는 일부 프레임 feature를 무작위로 선택하고 섞은(shuffle) 후 비디오 인코더를 통해 인코딩한다. 너무 적거나 너무 많은 프레임을 섞는 것은 최적의 성능을 저해할 수 있다. 너무 적은 프레임을 섞으면 충분한 학습 신호를 제공하지 못하고, 과도하게 섞으면 temporal coherence를 방해하여 task를 지나치게 어렵게 만든다. 따라서 우리는 25%의 프레임만 섞는다. 섞인 프레임 feature와 그에 해당하는 섞인 그룹 레이블은 각각 $\hat{V}_f = \{\hat{f}_i\}_{i=1}^{T_f} \in \mathbb{R}^{T_f \times D}$ 와 $y_s \in \mathbb{R}^{T_f}$ 로 표현된다.
이후, 우리는 분류기(classifier)를 사용하여 원래 프레임 feature $V_f$ 와 섞인 프레임 feature $\hat{V}_f$ 모두의 그룹 레이블을 예측한다:

p_{o}=\operatorname{Softmax}\left(C L S\left(V_{f}\right)\right), p_{s}=\operatorname{Softmax}\left(C L S\left(\hat{V}_{f}\right)\right),

여기서 $CLS$ 는 분류기이며, $p_o \in \mathbb{R}^{T_f \times g}$ 와 $p_s \in \mathbb{R}^{T_f \times g}$ 는 그룹 레이블의 예측된 확률 분포이다. 우리는 이 모듈을 최적화하기 위해 cross-entropy loss를 사용한다:

\mathcal{L}_{t c p}=f_{C E}\left(p_{o}, y_{o}\right)+f_{C E}\left(p_{s}, y_{s}\right)

여기서 $f_{CE}$ 는 cross-entropy loss 함수를 나타낸다.

3.6 Inference

추론 시에는 ICE, IRM, TCP 모듈이 비활성화된다. 주어진 비디오-텍스트 쌍 $\mathcal{V}$ 와 $\mathcal{T}$ 의 유사도는 이전 연구들 [9, 14, 21, 48, 53]을 따라 Section 3.2.3에 설명된 moment-level 유사도와 video-level 유사도의 가중합으로 계산된다:

\mathcal{S}(\mathcal{V}, \mathcal{T})=\alpha \mathcal{S}_{m}(\mathcal{V}, \mathcal{T})+(1-\alpha) \mathcal{S}_{v}(\mathcal{V}, \mathcal{T})

여기서 $\alpha \in[0,1]$ 는 유사도들의 균형을 맞추기 위한 하이퍼파라미터이다.

Table 1: TVR, ActivityNet Captions, Charades-STA 데이터셋에 대한 성능 비교 결과. 가장 좋은 결과는 굵게(bold) 표시되었고, 두 번째로 좋은 결과는 밑줄(underline)로 표시되었다. 우리는 모든 세 가지 데이터셋에서 모든 metric에 걸쳐 state-of-the-art 결과를 달성하였다. ${ }^{\dagger}$ 는 지식 증류(knowledge distillation)를 위해 추가 CLIP-B/32 모델을 사용했음을 나타낸다. ${ }^{\ddagger}$ 는 Large Multimodal Models (LMMs)를 사용했음을 나타낸다.

Method	Venue	TVR					ActivityNet Captions					Charades-STA
		R@1	R@5	R@10	R@100	SumR	R@1	R@5	R@10	R@100	SumR	R@1	R@5	R@10	R@100	SumR
DE++ [11]	TPAMI'2021	8.8	21.9	30.2	67.4	128.3	5.3	18.4	29.2	68.0	121.0	1.7	5.6	9.6	37.1	54.1
RIVRL [13]	TCSVT'2022	9.4	23.4	32.2	70.6	135.6	5.2	18.0	28.2	66.4	117.8	1.6	5.6	9.4	37.7	54.3
Cap4Video [51]	CVPR'2023	10.3	26.4	36.8	74.0	147.5	6.3	20.4	30.9	72.6	130.2	1.9	6.7	11.3	45.0	65.0
ReLoCLNet [56]	SIGIR'2021	10.7	28.1	38.1	80.3	157.1	5.7	18.9	30.0	72.0	126.6	1.2	5.4	10.0	45.6	62.3
CONQUER [20]	MM'2021	11.0	28.9	39.6	81.3	160.8	6.5	20.4	31.8	74.3	133.1	1.8	6.3	10.3	47.5	66.0
MS-SL [9]	MM'2022	13.5	32.1	43.4	83.4	172.4	7.1	22.5	34.7	75.8	140.1	1.8	7.1	11.8	47.7	68.4
JSG [7]	MM'2023	-	-	-	-	-	6.8	22.7	34.8	76.1	140.5	2.4	7.7	12.8	49.8	72.7
UMT-L [28]	ICCV'2023	13.7	32.3	43.7	83.7	173.4	6.9	22.6	35.1	76.2	140.8	1.9	7.4	12.1	48.2	69.6
PEAN [21]	ICME'2023	13.5	32.8	44.1	83.9	174.2	7.4	23.0	35.5	75.9	141.8	$\underline{2.7}$	8.1	13.5	50.3	74.7
GMMFormer [48]	AAAI'2024	13.9	33.3	44.5	84.9	176.6	8.3	24.9	36.7	76.1	146.0	2.1	7.8	12.5	50.6	72.9
BGM-Net [53]	TOMM'2024	14.1	34.7	45.9	85.2	179.9	7.2	23.8	36.0	76.9	143.9	1.9	7.4	12.2	50.1	71.6
PBU [37]	ICCV'2025	15.4	35.9	47.5	86.4	185.1	7.9	24.9	37.2	77.3	147.4	-	-	-	-	-
ARL [8]	AAAI'2025	15.6	36.3	47.7	86.3	185.9	8.3	24.6	37.4	78.0	148.3	-	-	-	-	-
HLFormer [22]	ICCV'2025	15.7	37.1	48.5	86.4	187.7	8.7	27.1	$\underline{40.1}$	$\underline{79.0}$	$\underline{154.9}$	2.6	8.5	$\underline{13.7}$	$\underline{54.0}$	78.7
InternVideo $2^{\ddagger}$ [47]	ECCV'2024	13.8	32.9	44.4	84.2	175.3	7.5	23.4	36.1	76.5	143.5	1.9	7.5	12.3	49.2	70.9
DL-DKD ${ }^{\dagger}$ [14]	ICCV'2023	14.4	34.9	45.8	84.9	179.9	8.0	25.0	37.5	77.1	147.6	-	-	-	-	-
MGAKD ${ }^{\dagger}$ [58]	TOMM'2025	16.0	37.8	$\underline{49.2}$	87.5	190.5	7.9	25.7	38.3	77.8	149.6	-	-	-	-	-
Ours	-	17.5	39.0	49.9	87.6	194.0	10.1	28.6	41.9	79.8	160.4	2.9	9.2	14.9	54.3	81.3

4 Experiments

4.1 Experimental Setup

4.1.1 데이터셋
PRVR task에서 우리 방법의 효과를 평가하기 위해, 우리는 untrimmed long video를 포함하는 널리 사용되는 세 가지 데이터셋인 **TVR [27], ActivityNet Captions [25], Charades-STA [17]**를 활용한다. PRVR 설정에서는 이 데이터셋들이 제공하는 moment-level annotation은 사용하지 않는다는 점에 유의해야 한다. 기존의 T2VR 데이터셋 [5, 46, 52]이 사전 트리밍된 짧은 클립을 사용하는 것과 달리, PRVR은 콘텐츠가 텍스트 쿼리와 부분적으로만 관련 있는 untrimmed long video를 사용한다.

TVR은 6개의 TV 프로그램에서 수집되었으며, 21.8K개의 비디오와 109K개의 텍스트 쿼리를 포함한다. 각 비디오는 평균적으로 5개의 텍스트 설명을 가지며, 비디오 내의 다른 moment들을 묘사한다. [9]에 따라, 학습 세트는 17,435개의 비디오와 87,175개의 moment로 구성되며, 테스트 세트는 2,179개의 비디오와 10,895개의 moment를 포함한다.

ActivityNet Captions는 20K개의 YouTube 비디오에서 가져온 광범위한 인간 활동을 포함한다. 평균적으로 각 비디오는 문장 설명이 있는 3.7개의 moment를 가진다. 우리는 [9, 14, 48]과 동일한 데이터 분할을 채택하며, 10,009개와 4,917개의 비디오 (37,421개와 17,505개의 moment)가 각각 학습 및 테스트 세트로 활용된다.

Charades-STA는 주로 실내 활동을 묘사하는 비디오로 구성되며, 6,670개의 비디오와 16,128개의 moment annotation을 포함한다. 우리는 공식 데이터 분할을 활용하며, 12,408개와 3,720개의 moment-sentence 쌍이 각각 학습 및 평가에 사용된다.

4.1.2 평가 지표
이전 연구들 [9, 14, 48]에 따라, 우리는 **rank-based metric인 Recall Rate at $k(R@k)$ 와 모든 recall rate의 합(SumR)**을 채택한다. R@k는 상위 $k$ 개 결과 내에서 성공적으로 검색된 관련 항목의 비율을 측정하며, $k$ 는 $\{1,5,10,100\}$ 으로 설정된다. Recall rate가 높을수록 검색 정확도가 우수함을 나타낸다.

4.1.3 구현 세부 사항
PRVR에 대한 이전 연구들 [8, 9, 14, 21, 22, 37, 48, 53, 58]과의 공정한 비교를 위해, 우리는 [9]에서 제공하는 동일한 시각 및 텍스트 feature를 활용한다. 시각 및 텍스트 feature는 **사전학습된 I3D [4] (ResNet152 [19] 포함)와 RoBERTa [35]**에 의해 추출된다. Feature 차원 $D$ 는 384로 설정된다. $\lambda_{1}, \lambda_{2}, T_{m}, m$ , 및 $\alpha$ 는 [9, 48]에 따라 각각 $0.02, 0.04, 32, 0.2$ , 및 $0.7$ 로 설정된다. $g$ 는 8로 설정된다. 모델 학습을 위해 우리는 **Adam optimizer [24]**를 활용하며, 초기 학습률은 $2.5 \mathrm{e}-4$ , 미니 배치 크기는 128이다. 모델은 early stopping 전략과 함께 100 epoch 동안 학습된다. 모든 실험은 단일 NVIDIA RTX 3090 GPU에서 수행된다. 더 많은 구현 세부 사항은 appendix에 제공된다.

4.2 Comparison with State-of-the-Arts

4.2.1 비교 방법 (Compared Methods)
우리는 제안된 방법을 TVR, ActivityNet Captions, Charades-STA 데이터셋에서 다른 state-of-the-art 방법들과 비교한다. 이러한 방법들에는 PRVR [8, 9, 14, 21, 22, 37, 48, 53, 58], T2VR [11, 13, 28, 51], 그리고 대규모 멀티모달 모델(large multimodal models) [47]이 포함된다. 결과는 [9, 48] 및 해당 논문들에서 인용되었다.

4.2.2 성능 (Performance)
Table 1에 요약된 바와 같이, 우리 방법은 세 가지 데이터셋 모두에서 모든 metric에 걸쳐 state-of-the-art (SOTA) 결과를 달성한다. 특히, 우리는 추가적인 CLIP 모델을 사용하지 않고도 이전 SOTA 방법인 MGAKD [58]를 능가한다. 또한, 대규모 멀티모달 모델(LMM)인 InternVideo2 [47]도 상당한 차이로 앞선다. InternVideo2는 텍스트 쿼리와 전체 비디오 간의 유사성만을 고려하여, 핵심적인 moment event의 fine-grained 이해를 간과한다. 이와 대조적으로, 우리 방법은 서로 다른 moment event의 풍부한 의미론적 정보를 완전히 활용하고 이를 구별하는 방법을 학습한다. 이러한 비교는 PRVR task에서 우리 방법의 장점과 전문성을 강조한다.

4.2.3 효율성 (Efficiency)
우리는 추론(inference) 단계에서 제안된 모델과 기존 모델들의 효율성을 평가한다. 공정한 비교를 위해, 모든

Table 2: ActivityNet Captions에서의 효율성 비교. 모든 실험은 동일한 조건에서 수행되었다.

Method	Backbone	Model Size	Run-Time	SumR
MS-SL [9]	I3D + RoBERTa	$\mathbf{3 . 3 7 M}$	146.63s	140.1
GMMFormer [48]	I3D + RoBERTa	11.37 M	87.69 s	146.0
Ours		I3D + RoBERTa	4.65 M	$\mathbf{8 3 . 0 1 s}$

Table 3: Charades-STA에서 제안된 핵심 모듈들의 주요 ablation study. 가장 좋은 결과는 굵게 표시되었다.

Row	Setting			R@1	R@5	R@10	R@100	SumR
	ICE	IRM	TCP
1	$x$	$\times$	$\times$	1.5	6.8	11.3	49.5	69.1
2	$\checkmark$	$\times$	$x$	2.2	7.5	12.4	52.2	74.3
3	$\times$	$\checkmark$	$\times$	2.1	7.8	12.9	51.9	74.7
4	$x$	$\times$	$\checkmark$	1.7	7.0	12.0	50.5	71.2
5	$\times$	$\checkmark$	$\checkmark$	2.4	8.3	13.8	52.1	76.6
6	$\checkmark$	$\times$	$\checkmark$	2.5	8.5	13.6	52.2	76.8
7	$\checkmark$	$\checkmark$	$\times$	2.6	8.8	14.2	52.6	78.2
8	$\checkmark$	$\checkmark$	$\checkmark$	2.9	9.2	14.9	54.3	81.3

Table 4: Charades-STA에서 Intra Redundancy Mining 모듈의 loss term에 대한 ablation study.

Row	Loss Terms		R@1	R@5	R@10	R@100	SumR
	$\mathcal{L}_{\text {neg }}$	$\mathcal{L}_{\text {red }}$
1	$x$	$\times$	2.5	8.5	13.6	52.2	76.8
2	$\checkmark$	$\times$	2.3	8.9	14.9	53.2	79.3
3	$\chi$	$\checkmark$	2.3	8.7	14.7	52.8	78.5
4	$\checkmark$	$\checkmark$	2.9	9.2	14.9	54.3	81.3

실험은 ActivityNet Captions 데이터셋에서 동일한 batch size와 단일 RTX 3090 GPU를 사용하여 수행되었다. Table 2에서 보듯이, 동일한 backbone과 더 적은 학습 가능한 파라미터로도 우리는 더 빠른 추론 속도와 더 나은 검색 정확도를 달성한다. 이러한 결과는 제안된 모델의 효과성과 효율성을 입증한다.

4.3 Ablation Studies

4.3.1 주요 Ablation 연구
우리 방법론의 각 모듈의 효과를 포괄적으로 검증하기 위해, Table 3에서 광범위한 ablation 연구를 수행하였다. 각 행의 결과를 비교하여 다음과 같은 관찰을 얻었다:
(1) 각 모듈은 개별적으로 기본 모델(Row 1-4) 대비 성능을 향상시키며, 이는 cross-modal semantic space를 정제하는 데 효과적임을 시사한다.
(2) 두 모듈을 결합하면 추가적인 성능 향상(Row 5-7)이 발생하며, 이는 의미 정렬(aligning semantics)에 있어 상호 보완적인 역할을 함을 나타낸다. 특히, ICE와 IRM의 공동 적용은 가장 큰 성능 향상(Row 7)을 달성하며, 이는 PRVR에서 비디오-텍스트 양식의 cross-modal 이중적 특성을 활용하는 것의 필요성을 강조한다.

Table 5: metric SumR에서 그룹 수 $g$ 에 대한 Ablation

Row	$g$	Charades-STA	TVR	ActivityNet Captions
1	4	80.0	187.5	156.1
2	$\mathbf{8}$	$\mathbf{8 1 . 3}$	$\mathbf{1 94 . 0}$	$\mathbf{1 6 0 . 4}$
3	16	78.2	184.0	152.1
4	32	75.1	180.1	148.6

Table 6: Charades-STA에서 Temporal Coherence Prediction 모듈의 Ablation 연구

Row	Setting		R@1	R@5	R@10	R@100	SumR
	Video	Moment
1	X	$\times$	2.6	8.8	14.2	52.6	78.2
2	$\checkmark$	$\times$	2.7	9.0	14.6	53.4	79.7
3	$\times$	$\checkmark$	2.8	8.9	14.8	53.7	80.2
4	$\checkmark$	$\checkmark$	2.9	9.2	14.9	54.3	81.3

Table 7: Charades-STA에서 다른 기본 모델에 미치는 영향. 제안된 세 가지 모듈을 기존 PRVR 방법에 직접 적용.

Method	Setting	R@1	R@5	R@10	R@100	SumR
MS-SL	Origin	1.8	7.1	11.8	47.7	68.4
	+ Ours	$\mathbf{2 . 4}$	$\mathbf{9 . 1}$	$\mathbf{1 4 . 6}$	$\mathbf{5 3 . 9}$	$\mathbf{8 0 . 0}$
GMMFormer	Origin	2.1	7.8	12.5	50.6	72.9
	+ Ours	$\mathbf{3 . 0}$	$\mathbf{9 . 5}$	$\mathbf{1 5 . 3}$	$\mathbf{5 5 . 1}$	$\mathbf{8 2 . 9}$

(3) 세 가지 모듈을 모두 통합하면 가장 좋은 성능(Row 8)을 달성하며, 모든 지표에서 상당한 개선을 보인다. 특히, TCP는 ICE와 IRM의 성능을 더욱 향상시킨다. ICE와 IRM만으로도 SumR에서 9.1의 절대적인 개선(Row 1과 7, $69.1 \rightarrow 78.2$ )을 달성한다. TCP와 결합하면 성능 향상은 10.1로 증가한다(Row 4와 8, $71.2 \rightarrow 81.3$ ).
4.3.2 Intra Redundancy Mining
우리는 Intra Redundancy Mining (IRM) 모듈의 각 손실 함수의 효과를 검증한다. Table 4에서 보듯이, $\mathcal{L}_{\text {neg}}$ (Row 2)와 $\mathcal{L}_{\text {red}}$ (Row 3) 모두 SumR에서 성능 향상을 가져온다. 더욱이, $\mathcal{L}_{\text {neg}}$ 와 $\mathcal{L}_{\text {red}}$ 를 결합하면 (Row 4) 가장 높은 SumR을 달성한다. 이러한 효과는 $\mathcal{L}_{\text {neg}}$ 가 중복되고 쿼리 관련성이 낮은 moment들을 밀어냄으로써 중복성을 직접적으로 억제하고, $\mathcal{L}_{\text {red}}$ 가 비디오 뷰(video-view)와 쿼리 뷰(query-view)의 중복성을 상관시킴으로써 cross-modal alignment를 간접적으로 강화하기 때문에 발생한다.
4.3.3 Temporal Coherence Prediction
우리는 Temporal Coherence Prediction (TCP) 모듈에서 **시간적 일관성 학습의 세분화 정도를 제어하는 그룹 수 $g$ **를 평가한다. Table 5에서 보듯이, $g>8$ 일 때 모든 데이터셋에서 성능이 저하되는데, 이는 task 난이도 증가 때문이다. 특히, 고유한 레이블을 할당하는 HERO의 방법 [29] (즉, $T_{m}=32$ moment 시퀀스에 대해 $g=32$ )은 가장 낮은 결과를 얻는다.

Figure 5: ActivityNet Captions에서 우리 방법, MS-SL [9], GMMFormer [48] 간의 검색 결과 시각화 비교. 상위 5개 검색 결과가 왼쪽에서 오른쪽으로 표시된다. Ground-truth 비디오는 빨간색 상자로 표시되어 있다.

Figure 6: Charades-STA에서 텍스트 및 비디오 feature의 t-SNE 시각화 [44]. (a)는 $\mathcal{L}_{\text {base}}$ 만으로 학습된 기본 모델이다. (b)는 전체 설정으로 학습된 전체 모델을 보여준다.

Figure 7: TVR에서 텍스트-모멘트 유사도. 기본 모델은 $\mathcal{L}_{\text {base}}$ 만으로 학습되었고, 전체 모델은 전체 설정으로 학습되었다. 가독성을 높이기 위해 유사도 간격을 부드럽게 처리했다. 더 잘 보이도록 확대해서 볼 것.

최적의 결과는 $g=8$ 에서 달성되었으며, 이는 적절한 그룹화가 task 난이도와 학습 효율성 사이의 균형을 이룬다는 것을 시사한다.

다음으로, TCP 모듈을 비디오 레벨 브랜치와 모멘트 레벨 브랜치 모두에 적용하는 것의 기여도를 보여준다. Table 6에 나타난 바와 같이, 비디오 레벨 브랜치에만 TCP를 활용하면 (Row 2) SumR이 79.7로 향상되며, 주로 세분화된 시간 모델링을 강화한다. 또한, 모멘트 레벨 브랜치에만 TCP를 적용하면 (Row 3) SumR이 80.2로 향상되는데, 이는 모멘트 레벨 일관성 학습이 encoder가 coarse-grained 시간 관계를 추론하도록 장려하기 때문이다. 더욱이, 전체 설정 (Row 4)은 이러한 장점들을 통합하여 모든 지표에서 최고의 성능을 달성한다. 이 듀얼 브랜치 설계는 여러 granularities에서 전체적인 시간적 일관성 모델링을 보장하며, 이는 강건한 시간 구조 학습에 필수적이다.
4.3.4 기본 모델
우리 방법론의 일반화 능력을 입증하기 위해, 우리는 이를 두 가지 기존 PRVR 모델인 MS-SL [9]과 GMMFormer [48]에 추가로 통합하였다. 구체적으로, 우리는 기본 모델을 이들 모델로 직접 대체한다. Table 7에서 보듯이, 우리 접근 방식은 Charades-STA 데이터셋에서 이들 모델에 대한 plug-and-play 향상 기능으로 작용한다. 두 모델 모두에서 일관된 성능 향상이 관찰된다. 이러한 범용적인 성능 향상은 우리 방법론이 모델에 구애받지 않으며, 보다 포괄적인 cross-modal semantic space를 효과적으로 구축한다는 것을 강조한다.

4.4 Qualitative Results

4.4.1 검색 결과 (Retrieval Results)
우리 방법의 효과를 정성적으로 검증하기 위해, Figure 5에서 ActivityNet Captions 데이터셋에 대한 우리 방법, MS-SL [9], GMMFormer [48] 간의 검색 결과 시각화 비교를 보고한다. 첫 번째 사례에서 MS-SL과 GMMFormer는 riding이라는 동작을 가진 비디오와 피상적으로 일치시키고, riding을 자전거와 잘못 연관시키며, pushes a rake 및 scooter와 같은 핵심 의미를 무시한다. 이와 대조적으로, 우리 방법은 올바른 의미를 가진 타겟 비디오를 정확하게 검색한다. 나머지 예시에서도 유사한 현상이 나타나며, 이는 우리 방법의 강력하고 우수한 검색 능력을 보여준다.

4.4.2 $t$ -SNE 시각화 ( $t$ -SNE Visualization)
우리는 시맨틱 공간에서 비디오와 텍스트 feature의 정렬(alignment)을 분석하기 위해 t-SNE 시각화 [44]를 보고한다. 더 명확한 관찰을 위해 Charades-STA에서 paired 비디오와 텍스트 쿼리 중 일부를 무작위로 샘플링한다. Figure 6 (a)에서 보듯이, base model에서는 비디오와 텍스트 feature의 분포가 공유된 cross-modal 공간에서 제한적인 겹침을 보여, 두 modality 간의 약한 정렬을 나타낸다. 이와 대조적으로, 우리 방법은 더욱 판별적인 feature 분포를 달성한다. Figure 6 (b)에서처럼, 비디오와 텍스트 feature는 영역 내에서 밀접하게 얽혀 있으며, 이 영역들은 의미별 구분을 유지하기에 충분한 분리를 보인다. 이는 우리 접근 방식이 두 modality의 고유한 특성을 유지하면서 성공적으로 정렬하여, PRVR의 시맨틱 정렬을 향상시켰음을 시사한다.

4.4.3 텍스트-모먼트 유사도 (Text-Moment Similarity)
우리 방법이 중복 모먼트와 쿼리 관련 모먼트를 구별하는 능력을 검증하기 위해 TVR에 대한 텍스트-모먼트 유사도 예시를 제시한다. Figure 7에서 보듯이, base model은 제한적인 변동을 가진 유사도 점수를 생성하여, 서로 다른 모먼트 이벤트 간의 구별 능력이 약함을 나타낸다. 반대로, 우리 full model은 명확한 피크 값을 보여, 모먼트 feature의 판별 능력이 향상되었음을 나타낸다. 이는 우리 방법이 쿼리 관련 모먼트와 쿼리 비관련 모먼트를 구별하는 능력을 효과적으로 개선했음을 시사한다.

5 Conclusion

본 논문에서는 **부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval)**을 위한 새로운 프레임워크를 제시한다. 이 프레임워크는 비디오-텍스트 모달리티의 cross-model 이중성(dual nature), 즉 **샘플 간 상관관계(inter-sample correlation)**와 **샘플 내 중복성(intra-sample redundancy)**을 체계적으로 활용한다.
우리의 접근 방식은 세 가지 핵심 모듈을 도입한다.

Inter Correlation Enhancement 모듈: 의미적으로 유사하지만 쌍을 이루지 않는 텍스트-비디오 샘플을 pseudo-positive pair로 식별하고 활용하여 cross-modal 정렬(alignment)을 강화한다.
Intra Redundancy Mining 모듈: 중복되는 순간(redundant moments)과 쿼리 관련 순간(query-relevant moments)을 구별함으로써 판별 학습(discriminative learning)을 개선하고, 모델이 쿼리 관련 시각적 의미에 집중하도록 유도한다.
Temporal Coherence Prediction 모듈: self-supervised 비디오 시퀀스 예측 task를 통해 시간적 구조 학습(temporal structure learning)을 향상시킨다.

세 가지 데이터셋에 대한 광범위한 실험을 통해 우리 프레임워크가 state-of-the-art 성능을 달성함을 입증한다.

A Dataset Details

Table 8에 데이터셋 통계를 요약하였다. 우리의 방법은 다양한 비디오 길이(짧은 비디오와 긴 비디오 모두)와 상이한 데이터 분포를 가진 이들 데이터셋 전반에서 state-of-the-art 성능을 달성한다. 이는 다양한 시간적 스케일, moment 분포, 그리고 시간적 granularities에 걸쳐 강력한 일반화 능력을 입증한다.

B Implementation Details

비디오 및 텍스트 표현의 경우, 우리는 PRVR [8, 9, 14, 21, 22, 37, 48, 53, 58]에 대한 이전 연구들과 공정한 비교를 보장하기 위해 [9]에서 제공하는 동일한 feature를 사용한다. 특히, TVR에서는 3,072D 시각 feature가 [27]에서 제공되며, 이는 프레임 수준의 ResNet152 [19] feature와 세그먼트 수준의 I3D [4] feature를 연결(concatenate)하여 얻어진다. 반면, 768D 텍스트 feature는 [27]에서 RoBERTa [35]를 사용하여 제공된다. ActivityNet Captions 및 Charades-STA에서는 1,024D 시각 feature가 각각 [55]와 [39]에서 I3D를 사용하여 제공된다. 1,024D 텍스트 feature는 [9]에서 RoBERTa를 사용하여 제공된다.

Transformer encoder의 경우, 각 encoder는 4개의 attention head를 가진 두 개의 표준 Transformer encoder layer [45]로 구성된다. 학습 중에는 과적합을 방지하기 위해 dropout [43]을 0.15로 설정한다.

C Training Loss Details

우리가 제안하는 방법은 각 모듈의 loss에 의해 최적화된다:

\mathcal{L}=\mathcal{L}_{\text {base }}+\lambda_{i c e} \mathcal{L}_{i c e}+\lambda_{i r m} \mathcal{L}_{i r m}+\lambda_{t c p} \mathcal{L}_{t c p},

여기서 $\lambda_{\text {ice }}$ , $\lambda_{\text {irm }}$ , $\lambda_{\text {tcp }}$ 는 loss들의 균형을 맞추기 위한 하이퍼파라미터이다. 실험에서는 모든 데이터셋에 대해 $\lambda_{\text {ice }}$ , $\lambda_{\text {irm }}$ , $\lambda_{\text {tcp }}$ 를 각각 0.1, 1, 1로 설정하였다. 이러한 loss 가중치에 대한 ablation 연구는 Section D.4에 제시되어 있다.

D More Experiments

D. 1 Multi-scale Branches

우리는 기본 모델에서 video-level 및 moment-level branch의 효과를 검증한다. Table 9에서 보듯이, video-level 및 moment-level branch를 모두 결합하는 것(Row 3)이

Table 10: Charades-STA에서 contrastive learning loss에 대한 ablation study.

Row	Setting		R@1	R@5	R@10	R@100	SumR
	Triplet Ranking	InfoNCE
1	$\checkmark$	$\boldsymbol{x}$	2.2	7.9	14.1	52.2	76.4
2	$\boldsymbol{x}$	$\checkmark$	2.3	7.6	12.9	49.8	72.6
3	$\checkmark$	$\checkmark$	$\mathbf{2 . 9}$	$\mathbf{9 . 2}$	$\mathbf{1 4 . 9}$	$\mathbf{5 4 . 3}$	$\mathbf{8 1 . 3}$

Table 11: ActivityNet Captions에서 긴 비디오 검색 성능.

Setting	R1	R5	R10	R100	SumR
All queries	10.1	28.6	41.9	79.8	160.4
Queries paired with videos $>3 \mathrm{mins}$	10.5	28.5	42.0	80.1	161.1

Table 12: 세 가지 데이터셋 전체에서 $\lambda_{\text {ice }}$ 에 대한 SumR metric의 ablation study.

$\lambda_{\text {ice }}$	Charades-STA	TVR	ActivityNet Captions
0.05	80.0	191.2	157.1
$\mathbf{0 . 1}$	$\mathbf{8 1 . 3}$	$\mathbf{1 9 4 . 0}$	$\mathbf{1 6 0 . 4}$
0.5	79.2	188.1	154.1
1	77.7	184.2	151.1

Table 13: 세 가지 데이터셋 전체에서 $\lambda_{\text {irm }}$ 에 대한 SumR metric의 ablation study.

$\lambda_{\text {irm }}$	Charades-STA	TVR	ActivityNet Captions
0.5	78.4	187.2	153.0
$\mathbf{1}$	$\mathbf{8 1 . 3}$	$\mathbf{1 9 4 . 0}$	$\mathbf{1 6 0 . 4}$
2	79.2	190.7	155.2
4	78.3	186.2	153.3

어느 한 branch만 사용하는 것(Row 1 및 2)보다 우수한 성능을 달성한다. 이 결합된 설정은 개별 branch들보다 뛰어난 성능을 보이며, 이는 전역(global) 및 지역(local) 시간적 단서가 상호 보완적임을 입증한다.

D. 2 Contrastive Learning Losses

우리는 contrastive learning loss의 기여도를 검증한다. Table 10에 요약된 바와 같이, **triplet ranking loss와 InfoNCE loss를 결합(3행)**했을 때 가장 좋은 성능을 달성했으며, 이는 cross-modal semantic space를 최적화하는 데 있어 두 loss의 상호 보완적인 역할을 보여준다.

D. 3 Long Video Retrieval

우리는 또한 긴 비디오(3분 이상)에 대한 검색 성능을 평가한다. Charades-STA와 TVR은 테스트 세트에 긴 비디오 샘플이 제한적이지만(각각 0개와 1개), ActivityNet Captions는 3분 이상인 테스트 비디오 1,019개(4,039개의 moment-query 쌍)를 제공한다.

Table 14: 세 가지 데이터셋 전체에 걸쳐 $\lambda_{t c p}$ 에 대한 ablation study (SumR 지표).

$\lambda_{t c p}$	Charades-STA	TVR	ActivityNet Captions
0.5	80.2	192.4	$\mathbf{161 . 7}$
$\mathbf{1}$	$\mathbf{81 . 3}$	$\mathbf{194 . 0}$	160.4
2	78.3	188.7	154.9
4	76.2	183.2	150.1

Table 15: 세 가지 데이터셋 전체에 걸쳐 ICE의 correlation threshold에 대한 ablation study (SumR 지표).

Threshold	Charades-STA	TVR	ActivityNet Captions
0.2	80.1	188.4	156.7
$\mathbf{0 . 4}$	$\mathbf{81 . 3}$	$\mathbf{194 . 0}$	$\mathbf{160 . 4}$
0.6	79.6	189.7	156.9
0.8	78.6	186.1	155.8

Table 16: 세 가지 데이터셋 전체에 걸쳐 IRM의 redundant feature에 대한 ablation study (SumR 지표).

Row	$r_{v}$	$r_{q}$	Charades-STA	TVR	ActivityNet Captions
1	$\boldsymbol{x}$	$\boldsymbol{x}$	76.8	184.7	149.9
2	$\checkmark$	$\boldsymbol{x}$	77.9	186.1	154.7
3	$\boldsymbol{x}$	$\checkmark$	78.7	187.8	156.1
4	$\checkmark$	$\checkmark$	$\mathbf{81 . 3}$	$\mathbf{194 . 0}$	$\mathbf{160 . 4}$

Table 17: 세 가지 데이터셋 전체에 걸쳐 TCP의 shuffle ratio에 대한 ablation study (SumR 지표).

Ratio	Charades-STA	TVR	ActivityNet Captions
0.15	80.3	190.4	156.9
$\mathbf{0 . 2 5}$	$\mathbf{81 . 3}$	$\mathbf{194 . 0}$	$\mathbf{160 . 4}$
0.5	79.4	187.6	154.2
0.75	78.2	184.9	153.4
1.00	77.7	183.7	151.8

분 이상인 비디오를 제공한다. 공정한 비교를 위해 동일한 수의 비디오 후보(즉, 테스트 세트의 모든 비디오)를 유지했음에 유의한다. Table 11에서 볼 수 있듯이, 이러한 긴 비디오와 쌍을 이루는 텍스트 쿼리에 대한 검색 정확도는 전반적인 성능과 유사하며, 이는 다양한 비디오 길이에 걸쳐 우리 방법의 견고성을 입증한다.

D. 4 Loss Weights

우리는 loss weight에 대한 포괄적인 분석을 제시한다. $\lambda_{ice}$ , $\lambda_{irm}$ , $\lambda_{tcp}$ 에 대한 ablation 결과는 각각 Table 12, 13, 14에 제공되어 있다. 우리가 선택한 loss weight들이 모든 데이터셋에서 거의 최적의 성능을 달성하며, 이는 다양한 시나리오에서 강력한 일반화 능력을 보여준다는 점은 주목할 만하다.

Table 18: 세 가지 데이터셋 전체에서 비디오 모멘트 생성 방법에 대한 ablation study (SumR metric 기준).

Method	TVR	ActivityNet Captions	Charades-STA
Multi-scale Sliding Windows [9]	$\mathbf{1 9 4 . 6}$	160.1	$\mathbf{8 1 . 6}$
Fixed-scale Sampling (Ours)	194.0	$\mathbf{1 6 0 . 4}$	81.3

D. 5 Correlation Threshold

우리는 Inter Correlation Enhancement (ICE) 모듈에서 correlation threshold의 효과를 검증한다. Table 15에 제시된 바와 같이, threshold 선택은 검색 성능에 영향을 미친다. threshold가 0.4로 설정되었을 때, 모델은 모든 데이터셋에서 가장 높은 SumR을 달성하며, 이는 더 낮거나 높은 threshold보다 우수한 성능이다. threshold를 0.2로 낮추면 약하게 상관관계가 있는 쌍으로부터 노이즈가 증가하여 모든 데이터셋에서 SumR이 감소한다. 반대로, 0.6 또는 0.8로 높이면 잠재적인 상관관계를 과도하게 억제하여 SumR을 저하시킨다.

D. 6 Redundant Features

우리는 Intra Redundancy Mining (IRM) 모듈 내에서 각 redundant feature의 효과를 평가한다. Table 16에서 볼 수 있듯이, $r_v$ 와 $r_q$ 각각만으로도 모든 데이터셋에서 SumR의 성능 향상을 가져온다 (2행과 3행). 더욱이, 이 둘의 조합은 추가적인 성능 향상을 이끌어내며 (4행), 이는 시각적 판별력(visual discrimination)을 높이는 데 있어 이들이 상호 보완적인 역할을 함을 나타낸다.

D. 7 Shuffle Ratio

우리는 Temporal Coherence Prediction (TCP) 모듈에서 shuffle ratio가 미치는 영향을 평가한다. Table 17에서 나타나듯이, ratio의 선택은 모델이 temporal coherence를 학습하는 능력에 영향을 미친다. ratio가 0.25로 설정되었을 때, 모델은 모든 데이터셋에서 최적의 SumR을 달성하며, 다른 모든 설정보다 우수한 성능을 보인다. 다른 ratio를 채택하면 성능 저하가 발생한다:

더 작은 ratio는 불충분한 학습 신호를 생성한다. 이는 최소한의 shuffling으로는 모델의 temporal reasoning에 충분한 도전이 되지 못하기 때문이다.
반대로, 더 큰 ratio는 temporal coherence를 과도하게 방해하여, reordering task를 지나치게 모호하게 만들고 feature 학습에 해를 끼친다.

D. 8 Methods in Generating Video Moments

우리는 비디오 모멘트 생성 방식의 **강건성(robustness)**을 검증한다. 우리는 multi-scale sliding window를 사용하여 모멘트를 추출하는 또 다른 모멘트 생성 전략 [9]과 비교한다. Table 18에 제시된 바와 같이, 다른 생성 방법들은 결과에 미미한 변화만을 가져온다.
우리는 fine-grained 모멘트의 풍부한 의미론(semantics)을 충분히 활용하고 비디오 내 시각적 의미론의 판별력(discrimination)을 향상시키기 때문에, 우리 모델은 명시적으로 사전 정의된 세그먼트 경계에 의존하여 가능한 모든 모멘트를 추출하는 대신, 다양한 의미론을 가진 판별적인 모멘트 수준 feature를 직접 추출할 수 있다.