Liu, Jing, et al. "What and where: Semantic grasping and contextual scanning for moment retrieval and highlight detection." IEEE Transactions on Circuits and Systems for Video Technology (2025).

What and Where: Semantic Grasping and Contextual Scanning for Moment Retrieval and Highlight Detection

Jing Liu ${ }^{\text {® }}$ , Member, IEEE, Zhuo He ${ }^{\text {® }}$ , Weizhi Nie ${ }^{\text {® }}$ , Member, IEEE, Zongbing Zhang, and Yuting $\mathrm{Su}^{\text {® }}$ , Member, IEEE

Abstract

최근 비디오 콘텐츠의 급증은 텍스트 쿼리를 기반으로 이벤트의 비디오 세그먼트를 지역화하고 클립별 saliency 점수를 예측하는 moment retrieval (MR) 및 highlight detection (HD) task의 중요성을 부각시킨다. 최근 방법들은 효과적이지만, 두 가지 측면을 간과할 수 있다:

Multimodal feature는 종종 frozen encoder로부터 **약한 정렬(alignment)**을 보여, fine-grained cross-modal interaction을 통한 비디오 클립의 철저한 의미 탐색을 방해한다.
인접한 비디오 클립 간에 유의미한 구별이 부재하여, 클립 수준의 context modeling이 쿼리 관련 콘텐츠를 정확하게 지역화하기 어렵다.

이러한 간극을 완화하고 시각적 이벤트를 이해하는 인간의 루틴에서 영감을 받아, 우리는 **"what and where"**라는 이름의 점진적 프레임워크를 제안한다. 이 프레임워크는 먼저 각 비디오 클립의 **정렬된 의미(aligned semantics)**를 파악한 다음, 쿼리와 일치하는 이벤트를 식별하기 위해 moment-level contextual feature를 시간적으로 스캔한다.

'what' 단계에서는 모달 feature의 명시적인 정렬을 가능하게 하고 철저한 의미 이해를 달성하기 위해, 먼저 유사한 의미를 가진 다른 모달 feature들을 가깝게 만드는 Initial Semantic Projection (ISP) loss를 고안한다. 또한, 이러한 식별된 의미와 특정 쿼리 간의 관련성을 단어 및 문장 수준에서 깊이 탐색하는 Clip Semantic Mining module을 개발한다.

'where' 단계에서는 feature의 구별성(distinctiveness)을 향상시키기 위해, moment-level context를 모델링하는 Multi-Context Perception module을 설계한다. 이 모듈은 Event Context (EC) branch와 Chronological Context (CC) branch를 포함하며, 각각 가능한 쿼리 관련 이벤트 순간과 다양한 길이의 시간적 순간에 초점을 맞춘다.

마지막으로, 광범위한 실험을 통해 우리의 W2W 모델이 추가적인 사전학습 없이 세 가지 벤치마크 데이터셋에서 state-of-the-art 성능을 검증한다. 코드는 https://github.com/TJUMMG/W2W 에서 확인할 수 있다.

Index Terms—Moment retrieval, highlight detection, clip semantic mining, multi-context perception.

I. Introduction

온라인 비디오 플랫폼, 사용자 생성 콘텐츠, 스트리밍 서비스 등 디지털 기술의 지속적인 발전은 비디오 데이터의 양을 크게 증가시켰다. 비디오 요약 [1], 비디오 캡셔닝 [2], 비디오 액션 이해 [3]와 같은 task에서 주목할 만한 발전이 있었음에도 불구하고, 방대하고 untrimmed된 비디오 콘텐츠 내에서 관심 있는 temporal moment를 localize하는 것 [4], [5], [6], [7]은 여전히 상당한 도전 과제로 남아있다.

최근 Moment-DETR [8]은 쿼리 관련 비디오 moment를 localize하고 하이라이트를 식별(MRHD)하는 것을 새로운 데이터셋인 QVHighlights를 기반으로 공동으로 제안했다. 이 end-to-end Transformer 기반 모델은 수많은 proposal을 사전 생성하고 non-maximal suppression을 수행할 필요성을 없앴다. Moment-DETR이 강력한 baseline을 구축했음에도 불구하고, 비디오 클립 token과 단어 token을 self-attention에 직접 통합하는 방식은 intra-modal 및 inter-modal feature 상호작용을 제한한다. 후속 연구들 [9], [10], [11]은 주로 cross-attention을 통해 비디오와 텍스트 feature를 융합하는 데 집중하여 획기적인 발전을 이루었다. UMT [11]는 비디오와 오디오를 멀티모달 방식으로 인코딩하면서 쿼리 생성기에서 텍스트와 상호작용했다. 동시에 QD-DETR [10]은 초기 단계에서 텍스트 쿼리를 통합하고 쿼리 의존적인 비디오 표현을 생성하는 데 중점을 두었다.

대부분의 최신 방법들은 Fig. 1b에 묘사된 바와 같이, encoder 다음에 cross-modal interaction이 이어지거나 (또는 그 반대, 점선), decoder를 통한 localization으로 끝나는 프레임워크를 채택한다. 그러나 이러한 패러다임은 일반적으로 두 가지 문제에 직면한다:

약하게 정렬된 의미 마이닝 (Weakly aligned semantic mining). CLIP [12]은 멀티모달 정보를 처리하는 강력한 능력을 가진 견고한 사전학습 멀티모달 모델이지만, 정적 이미지와 전역 이미지 의미에 초점을 맞추기 때문에 복잡한 이벤트와 시퀀스 분석을 요구하는 moment retrieval 및 highlight detection과 같은 task에서 비디오-텍스트 feature의 정렬이 약하다. 또한, CLIP의 시간 정보 부족을 해결하기 위해 기존 방법들은 종종 동적 비디오 분석에 특화된 모델인 SlowFast [13]의 feature와 CLIP feature를 연결한다. 이러한 조합은 비디오와 텍스트 feature 간의 차원 불일치를 야기하여 정렬에 어려움을 초래한다. 이러한 방식으로, 우리는 먼저 이러한 모달 feature들을 의미적으로 정렬한 다음, 비디오 클립의 의미를 완전히 파악하기 위한 더 깊은 의미 탐색을 진행한다.
불분명한 클립 수준 컨텍스트 모델링 (Indistinct clip-level context modeling). 비디오는 본질적으로 점진적인 전환을 보여주므로, 인접한 클립들이 유사한 외형을 나타낸다. 한편, Dong et al. [14]은 self-attention 메커니즘이 입력 feature를 이중 지수 속도로 rank-1 행렬로 수렴시킬 수 있음, 즉 ranking loss 문제를 입증했으며, 이는 인접 클립 간의 유사성을 더욱 증가시킨다. 따라서 비디오 클립 의미 간의 차이를 학습하기 어렵고, 정확한 localization을 복잡하게 만든다. 반면에, 여러 비디오 클립으로 구성된 moment는 일반적으로 더 긴 지속 시간을 가지므로, 전달되는 콘텐츠가 더 명확하다. 따라서 우리는 정확한 이벤트 localization을 용이하게 하기 위해 moment 수준에서 컨텍스트를 모델링하는 데 집중한다.

Fig. 1. (a) 비디오 콘텐츠에 대한 인간의 점진적인 이해 과정, "what and where" 단계를 따름; (b) 기존 MRHD 접근 방식의 일반적인 프레임워크; (c) 우리가 제안하는 MRHD 프레임워크.

Fig. 1a는 사람들이 특정 텍스트와 관련된 비디오 콘텐츠를 이해하는 방식에서 "what and where" 단계를 보여준다. 'what' 단계에서 개인은 먼저 현재 클립에서 캐릭터나 객체(예: 자동차, 남자, 쇠지렛대)와 같은 저수준 핵심 요소와 장면을 식별한다. 그런 다음, 이러한 관찰을 고수준 의미(예: 두 남자, 도구)와 연결한다. 'where' 단계에서 개인은 인접 클립을 검토하여 행동과 환경을 식별함으로써 시간적 컨텍스트에 집중하고(예: 보는 중, Home Depot), 이를 통해 이벤트의 의미에 대한 이해를 심화한다. 이러한 점진적인 이해 방법은 개인이 핵심 moment의 시작 및 종료 시간을 정확하게 파악하고, 각 클립이 쿼리에 얼마나 관련되어 있는지 평가할 수 있도록 한다. 위 관찰에 동기 부여를 받아, 우리는 먼저 각 비디오 클립의 의미를 파악한 다음, 쿼리와 관련된 이벤트를 식별하기 위해 시간적 컨텍스트 feature를 스캔하는 "what and where"라는 점진적 프레임워크를 설계한다. 'what' 단계에서 우리 프레임워크는 인간의 인지를 모방하여 점진적인 의미 추상화 과정을 모델링한다. 둘째, 'where' 단계에서는 유사한 비디오 클립 간의 컨텍스트를 더 잘 구별하기 위한 특수 모듈을 설계했다.

Fig. 1c에 묘사된 바와 같이, 초기 'what' 단계에서 우리는 비디오와 텍스트 feature를 유사한 의미로 명시적으로 정렬하는 Initial Semantic Projection (ISP) loss를 개발하여 비디오 콘텐츠의 저수준 의미 정보를 예비적으로 이해하는 데 도움을 준다. 그 후, 우리는 Clip Semantic Mining 모듈을 도입하여 식별된 의미가 특정 쿼리에 얼마나 관련되어 있는지 평가하고, 클립 내에서 단어 및 문장 수준 모두에서 핵심 의미를 강조하며, 텍스트와 관련된 고수준 의미를 추출하기 시작한다. 'where' 단계에서 우리는 다양한 moment 수준 컨텍스트를 포착하는 Multi-Context Perception을 설계하여 모델이 더 넓은 관점에서 이벤트와 장면을 이해하는 능력을 향상시킨다. 특히, 이중 분기 구조가 개발되었다: Event Context (EC) branch는 가능한 쿼리 관련 이벤트 moment에 초점을 맞추고, Chronological Context (CC) branch는 다양한 길이의 temporal moment를 강조하여 이벤트의 시간적 진화를 시간 순서대로 부각시킨다. 마지막으로, 우리는 각 비디오 클립에 대한 saliency score를 평가하고 decoder를 사용하여 쿼리에 가장 관련성이 높은 moment를 정확히 찾아낸다. 주요 기여는 다음과 같이 요약할 수 있다.

장면을 이해하는 인간의 관습에서 영감을 받아, 비디오 클립의 의미를 점진적으로 파악하고 MRHD를 위한 시간적 컨텍스트를 스캔하는 "what and where" 전략을 사용한다.
약한 정렬 및 저수준 의미 문제를 해결하기 위해, 모달리티 간 유사한 feature를 연결하는 Initial Semantic Projection (ISP) loss를 도입한다. 또한 클립 내에서 단어 및 문장 수준의 고수준 의미 분석을 위한 Clip Semantic Mining 모듈을 개발한다.
더 나은 컨텍스트 모델링을 위해, 혼란스러운 클립 수준 접근 방식을 버리고 Multi-Context Perception 모듈을 제안하여 moment 수준에서 다양한 컨텍스트 관계를 효과적으로 포착한다.
W2W (What2Where) 모델은 QVHighlights, Charades-STA, TVSum의 세 가지 벤치마크 데이터셋에서 state-of-the-art MR 및 HD 성능을 달성한다.

A. Moment Retrieval and Highlight Detection

Moment retrieval task의 목표는 정제되지 않은(untrimmed) 비디오에서 주어진 텍스트 쿼리와 관련된 비디오 순간(moment)을 정확하게 지역화(localize)하는 것이다.
이 task에는 두 가지 주요 방법론이 있다.

Proposal-based methods [15, 16, 17, 18]: sliding window 또는 사전 정의된 anchor point를 통해 수많은 proposal을 생성한 다음, 주어진 텍스트와 가장 관련성이 높은 것을 선택한다. 예를 들어, [16, 17] 연구에서는 2차원 맵을 사용하여 다양한 스케일의 proposal을 구성했다. 이러한 방법들은 효과적이지만, proposal 생성의 품질에 크게 의존하며 상당한 자원을 요구한다.
Proposal-free methods [19, 20]: 사전 생성된 proposal의 필요성을 없애고, 타겟 moment의 시간적 경계(temporal boundary)를 직접 예측한다.

Feature Extractor

What Stage

Where Stage

Fig. 2. 우리 W2W 모델의 전체 아키텍처. 'what' 단계에서는 Initial Semantic Projection (ISP) loss를 통해 서로 다른 모달 feature들을 미리 정렬한 다음, Clip Semantic Mining 모듈을 사용하여 단어 및 문장 수준의 텍스트 feature를 활용한다. 'where' 단계에서는 Multi-Context Perception 모듈을 개발하여 Event Context와 Chronological Context 모두로부터 학습한다. 이 설계는 Transformer Decoder를 통해 하이라이트 감지 및 모멘트 검색으로 이어진다.

cross-modal fused feature를 통해 이루어진다. MR과 달리, 하이라이트 감지 [21], [22]는 텍스트에 대한 의미론적 관련성을 평가하기 위해 비디오 토큰에 saliency score를 할당하는 상세한 주석을 포함한다.

두 task 모두에서 모델은 정확한 매칭을 달성하기 위해 텍스트와 비디오 feature가 어떻게 상관관계가 있는지에 대한 강력한 이해가 필요하다. Moment-DETR [8]은 두 task를 동시에 평가할 수 있는 혁신적인 baseline 모델을 도입하고, 모멘트 경계 및 비디오 클립의 saliency score에 대한 레이블을 제공하는 QVHighlights 데이터셋을 생성했다. 최근 방법들 [9], [10], [11]은 종종 encoder 다음에 cross-modal interaction을 사용하거나, 그 반대로 moment localization을 위한 decoder로 끝나지만, 약하게 정렬된 semantic mining과 불분명한 clip-level context modeling에서 어려움을 겪을 수 있다. 이러한 격차를 완화하기 위해, 우리는 의미론적 이해와 문맥적 스캐닝에 해당하는 "What and Where" 단계를 동시에 실행하는 W2W 모델을 제안한다. 이 전략은 먼저 각 비디오 클립의 정렬된 의미론을 파악한 다음, 쿼리와 관련된 이벤트를 식별하기 위해 모멘트 수준의 문맥적 feature를 시간적으로 스캔한다.

B. Multi-Scale Context Learning

Multi-scale context learning은 다양한 feature를 파악하여 완전한 이해를 돕는다. 예를 들어, **DeepLabv3 [23]**는 서로 다른 확장률을 가진 atrous convolution과 global pooling layer를 사용하여 다양한 스케일의 이미지 디테일을 포착함으로써 분할(segmentation) 정확도를 향상시킨다. **TriDet [24]**는 비디오 backbone downsampling에 여러 max-pooling layer를 사용하여 multi-scale 정보를 활용함으로써 정확한 temporal action detection을 수행한다. **CBREN [25]**과 **IDCN [26]**은 압축 과정에서 발생하는 블록 왜곡(block distortion)의 영향을 완화하기 위해 multi-scale learning branch를 설계하여 이미지 품질을 크게 향상시킨다. 또한, **P2T [27]**는 pyramid pooling Transformer를 채택하여 adaptive average pooling을 통해 입력 feature 크기를 여러 미리 설정된 고정 길이로 매핑함으로써 강력한 contextual feature를 추출한다. **Ye et al. [28]**은 계층적 temporal context encoder를 제안하여 인접한 local clip의 feature를 점진적으로 집계함으로써 multi-scale temporal clue를 포착하고, 이를 통해 하이라이트 클립을 효과적으로 찾아낸다. **JSG [29]**는 glance branch와 gaze branch를 각각 거친(coarse-grained) 순간 제안과 세밀한(fine-grained) 순간 제안을 처리하는 데 활용하며, 텍스트와 비디오 feature 간의 관계를 학습하는 데 있어 multi-granularity 정보 통합의 중요성을 강조한다. **SDN [30]**은 visual encoder 뒤에 위치하며, 다양한 밀도 샘플링 전략을 통해 장면, 행동, 이벤트의 feature를 추출하여 복잡한 비디오 콘텐츠를 이해하는 모델의 능력을 크게 향상시킨다.

기존 방법들과 달리, 우리는 multi-scale semantic moment-level context 정보를 포착하는 데 중점을 둔다. 이를 위해 Multi-Context Perception 모듈 내에 두 가지 branch를 고안했다: Event Context (EC) branch와 Chronological Context (CC) branch이다. CC branch는 1D temporal feature에 다양한 stride를 가진 max-pooling layer를 적용하여 temporal moment 내의 multi-scale 정보를 효과적으로 모델링한다. 이 접근 방식은 다양한 길이의 contextual 정보를 밀도 있게 포착하여 비디오 콘텐츠에 대한 적응적이고 포괄적인 이해를 가능하게 한다. 또한, 우리는 잠재적인 쿼리 관련 이벤트 순간에 집중하기 위해 EC branch를 도입한다.

III. Method

A. Overview

Moment retrieval과 highlight detection은 텍스트 쿼리를 기반으로 비디오 내에서 관심 있는 순간을 찾는 데 중점을 둔다. $N$ 개의 클립으로 구성된 비디오 $V=\left\{v_{1}, v_{2}, \ldots, v_{N}\right\}$ 와 $M$ 개의 단어를 포함하는 텍스트 쿼리 $Q=\left\{q_{1}, q_{2}, \ldots, q_{M}\right\}$ 가 주어졌을 때, moment retrieval은 텍스트와 관련된 순간의 중심 좌표 $m_{c}$ 와 지속 시간 $m_{\sigma}$ 를 예측한다. 반면, highlight detection은 비디오 토큰에 대해 텍스트와의 관련성을 나타내는 saliency score $\left\{s_{i}\right\}_{i=1}^{N}$ 를 할당한다.

우리 W2W 모델의 전체 프레임워크는 Fig. 2에 나타나 있으며, 고정된 텍스트 및 시각 feature 추출 위에 점진적인 "what and where" 전략이 채택되었다. 'what' 단계에서는 각 비디오 클립의 저수준(low-level) 의미를 초기적으로 탐색하기 위해, Initial Semantic Projection (ISP) loss를 활용하여 의미적으로 관련된 쿼리-비디오 쌍을 정렬한다. 이어서 Clip Semantic Mining 모듈은 비디오 토큰 내에서 단어 수준(word-level) 및 문장 수준(sentence-level) 텍스트 정보를 모두 병합하여, 각 클립이 고수준(higher-level) 텍스트 의미에 집중할 수 있도록 한다. 'where' 단계에서는 Multi-Context Perception 모듈을 관련 의미를 가진 비디오 클립에 적용하여 이벤트(event) 및 시간적(chronological) context를 공동으로 학습한다. 그 후, context-aware 비디오 feature는 saliency score를 예측하는 데 사용되며, 최종적으로 Transformer Decoder로 전달되어 쿼리된 비디오 순간을 지역화(localize)한다.

Fig. 3. (a), (b) 유사도 히트맵; (c) Initial Semantic Projection을 위한 긍정 및 부정 클립-텍스트 쌍의 예시. 부정 쌍은 다른 비디오(왼쪽) 또는 동일 비디오 내(오른쪽)에서 구성된다.

B. Initial Semantic Projection

일반성을 잃지 않고, 우리는 주류 접근 방식 [8], [11]을 따라 사전학습된 모델 기반으로 고정된 비디오 feature와 텍스트 feature를 추출한다. 그러나 Fig. 3a와 Fig. 3b에서 볼 수 있듯이, CLIP [12] feature는 시간적(temporal) 및 상세 정보 표현에 어려움이 있어, 추출된 비디오 및 텍스트 feature는 종종 **약한 정렬(weak alignment)**을 보인다. 현재의 접근 방식 [8], [10]은 두 modality 간의 약한 정렬을 간과하고, 일반적으로 선형 projection layer를 사용하여 비디오 및 텍스트 feature를 동일한 차원으로 직접 매핑하고, query-aware saliency score로 최적화된 후속 cross-modal context modeling에서 암묵적으로 정렬한다. 따라서 개별 비디오 클립 토큰과 단어 토큰의 의미가 모호해질 수 있다.

이전 연구들 [8]에서 언급된 contrastive learning의 최적화 목표 및 목적 함수와 달리, 우리는 선형 projection layer에서 의미적으로 일치하는 비디오 클립 feature와 문장 feature를 미리 명시적으로 정렬한다. [27]에서 영감을 받아 Initial Semantic Projection (ISP) loss를 제안한다. 구체적으로, 우리는 일치하는 비디오 클립과 쿼리 문장을 positive pair로 간주하고, 정확하고, 판별적이며, 정렬된 feature 매핑을 학습하기 위해 두 가지 유형의 negative pair를 생성한다.
첫째, QDDETR 방법 [10]과 다양한 인식 방법 [31]에서 영감을 받아, 서로 다른 positive sample pair 간에 첫 번째 유형의 negative sample pair를 구성한다. 각 positive pair는 의미적으로 일치하는 비디오 클립과 텍스트로 구성된다. 이를 바탕으로, 하나의 positive pair에서 비디오 클립(또는 텍스트)을 다른 positive pair의 텍스트(또는 비디오 클립)와 짝지어(pair) 구성한다. 이들의 의미적 내용이 다르기 때문에, 이러한 페어링은 첫 번째 유형의 negative sample pair를 형성한다. Fig. 3c의 왼쪽 점선 화살표로 표시된 것처럼, 첫 번째 유형의 negative pair에서 클립과 쿼리는 서로 다른 비디오에서 유래한다.

또한, 우리는 일치하지 않는 클립-텍스트 쌍이 일반적으로 완전히 다른 의미를 가지며, 이는 정확한 feature 정렬을 방해한다는 것을 발견했다. 예를 들어, 단일 비디오 내의 많은 연속적인 클립은 종종 유사한 외형을 공유하며(예: 1a의 블로거), 특정 쿼리와의 유사성이 크게 구별되지 않을 수 있다. 따라서 우리는 두 번째 유형의 negative pair를 구성하여 특정 의미적 유사성을 갖도록 한다. 이를 위해, 우리는 텍스트와 관련된 클립(foreground)을 포함하는 비디오를 참조하고, 동일한 비디오 내의 다른 관련 없는 클립(background)과 텍스트를 짝지어 negative pair로 사용한다. Fig. 3c의 오른쪽 점선 화살표로 표시된 것처럼, 이 negative pair로 최적화함으로써 모델은 더 정확하고 판별적인 feature를 학습하여 이벤트 수준의 정렬을 달성할 수 있다.

입력 비디오와 텍스트는 먼저 사전학습된 feature extractor를 사용하여 처리된 후, 각각의 선형 projection layer를 통해 비디오 feature $F_{v} \in \mathbb{R}^{N \times d}$ 와 텍스트 feature $F_{q} \in \mathbb{R}^{M \times d}$ 를 생성한다. 의미 정렬을 위한 문장 feature를 얻기 위해, 우리는 weighted pooling [32] (WTS) 방법을 채택한다. 이는 학습 가능한 embedding $W_{\alpha} \in \mathbb{R}^{d \times 1}$ 를 사용하여 attention weight $\alpha=\operatorname{Softmax}\left(F_{q} W_{\alpha}\right) \in \mathbb{R}^{M \times 1}$ 를 계산하는 것을 포함한다. 이는 이후 단어 feature를 통합하는 데 사용되어, 최종적으로 문장 표현 $F_{s}=\alpha^{T} F_{q} \in \mathbb{R}^{1 \times d}$ 를 산출한다. 우리는 모델이 텍스트 의미에 집중하는 정도가 처리 단계마다 다르다는 것을 인식한다. 따라서 우리 모델에서는 각 WTS 모듈이 자체적인 학습 가능한 파라미터 세트를 가진다. 문장 feature의 안내에 따라, 우리는 각 쌍에서 비디오 클립 feature $F_{v}$ 의 관련성 정도를 계산한다. positive pair 세트를 $\Psi_{p}$ , negative pair 세트를 $\Psi_{n}$ 으로 표기할 때, Initial Semantic Projection (ISP) loss는 다음과 같이 공식화된다:

\begin{aligned} \mathbb{L}_{i s p} & =\sum \mathbb{L}_{i s p}(i), \quad i \in \Psi_{p} \\ \mathbb{L}_{i s p}(i) & =-\log \frac{\exp \left(\cos \left(F_{s}^{i}, F_{v}^{i}\right) / \tau_{1}\right)}{\sum_{i \in \Psi_{p} \cup \Psi_{n}} \exp \left(\cos \left(F_{s}^{i}, F_{v}^{i}\right) / \tau_{1}\right)}, \end{aligned}

여기서 $i$ 는 pair index이다. $F_{s}^{i}$ 와 $F_{v}^{i}$ 는 각각 $i$ -번째 pair의 문장 및 비디오 클립 feature를 나타낸다.

Fig. 4. Multi-Context Perception Attention의 아키텍처. EC branch는 가능한 이벤트 순간에 초점을 맞추고, CC branch는 다양한 길이의 시간적 순간을 처리한다.

여기서 관련성 정도는 cosine similarity로 구현된다. $\tau_{1}$ 은 temperature scaling factor를 나타낸다.

C. Clip Semantic Mining

정확한 moment retrieval 및 highlight detection을 위해서는 강력한 cross-modal interaction이 필수적이라는 것이 일반적으로 인정된다. 현재 연구들 [8], [9], [10], [11]은 Transformer 스택을 통해 clip token과 word token 간의 암묵적 또는 명시적 cross-modal fusion을 수행한다. 그러나 개별 word token의 제한된 의미론적 용량은 완전한 이벤트 정보를 전달하는 데 어려움을 야기하여, 쿼리된 비디오 순간을 정확하게 지역화하기 어렵게 만든다.

우리는 기존의 word-level interaction 외에도, 전체 문장의 중요성을 강조하기 위해 Clip Semantic Mining (CSM) 모듈을 제안한다. 이 혁신적인 모듈은 clip token을 word-level 및 sentence-level feature와 통합하여, 자신과 관련된 텍스트 의미에 집중할 수 있도록 한다.

CSM 모듈은 clip feature를 쿼리(query)로 두 번 사용하여 word-level 및 sentence-level feature를 각각 융합한다. word-level attention은 수학적으로 다음과 같이 표현될 수 있다: $Q_{v}=F_{v} \in \mathbb{R}^{N \times d}, K_{w}=F_{q} \in \mathbb{R}^{M \times d}, V_{w}=F_{q} \in \mathbb{R}^{M \times d}$ . sentence-level attention은 WTS [32]에 의해 word-level feature로부터 생성된 sentence feature를 key와 value로 사용한다. 즉:

K_{s}, V_{s}=\operatorname{WTS}\left(K_{w}, V_{w}\right),

따라서 CSM Attention (CSMA)은 다음과 같이 정의된다:

\begin{aligned} \operatorname{CSMA}\left(F_{v}, F_{q}\right) & =\operatorname{CA}_{w}\left(F_{v}, F_{q}\right)+\operatorname{CA}_{s}\left(F_{v}, F_{q}\right) \\ \operatorname{CA}_{j}\left(F_{v}, F_{q}\right) & =\operatorname{Softmax}\left(\frac{Q_{v} K_{j}^{T}}{\sqrt{d}}\right) V_{j}, j \in\{w, s\} \end{aligned}

forward feedback network는 텍스트와 비디오 feature의 융합을 정제하여, **sentence와 word가 임베딩된 비디오 feature $\bar{F}_{t 2 v} \in \mathbb{R}^{N \times d}$ **를 생성한다. [10]에 따라, **학습 가능한 saliency token $x_{\text {sal }} \in \mathbb{R}^{1 \times d}$ **는 임베딩된 비디오 feature 내에서 적응형 saliency detector 역할을 하도록 무작위로 초기화된다.

Fig. 5. EC branch의 이벤트 순간 생성 모듈로, 문장과 밀접하게 관련된 상위 $x\%$ clip token(이벤트)을 선택한다.

이 토큰은 **temporal dimension을 따라 $\bar{F}_{t 2 v}$ 와 연결(concatenate)**된다. 간단한 concat 및 conv layer를 통해 비디오 토큰과 텍스트 feature $F_{q}$ 간의 상호작용이 더욱 강화되어, **의미론적으로 인식된 clip feature $F_{t 2 v} \in \mathbb{R}^{(N+1) \times d}$ **가 생성된다. 이는 다음과 같이 표현된다:

F_{t 2 v}=\operatorname{Conv}\left(\left(x_{\text {sal }} \mid \bar{F}_{t 2 v}\right) \| \operatorname{WTS}\left(F_{q}\right)\right),

여기서 |는 temporal dimension에서의 연결을, ||는 channel dimension에서의 연결을 각각 나타낸다.

D. Multi-Context Perception

앞서 언급했듯이, 시각적 이해 과정에서는 단거리 장면(short-range scenes)과 시간적 맥락(temporal context)을 통합하여 전체 이벤트를 명확하게 이해하는 것이 일반적이다. 따라서 'what' 단계에서 각 clip token이 그 의미와 연결된 후, 이어지는 'where' 단계의 목표는 각 clip token의 시간적 맥락을 학습하여 비디오 내에서의 위치를 식별하는 것이다.

인접한 비디오 클립들 간의 정보 유사성 때문에, 클립들을 모먼트(moment)로 그룹화하면 뚜렷한 차이를 발견할 수 있으며, 이는 클립과 모먼트 간의 관계를 탐색하는 것을 중요하게 만든다. 개별 비디오 토큰에 대한 맥락적 관계를 포착하기 위해 Transformer encoder를 채택한 이전 연구 [33]와 달리, 우리는 Multi-Context Perception 모듈을 사용하여 한 단계 더 나아가 쿼리 관련 이벤트 모먼트(query-relevant event moments)와 시간적으로 발생하는 모먼트(temporal moments)에 집중한다. 우리의 방법은 모먼트 수준에서 맥락 정보를 명시적으로 모델링하며, 다음과 같은 장점을 제공한다: saliency score 레이블로부터의 독립성과 다양하고 뚜렷한 모먼트 정보 포착 능력.

Fig. 4에서 보듯이, Multi-Context Perception Attention은 semantic-aware clip feature $F_{t2v}$ 에 적용되며, Event Context (EC) branch와 Chronological Context (CC) branch의 두 가지 유형의 branch로 구성된다. 실제 세계에서 모먼트의 길이는 크게 다르며, 비디오 전체에 거의 균일하게 분포되어 있다. 이러한 가변성에 적응하기 위해 우리는 CC-S와 CC-L의 두 가지 branch를 설계했다. CC-S branch는 짧은 지속 시간의 콘텐츠와의 상관관계를 학습하는 데 중점을 두는 반면, CC-L branch는 더 긴 모먼트로부터 맥락 정보를 포착한다.

Fig. 5에서 EC branch는 텍스트와 관련된 이벤트 맥락에 주목하며, 각 clip token과 텍스트 쿼리된 이벤트 모먼트 간의 관계를 학습하는 것을 목표로 한다. 그러나 이 단계에서는 이벤트 맥락이 아직 지역화되지 않았기 때문에 사용할 수 없다. 다행히도, 각 clip token은 'what' 단계에서 텍스트 쿼리와 정렬된 의미론과 연결되어 있다. 따라서 문장과 높은 관련성을 가진 클립들을 선택함으로써 관심 있는 이벤트를 생성할 수 있다. 우리는 먼저 단어 feature $F_q$ 로부터 변환된 문장 feature와 semantically-aware clip feature $F_{t2v}$ 간의 매칭 점수( $MS$ )를 계산한다. 다음으로, 순위에 따라 상위 $x\%$ 의 클립들을 선택하여 가능한 이벤트 맥락을 얻는다:

\begin{aligned} & MS=\operatorname{Softmax}\left(F_{t 2 v}\left(\operatorname{WTS}\left(F_{q}\right)\right)^{T}\right) \\ & EC=\mid\left\{F_{t 2 v}^{i}\right\}, \text { where } i \in\{\text { top } x\} \\ & \text { s.t. } \forall i \in\{\text { top } x\}, j \notin\{\text { top } x\} ; M S\left(F_{t 2 v}^{i}\right)>M S\left(F_{t 2 v}^{j}\right) . \end{aligned}

기호 |는 텍스트와 높은 관련성을 가지며 순위에 따라 선택된 비디오 클립 feature들을 시간 차원(temporal dimension)을 따라 연결하는 것을 나타낸다.

CC branch는 각 클립에 대해 시간적으로 발생하는 비디오 세그먼트 맥락에 집중한다. 이를 달성하기 위해 연속적인 clip token에 max-pooling layer를 적용하여 비디오 세그먼트 맥락을 도출한다:

C C_{k}=\operatorname{Max}\left(F_{t 2 v}, \quad \mathrm{~s}=w_{k}\right),

여기서 $w_k$ 는 $k$ -번째 CC branch에서 max-pooling layer의 stride를 나타낸다. 우리는 여기에서 두 개의 단거리 시간적 맥락(CC-S)과 두 개의 장거리 시간적 맥락(CC-L)을 서로 다른 pooling stride로 학습하여 서로 다른 시간적 스케일에서 맥락적 세부 사항을 이해한다. 또한, 모델 복잡성을 위해 단거리 branch 내에서와 장거리 branch 내에서 파라미터를 공유한다.

clip feature $F_{t2v}$ 를 query로, event context $EC$ 와 video segment context $CC$ 를 key와 value로 사용한다. 즉, $\bar{K}_0, \bar{V}_0 = EC, \bar{K}_k, \bar{V}_k = CC_k$ 로 설정하면, EC 및 CC branch의 context learning attention은 다음과 같이 공식화될 수 있다:

\operatorname{SA}_{k}\left(F_{t 2 v}\right)=\operatorname{Softmax}\left(\frac{\bar{Q}_{k} \bar{K}_{k}^{T}}{\sqrt{d}}\right) \bar{V}_{k}, k=0, \ldots, 4,

Multi-Context Perception Attention의 출력 $F_{\text{memory}}$ 는 EC와 CC branch의 합이다. 그런 다음 forward feedback network를 활용하여 feature들을 추가로 통합하고 $F_{cv} = (\bar{x}_{\text{sal}} \| \bar{F}_{cv}) \in \mathbb{R}^{(N+1) \times d}$ 를 얻는다. 여기서 $\bar{x}_{\text{sal}} \in \mathbb{R}^{1 \times d}$ 는 맥락적 의미 학습을 통해 정제된 adaptive saliency token feature를 나타내며, $\bar{F}_{cv} = \{\bar{x}_{cv}^1, \ldots, \bar{x}_{cv}^N\} \in \mathbb{R}^{N \times d}$ 는 decoder 입력 준비를 위한 context-aware video feature를 나타낸다. saliency score는 다음 공식으로 계산된다:

S(i)=\frac{\left(\bar{x}_{c v}^{i} W_{c v}\right)\left(\bar{x}_{s a l} W_{s a l}\right)^{T}}{\sqrt{d}},

여기서 $W_{cv}$ 와 $W_{sal}$ 은 각각 두 feature에 해당하는 linear projection layer를 나타낸다.

TABLE I QVHighlights Test 및 Val (*) Split에 대한 성능 비교. $\dagger$ 는 Multi-Modal Features (비디오 및 오디오)를 나타낸다.

Method	MR					HD
	R1			mAP	>=Very Good
	@0.5	@0.7	@0.5	@0.75	Avg.	mAP	HIT@1
BeautyThum [34]	-	-	-	-	-	14.36	20.88
MCN [35]	11.41	2.72	24.94	8.22	10.67	-	-
CAL [36]	25.49	11.54	23.40	7.65	9.89	-	-
XML+ [37]	46.69	33.46	47.89	34.67	34.90	35.38	55.06
Moment-DETR [8]	52.89	33.02	54.82	29.40	30.73	35.69	55.60
VCSJT [38]	59.14	42.02	55.76	37.79	36.37	38.59	62.45
LSJT [39]	60.51	41.50	56.33	36.70	36.66	39.13	61.22
MH-DETR [9]	60.05	42.48	60.75	38.13	38.38	38.22	60.51
QD-DETR [10]	62.40	44.98	62.52	39.88	39.86	38.94	62.40
Ours	64.66	47.34	64.68	43.71	43.11	40.35	64.79
UMT $\dagger$ [11]	56.23	41.18	53.38	37.01	36.12	38.18	59.99
QD-DETR $\dagger$ [10]	63.06	45.10	63.04	40.10	40.19	39.04	62.87
Ours $\dagger$	65.11	47.6	64.79	43.63	43.08	40.53	64.66
Moment-DETR* [8]	53.94	34.84	-	-	32.20	35.65	55.55
MH-DETR* [9]	60.84	44.90	60.76	39.64	39.26	39.13	61.74
QD-DETR* [10]	62.68	46.66	62.23	41.82	41.22	39.13	63.03
Ours*	67.42	51.55	66.33	46.06	45.54	40.72	66.06

TABLE II Charades-Sta Test Split에 대한 대표적인 Moment Retrieval 방법들과의 비교. 왼쪽은 사전학습된 VGG 비디오 feature를 사용하고, 오른쪽의 상단과 하단 섹션은 각각 I3D 및 SF+CL feature를 사용한다.

Method	R1@0.5	R1@0.7	Method	R1@0.5	R1@0.7
SAP [40]	27.42	13.36	MAN [15]	46.63	22.72
MAN [15]	41.24	20.54	DRN [41]	53.09	31.75
2D-TAN [16]	40.94	22.85	SCDM [42]	54.44	33.43
FVMR [43]	42.36	24.14	VSLNet [19]	54.19	35.22
LSJT [39]	44.62	25.13	MIGCN [44]	57.10	34.54
UMT $\dagger$ [11]	48.31	29.25	MH-DETR [9]	56.37	35.94
VCSJT $\dagger$ [38]	51.21	30.22	Ours	60.35	37.5
QD-DETR [10]	52.77	31.13	Method	R1@0.5	R1@0.7
M-DETR [8]	53.63	31.37	M-DETR [8]	53.63	31.37
MH-DETR [9]	55.47	32.41	QD-DETR [10]	57.31	32.55
Ours	54.49	33.68	Ours	58.33	34.68

E. Decoder and Objectives

Decoder: 최근 **DETR [49]**은 객체 탐지(object detection) task를 집합 예측(set prediction) 문제로 다루며, 앵커 박스(anchor box) 설계 및 NMS(non-maximum suppression)와 같은 전통적인 방법에서 흔히 발생하는 문제들을 해결하였다. 초기 DETR decoder는 **학습 가능한 쿼리(learnable queries)**를 별도의 적응 과정 없이 사용했기 때문에 학습 수렴 속도가 느리다는 단점이 있었다. 이후 연구들은 모델 수렴 속도를 높이기 위해 쿼리 설계 최적화에 집중해왔다.
우리는 [10]을 따라, 1D 앵커 박스( $\left(\left[m_{c}, m_{\sigma}\right]\right)$ )를 사용하여 (오리지널 DAB-DETR decoder [50]의 2D 앵커 박스( $[x, y, w, h]$ )와는 다르게) 모멘트 쿼리(moment queries)를 초기화하여 수렴 속도를 가속화한다. 이 쿼리들은 정확한 예측을 위해 layer별로 동적으로 조정되고 최적화된다.
Decoder는 **context-aware video feature $\bar{F}_{c v}$ **와 $L_{m}$ 개의 학습 가능한 moment query를 입력으로 받아, ** $F_{\text {dec }} \in \mathbb{R}^{L_{m} \times d}$ **를 출력한다. 그 후, prediction head는 정규화된 중심 좌표와 지속 시간 $\hat{m}=\left\{\hat{m}_{c}^{i}, \hat{m}_{\sigma}^{i}\right\}_{i=1}^{L_{m}} \in \mathbb{R}^{L_{m} \times 2}$ 및 해당 **클래스 레이블 $\hat{y}_{c}=\left\{\hat{y}_{i}\right\}_{i=1}^{L_{m}}$ **을 계산하여, 해당 모멘트가 전경(foreground)에 속하는지 배경(background)에 속하는지를 나타낸다.

TABLE III TVsum 데이터셋에서의 하이라이트 탐지 성능 비교

Method	VT	VU	GA	MS	PK	PR	FM	BK	BT	DS	Avg.
sLSTM [45]	41.1	46.2	46.3	47.7	44.8	46.1	45.2	40.6	47.1	45.5	45.1
SG [46]	42.3	47.2	47.5	48.9	45.6	47.3	46.4	41.7	48.3	46.6	46.2
LIM-S [47]	55.9	42.9	61.2	54.0	60.3	47.5	43.2	66.3	69.1	62.6	56.3
Trailer [48]	61.3	54.6	65.7	60.8	59.1	70.1	58.2	64.7	65.6	68.1	62.8
SL-Module [21]	86.5	68.7	74.9	86.2	79.0	63.2	58.9	72.6	78.9	64.0	73.3
MH-DETR [9]	86.1	79.4	84.3	85.8	81.2	83.9	74.3	82.7	86.5	71.6	81.6
VCSJT [38]	87.5	80.7	88.6	76.6	83.6	91.0	77.6	93.3	88.9	80.0	84.8
QD-DETR [10]	88.2	87.4	85.6	85.0	85.8	86.9	76.4	91.3	89.2	73.7	85.0
LSJT [39]	87.7	84.1	88.9	80.0	82.0	87.2	79.2	95.6	86.2	81.1	85.2
Ours	86.3	88.0	90.5	83.9	85.8	87.3	74.7	91.1	88.2	78.0	85.4

TABLE IV QVHighlights Val Split에 대한 Ablation 연구. ISP는 Initial Semantic Projection Loss를, CSMA는 Clip Semantic Mining Attention을, EC와 CC는 Multi-Context Perception Module의 Event Context 및 Chronological Context 브랜치를 나타낸다.

	ISP	CSMA	EC	CC	MR				HD
					R1		mAP			>=Very Good
					@0.5	@0.7	@0.5	@0.75	Avg.	mAP	HIT@1
(1)					60.32	46.13	62.15	41.71	41.2	39.02	61.74
(2)	$\checkmark$				64.61	48.64	64.47	44.18	43.24	39.98	64.35
(3)		$\checkmark$			62.26	48.52	62.48	44.23	42.48	39.11	61.29
(4)			$\checkmark$		63.03	47.55	63.82	41.98	41.59	38.21	61.68
(5)			$\checkmark$	$\checkmark$	62.26	48	62.49	43.45	42.98	38.02	59.23
(6)		$\checkmark$	$\checkmark$	$\checkmark$	63.35	49.16	62.94	44.53	43.25	39.02	63.55
(7)	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	67.42	51.55	66.33	46.06	45.54	40.72	66.06

Loss Functions: MR task의 레이블은 $Y= \left\{y_{i}, m_{i}=\left\{m_{c}^{i}, m_{\sigma}^{i}\right\}\right\}_{i=1}^{L_{m}}$ 이다. 여기서 $y_{i}$ 는 $i$ -번째 moment query에 의해 예측된 타임스탬프가 **전경(foreground)에 속하는지( $y_{i}=1$ ) 또는 배경(background)에 속하는지( $y_{i}=0$ )**를 나타낸다. 만약 $y_{i}=1$ 이면, $m_{i}$ 는 해당 정규화된 중심 좌표와 지속 시간 레이블을 나타내고, 그렇지 않으면 $m_{i}$ 는 $\emptyset$ 이다.
여기서 $\mathbb{L}_{\text {class }}$ 는 moment query 클래스에 대한 cross-entropy loss를 나타내며, $\mathbb{L}_{\text {span }}$ 은 예측된 정규화된 모멘트 좌표와 ground truth 간의 불일치를 평가한다. 이는 $\mathbb{L}1$ 과 $\mathbb{L}_{g I o U}$ 로 구성되며 다음과 같이 정의된다:

\begin{aligned} \mathbb{L}_{\text {class }} & =-\sum_{i=1}^{L_{m}}\left[a \cdot y_{i} \log \left(\hat{y}_{i}\right)+b \cdot\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right)\right], \\ \mathbb{L}_{\text {span }} & =\sum_{i=1}^{L_{m}} y_{i}\left(\lambda_{L 1}\left\|m_{i}-\hat{m}_{i}\right\|+\lambda_{g I o U} \mathbb{L}_{g I o U}\left(m_{i}, \hat{m}_{i}\right)\right), \end{aligned}

여기서 $a$ 와 $b$ 는 **균형 계수(balancing coefficients)**이다. 전체 **moment retrieval loss $\mathbb{L}_{m r}$ **는 다음과 같이 표현될 수 있다:

\mathbb{L}_{m r}=\lambda_{\text {class }} \mathbb{L}_{\text {class }}+\lambda_{\text {span }} \mathbb{L}_{\text {span }},

HD task의 경우, [8]을 따라 hinge loss $\mathbb{L}_{\text {hinge}}$ , rank-aware contrastive loss $\mathbb{L}_{\text {cont}}$ , 그리고 **negative pair loss $\mathbb{L}_{\text {neg}}$ **를 사용한다. $\mathbb{L}_{\text {hinge}}$ 의 목표는 GT 내에서 높은 점수( $t_{\text {high}}$ )로 랭크된 비디오 토큰이 낮은 점수( $t_{\text {low}}$ )의 토큰보다 더 높은 saliency score를 갖도록 하는 것이다. 유사하게, GT 내의 토큰( $t_{i n}$ )은 GT 외부의 토큰( $t_{\text {out}}$ )보다 더 높은 saliency score를 가져야 한다.

\begin{aligned} \mathbb{L}_{\text {hinge }}= & \max \left(0, \Delta+S\left(t_{\text {low }}\right)-S\left(t_{\text {high }}\right)\right) \\ & +\max \left(0, \Delta+S\left(t_{\text {out }}\right)-S\left(t_{\text {in }}\right)\right), \end{aligned}

$r \in\{1,2, \ldots, R\}$ 로 인덱싱된 $R$ 번의 반복을 통해, $\mathbb{L}_{\text {cont }}$ 는 **현재 반복 값 $r$ 보다 낮은 saliency score를 가진 비디오 토큰에 대한 negative pair set $\Omega_{\text {neg }}^{r}$ **를 생성한다. 그렇지 않은 경우, 해당 토큰들은 **positive pair set $\Omega_{\text {pos }}^{r}$ **에 추가된다.

\mathbb{L}_{\text {cont }}=-\sum_{r=1}^{R} \log \frac{\sum_{i \in \Omega_{\text {pos }}} \exp \left(S(i) / \tau_{2}\right)}{\sum_{i \in\left(\Omega_{\text {pos }}^{r} \cup \Omega_{\text {neg }}^{r}\right)} \exp \left(S(i) / \tau_{2}\right)},

**Negative pair loss $\mathbb{L}_{\text {neg}}$ **는 관련 없는 텍스트-비디오 쌍의 saliency score를 줄이는 데 활용된다.

\mathbb{L}_{n e g}=-\log \left(1-S\left(v_{n e g}\right)\right),

여기서 $v_{\text {neg}}$ 는 문장과 일치하지 않는 비디오 토큰 feature를 나타낸다. **하이라이트 탐지 손실 $\mathbb{L}_{h l}$ **은 다음과 같이 표현될 수 있다:

\mathbb{L}_{\text {hl }}=\lambda_{\text {hinge }} \mathbb{L}_{\text {hinge }}+\lambda_{\text {cont }} \mathbb{L}_{\text {cont }}+\lambda_{\text {neg }} \mathbb{L}_{\text {neg }},

총 손실 $\mathbb{L}_{\text {all }}$ 은 다음과 같이 정의된다:

\mathbb{L}_{a l l}=\lambda_{i s p} \mathbb{L}_{i s p}+\lambda_{m r} \mathbb{L}_{m r}+\lambda_{h l} \mathbb{L}_{h l},

IV. Evaluation

A. Experimental Settings

데이터셋 및 평가 지표 (Datasets and Evaluation Metrics)
우리는 세 가지 데이터셋, 즉 **QVHighlights [8], Charades-STA [51], TVSum [52]**을 사용하여 우리의 방법을 평가한다. QVHighlights는 비디오 모먼트 검색(video moment retrieval)과 하이라이트 감지(highlight detection) task를 동시에 평가할 수 있게 한다. 이 데이터셋은 10,310개의 비디오에서 18,367개의 모먼트와 관련된 10,148개의 쿼리를 포함한다. 평균적으로 각 쿼리는 1.8개의 모먼트에 해당한다. 공개되지 않은 테스트 데이터셋 어노테이션으로 인해, 공정한 비교를 위해 예측 결과는 QVHighlights 서버에 제출된다.
Charades-STA는 모먼트 검색을 위한 일반적인 벤치마크로, 9,848개의 비디오와 16,128개의 어노테이션을 포함한다.
TVSum은 하이라이트 감지 벤치마크로, 각각 5개의 비디오를 포함하는 10개의 비디오 카테고리로 구성된다.
우리는 기존 연구 [8], [9], [10], [11]와 동일한 평가 지표를 채택한다. 모먼트 검색에서는 IoU 임계값 0.5 및 0.7에서의 Recall@1과 다양한 IoU 임계값에 걸친 mAP를 고려한다. 하이라이트 감지에서는 mAP와 HIT@1을 사용하며, HIT@1은 가장 높은 점수를 받은 클립에 대한 hit ratio를 측정한다.
학습 세부 사항 (Training Details)
우리의 실험에서는 모든 데이터셋에 대해 동일한 모델 아키텍처를 사용한다 (TVSum은 decoder를 포함하지 않는다). Clip Semantic Mining module, Multi-Context Perception module, Transformer Decoder의 layer 수는 2로 설정된다. Decoder에는 10개의 학습 가능한 moment query가 있다. 모든 Transformer의 hidden dimension은 256으로 설정된다. 온도 계수(temperature coefficients)는 Initial Semantic Projection (ISP) loss에 대해 $\tau_{1}=0.07$ , **rank-aware contrastive loss에 대해 $\tau_{2}=0.5$ **이다. QVHighlights의 max-pooling layer는 [12,3 4]의 stride를 사용하는 반면, 다른 두 데이터셋은 [8 16, 24 32]를 사용한다. 손실 함수 내 다양한 구성 요소에 대한 균형 계수(balance coefficients)는 다음과 같이 설정된다: $\lambda_{i s p}=1, \lambda_{L 1}=10, \lambda_{g I o U}=1, \lambda_{\text {class }}=4, \lambda_{\text {hinge }}=1, \lambda_{\text {cont }}=1, \lambda_{\text {neg }}=1, \lambda_{\text {mr }}=1, \lambda_{h l}=1$ . $\mathbb{L}_{\text {class }}$ 에서 $a=1$ 이고 $b=2$ 이다. 우리는 feature 추출 절차에 대해 [8], [9], [10], [11]을 따른다. QVHighlights의 경우, 사전학습된 모델인 **SlowFast [13]와 CLIP [12]**를 사용하여 비디오 feature를 추출하고, 텍스트 feature는 CLIP에서 얻는다. 오디오 feature는 Audio Set [54]에서 사전학습된 PANN [53] 모델을 사용하여 추출된다. 모델은 batch size 32, learning rate $1 \mathrm{e}-4$ 로 200 epoch 동안 학습된다. Charades-STA의 경우, 비디오 및 텍스트 feature 추출에 각각 **VGG [55]와 GloVe [56]**를 사용한다. 우리는 또한 사전학습된 I3D [57], SlowFast, CLIP video 및 CLIP text feature도 시도했다. VGG feature를 사용한 모델은 batch size 6, learning rate $2 \mathrm{e}-4$ 로 학습되는 반면, 다른 모델들은 batch size 32, learning rate $1 \mathrm{e}-4$ 로 학습된다. 모든 모델은 100 epoch 동안 학습된다. TVSum의 경우, 사전학습된 I3D 비디오 feature와 CLIP 텍스트 feature를 사용한다. 모델은 batch size 4, learning rate $1 \mathrm{e}-3$ 로 2,000 epoch 동안 학습된다.

B. Experimental Results

QVHighlights 벤치마크 비교: 우리는 QVHighlights test split에서 W2W 모델을 평가했다. Table I은 우리의 접근 방식이 MR 및 HD task 모두에서 기존 방법들을 크게 능가함을 보여준다.

TABLE V 다양한 정렬 전략. Pos.는 긍정 샘플 쌍을 나타내고, Neg. 1과 Neg. 2는 서로 다른 부정 샘플 쌍을 나타낸다.

Pos.	Neg.1	Neg.2	MR		HD
			mAP	$>=$ VeryGood
			Avg.	mAP	HIT@1
			43.25	39.02	63.55
$\checkmark$			43.02	38.48	61.55
$\checkmark$	$\checkmark$		44.61	40.4	63.61
$\checkmark$		$\checkmark$	43.51	39.3	62
$\checkmark$	$\checkmark$	$\checkmark$	$\mathbf{4 5 . 5 4}$	$\mathbf{4 0 . 7 2}$	$\mathbf{6 6 . 0 6}$

TABLE VI Chronological Context Branch에서 Short-Range (CC-S) 및 Long-Range (CC-L)의 영향과 Parameter Sharing의 효과. WT는 Within-Term Parameter Sharing을 나타내고, BT는 Between-Term Parameter Sharing을 나타낸다.

				MR		HD
CC-S	CC-L	WT	BT	mAP	$>=$ VeryGood
				Avg.	mAP	HIT@1
				43.2	40.59	65.60
	$\checkmark$	$\checkmark$		44.59	40.17	64.52
$\checkmark$		$\checkmark$		43.84	$\mathbf{4 0 . 9 2}$	$\mathbf{6 6 . 5 8}$
$\checkmark$	$\checkmark$			44.43	40.56	65.61
$\checkmark$	$\checkmark$		$\checkmark$	45.53	40.52	65.74
$\checkmark$	$\checkmark$	$\checkmark$		$\mathbf{4 5 . 5 4}$	40.72	66.06

MR task에서 우리의 방법은 R1@0.7에서 5.2%, mAP@0.75에서 9.6%로 SOTA를 능가한다. 멀티모달 feature(비디오 및 오디오)의 도입은 R1@0.7에서 3.9%, mAP@0.75에서 9.4%의 개선을 유지한다. HD task에서는 mAP 및 HIT@1 지표 모두에서 우수한 성능을 보여준다. 또한, 우리는 val split에서도 평가를 수행한다. 제안된 방법은 R1@0.7, mAP@0.75 및 전체 mAP에서 10%를 초과하는 개선을 보여주며, 제안된 방법의 효과를 더욱 검증한다. 2) Charades-STA 벤치마크 비교: Charades-STA에 대한 결과는 Table II에 제시되어 있다. 다양한 방법들과의 공정한 비교를 위해, 우리는 이전 연구들에서 보고된 것과 동일한 feature(즉, VGG, I3D, SlowFast+CLIP)를 사용하여 실험을 수행한다. 특히, VGG 비디오 feature를 활용할 때, 우리의 방법은 SOTA 대비 R1@0.7에서 3.9% 향상된 성능을 보인다. I3D feature를 활용하면 R1@0.5에서 7.1%, R1@0.7에서 4.3%의 주목할 만한 증가를 각각 달성한다. SF+CL을 비디오 feature로 통합하면 R1@0.7에서 6.5%의 상당한 개선을 이룬다. 우리의 W2W 모델이 모든 feature에서 일관되게 상당한 우수성을 보여주었음을 알 수 있다. 3) TVSum 벤치마크 비교: Table III는 TVSum 데이터셋에 대한 실험 결과를 제시하며, 제안된 방법이 mAP에서 기존 벤치마크를 능가하는 놀라운 성능을 보여준다. GA 및 DS 카테고리에서 각각 5.7% 및 5.8%의 증가율을 반영하는 상당한 개선이 뚜렷하게 관찰된다.

C. Ablation Studies

제안된 접근 방식의 핵심 구성 요소들의 효과를 검증하기 위해, 우리는 QVHighlights val split에 대해 포괄적인 ablation 실험을 수행하였다.

구성 요소 Ablation: Table IV에서는 우리 W2W 모델의 핵심 구성 요소들에 대해 수행된 ablation study를 상세히 설명한다. **Baseline 모델 (1)**은 word-level 텍스트 및 비디오 feature를 병합하여 cross-modal 상호작용을 가능하게 하고, encoder [10]를 통해 clip-level context를 추가로 포착한다. 그러나 이 전통적인 접근 방식에는 몇 가지 한계가 있을 수 있다.
첫째, 사전학습된 feature의 약한 정렬(alignment) 문제를 해결하기 위해, 우리는 Initial Semantic Projection (ISP) loss와 Clip Semantic Mining Attention (CSMA)의 영향을 평가한다. (2), (3), (1) 간의 비교는 의미적으로 유사한 모달 feature의 초기 단계 정렬의 중요성과 비디오 클립의 정확한 의미 이해를 위해 문장 수준 텍스트에 집중하는 것의 중요성을 강조한다.

둘째, 문맥적 관계를 보다 명확하고 효과적으로 모델링하기 위해 Multi-Context Perception 모듈을 제안한다. (4), (5), (1) 간의 비교는 Event Context (EC)와 Chronological Context (CC) 모두 moment retrieval task에서 moment-level 문맥적 세부 사항을 파악하는 모델의 능력을 크게 향상시킨다는 것을 보여준다. 또한, (5), (6), (7) 간의 비교는 각 단계 내의 모듈들이 서로 보완적이며, 일관된 성능 향상으로 이어진다는 것을 보여준다. 이러한 관찰은 각 구성 요소의 효과성을 강조하고 우리 W2W 모델의 견고성을 부각시킨다. 또한, TVSum 데이터셋에 대한 동일한 실험에서도 유사한 결과가 나타나, 우리 모델의 안정성을 추가로 검증한다.

정렬 전략 (Alignment Strategies): 비디오 및 텍스트 feature는 Initial Semantic Projection (ISP) loss를 통해 의미적으로 명시적으로 정렬되며, 이때 두 가지 유형의 negative pair가 도입된다. 그 효율성을 탐구하기 위해, 우리는 Table V에서 positive 및 negative sample pair에 대한 ablation을 수행한다.

**Pos.**는 **positive sample pair (즉, 일치하는 클립과 쿼리)**를 나타낸다.
Neg. 1은 **첫 번째 유형의 negative sample pair (다른 비디오에서 가져온 클립과 쿼리)**를 의미하며,
Neg. 2는 **두 번째 유형의 negative sample pair (동일 비디오 내의 관련 없는 클립과 쿼리)**를 나타낸다. **Baseline 모델 (첫 번째 줄)**은 feature 정렬을 수행하지 않으므로, positive 또는 negative sample pair가 없다. 정렬이 positive pair에만 초점을 맞춰 수행될 경우, baseline보다 성능이 더 나빠지는 것으로 나타났다. 이는 비교를 위한 negative sample이 없으면 모델이 종종 관련 없는 feature를 잘못 연결하여 학습에 노이즈를 도입하고 의미론적 관계를 정확하게 학습하는 것을 방해하기 때문이다. 어떤 유형의 negative sample pair라도 독립적으로 포함되면 더 나은 성능을 얻을 수 있다. 두 가지 유형의 negative sample pair를 조합했을 때 가장 좋은 결과가 달성된다.

CC Branch 분석: Multi-Context Perception 모듈에서 Chronological Context branch는 서로 다른 시간 스케일에서 단거리(CC-S) 및 장거리(CC-L) 시간적 context를 학습한다. 여기서는 각 구성 요소의 효과와 파라미터 공유 전략을 분석한다. Table VI의 처음 두 줄은 단거리 또는 장거리 시간적 context를 ablation하며, 제안된 방법(마지막 줄)과 비교하여 상당한 성능 저하를 보인다. 우리는 단거리 항(short-range term)을 통한 moment retrieval의 향상과 장거리 항(long-range term)을 통한 highlight detection의 향상을 관찰할 수 있다. 우리 모델의

TABLE VII Chronological Context Branch의 Window Scale에 대한 민감도 분석 실험

Window Scale	MR		HD
	R 1	mAP	$>=$ Very Good
	$@ 0.7$	$@ 0.75$	mAP	HIT@ 1
$\times$	49.29	43.57	40.14	65.16
$\left[\begin{array}{lll}1 & 2,3 & 4\end{array}\right]$	$\mathbf{5 1 . 3 5}$	$\mathbf{4 6 . 8 1}$	40.16	$\mathbf{6 5 . 8 7}$
$\left[\begin{array}{lll}2 & 4, & 6 \\ 4 & 5,\end{array}\right]$	50	45.97	$\mathbf{40 . 23}$	65.42
$\left[\begin{array}{lll}4 & 8, & 12\end{array}\right]$	50.71	45.25	39.98	63.55
$\left[\begin{array}{llll}8 & 16, & 24 & 32\end{array}\right]$	49.68	44.08	39.58	62.9
$\left[\begin{array}{lll}1 & 2, & 12 \\ 1 & 16\end{array}\right]$	50.45	44.92	39.86	64.52
$\left[\begin{array}{llll}2 & 4, & 24 & 32\end{array}\right]$	50.58	45.93	40.18	65.23

Fig. 6. 하이퍼파라미터 민감도 분석 실험. MR-full-mAP는 MR task에서 다양한 IoU 임계값에 대한 평균 mAP를 나타내며, HL-min-VeryGood-mAP는 HL task에서 VeryGood으로 분류된 saliency score 레벨에 대한 mAP를 나타낸다.

파라미터 공유 설계의 목표는 모델의 복잡성과 성능 사이의 균형을 찾는 것이다. 파라미터 공유의 경우, 우리 모델은 단거리 항(short-range term)과 장거리 항(long-range term) 내에서 파라미터를 공유하며, 이는 **WT (within-term)**로 표시된다. 이는 파라미터 공유를 하지 않는 경우와 모든 시간 스케일이 동일한 파라미터를 공유하는 BT (between-term) 전략과 비교된다. Table VI에서 파라미터 공유가 모델 복잡도 감소 외에도 MR 성능을 향상시킨다는 것을 관찰할 수 있다. 한편, within-term 공유 전략이 between-term 전략보다 더 나은 성능을 달성한다.

CC branch의 Window Scales: Multi-Context Perception 모듈 내에서 각 branch가 모델 성능에 미치는 영향을 철저히 평가하기 위해, 우리는 먼저 CC branch의 window size 구성에 초점을 맞춘다. 우리는 EC branch를 제외하고 $\left[\begin{array}{lll}1 & 2, & 3\end{array} 4\right]$ 부터 $[816,2432]$ 까지 4가지 다른 window scale 설정을 사용하여 실험을 수행한다. Table VII에 제시된 결과에서, 우리는 더 작은 window 설정 ([12,3 4])이 더 큰 window 설정 ([2 4, 68 $]$ )보다 문맥 정보를 포착하는 데 더 우수하다는 것을 관찰할 수 있으며, 특히 MR task에서 그러하다. HD의 mAP 변화는 미미하지만, 더 작은 window는 HIT@1을 크게 향상시킨다. 우리는 또한 window scale이 [12,12 16] 및 [2 4, 24 32]인 두 branch를 테스트했으며, 스케일의 차이가 점진적으로 증가하는 스케일보다 성능을 약간 감소시킨다는 것을 발견했다. 이러한 감소는 스케일 차이가 큰 window가 중간 길이 이벤트를 적절하게 포착하지 못하고, 더 작은 window는 충분한 데이터가 부족하며, 더 큰 window는 관련 없는 정보를 도입하기 때문에 발생한다.
EC branch의 $x$ Percent: [12,3 4]의 window size 설정에서, 우리는 EC branch 내에서 문장과 가장 관련성이 높은 상위 $x \%$ 비디오 토큰을 선택할 때의 크기 $x$ 의 영향을 조사한다. Fig. 6a는 과도하게 큰 $x$ 가 이벤트 feature에 관련 없는 세부 정보를 포함하여 모델이 문장과 관련된 필수 콘텐츠를 포착하는 것을 방해한다는 것을 나타낸다. 반면에, 너무 작은 $x$ 는 의미적으로 관련된 이벤트의 풍부함을 전달하지 못한다. 우리 실험에서는 QVHighlights에 대해 $x=50$ 값을 활용한다.
ISP Loss 온도 계수 $\tau_{1}$ : Fig. 6b에 나타난 바와 같이, 우리는 0.01에서 0.15 범위의 온도 계수로 하이퍼파라미터 민감도 실험을 수행한다. 결과는 계수가 증가함에 따라 두 task 모두의 성능이 향상되지만, 0.1을 초과하면 급격히 감소하기 시작한다는 것을 보여준다. 이러한 결과를 바탕으로, 우리는 task 간 최적의 성능 균형을 달성하기 위해 0.07을 최적의 온도 계수로 선택한다.
$\lambda_{i s p}, \lambda_{m r}$ 및 $\lambda_{h l}$ 의 민감도: 우리는 또한 하이퍼파라미터 실험을 통해 Initial Semantic Projection (ISP) loss 가중치 요소 $\lambda_{i s p}$ 의 민감도를 테스트한다. Fig. 6c는 $\lambda_{i s p}$ 가 1에서 2 사이의 범위에서 모델의 더 나은 성능을 보여주며, $\lambda_{i s p}$ 가 이 범위를 벗어나는 값을 취할 때 두 task 모두에서 성능이 감소한다는 것을 보여준다. 두 task에 대한 전반적인 실험 결과를 바탕으로, 우리는 $\lambda_{i s p}$ 를 1로 설정하기로 결정한다.

Fig. 6d에서 우리는 가중치 계수 $\lambda_{m r}$ 및 $\lambda_{h l}$ 을 0.1에서 2.5까지 테스트한다. 결과는 낮은 가중치가 학습에 충분한 영향을 미치지 못하여 모델 성능이 저조하다는 것을 보여준다. 가중치가 1 바로 아래로 증가하면 성능이 향상된다. 그러나 한 task의 가중치가 1을 초과하면 다른 task의 성능이 감소한다. 균형 잡힌 학습을 유지하기 위해 두 가중치 계수 모두 1로 설정되었다.

D. Qualitative Results

이 섹션에서는 W2W 모델의 우수성을 보여주는 정성적 결과들을 제시한다.

Simple Text Queries: Fig. 7a에서, 비디오 전체에 걸쳐 'News reader'와 'talk'와 같은 용어가 지속적으로 등장함에도 불구하고, 경쟁 모델들은 종종 비디오를 이러한 용어와 잘못 연결한다. 이와 대조적으로, 우리 모델은 문장 의미론을 활용하여 초점을 맞추고, 다양한 contextual learning 접근 방식을 사용하여 'glacier disaster'와 같은 핵심 요소를 강조함으로써 더욱 정확한 localization을 달성한다.
Complex Text Queries: Fig. 7b와 Fig. 7c는 긴 텍스트 쿼리를 사용하여 복잡한 이벤트의 비디오 타임스탬프를 검색하는 경우를 보여준다. 이러한 경우, fine-grained cross-modal integration과 clip-level context modeling에만 의존하는 것은 특정 이벤트를 이해하는 데 불충분하다는 것이 입증된다. 예를 들어, Moment-DETR는 Fig. 7b에서 더 긴 비디오 세그먼트를 검색하고 비디오 끝 부분의 관련 없는 클립을 강조한다. QD-DETR는 개별 단어에 초점을 맞추며,

Fig. 7. QVHighlights의 보충 정성적 결과. (a)는 간단한 문장에 대한 MRHD 결과를 보여주며, (b)와 (c)는 긴 문장으로 쿼리된 복잡한 이벤트를 보여준다.

Fig. 7c에서 부분적인 이벤트 localization이 가능하다. 이와 대조적으로, 우리 모델은 cross-modal feature를 사전 정렬하고 moment-level contextual cue를 긴밀하게 통합하여 쿼리된 비디오 세그먼트를 정확하게 localization하는 것을 우선시한다. 특히, ground truth 곡선과 매우 유사한 saliency score를 예측함으로써 다른 방법들보다 뛰어난 성능을 보인다.

V. Conclusion

결론적으로, 최근 알고리즘들은 MRHD task에서 뛰어난 성능을 보이지만, 약하게 정렬된 semantic mining과 불분명한 clip-level context modeling과 같은 문제에 자주 직면한다. 이러한 격차를 해소하고 비디오 콘텐츠를 이해하는 인간의 과정에서 영감을 받아, 우리는 점진적 이해를 위한 "무엇을, 어디서" 프레임워크를 제안한다. 구체적으로, 우리는 먼저 Initial Semantic Projection loss를 도입하여 모달리티 간의 semantic alignment를 달성하고, 이어서 Clip Semantic Mining module을 설계하여 단어 및 문장 수준에서 semantic relevance를 철저히 평가한다. 또한, 우리는 Multi-Context Perception module을 제안하여 인접한 비디오 clip feature 간의 낮은 구별성 문제를 효과적으로 moment-level contextual relationship을 모델링함으로써 해결한다. 마지막으로, 광범위한 실험을 통해 우리 모델의 상당한 이점이 검증되었다.