Ma, Hongxu, et al. "Ms-detr: Towards effective video moment retrieval and highlight detection by joint motion-semantic learning." arXiv preprint arXiv:2507.12062 (2025).

MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning

Hongxu $\mathrm{Ma}^{*} \dagger$ Fudan University Shanghai, China hxma24@m.fudan.edu.cn

Guanshuo Wang* Tencent Youtu Lab Shanghai, China mediswang@tencent.com

Fufu Yu Tencent Youtu Lab Shanghai, China fufuyu@tencent.com

Qiong Jia Tencent Youtu Lab Shanghai, China boajia@tencent.com

Shouhong Ding ${ }^{\ddagger}$ Tencent Youtu Lab Shanghai, China ericshding@tencent.com

Abstract

**Video Moment Retrieval (MR)**과 **Highlight Detection (HD)**은 텍스트 쿼리를 기반으로 특정 순간을 정확히 찾아내고 클립별 관련성을 평가하는 것을 목표로 한다. DETR 기반의 통합 프레임워크들이 상당한 발전을 이루었지만, 비디오 콘텐츠 내에서 시간적 움직임(temporal motion)과 공간적 의미(spatial semantics) 간의 복잡한 관계를 활용하는 데에는 여전히 미개척된 잠재력이 남아있다.

본 논문에서는 MR/HD task를 위해 **통합 학습을 통해 풍부한 motion-semantics feature를 포착하는 프레임워크인 Motion-Semantics DETR (MS-DETR)**을 제안한다. Encoder는 먼저 주어진 텍스트 쿼리의 안내에 따라 움직임(motion) 및 의미(semantics) 차원 내에서 분리된(disentangled) intra-modal 상관관계를 명시적으로 모델링한다. 이어서 decoder는 시간적 움직임과 공간적 의미 차원 간의 task별 상관관계를 활용하여 MR을 위한 정확한 쿼리 기반 localization과 HD를 위한 정제된 하이라이트 경계(boundary) 설정을 가능하게 한다.

또한, 우리는 MR/HD 데이터셋의 움직임 및 의미 차원 내에 내재된 희소성(sparsity) 딜레마를 관찰한다. 이 문제를 해결하기 위해 생성 전략을 통해 두 차원 모두에서 코퍼스를 풍부하게 만들고, contrastive denoising learning을 제안하여 위에서 언급한 구성 요소들이 강건하고 효과적으로 학습되도록 보장한다.

네 가지 MR/HD 벤치마크에 대한 광범위한 실험을 통해 우리 방법이 기존 state-of-the-art 모델들을 상당한 차이로 능가함을 입증한다. 우리의 코드는 https://github.com/snailma0229/MS-DETR.git 에서 확인할 수 있다.

CCS CONCEPTS

정보 시스템 $\rightarrow$ 멀티미디어 및 멀티모달 검색.

개인적 또는 교실 사용을 위해 본 저작물의 전체 또는 일부를 디지털 또는 하드카피로 제작하는 것은 수수료 없이 허용되며, 복사본이 영리적 또는 상업적 이득을 위해 제작되거나 배포되지 않고, 첫 페이지에 본 고지 및 전체 인용이 포함되어야 한다. 본 저작물의 구성 요소에 대한 저작권이 저자(들) 외의 다른 사람에게 있는 경우 존중되어야 한다. 출처를 명시한 초록 작성은 허용된다. 그 외의 복사, 재출판, 서버 게시 또는 목록 재배포는 사전에 특정 허가 및/또는 수수료가 필요하다. permissions@acm.org로 허가를 요청하십시오. MM '25, 2025년 10월 27-31일, 더블린, 아일랜드 © 2025 저작권은 소유자/저자(들)에게 있다. 출판권은 ACM에 라이선스되었다. ACM ISBN 978-1-4503-XXXX-X/2018/06...$15.00 https://doi.org/XXXXXXXXXXXXXXX

KEYWORDS

비디오 순간 검색(Video Moment Retrieval), 하이라이트 감지(Highlight Detection), 모션-의미 학습(Motion-Semantic Learning)

ACM Reference Format:

Hongxu Ma, Guanshuo Wang, Fufu Yu, Qiong Jia, and Shouhong Ding. 2025. MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning. In Proceedings of the 33rd ACM International Conference on Multimedia (MM '25), October 27-31, 2025, Dublin, Ireland. ACM, New York, NY, USA, 10 pages. https://doi.org/XXXXXXX. XXXXXXX

1 INTRODUCTION

최근 몇 년간 온라인 비디오 콘텐츠는 다양하고 접근하기 쉬운 특성 덕분에 놀라운 증가세를 보였다 [29]. 이미지나 텍스트와 비교할 때, 비디오는 다양한 modality에 걸쳐 풍부한 정보를 제공한다. 그러나 이러한 정보의 풍부함은 관심 있는 콘텐츠를 탐색하고 정확히 찾아내는 데 필요한 시간을 필연적으로 늘린다. 결과적으로 Moment Retrieval (MR) 및 **Highlight Detection (HD)**과 같은 관련 클립 localization task가 등장하게 되었다.

MR task는 주어진 언어 설명에 가장 관련성이 높은 특정 순간을 검색하고 정확한 경계를 예측하는 것을 목표로 한다. 이와 유사하지만 다른 HD task는 salient 평가를 위해 주어진 모든 클립과 텍스트 설명 간의 관련성을 예측한다. 이들 간의 task 유사성을 고려하여, [18]은 DETR [5] 기반의 통합 프레임워크 내에서 MR 및 HD task의 공동 학습을 처음으로 제안했으며, 이는 대부분의 후속 연구들 [14, 18, 23, 27, 34, 43, 51]에서 공동 MR/HD task를 위해 계승되었다.

비디오 콘텐츠 내의 동적인 시간적 개념(temporal concepts), 예를 들어 **움직임(motion)**과 시각적 의미 정보(visual semantics information), 예를 들어 장면 feature는 비디오 내에서 특정 순간을 다른 순간들과 분리하는 데 중요한 역할을 한다. 예를 들어, Fig. 1(a)에서 두 남자가 모두 청중 앞에서 이야기하고 있어 유사한 시간적 움직임 단서(temporal motion cues)를 보여주지만, 우리는 그들의 외모, 즉 공간적 의미 feature(spatial semantics features)를 통해서만 순간들을 정확하게 구별할 수 있다. Fig. 1(b)에서는 수염과 어두운 재킷을 입은 동일한 인물이 비디오의 여러 지점에서 나타나므로, 텍스트 쿼리에 설명된 행동, 즉 시간적 움직임 feature(temporal motion features)를 이해하는 것이 관심 있는 순간을 인식하는 데 필수적이다. 이러한 예시들은 MR/HD의 성능이 비디오-텍스트 쌍 내의 fine-grained 시간적 움직임 및 공간적 의미 단서에 의해 결정될 수 있음을 보여준다. 따라서 더 정확한 결과를 위해서는 finer-grained motion-semantics 표현을 학습하고 그들 간의 더 깊은 내재적 연관성을 효과적으로 활용해야 한다.

Figure 1: QVHighlight 데이터셋 [18]의 예시로 우리의 동기를 설명한다: MR/HD의 성능은 비디오-텍스트 쌍 내의 fine-grained 시간적 움직임 및 공간적 의미 단서에 의해 결정될 수 있으며, 따라서 더 정확한 결과를 위해서는 finer-grained motion-semantics 표현을 학습하고 그들 간의 더 깊은 내재적 연관성을 효과적으로 활용해야 한다. (화면에서 확대하여 보는 것이 가장 좋다)

그러나 이러한 깊은 내재적 연관성은 다음과 같이 널리 간과되고 있다:

첫째, 공동 MR/HD task에서 비디오 feature는 사전학습된 motion 및 semantic 구성 요소 [8, 37]로 표현된다. 그러나 기존 연구들은 시간적(temporal) 및 공간적(spatial) 편향 feature 내의 내재적 구별 능력을 무시하고, 단순히 이들을 **전역 비디오 표현(global video representations)으로 연결(concatenate)**하는 경향이 있다. 이 전역 비디오 표현은 텍스트 쿼리 임베딩 [18]과 연결되거나 텍스트 쿼리 임베딩 [34, 51]과 cross-modal attention을 수행하여 encoder에 입력되는 통합 입력으로 사용되는데, 이는 비디오 콘텐츠 내의 fine-grained 구별 능력을 제한할 수 있다.

둘째, 기존 연구들 [14, 18, 27, 34, 43, 51]의 전형적인 DETR-like encoder-decoder 프레임워크는 MR/HD task를 개별적으로 처리하지만, 두 task 간의 motion-semantics 차원에서의 내재적 관계 또한 간과된다. 구체적으로, encoder에 의해 수행되는 HD는 인코딩된 임베딩(memory)을 통해서만 MR에 영향을 미치지만, MR은 HD에 거의 직접적인 영향을 미치지 않아 잠재적인 정보 병목 현상을 반영한다. 주어진 텍스트 쿼리에 따라 HD task에서는 시간적 움직임 차원을 따라 의미적 salient가 예측되는데, 이는 MR에 대한 **사전 선호도 가이드(prior preference guidance)**가 될 수 있다. 반대로, MR task의 **정확한 시간적 경계(temporal boundaries) 및 의미적 전경(semantic foregrounds)**은 HD의 주관적인 평가 외에 정확한 제약 조건(accurate constraints)을 보완할 수 있다.

마지막으로, 여전히 해결하기 어려운 근본적인 과제는 **MR/HD 데이터셋 주석에 내재된 시간적 움직임 및 공간적 의미 차원의 희소성 딜레마(sparsity dilemma)**이다. 즉, 비디오 내의 두 차원 모두의 의미적 풍부함(semantics richness)이 주어진 제한된 길이의 텍스트 설명의 풍부함을 훨씬 초과하여, 단일 텍스트를 쿼리로 사용하는 공동 MR/HD 프레임워크가 fine-grained 비디오 콘텐츠를 정확하게 구별하는 데 효과적으로 일반화되지 못하게 한다.

본 논문에서는 **Motion-Semantics Detection Transformer (MS-DETR)**를 제안한다. 이는 새로운 공동 MR/HD 프레임워크로, 다음과 같이 motion 및 semantic 공동 학습 전략을 발전시킨다: 포괄적인 쿼리 기반 비디오 표현을 위해, 우리는 먼저 **Motion-Semantics Disentangled Encoder (MSDE)**를 설계한다. 이는 비디오 내의 시간적 움직임 및 공간적 의미 차원을 명시적으로 구별하고, 각각의 차원에서 텍스트 쿼리와 더 정제된 정보로 상호작용한다. 다음으로, motion-semantics 차원에서 MR 및 HD task 간의 더 나은 동기화 및 시너지 효과를 촉진하기 위해 **Mutual Task-Collaborated Decoder (MTCD)**를 제안한다. 우리는 HD task의 salient 예측을 활용하여 motion을 포함하는 시간적 위치 쿼리(temporal position queries)와 사전 의미(prior semantics)를 포함하는 콘텐츠 쿼리(content queries)를 동적으로 생성한다. HD에 의한 쿼리는 MR task에서 관련 순간을 localization하는 데 사전 선호도 가이드 역할을 한다. 상호적인 방식으로, MR task의 정확한 시간적 경계 및 의미적 전경 제약 조건은 HD task의 salient 예측의 구별 능력을 정제하는 데 활용된다. 마지막으로, 내재된 희소성 주석 딜레마 문제를 해결하기 위해, 우리는 시간적 움직임 및 공간적 의미 차원 모두에서 데이터를 풍부하게 하여, motion-semantics 차원에서 비디오와 텍스트 간의 데이터 수준에서의 풍부함 정렬(richness alignment)을 달성하는 것을 목표로 한다. 보조 데이터 내의 피할 수 없는 노이즈를 완전히 활용하기 위해, 우리는 신뢰할 수 있는 학습을 위한 denoising 학습 전략을 도입하고, 매칭된(pos) 및 매칭되지 않은(neg) 비디오-텍스트 쌍 간의 명시적인 contrastive metric learning을 수행한다.

우리의 기여는 다음과 같다: (i) 우리는 MSDE를 포함하는 통합 MR/HD 프레임워크 MS-DETR을 제안한다. MSDE는 텍스트 쿼리 기반으로 더 미묘한 motion-semantics disentangled 비디오 표현을 학습하며, MTCD는 motion-semantics 차원에서 MR/HD 간의 상호 시너지 효과를 활용한다. (ii) 우리는 두 차원의 희소성 주석 딜레마를 해결하기 위한 corpus 생성을 도입하고, 생성된 데이터로부터 강건한 학습을 위한 contrastive denoising learning을 제안한다. (iii) 우리의 방법은 4개의 벤치마크에서 모든 기존 SOTA를 현저한 차이로 능가한다.

2.1 Moment Retrieval and Highlight Detection

**Moment Retrieval (MR)**은 텍스트 쿼리를 기반으로 비디오 순간(moment)을 검색하는 것을 목표로 한다. Proposal-based MR 방법들은 sliding window [9, 10, 25] 또는 proposal generation network [6, 49, 56, 57, 65]를 기반으로 후보 순간들을 생성한 다음, 쿼리와의 유사도를 바탕으로 높은 점수의 후보들을 선택한다. 이러한 방법들은 종종 복잡한 전처리 및 후처리 단계를 포함하며, 이는 최적화되지 않을 수 있다. Proposal-free 방법들 [11, 35, 60]은 순간의 시작 및 종료 시간을 직접 예측하지만, 일반적으로 더 낮은 정확도를 보인다.

MR과 달리, **Highlight Detection (HD)**은 원래 쿼리 없이 핵심 비디오 클립을 식별하는 데 중점을 두었으나, 텍스트 쿼리를 통해 사용자 선호도를 포함하도록 발전했다 [17]. 기존 HD 방법들은 supervised [12, 44, 50], weakly supervised [4, 36, 48], 그리고 unsupervised 그룹 [3, 16, 31, 40]으로 분류될 수 있다.

두 task 간의 상당한 상관관계에도 불구하고, QVHighlights [18]가 MR/HD를 공동으로 수행하기 위한 Moment-DETR이라는 baseline을 제안하기 전까지는 함께 연구되지 않았다. 이후 대부분의 연구들 [14, 33, 34, 43, 47, 51]은 이 DETR-like framework에 기반하고 있다. UMT [27]는 추가적인 오디오 modality를 활용하여 통합된 멀티모달 framework를 달성하고 유연한 MR/HD를 수행했다. UniVTG [23]와 Unloc [54]은 다양한 task 아키텍처를 통합하고 사전학습(pre-training)의 중요성을 강조했다. 이전 방법들과 달리, 본 논문은 disentangled 및 joint motion-semantics learning에 초점을 맞춰 공동 MR/HD를 효과적으로 달성한다.

비디오 콘텐츠를 이해하는 것은 공동 임베딩 공간(joint embedding space) 내에서 시각 및 텍스트 모달리티를 정렬(align)하는 것에 근본적으로 의존한다 [58, 64]. CLIP [37]과 같은 연구들은 이러한 기술들이 다양한 task에 적용될 수 있음을 입증하였다. 그러나 사전학습된 모델들은 특정 task에 적용될 때 **도메인 간극(domain gap)**에 직면하는 경우가 많으며, 이러한 한계를 해결하기 위해 다운스트림 task에서 cross-modal 상호작용을 개선하는 연구가 활발히 진행되고 있다 [13, 15, 20-22, 28, 32, 52, 53, 55, 59].

MINI-Net [13]과 같은 초기 연구들은 단순히 **두 모달리티의 feature vector를 연결(concatenate)**하는 방식을 사용했다. QD-DETR [34]은 negative-pair를 활용하여 쿼리 정보 활용 능력을 향상시켰다. 이러한 발전에도 불구하고, 대부분의 접근 방식은 비디오 내의 시간적 움직임(temporal motion)과 공간적 의미(spatial semantics) 간의 연관성을 충분히 포착하지 못하며, 종종 단순한 feature concatenation에 의존하여 모델이 세밀한 움직임 및 의미 feature를 정확하게 검색하는 능력을 제한한다.

3 METHOD

3.1 Problem Formulation

주어진 $L$ 개의 클립으로 구성된 untrimmed video $V$ 와 $M$ 개의 단어로 구성된 텍스트 쿼리 $Q$ 에 대해, 클립 수준의 비디오 의미 feature $F_{v}^{s}=\left\{v_{1}^{s}, v_{2}^{s}, \ldots, v_{L}^{s}\right\} \in \mathbb{R}^{L \times d}$ 와 단어 수준의 텍스트 feature $F_{t}=\left\{t_{1}, t_{2}, \ldots, t_{M}\right\} \in \mathbb{R}^{M \times d}$ 는 **frozen 사전학습된 CLIP [37]**으로 추출된다. 클립 수준의 비디오 시간적 움직임 feature $F_{v}^{m}=\left\{v_{1}^{m}, v_{2}^{m}, \ldots, v_{L}^{m}\right\} \in \mathbb{R}^{L \times d}$ 는 **frozen SlowFast [8]**으로 추출된다.
**MR(Moment Retrieval)**은 텍스트 쿼리와 가장 잘 일치하는 비디오 순간, 즉 각 segment의 중심과 범위 $\{c, s\}$ 를 검색하는 것을 목표로 하며, **HD(Highlight Detection)**는 모든 비디오 클립에 대한 salience score $S(\cdot)$ 를 예측하는 것을 목표로 한다. Figure 2는 우리가 제안하는 핵심 모듈들로 구성된 MS-DETR의 개요를 보여준다.

3.2 Motion-Semantics Disentangled Encoder

쿼리 기반 비디오 표현에 움직임(motion) 및 의미(semantics) 차원의 명시적인 context를 효과적으로 통합하기 위해, 단순히 비디오 feature를 연결하는 대신, 우리는 **Temporal Motion and Spatial Semantics Cross-modal Transformers (TMCT & SSCT)**를 도입하여 서로 다른 feature 차원 간의 상호작용을 처리한다.
두 개의 tower는 각각 두 개의 cross-attention Transformer layer로 구성되며, **key $K_t$ 와 value $V_t$ 는 모두 쿼리 텍스트 feature $F_t$ **이다.
해당 쿼리는 각각 $Q_v^m = F_v^m$ 및 $Q_v^s = F_v^s$ 로 표기된다.
쿼리 기반 비디오 표현 $\hat{F_v} = \{\hat{v_1}, \hat{v_2}, \ldots, \hat{v_L}\} \in \mathbb{R}^{L \times d}$ 는 다음 식을 통해 계산될 수 있다:

\hat{F}_{v}=\phi\left(\left(\operatorname{TMCT}\left(Q_{v}^{m}, K_{t}, V_{t}\right) \oplus \operatorname{SSCT}\left(Q_{v}^{t}, K_{t}, V_{t}\right)\right)\right)

여기서 $\oplus$ 는 차원(dimension)을 따라 연결(concatenation)하는 것을 의미하며, $\phi(\cdot)$ 는 **동일한 차원 $d$ 로 매핑되는 학습 가능한 가중치 출력(learnable weighted outputs)**이다.
SSCT는 후보 클립 내에서 contextual relevance를 위한 정적인 시각적 세부 정보에 초점을 맞춘다.
반대로 TMCT는 더 나은 시퀀스 및 지속 시간 이해를 위해 연속적인 클립 간의 동적 변화와 전환을 포착한다.
이러한 disentangling Transformer는 각각 비디오 콘텐츠의 움직임 및 의미 구성 요소에 대한 인식을 향상시켜, 더욱 미묘한 비디오 표현을 가능하게 한다.

마지막으로, 우리는 $\hat{F_v}$ 를 **salience token $v_s$ (무작위로 초기화된 학습 가능한 벡터)**와 연결하여 $\tilde{F_v} = \{v_s, \hat{v_1}, \hat{v_2}, \ldots, \hat{v_L}\}$ 를 형성한다.
이는 Eq. (3)에 자세히 설명된 대로 쿼리 기반 비디오 표현 $\hat{F_v}$ 와 상호작용하는 입력 적응형 예측기(input-adaptive predictor) 역할을 한다.
그 후 $\tilde{F_v}$ 는 Transformer Encoder에 입력되어 출력 feature $X = \{x_s, x_1, x_2, \ldots, x_L\}$ 를 도출하며, 이는 HD task의 출력으로 사용되고 decoder의 메모리 입력으로 활용된다.

3.3 Mutual Task-Collaborated Decoder

이전 방법들 [33, 34, 43]에서는 input-agnostic decoder query가 위치 정보에 대해서는 무작위로 초기화되거나, 의미 정보에 대해서는 0으로 설정되었다. 이는 비디오-텍스트 입력으로부터 decoder로 전달되어야 할 공간 의미(spatial semantics) 및 시간적 위치(temporal position) 가이드를 무시하는 결과를 초래했다. 일부 연구 [14]에서는 비디오 feature를 decoder query에 통합하여 성능을 향상시키려 했지만, 이러한 방법들은 지나치게 복잡한 모듈 설계로 인해 실용성과 확장성이 저해되는 문제가 있었다.
실제로 **HD(Highlight Detection)에서 시간 차원(temporal dimension)을 따라 예측되는 의미론적 salient(현저성)**는 MR(Moment Retrieval) task에 대한 사전 선호도 가이드가 될 수 있다. MR task의 **정확한 시간 경계(temporal boundaries)와 의미론적 전경(semantic foregrounds)**은 HD의 주관적인 평가 외에 정확한 제약 조건을 보완할 수 있다. 우리는 motion-semantics 차원에서의 task 간 상관관계를 효과적으로 활용하기 위해 Mutual Task-Collaborated Decoder를 제안한다.

Highlight는 MR에 대한 선호도를 안내한다. 여기서는 HD의 salient 예측 결과를 **사전 지식(prior knowledge)**으로 도입하여 decoder query의 공간 의미 내용(spatial semantics content)과 시간적 위치 정보(temporal position information)를 강화한다. 구체적으로, 우리는 encoder 출력 $X^{\prime}=X \backslash\left\{x_{s}\right\}=\left\{x_{1}, x_{2}, \ldots, x_{L}\right\}$ 에서 가장 큰 상위 $K$ 개의 salient 점수를 의미 내용 쿼리(semantics content queries) $Q_c$ 로 선택하며, 이는 다음과 같이 계산될 수 있다:

Q_{c}=\left\{x_{k} \in X^{\prime} \mid k \in \operatorname{top}-\mathrm{K}\left(S\left(x_{k}\right)\right)\right\}

여기서 $K$ 는 decoder query의 개수이며, **salient 점수 $S(\cdot)$ **는 다음과 같이 공식화된다:

S\left(x_{i}\right)=\frac{\omega_{s}^{T} x_{s} \cdot \omega_{v}^{T} x_{i}}{\sqrt{d}}

여기서 $\omega_s$ 와 $\omega_v$ 는 학습 가능한 가중치이다. $x_s \in X$ 는 salience token $v_s$ 와 query 기반 비디오 표현 $\hat{F_v}$ 간의 상호작용 결과로, 비디오-텍스트 쌍 간의 정렬(alignment)을 결정하고, 일치(matched, positive) 또는 불일치(unmatched, negative)로 분류하며, salient 점수 계산에 직접적으로 기여한다.

Figure 2: MS-DETR 아키텍처 개요. 이 아키텍처는 세 가지 핵심 모듈로 구성된다: (a) Motion-Semantics Disentangled Encoder (MSDE): 비디오 내에서 시간적 움직임(temporal motion)과 공간 의미(spatial semantics) 차원을 명시적으로 분리하고, 각 차원에서 더 정제된 정보와 텍스트 쿼리를 상호작용시킨다. (b) Mutual Task-Collaborated Decoder (MTCD): MR/HD 간의 상호 시너지 효과를 motion-semantics 차원에서 활용한다. (c) Motion-Semantics Corpus Generation: 시간적 움직임과 공간 의미 차원 모두에서 데이터를 풍부하게 하여 데이터 수준에서 비디오와 텍스트 간의 풍부한 정렬(richness alignment)을 달성하고, Contrastive Denoising Training을 통해 보조 데이터(auxiliary data)를 사용한 신뢰할 수 있는 학습을 보장한다. 이 그림의 비디오 클립은 QVHighlight 데이터셋 [18]에서 샘플링되었다.

더 나아가, 공간 의미 내용(spatial semantics content)과 시간적 위치 정보(temporal position information) 간의 내재적인 관계를 고려할 때, 이들은 비디오 내에서 항상 근접하게 발생한다. 우리는 Eq. (2)의 $Q_c$ 를 **보조 span layer(MLP)**를 통해 참조 위치(reference position) $R_k$ 로 변환한다. 이 span layer는 MR에서 사용되는 moment prediction head와 구조적으로 동일하지만, 파라미터는 공유되지 않으며, 다음과 같이 계산된다:

R_{k}=\operatorname{MLP}_{\text {Span }}\left(q_{k}\right), \quad q_{k} \in Q_{c}

그 다음, $d$ -차원의 **시간적 위치 쿼리(temporal position queries) $Q_p$ **는 다음과 같이 계산된다:

\Phi\left(R_{k}\right)=\left(\sin \left(\frac{2 \pi R_{k}}{10000^{2 i / \frac{d}{2}}}\right) \oplus \cos \left(\frac{2 \pi R_{k}}{10000^{(2 i+1) / \frac{d}{2}}}\right)\right)

여기서 $i \in\left\{0, \ldots, \frac{d-1}{2}\right\}$ 이다. 그런 다음 우리는 $Q_p$ 와 $Q_c$ 를 결합하여 Transformer Decoder의 쿼리 입력을 형성한다. 사전 지식(prior knowledge)을 포함하는 이러한 쿼리는 예측 head가 관련 비디오 순간을 정확하게 검색하는 능력을 향상시킨다.

Moments는 HD에 대한 구별을 정제한다. **MR loss $\mathcal{L}_{MR}$ **는 검색 예측 $\hat{m}$ 과 해당 ground-truth moments $m$ 간의 불일치를 최소화하는 것을 목표로 한다. 이는 경계 회귀(boundary regression)를 위한 $L_1$ loss, 시간적 순간 커버리지(temporal moments covering)를 위한 generalized IoU loss $\mathcal{L}_{gIoU}$ [39], 그리고 **전경(foreground)과 배경(background) 예측 $f_i$ 를 구별하기 위한 이진 cross entropy loss $\mathcal{L}_{ce}$ **로 구성되며, 다음과 같이 계산된다:

\mathcal{L}_{M R}=\lambda_{L 1}^{M R}\|m-\hat{m}\|+\lambda_{g I o U}^{M R} \mathcal{L}_{g I o U}(m, \hat{m})+\lambda_{c e}^{M R} \mathcal{L}_{c e}\left(f_{i}, y_{i}\right)

여기서 $\lambda_{L 1}^{M R}, \lambda_{g I o U}^{M R}, \lambda_{c e}^{M R}$ 는 loss 균형을 맞추기 위한 하이퍼파라미터이다.

이러한 정확한 시간 경계(temporal boundaries)와 의미론적 전경(semantic foreground) 제약 조건은 HD에서 salient 예측의 구별 능력(discrimination)을 향상시키는 데 활용될 수 있다. 결과적으로, MR task의 분류 및 회귀 제약 loss를 활용함으로써, 우리는 HD의 학습 과정을 개선한다. 구체적으로, Eq. (3)으로 계산된 salient 점수 $\left\{S\left(x_{i}\right) \mid i \in \{1, \ldots, L\}\right\}$ 에 대해 $\mathcal{L}_{ce}$ 를 사용하여 관련 순간의 공간 의미 정렬(spatial semantics alignment)을 더욱 정제한다. Eq. (4)에 의한 참조 위치 $R_k$ 에 대해서는 $L_1$ 과 $\mathcal{L}_{gIoU}$ 를 사용하여 감지된 하이라이트의 시간적 위치 정확도를 향상시키며, 이는 다음과 같이 계산된다:

\begin{array}{r} \mathcal{L}_{\text {collab }}^{H D}=\lambda_{L 1}^{H D}\left\|m-R_{k}\right\|+\lambda_{\text {gIoU }}^{H D} \mathcal{L}_{\text {gIoU }}\left(m, R_{k}\right) \\ +\lambda_{c e}^{H D} \mathcal{L}_{c e}\left(\operatorname{Sigmoid}\left(S\left(x_{i}\right)\right), y_{i}\right) \end{array}

이 전략은 MR task의 시간적 정밀도와 의미론적 경계 인식(semantics boundary awareness)을 활용하여 추가적인 복잡한 구성 요소 없이도 HD의 salient 예측을 정제한다.

3.4 Contrastive Denoising Training on Auxiliary Data

제안된 MSDE와 MTCD는 비디오 내 motion-semantics 차원의 내부 연관성을 효과적으로 활용하지만, 모델의 일반화는 MR/HD 데이터셋 어노테이션에 내재된 두 차원의 희소성(sparsity) 딜레마에 의해 제약된다. 예를 들어, QVHighlight [18]는 비디오 내 장면이 풍부하지만, 많은 유익한 장면들이 대략적으로 어노테이션되어 시각적 맥락 이해에 중요한 상세한 공간 의미론(spatial semantics) 정보가 부족하다. 반대로, TACoS [38]는 단일 시나리오의 비디오로 구성되어 있으며,

Figure 3: 보조 데이터(Auxiliary Data)에 대한 Contrastive Metric Learning의 도식. 우리는 미묘한 비디오 콘텐츠를 보다 효과적으로 포착하기 위해 motion-semantics 차원 측면에서 보조 데이터의 풍부함을 충분히 활용한다. 이 그림의 비디오 클립은 QVHighlight 데이터셋 [18]에서 샘플링되었다.

해당하는 동작에 대한 텍스트 설명이 포함되어 있다. 이러한 동작에 대한 어노테이션은 단순하며, 동적 맥락 이해에 중요한 상세한 시간적 움직임(temporal motion) 정보가 부족하다.

이러한 문제를 해결하기 위해, 우리는 motion-semantics 차원 측면에서 비디오와 텍스트 간의 풍부함 정렬(richness alignment)을 데이터 수준에서 달성하도록 코퍼스 생성 전략을 설계한다. 또한, 우리는 신뢰할 수 있는 학습을 위한 contrastive denoising 전략과 보조 데이터를 완전히 활용하기 위한 contrastive metric learning을 포함하는 새로운 contrastive learning 방식을 도입한다.

Motion-Semantics Corpus Generation

Semantics corpus generation은 finer captions generation과 query rewriting 두 가지 유형으로 구성된다. Captions generation의 경우, 우리는 사전학습된 **LLaVA [24]**를 사용하여 ground truth의 각 비디오 클립에 대한 caption을 생성하고, CLIP visual embedding과 textual embedding 간의 코사인 유사도 행렬에 임계값(thresholding)을 적용하여 해당 순간 구간(moment interval)을 결정한다. 의미 있는 시간적 맥락을 보장하기 위해, 길이가 3 미만인 구간과 관련된 caption은 필터링된다. 이후, 클립 구간의 길이를 기준으로 상위 2개의 caption-video 쌍을 선택하여 새로운 비디오-텍스트 쌍 세트를 구성한다. Query rewriting의 경우, LLaVA의 언어 구성 요소 [45]를 활용하여 텍스트 쿼리의 명사를 동의어 또는 반의어로 대체한다. 이렇게 생성된 새로운 쿼리들은 해당 원본 비디오 순간 구간과 함께 각각 긍정(positive) 및 강한 부정(hard-negative) 비디오-텍스트 쌍으로 설정된다.

Motion corpus generation은 query rewriting과 유사하다. 대신, 우리는 텍스트 쿼리의 동사를 해당 원본 비디오 순간 구간으로 대체하여 긍정 및 강한 부정 비디오-텍스트 쌍을 생성한다.

Contrastive Denoising Learning. 추가적인 motion-semantics 지식 외에도, 코퍼스 생성 전략은 필연적으로 노이즈를 도입하며, 이는 학습 일관성을 방해할 수 있다. 생성된 데이터로부터 강력하고 효과적인 학습을 보장하기 위해, 우리는 **contrastive denoising learning loss $\mathcal{L}_{\text {cont_dn }}$ **을 제안한다.

우리는 디코더를 위한 노이즈가 있는 긍정 및 부정 쿼리를 생성하기 위해 GT moments $m= \left\{\left[c_{i}, s_{i}\right], i \in\{1, \ldots, G\}\right\}$ 에 무작위 섭동(random perturbation)을 도입한다. 여기서 $G$ 는 $m$ 의 개수이다. 우리의 목표는 노이즈가 있는 긍정 쿼리에 의해 생성된 출력에서 GT moments를 정확하게 식별하고, 노이즈가 있는 부정 쿼리의 출력에서는 GT moments가 인식되지 않도록 보장하는 것이다. 우리는 무작위 $\lambda_{1} \in[0,1]$ 과 $\lambda_{2} \in[1,2]$ 를 각각 긍정 및 부정 노이즈 스케일로 정의한 다음, GT moments의 중심과 스팬에 무작위 노이즈 $\Delta c$ 와 $\Delta s$ 를 추가한다. 이때 $|\Delta c|=\frac{\delta_{2} \lambda \cdot s}{2}$ 및 $|\Delta s|=\frac{\delta_{2} \lambda \cdot s}{2}$ 를 만족하도록 하는데, 여기서 $s$ 는 GT moments의 스팬, $\delta_{2}$ 는 노이즈를 제어하는 하이퍼파라미터, $\lambda \in\left\{\lambda_{1}, \lambda_{2}\right\}$ 이다. $\mathcal{L}_{\text {cont_dn }}$ 은 다음과 같이 공식화된다:

\mathcal{L}_{\text {cont_dn }}=\lambda_{L 1}^{D N}\|m-\tilde{m}\|+\lambda_{g I o U}^{D N} \mathcal{L}_{g I o U}(m, \tilde{m})+\lambda_{c e}^{D N} \mathcal{L}_{c e}\left(f_{i}, y_{i}\right)

여기서 $\tilde{m}$ 은 디코더의 moments 예측값이며, 다음과 같이 공식화된다:

\tilde{m}=\operatorname{MTCD}\left(\Phi\left(m_{\text {noise }}\right), X\right)

여기서 $X=\left\{x_{s}, x_{1}, x_{2}, \ldots, x_{L}\right\}$ 는 디코더의 메모리 입력이고, $\Phi(\cdot)$ 는 eq. (5)에 의해 계산되며, $m_{\text {noise }}$ 는 다음과 같이 GT moments $m$ 에 노이즈 $\Delta c$ 와 $\Delta s$ 를 추가하여 생성된다:

m_{\text {noise }}=\left\{\left[c_{i}+\Delta c_{i}, s_{i}+\Delta s_{i}\right]\right\}, i \in\{1, \ldots, G\}

Contrastive Metric Learning. Contrastive metric learning은 Fig. 3에 나타난 바와 같이 세 가지 구성 요소로 이루어져 있다. 우리는 $X_{\text {neg }}$ 를 MSDE의 부정 비디오-텍스트 쌍의 출력으로 정의한다. 첫째, 우리는 부정 쌍 $X_{\text {neg }}$ 의 salience score를 억제하기 위해 손실 함수 $\mathcal{L}_{\text {enc_neg }}$ 를 다음과 같이 사용한다:

\mathcal{L}_{\text {enc_neg }}=-\sum_{x_{i} \in X_{\text {neg }}} \log \left(1-\operatorname{Sigmoid}\left(S\left(x_{i}\right)\right)\right)

다음으로, 긍정 및 부정 클립 두 쌍 사이에서 margin loss $\mathcal{L}_{\text {margin }}$ 이 계산된다. 첫 번째 쌍은 **ground-truth moments 내의 높은 점수 클립( $x_{h}$ 인덱스)과 낮은 점수 클립( $x_{l}$ )**으로 구성된다. 두 번째 쌍은 **ground-truth moments 내의 클립( $x_{i n}$ )과 외부 클립( $x_{\text{out }}$ )**이며, 이는 다음과 같이 공식화된다:

\begin{aligned} \mathcal{L}_{\text {margin }} & =\max \left(0, \delta+S\left(x_{l}\right)-S\left(x_{h}\right)\right) \\ & +\max \left(0, \delta+S\left(x_{\text {out }}\right)-S\left(x_{\text {in }}\right)\right) \end{aligned}

Table 1: QVHighlights test 및 val 분할에 대한 성능 비교. IoU 임계값 0.5부터 0.95까지 0.05 간격으로 평균 mAP 점수를 계산한다.

Split	test							val
Method	MR					HD		MR					HD
	mAP			R1		$\geq$ Very Good		mAP			R1		$\geq$ Very Good
	@0.5	@0.75	Avg	@0.5	@0.7	mAP	HIT@1	@0.5	@0.75	Avg	@0.5	@0.7	mAP	HIT@1
BeautyThumb [41]	-	-	-	-	-	14.36	20.88	-	-	-	-	-	-	-
DVSE [26]	-	-	-	-	-	18.75	21.79	-	-	-	-	-	-	-
MCN [1]	24.94	8.22	10.67	11.41	2.72	-	-	-	-	-	-	-	-	-
CAL [7]	23.40	7.65	9.89	25.49	11.54	-	-	-	-	-	-	-	-	-
XML [19]	44.63	31.73	32.14	41.83	30.35	34.49	55.25	-	-	-	-	-	-	-
XML+ [19]	47.89	34.67	34.90	46.69	33.46	35.38	55.06	-	-	-	-	-	-	-
Moment-DETR [18]	54.82	29.40	30.73	52.89	33.02	35.69	55.60	-	-	32.20	53.94	34.84	35.65	55.55
UMT [27]	53.38	37.01	36.12	56.23	41.18	38.18	59.99	-	-	38.59	60.26	44.26	39.85	64.19
QD-DETR [34]	62.52	39.88	39.86	62.40	44.98	38.94	62.40	62.23	41.82	41.22	62.68	46.66	39.13	63.03
UniVGT [23]	57.6	35.59	35.47	58.86	40.86	38.20	60.96	-	-	36.13	59.74	-	38.83	61.81
EaTR [14]	-	-	-	-	-	-	-	61.86	41.91	41.74	61.36	45.79	37.15	58.65
CG-DETR [33]	64.51	42.77	42.86	65.43	48.38	40.33	66.21	64.07	42.81	42.33	64.13	48.06	39.91	64.84
TR-DETR [43]	63.98	43.73	42.62	64.66	48.96	39.91	63.42	-	-	-	-	-	-	-
MS-DETR (Ours)	66.41	44.91	44.89	64.72	48.77	40.45	65.95	67.19	46.05	46.00	66.9	51.68	40.57	66.58

Table 2: MR 데이터셋 TACoS test 및 val 분할 결과. 비디오 feature는 Slowfast 및 CLIP을 사용하여 추출되었다.

Split	Method	R@0.3	R@0.5	R@0.7	mIoU
val	2D-TAN [63]	40.01	27.99	12.92	27.22
	VSLNet [61]	35.54	23.54	13.15	24.99
	Moment-DETR [18]	37.97	24.67	11.97	25.49
	UniVTG [23]	51.44	34.97	17.35	33.60
	CG-DETR [33]	52.23	39.61	22.23	36.48
	MS-DETR (ours)	53.16	39.65	23.42	37.01
test	CG-DETR [33]	52.23	39.61	22.23	36.48
	MS-DETR (ours)	56.51	43.00	25.37	39.23

여기서 $\delta$ 는 기본적으로 0.2로 설정된 margin이다. 마지막으로, 동일한 비디오에 대해 긍정 쿼리의 salience score를 증폭시키고 동시에 부정 쿼리의 salience score를 억제하도록 contrastive learning loss가 설계되었으며, 이는 다음과 같이 공식화된다:

\mathcal{L}_{\text {enc_cont }}=-\frac{1}{N} \sum_{n=1}^{N} \log \left(\frac{\sum_{x_{i} \in X_{\text {pos }}^{n}} \exp \left(S\left(x_{i}\right) / \xi\right)}{\sum_{x \in X_{\text {pos }}^{n} \cup X_{\text {neg }}^{n}} \exp \left(S\left(x_{i}\right) / \xi\right)}\right)

여기서 $\xi$ 는 온도(temperature) 파라미터이고 $N$ 은 최대 랭크 값을 나타낸다. 우리는 배치 내 데이터에 대해 $N$ 번의 반복을 수행하며, 각 반복 $n \in\{1,2, \ldots, N\}$ 에서 $n$ 보다 높은 salience score를 가진 샘플은 $X_{\text {pos }}^{n}$ 으로 사용되고, 낮은 샘플은 $X_{\text {neg }}^{n}$ 으로 설정된다. 부정 비디오-텍스트 쌍의 출력, 즉 $X_{\text {neg }}$ 도 $\left\{X_{\text {neg }}^{n}, n \in\{1, \ldots, N\}\right\}$ 에 포함된다는 점에 유의해야 한다.

3.5 Training Loss

우리가 학습에 사용한 모델의 총 손실(total loss)은 다음과 같다:

\begin{aligned} \mathcal{L}_{\text {total }}= & \mathcal{L}_{\text {collab }}^{H D}+\mathcal{L}_{M R}+\lambda_{1} \mathcal{L}_{\text {cont_dn }} \\ & +\lambda_{2}\left(\mathcal{L}_{\text {enc_neg }}+\mathcal{L}_{\text {margin }}+\mathcal{L}_{\text {enc_cont }}\right) \end{aligned}

여기서 $\lambda_{1}$ 과 $\lambda_{2}$ 는 마지막 세 가지 loss의 가중치를 조절한다.

Table 3: MR 데이터셋 Charades-STA test split 결과. 비디오 feature는 Slowfast와 CLIP을 사용하여 추출되었다.

Method	R@0.3	R@0.5	R@0.7	mIoU
2D-TAN [63]	58.76	46.02	27.50	41.25
VSLNet [61]	60.30	42.69	24.14	41.58
Moment-DETR [18]	65.83	52.07	30.59	45.54
QD-DETR [34]	-	57.31	32.55	-
LLaViLo [30]	-	55.72	33.43	-
UniVTG [23]	70.81	58.01	35.65	50.10
CG-DETR [33]	70.43	58.44	36.34	50.13
MS-DETR (ours)	71.34	59.62	36.48	50.59

4 EXPERIMENT

4.1 Dataset and Evaluation Metrics

효과를 검증하기 위해, 우리는 4개의 주요 MR/HD 데이터셋에 대해 광범위한 실험을 수행한다. 구체적으로, 우리는 QVHighlights [18], Charades-STA [9], TACoS [38] 데이터셋에서 MR을 수행했으며, QVHighlights [18] 및 TVSum [42] 데이터셋에서 HD를 수행했다. 모든 비디오 motion-semantics feature와 text feature는 사전학습된 **Slowfast [8]와 CLIP [37]**에 의해 미리 추출되었다. 공정한 비교를 위해, 우리는 이전 연구들 [18, 33, 34, 43, 47, 51]에서 사용된 feature와 평가 지표를 따른다.

MR task의 경우, IoU 임계값 0.5 및 0.7에서의 Recall@1과 **다양한 IoU 임계값에서의 mean average precision (mAP)**을 사용하여 성능을 측정한다.
HD task의 경우, mAP와 HIT@1을 평가 지표로 사용한다.

MR에서의 mAP는 공동 HD/MR task에서 모델을 비교하는 데 가장 중요한 지표이며, 이전 방법들도 이를 모델 평가의 기준으로 사용했음에 주목한다.

4.2 Experimental Results

공동 task 데이터셋 QVHighlights 결과
Table 1은 MR/HD 공동 task에 대한 우리의 결과를 state-of-the-art (SOTA) 방법들과 비교하여 제시한다. 우리는 test 및 val 데이터셋 분할 모두에 대한 metric을 보고한다. 관찰된 바와 같이, 우리가 제안한 방법은 MR/HD task 모두에서 이전 SOTA를 크게 능가하며, mAP metric을 각각 2% 및 3.77% 향상시킨다. 특히, 우리는 motion-semantics disentangled representation을 학습함으로써, 모델이 세분화된 motion 및 semantics feature를 정확하게 검색하는 능력을 향상시킨다고 믿는다.

Table 4: TVsum에서의 하이라이트 감지 결과. $\dagger$ 는 오디오 modality를 활용하는 방법을 나타낸다.

Method	VT	VU	GA	MS	PK	PR	FM	BK	BT	DS	Avg
sLSTM [62]	41.1	46.2	46.3	47.7	44.8	46.1	45.2	40.6	47.1	45.5	45.1
SG [31]	42.3	47.2	47.5	48.9	45.6	47.3	46.4	41.7	48.3	46.6	46.2
LIM-S [48]	55.9	42.9	61.2	54.0	60.3	47.5	43.2	66.3	69.1	62.6	56.3
Trailer [46]	61.3	54.6	65.7	60.8	59.1	70.1	58.2	64.7	65.6	68.1	62.8
SL-Module [50]	86.5	68.7	74.9	86.2	79.0	63.2	58.9	72.6	78.9	64.0	73.3
QD-DETR [34]	88.2	87.4	85.6	85.0	85.8	86.9	76.4	91.3	89.2	73.7	85.0
UniVGT [23]	83.9	85.1	89.0	80.1	84.6	81.4	70.9	91.7	73.5	69.3	81.0
CG-DETR [33]	86.9	88.8	94.8	87.7	86.7	89.6	74.8	93.3	89.2	75.9	86.8
TR-DETR [43]	89.3	93.0	94.3	85.1	88.0	88.6	80.4	91.3	89.5	81.6	88.1
MINI-Net [13] $\dagger$	80.6	68.3	78.2	81.8	78.1	65.8	57.8	75.0	80.2	65.5	73.2
TGG [55] $\dagger$	85.0	71.4	81.9	78.6	80.2	75.5	71.6	77.3	78.6	68.1	76.8
Joint-VA [2] $\dagger$	83.7	57.3	78.5	86.1	80.1	69.2	70.0	73.0	97.4	67.5	76.3
UMT [27] $\dagger$	87.5	81.5	88.2	78.8	81.4	87.0	76.0	86.9	84.4	79.6	83.1
QD-DETR [34] †	87.6	91.7	90.2	88.3	84.1	88.3	78.7	91.2	87.8	77.7	86.6
MS-DETR (Ours)	89.84	93.33	94.79	88.73	88.52	89.02	80.5	93.96	88.73	76.88	88.43

Table 5: QVHighlights val split에서 다양한 구성 요소의 효과.

	MSDE	MTCD	AD	CDL	MR					HD
					mAP			R1		$\geq$ Very Good
					@0.5	@0.75	Avg	@0.5	@0.7	mAP	HIT@1
(a)					61.61	41.75	40.71	62.6	47.48	39.27	61.61
(b)	$\checkmark$				63.08	44.03	42.76	63.1	49.23	40.21	65.35
(c)		$\checkmark$			62.3	43.53	42.84	62.65	47.81	39.64	63.61
(d)			$\checkmark$		65.21	43.36	43.27	65.35	49.42	40.42	65.55
(e)				$\checkmark$	63.1	44.08	43.24	62.58	47.42	39.03	61.61
(f)	$\checkmark$	$\checkmark$			63.17	44.11	43.33	64.45	48.97	39.86	63.35
(g)			$\checkmark$	$\checkmark$	65.58	44.78	44.16	65.16	48.77	40.24	64.9
(h)	$\checkmark$		$\checkmark$	$\checkmark$	66.44	45.43	44.99	65.81	50.39	40.72	65.87
(i)		$\checkmark$	$\checkmark$	$\checkmark$	65.4	46.3	45.51	65.23	50.39	39.86	64.26
(j)	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	67.19	46.05	46.0	66.9	51.68	40.57	66.58

AD와 CDL은 각각 Contrastive Denoising Learning과 Auxiliary Data를 의미한다.

Table 6: 모델 파라미터가 성능에 미치는 영향.

Encoder Layers	MR					HD
	mAP			R1		$\geq$ Very Good
	@0.5	@0.75	Avg	@0.5	@0.7	mAP	HIT@1
Baseline (2CAT & 2SAT)	61.61	41.75	40.71	62.6	47.48	39.27	61.61
MS-DETR (2CAT & 2SAT)	$\underline{62.61}$	$\underline{42.72}$	$\underline{42.08}$	$\underline{62.77}$	$\underline{47.61}$	$\underline{39.93}$	$\underline{63.1}$
Baseline (4CAT & 2SAT)	62.09	42.96	41.13	62.71	47.87	38.69	60.65
MS-DETR (4CAT & 2SAT)	63.08	44.03	42.76	63.1	49.23	40.21	65.35

MR 데이터셋 TACoS 및 Charades-STA 결과
Table 2와 Table 3은 MR 데이터셋인 TACoS 및 Charades-STA에 대한 비교 결과를 보여준다. TACoS의 경우, test 및 val 분할 모두에 대한 metric을 보고하며, 우리의 방법은 현재 SOTA를 상당한 차이로 능가한다. 특히 test 분할에서 R@0.5는 3.39%, mIoU는 2.75% 향상되었다. 유사하게, Charades-STA에서도 우리의 방법은 우수한 성능을 보여주었으며, 이는 다양한 데이터셋에 걸쳐 우리가 제안한 접근 방식의 견고성과 효과를 더욱 입증한다.

HD 데이터셋 TVsum 결과
HD 벤치마크 결과는 Table 4에 보고되어 있다. decoder 출력에서 파생된 MR과 달리, HD의 salience score는 encoder 출력을 사용하여 계산된다. 우리의 접근 방식은 비디오 feature에만 의존하는 현재 SOTA를 능가할 뿐만 아니라, 추가 오디오 feature를 통합하는 방법들까지도 상당한 차이로 뛰어넘는다는 점이 주목할 만하다.

4.3 Ablation study

제안된 방법의 각 주요 구성 요소의 기여도를 표 5에서 살펴본다. 우리는 **Exp. (a)**에서 [34]의 프레임워크 디자인을 baseline 모델로 따른다. **Exp. (b)부터 (e)**는 baseline (a)와 비교하여 각 구성 요소의 효과를 보여준다.

**(b)**는 각 비디오 클립 표현에 motion-semantics context를 통합하는 것을 보장한다.
**(c)**는 MR 및 HD task 간의 temporal motion 및 spatial semantics 차원에서 잠재적인 시너지를 최대한 활용한다.
**(d)**는 motion-semantics 차원 모두의 희소성 어노테이션 딜레마를 효과적으로 완화한다.

여기서 CDL만 단독으로 수행하면 HD의 HIT1과 MR task의 R1에서 약간의 성능 저하가 발생하는데, 이는 CDL이 독립적으로 기능하도록 설계된 것이 아니라 보조 데이터에 대한 motion-semantics disentangled representation을 최적으로 활용하도록 설계되었기 때문이다. Exp. (b)-(e)와 (f)-(i)를 비교하면, 구성 요소들이 서로 효과적으로 보완하여, 제안된 접근 방식의 각 주요 구성 요소의 견고성과 효과성을 더욱 검증함을 알 수 있다.

Figure 4: QVHighlight 데이터셋 [18]의 비디오 클립에 대한 예측 비교 시각화. 빨간색, 녹색, 파란색은 각각 ground truth, 우리의 MS-DETR, 그리고 baseline의 정성적 결과를 나타낸다. (화면 확대 시 가장 잘 보임)

또한, MSDE의 개선이 파라미터 증가 때문이 아님을 확인하기 위해 표 6에서 비교를 수행한다. 공정한 비교를 위해 baseline의 cross-attention Transformer layer (CAT) 및 self-attention Transformer layer (SAT) 수를 각각 4개와 2개로 확장하고, MSDE의 파라미터는 각각 2개의 CAT와 2개의 SAT로 줄였다. 결과는 성능 향상이 단순히 파라미터 증가 때문이 아니라, MSDE가 더 Fine-Grained Motion-Semantics Representation을 학습하는 능력 때문임을 나타낸다.

4.4 Qualitative Results

Fig. 4에서는 QVHighlights 데이터셋에 대한 MS-DETR의 정성적(qualitative) 결과를 시각화한다. baseline [34]과 비교했을 때, MS-DETR은 검색 정확도(retrieved accuracy)와 하이라이트 점수 분포 측면에서 더 합리적이고 정확한 결과를 보여준다. Fig. 4(a)와 (b)에서 우리 모델은 미세한 시간적 움직임 feature, 즉 '먹는' 것과 '신발을 비교하는' 것을 식별하는 향상된 능력을 보여주며, 이는 순간 검색(moment retrieval)의 정밀도를 크게 향상시킨다. Fig. 4(c)에 대해, baseline 모델은 '작은 허브'와 같은 세부적인 의미 정보(detailed semantics information)를 처리하는 데 어려움을 겪어, 덜 정확한 검색 결과를 초래한다.

5 CONCLUSION

비디오 내 temporal-spatial embedding에 포함된 풍부한 motion-semantics 정보 간의 상관관계를 효과적으로 활용하기 위해, 본 논문에서는 분리된 motion-semantics 표현 학습을 크게 발전시키는 MS-DETR이라는 통합 MR/HD 프레임워크를 제안한다.
첫째, 우리는 비디오 내에서 temporal motion과 spatial semantics 차원을 명시적으로 구분하고, 각 차원에서 더욱 정제된 정보와 상호작용하도록 **Motion-Semantics Disentangled Encoder (MSDE)**를 설계한다.
둘째, 상호 시너지적인 task 학습을 통해 motion-semantics feature의 활용을 강화하기 위해 **Mutual Task-Collaborated Decoder (MTCD)**를 제안한다.
마지막으로, 데이터 희소성 문제를 해결하고 contrastive denoising을 통해 견고한 모델 학습을 보장하기 위해 새로운 motion-semantics 보조 데이터 contrastive learning 전략을 제안한다.
MR/HD 벤치마크에 대한 광범위한 실험 결과, 우리 방법이 기존 SOTA를 능가함을 입증한다.

한계점 (Limitation)
우리가 제안한 MS-DETR은 비디오 내의 풍부한 motion-semantics 정보를 효과적으로 활용하고 기존 SOTA를 능가하지만, 현재의 한계점은 멀티모달 데이터의 불완전한 활용에 있다. 구체적으로, 오디오와 같은 다른 중요한 모달리티를 광범위하게 통합하지 않아, 이는 맥락을 풍부하게 하고 분석 정확도를 향상시킬 수 있는 기회를 놓치게 된다. 이러한 한계는 오디오 또는 다른 모달리티가 중요한 시나리오에서 효과를 제한할 수 있다. 향후 연구에서는 추가 모달리티를 통합하여 우리 프레임워크의 견고성과 적용 가능성을 향상시킴으로써 이 문제를 해결할 것이다.