Pujol-Perich, David, Sergio Escalera, and Albert ClapÃŠs. "Sparse-Dense Side-Tuner for efficient Video Temporal Grounding." arXiv preprint arXiv:2507.07744 (2025).

Sparse-Dense Side-Tuner for efficient Video Temporal Grounding

David Pujol-Perich, Sergio Escalera, Albert Clapés Universitat de Barcelona and Computer Vision Center, Barcelona, Spain<br>{david.pujolperich, sescalera, aclapes}@ub.edu

Abstract

Video Temporal Grounding (VTG)은 텍스트 쿼리를 기반으로 하는 Moment Retrieval (MR)과 Highlight Detection (HD)을 포함한다. 이를 위해 대부분의 방법들은 frozen된 대규모 사전학습 backbone의 최종 layer feature에만 의존하여, 새로운 도메인에 대한 적응성이 제한적이다.
전체 fine-tuning은 종종 비실용적이지만, parameter-efficient fine-tuning, 특히 **side-tuning (ST)**이 효과적인 대안으로 부상했다. 그러나 기존 ST 접근 방식들은 이 문제를 프레임 수준의 정제(refinement) 관점에서 접근하여, MR의 본질적인 희소성(sparse nature)을 간과했다.
이러한 문제를 해결하기 위해 우리는 **VTG를 위한 최초의 anchor-free ST 아키텍처인 Sparse-Dense Side-Tuner (SDST)**를 제안한다. 또한, Reference-based Deformable Self-Attention을 도입하는데, 이는 기존 anchor-free 방법들의 주요 한계점인 deformable attention의 context modeling을 향상시키는 새로운 메커니즘이다.
추가적으로, 우리는 InternVideo2 backbone을 ST 프레임워크에 효과적으로 통합한 최초의 사례를 제시하며, 이것이 성능에 미치는 지대한 영향을 보여준다.
종합적으로, 우리의 방법은 기존 ST 방법들을 크게 개선하여 QVHighlights, TACoS, Charades-STA 벤치마크에서 매우 경쟁력 있는 또는 SOTA 결과를 달성했으며, 동시에 기존 SOTA 방법 대비 최대 73%의 파라미터 수를 절감했다. 코드는 https://github.com/davidpujol/SDST에서 공개적으로 접근 가능하다.

1. Introduction

최근 검색 엔진이나 추천 시스템과 같은 응용 분야에서의 잠재력 덕분에 비디오 이해(Video Understanding) 분야가 주목받고 있다. 이 분야의 핵심 task 중 하나는 **텍스트 설명에 기반하여 비디오 내 특정 순간을 찾아내는 Video Temporal Grounding (VTG)**이다. 일반적으로 VTG는 Moment Retrieval (MR) [6, 14, 18, 8, 2]과 Highlight Detection (HD) [1, 12, 37, 44, 10]을 모두 포함한다. 더 구체적으로, MR은 텍스트 쿼리에 대한 순간 경계(moment boundary)를 예측하는 반면, HD는 프레임 수준의 saliency score를 예측하여 더 해석 가능한 관점을 제공한다.

과거에는 두 task를 모두 결합한 데이터셋이 부족하여 기존 연구들은 MR 또는 HD 중 하나에만 집중했다. QVHighlights [18]는 이러한 패러다임을 바꾸어, 멀티태스크 설정에 적합한 최초의 데이터셋을 제안했다. 그 이후로 anchor-based [26, 20, 2, 25], anchor-free [18, 29, 8], 심지어 LLM-based [27, 28] 접근 방식에 이르기까지 다양한 연구들이 제안되었다. 그러나 이 모든 방식들은 frozen backbone의 최종 layer feature에 의존한다는 공통적인 치명적인 한계를 가지고 있다. 이는 사전학습 분포와 다운스트림 task의 분포 사이에 큰 차이가 있을 때 특히 제한적이다 [33]. 이러한 문제는 이미지 도메인 backbone [35]이 비디오 도메인으로 전이되는 VTG에서 특히 두드러진다.

Figure 1: 제안하는 방법과 주요 MR (왼쪽) 및 HD (오른쪽) baseline의 비교. 이들은 모두 QVHighlights val split에서 평가되었으며 InternVideo21B feature를 사용한다. 이 결과들은 우리의 방법이 기존 side-tuning 연구들을 개선하고, 학습 가능한 파라미터 수를 크게 줄이면서도 SOTA 결과를 달성함을 보여준다.

일반적인 해결책은 fine-tuning이지만, 전체 fine-tuning은 높은 계산 비용으로 인해 비실용적이다. 따라서 이를 더 효율적으로 수행하는 것이 중요해졌고, 이는 parameter-efficient fine-tuning (PEFT) [11] 방법들(예: Prompting 또는 Adapters)에 대한 관심을 불러일으켰다. 이 방법들은 파라미터의 작은 부분집합만을 최적화한다. 불행히도, 이들은 여전히 backbone을 통한 전체 역전파(back-propagation)를 필요로 하므로 메모리 집약적이다. 이를 해결하기 위해 [38]은 side-tuning (ST) 이라는 효과적인 PEFT이자 memory-efficient fine-tuning (MEFT) 방법을 도입했다. ST는 중간 feature를 정제하기 위한 병렬 경로를 생성하여, 최소한의 파라미터 집합에 대해서만 역전파를 수행한다. 이와 관련하여, 우리는 VTG를 위한 최초의 ST 접근 방식인 R $^2$ -Tuning [25]을 강조한다. 이는 멀티모달 중간 CLIP [35] 임베딩을 재귀적으로 융합한다. [25]는 또한 조밀한 anchor 집합을 생성하여 MR을 위해 이러한 프레임 수준 임베딩을 적용하는 것을 제안한다. Fig. 1에서 보듯이, 이 방법은 MR에는 비효율적임이 입증되었다. MR은 비디오에 ground-truth action이 거의 없을 수 있는 매우 희소한(sparse) task이기 때문이다.

이러한 배경에서 우리는 최초의 proposal-free ST 방법이자, 희소한(sparse) MR task와 조밀한(dense) HD task 간의 멀티태스크 학습을 위해 신중하게 설계된 듀얼 스트림 Sparse-Dense SideTuner (SDST) 를 제안한다. 이를 위해 SDST는 HD에 적합한 프레임 수준 임베딩을 공동으로 정제하는 동시에, MR을 위한 recurrent decoder query를 학습한다. 우리는 또한 우리와 같은 anchor-free 아키텍처의 deformable attention [50] 모듈에 내재된 암묵적인 문맥적 한계를 식별했는데, 이는 우리 task에서 offset이 초기화 값 주변으로 붕괴되는 결과를 초래한다. 이는 또한 현재 추정된 순간 경계 외부의 key 선택을 방해하는데, 이는 더 긴 순간의 경계를 잠재적으로 정제하는 데 중요하다. 결과적으로, 우리는 CA를 SA 기반 메커니즘으로 재구성하여 이 문제를 자연스럽게 해결하는 대안적인 Reference-based Deformable Self-Attention (RDSA) 를 제안한다. 마지막으로, 우리는 [8]에서 언급된 바와 같이, 더 발전된 spatio-temporal VLM [40]에 비해 이미지 기반 CLIP을 사용하는 ST 방법의 성능 저하 문제를 해결한다. 그러나 [40]을 활용하는 데 있어 핵심적인 과제는 효과적인 token pooling 전략을 정의하는 것이다. CLS pooling과 같은 단순한 전략은 상당한 성능 저하를 야기하기 때문이다. 이는 우리가 제안하는 모듈 재활용(re-utilization) 방식을 통해 InternVideo2 [40]를 ST 프레임워크에 최초로 성공적으로 통합하는 결과를 가져왔다.

요약하자면, 우리의 주요 기여는 세 가지이다:

우리는 VTG와 같은 복잡한 sparse-dense 멀티태스크 설정에 특별히 맞춤화된 최초의 anchor-free ST 아키텍처인 SDST를 제안한다. 우리의 방법은 QVHighlights [18], TACoS [36], Charades-STA [6]에서 기존 ST 아키텍처를 크게 능가한다 (Fig. 1 참조). SDST는 또한 기존 SOTA와 경쟁력 있는 성능을 보이거나 심지어 능가하며, 학습 가능한 파라미터 수를 최대 73%까지 줄이고 최소한의 메모리 오버헤드를 발생시킨다.
우리는 deformable attention 메커니즘의 핵심적인 문맥적 한계를 식별했는데, 이는 우리 task에서 offset이 붕괴되는 결과를 초래한다. 결과적으로, 우리는 더 복잡한 key-selection 전략을 허용하여 이 문제를 해결하는 RDSA를 제안한다.
우리는 이미지 도메인 backbone에서 비디오 도메인으로의 전이 학습의 한계를 해결하기 위해, 더 발전된 spatio-temporal backbone [40]을 ST 프레임워크에 최초로 통합한다. 이는 막대한 성능적 함의를 가진 비trivial한 도전 과제임이 입증되었다.

비디오 시간적 접지 (Video temporal grounding, VTG): 비디오 이해(Video Understanding)에서 중요한 task 중 하나는 텍스트 쿼리로부터 동작을 식별하는 VTG [20]이다. 전통적으로 이 task는 MR (Moment Retrieval) [6, 14, 18, 30, 29, 8, 2] 또는 HD (Highlight Detection) [1, 12, 37, 44, 10] 관점에서 접근되었다. MR은 특정 동작 제안(action proposal)을 예측하는 데 중점을 두는 반면, HD는 쿼리에 대한 각 프레임의 saliency score를 계산하는 것을 목표로 한다.
그럼에도 불구하고, QVHighlights [18]가 제안된 이후, 문헌에서는 이를 multi-task learning 관점에서 접근하기 시작했다. 이와 관련하여, MR의 희소한(sparse) 특성을 고려할 때, DETR 기반 방법론 [18, 30, 29, 17, 8, 43]이 가장 주목할 만한 계열이라고 할 수 있다. 이러한 방법들은 일반적으로 비디오와 텍스트 모달리티를 최종 embedding으로 융합하며, 이 embedding은 HD에 사용되고, 학습 가능한 쿼리 세트를 정제하는 Transformer decoder의 memory로도 사용된다.
더 자세히 살펴보면, Moment-DETR [18]는 두 모달리티를 동시에 처리하기 위해 표준 Transformer encoder를 사용하는 최초의 baseline이다. QD-DETR [30]는 대신 **cross attention (CA)**을 통해 텍스트 정보를 비디오 모달리티에 주입한 후, temporal modeling 모듈을 적용하는 방식을 제안한다. CG-DETR [29]는 dummy token을 활용하여 attention 가중치를 재조정하는 Adaptive CA 모듈을 추가함으로써 관련 없는 텍스트 토큰의 부정적인 영향을 줄인다. 이와 같은 맥락에서, SG-DETR [8]는 계산된 saliency score를 기반으로 관련 없는 텍스트 토큰의 기여도를 가중치화하는 saliency-guided CA를 도입한다.
이러한 proposal-free 방법론들의 주목할 만한 성공에도 불구하고, 이들이 공통적으로 공유하는 핵심 한계점은 frozen CLIP [35] 및/또는 Slowfast [4] backbone의 마지막 layer feature에만 의존한다는 것이다. [45]는 CLIP의 전체 fine-tuning을 통해 이러한 한계를 극복하지만, 이는 필요한 자원을 고려할 때 거의 다루기 어렵다(intractable). 우리 연구와 가장 유사한 방법인 R $^2$ -Tuning [25]은 VTG를 위한 최초의 PEFT (Parameter-Efficient Fine-Tuning) 및 MEFT (Memory-Efficient Fine-Tuning) 방법을 제안하여 이 한계를 극복한다. 이 방법은 multi-modal fusion ST를 재귀적으로 적용한다. 그러나 본 연구에서는 R $^2$ -Tuning의 핵심 단점 중 하나가 anchor-based 방식이라는 점이며, 이는 MR [23, 19, 8]과 같이 매우 희소한 task에서 DETR 기반 아키텍처가 보여준 이점을 간과한다는 점을 지적한다. 이러한 점이 PEFT와 MEFT의 장점을 모두 통합한 우리가 제안하는 SDST의 동기가 된다.

파라미터 및 메모리 효율적인 fine-tuning (Parameter-and-memory-efficient fine-tuning): Foundation model과 VLM [35, 41]은 비디오 이해 애플리케이션의 최근 발전에서 핵심적인 역할을 해왔다. 그러나 사전 추출된 feature의 사용은 VTG [20]와 같은 다운스트림 task에 적용하는 데 여전히 중요한 한계점으로 남아있다. 이러한 거대한 모델들을 fine-tuning하는 것은 필요한 막대한 자원 때문에 종종 단순히 불가능하다. 이러한 배경은 PEFT [11]의 부상을 촉진했으며, PEFT는 튜닝 가능한 파라미터를 최소한으로 제한함으로써 fine-tuning 프로세스를 대중화하는 것을 목표로 한다. 이와 관련하여 가장 두드러진 접근 방식 중 일부는 Prompting [15, 49]과 Adapter [32, 7]의 사용이다. Prompting은 backbone을 frozen 상태로 유지하면서 입력에 추가되는 prompt를 학습하여, backbone의 예상 분포와 다운스트림 task의 분포 사이의 간극을 메운다. 반면 Adapter는 backbone 내부에 작은 학습 가능한 모듈을 통합하고 나머지는 변경하지 않는다. 그러나 이러한 방법들은 여전히 frozen 모델을 통한 전체 backpropagation을 필요로 하여 메모리 효율적이지 못하다. 최근에는 ST (Side-Tuning) [22, 38, 34]의 새로운 패러다임, 특히 VTG를 위한 [25]가 주목을 받으며, 중간 backbone 표현을 활용하기 위한 병렬 경로를 생성하는 동시에 backpropagation이 이 작은 병렬 모듈에만 적용되도록 보장한다. 흥미롭게도, 이러한 방법들은 일반적으로 HD/MR과 같은 task를 위해 사전 추출된 CLIP 표현에 의존한다. [8]에서 보여주듯이, 이는 CLIP의 temporal reasoning 능력 부족이나 단순한 공간적 설명을 넘어선 텍스트 쿼리 이해의 어려움을 고려할 때 매우 제한적인 측면이다. 이러한 이유로, 본 연구에서는 최초로 더 발전된 InternVideo2 [40] backbone에 의존하는 새로운 ST 아키텍처를 제안한다. CLIP과 달리, 이 backbone은 비디오 도메인 입력으로 학습되어 향상된 공간 및 시간 모델링 기능을 제공한다.

Deformable attention: SG-DETR [8]와 같은 대부분의 VTG SOTA 방법의 핵심 구성 요소는 deformable attention 모듈 [50, 42]이다. 이 모듈은 DETR [3]의 잘 알려진 느린 수렴 문제를 해결한다. 이는 학습 가능한 쿼리의 예측을 기반으로 선택 가능한 key를 제한함으로써, 쿼리 공간과 key 공간을 완전히 분리한다. 효율성 측면에서 바람직하지만, 문헌 [48]에서 이전에 지적되었듯이, key/value 공간에 대한 쿼리의 컨텍스트 부족은 최적 이하의 attend 가능한 key 선택으로 이어질 수 있다. VTG 방법들은 종종 DETR-memory [48] (즉, 우리의 경우 프레임 수준 표현)를 기반으로 학습 가능한 쿼리를 부분적으로 또는 완전히 초기화함으로써 이러한 효과를 완화한다. 본 연구에서는 VTG task에 대한 이러한 초기화 기반 방법의 한계를 경험적으로 입증하며, 이는 우리가 제안하는 간단하지만 효과적인 대안인 **Reference-based Deformable Self-Attention (RDSA)**의 동기가 된다. RDSA는 deformable CA를 deformable SA로 재구성하여 앞서 언급된 문제를 자연스럽게 해결한다.

3. Method

3.1. Problem definition

본 논문에서는 텍스트 설명을 기반으로 한 MR(Moment Retrieval) 및 HD(Highlight Detection) 문제를 다룬다. 이를 위해 우리는 임의의 입력-쿼리 쌍 $(\mathbf{X}^{v}, \mathbf{X}^{t})$ 을 고려한다. 여기서 $\mathbf{X}^{v} \in \mathbb{R}^{T \times H \times W \times 3}$ 는 비디오 입력이고, $\mathbf{X}^{t} \in \mathbb{R}^{L \times F_{e}}$ 는 텍스트 쿼리이다. $T$ 와 $L$ 은 각각 프레임 수와 토큰 수를 나타내며, $F_{e}$ 는 텍스트 인코딩 차원이다. 우리의 목표는 주어진 비디오-쿼리 쌍에 대해, HD를 위한 프레임별 saliency score $\mathbf{Y}^{s} \in \mathbb{R}^{T}$ 와 MR을 위한 $M$ 개의 action moment $\mathbf{Y}^{m} \in \mathbb{R}^{M \times 2}$ 를 예측하는 것이다.

3.2. Overview

본 연구에서는 MR과 HD를 위해 각각 dense (프레임 레벨) 및 sparse (세그먼트 레벨) 스트림을 포함하는 듀얼 스트림 ST 아키텍처를 제안한다 (Fig. 2a 참조).
구체적으로, 우리는 먼저 강력한 시공간 모델링 능력을 가진 frozen InternVideo21B [40] backbone을 활용하여 $K$ 개의 중간 시각-텍스트 표현(visual-textual representation)을 추출한다. 이 표현들은 여러 개의 가중치 공유 SDST layer에 의해 처리되며, 이 layer들은 dense representation과 recurrent decoder query를 정제한다.
더 자세히 설명하면, 각 레벨에서 모델은 멀티모달 텍스트 조건화(textual conditioning) 및 **시간 모델링(temporal modeling)**을 통해 dense embedding을 정제한다. 이 신호는 sparse 스트림 $\mathcal{S}$ 를 조건화하는 데 사용된다. sparse 스트림은 [19]를 기반으로 하며, 우리의 새로운 deformable attention 메커니즘인 Reference-based Deformable Self-Attention을 통합한다 (Fig. 2b 참조). 이는 deformable CA 메커니즘의 단점을 완화하고, decoder query의 contextual information을 향상시켜 선택된 key의 품질을 개선한다.
이 과정을 $K$ 번 반복한 후, dense 및 sparse prediction head를 적용하여 각각 saliency score와 예측된 세그먼트 경계를 계산한다.

3.3. Sparse-Dense Side-Tuner (SDST)

우리의 연구는 ST 프레임워크를 기반으로 하며, 이는 먼저 $K$ 개의 중간 비디오 및 텍스트 feature인 $\tilde{\mathbf{V}} \in \mathbb{R}^{K \times T \times F_{v}}$ 와 $\tilde{\mathbf{T}} \in \mathbb{R}^{K \times L \times F_{t}}$ 를 추출하는 것을 필요로 한다 (자세한 내용은 Sec. 4 참조). 여기서 $F_{v}$ 와 $F_{t}$ 는 각각의 차원이다.
다음으로 우리는 zero-initialized dense embedding $\mathbf{D}^{0} \in \mathbb{R}^{T \times F}$ 와 [23]에서 영감을 받은 $M$ 개의 학습 가능한 recurrent moment proposal을 정의하는데, 이를 recurrent decoder query라고 부른다. 이 query에는 학습 가능한 center-width moment reference $\mathbf{R}^{0} \in \mathbb{R}^{M \times 2}$ 와 그에 상응하는 latent embedding $\mathbf{H}^{0} \in \mathbb{R}^{M \times F}$ 가 포함된다.
이후, 주어진 레벨 $1 \leq \ell \leq K$ 에 대한 **재귀(recurrence)**를 다음과 같이 정의한다:

\mathbf{D}^{\ell+1}, \mathbf{R}^{\ell+1}, \mathbf{H}^{\ell+1}=\operatorname{SDST}\left(\mathbf{D}^{\ell}, \mathbf{R}^{\ell}, \mathbf{H}^{\ell}, \tilde{\mathbf{V}}^{\ell}, \tilde{\mathbf{T}}^{\ell}\right),

여기서 SDST는 우리 모델의 가중치 공유(shared-weight) layer를 나타내며, 아래에서 설명할 두 가지 스트림, 즉 **1) dense learning stream $\mathcal{D}$ **와 **2) sparse learning stream $\mathcal{S}$ **를 통해 표현을 점진적으로 정제한다.

3.3.2 Dense learning stream $\mathcal{D}$

[25]에 따라, 이 stream은 먼저 **dense embedding $\mathbf{D}^{\ell}$ **를 video-textual embedding $\tilde{\mathbf{V}}^{\ell}$ 및 $\tilde{\mathbf{T}}^{\ell}$ 에 조건화하여 정제한다. 이를 위해, 이 두 멀티모달 embedding은 두 개의 $\operatorname{MLP}\left(\mathcal{F}_{v}: F_{v} \rightarrow F\right.$ 및 $\left.\mathcal{F}_{t}: F_{t} \rightarrow F\right)$ 를 사용하여 공유된 $F$ -차원 공간으로 투영된다:

\mathbf{V}^{\ell}=\mathcal{F}_{v}\left(\tilde{\mathbf{V}}^{\ell}\right), \mathbf{T}^{\ell}=\mathcal{F}_{t}\left(\tilde{\mathbf{T}}^{\ell}\right) .

그 다음, clip-wise visual information을 $\mathbf{D}^{\ell}$ 에 통합하는데, 이는 **0으로 초기화된 layer-dependent parameter $\beta^{\ell} \in[0,1]$ 에 의해 조절되는 가중합(weighted sum)**을 통해 이루어진다:

\mathbf{D}^{\ell}:=\beta^{\ell} \mathbf{D}^{\ell}+\left(1-\beta^{\ell}\right) \mathbf{V}^{\ell} .

이후, CA를 통해 텍스트 정보를 주입하며, 이때 $\mathbf{T}^{\ell}$ 는 CLS token을 포함하지 않는다. 또한, **SA와 그 뒤에 이어지는 point-wise feed forward network (PFFN)**로 정의된 temporal modeling module을 적용한다:

\mathbf{D}^{\ell+1}=P F F N\left(S A\left(C A\left(\mathbf{D}^{\ell}, \mathbf{T}^{\ell}, \mathbf{T}^{\ell}\right)\right)\right),

Figure 2: 우리의 방법(왼쪽)은 먼저 [40]을 사용하여 비디오 및 텍스트 입력을 처리한 다음, 마지막 $K$ 개 layer에 연결된 recurrent dual-stream model인 공유 SDST를 재귀적으로 적용한다. 이는 dense embedding과 학습 가능한 recurrent decoder query를 반복적으로 정제한다. SDST는 **temporal 및 multi-modal dense refinement를 위한 dense stream $\mathcal{D}$ **와 **dense signal에 조건화된 recurrent query를 정제하는 sparse stream $\mathcal{S}$ **로 구성된다. $\mathcal{S}$ 는 **RDSA 모듈(오른쪽)**을 포함하는데, 이는 중앙, 가장 왼쪽, 가장 오른쪽 action embedding을 기반으로 선택 가능한 key를 제한하는 context enhanced deformable attention mechanism이다. 최종 dense embedding은 HD를 해결하고, recurrent query는 MR을 처리한다.

3.3.3 Sparse learning stream $\mathcal{S}$

이 스트림은 희소(sparse) task (MR)와 밀집(dense) task (HD)의 상호 보완성을 활용하여 recurrent decoder query를 정제하는 recurrent DETR 기반 메커니즘으로 볼 수 있다. 이는 center-width reference $\mathbf{R}^{\ell} \in \mathbb{R}^{M \times 2}$ 와 그 잠재 임베딩 $\mathbf{H}^{\ell} \in \mathbb{R}^{M \times F}$ 를 정제하는 과정이다. 스트림 $\mathcal{D}$ 와 유사하게, 우리는 먼저 $\mathbf{H}^{\ell}$ 를 텍스트 쿼리에 조건화하는 CA 모듈을 통합한다. 이어서 서로 다른 moment proposal 간의 정보 흐름을 가능하게 하는 SA 모듈이 뒤따른다:

\mathbf{H}^{\ell}=S A\left(C A\left(\mathbf{H}^{\ell}, \mathbf{T}^{\ell}, \mathbf{T}^{\ell}\right)\right) .

이 스트림의 또 다른 필수적인 측면은 recurrent decoder query를 비디오 modality에 효과적으로 조건화하는 것이다. 기존 연구들 [23, 19, 8]은 일반적으로 수렴 및 성능 이점 [50, 42] 때문에 deformable attention 사용에 의존한다. 이 메커니즘은 attention query를 활용하여 선택 가능한 제한된 key 집합을 정의하는 offset을 예측한다. 그러나 이 task에서 우리는 다음을 관찰했다:

이러한 offset이 초기화 지점 근처에서 붕괴하고,
현재 추정된 경계를 넘어설 수 없다는 점 (Sec.6.2 참조). 우리는 이를 맥락적 한계(contextual limitations)에 기인한다고 보며, 이는 향상된 cross-modality 주입을 가능하게 하는 우리가 제안하는 Reference-based Deformable SelfAttention (RDSA)의 동기가 된다 (Sec. 3.3.4 참조). 우리는 또한 모델의 표현력을 향상시키기 위해 간단한 PFFN을 통합한다:

\mathbf{H}^{\ell}=P F F N\left(R D S A\left(\mathbf{R}^{\ell}, \mathbf{H}^{\ell}, \mathbf{D}^{\ell+1}\right)\right) .

중요하게도, 이 모든 모듈은 파라미터 효율성을 위해 $K$ 개 레벨에 걸쳐 공유되며, 안정성 및 정규화를 위해 residual connection과 DropPath [16]를 포함한다.

3.3.4 Reference-based deformable self-attention

기존 anchor-free 방식 맥락에서의 Deformable attention: DETR과 같은 최근의 anchor-free 방식들(VTG를 다루는 연구들 [8] 포함)의 성공에 핵심적인 요소 중 하나는 cross-modal interaction을 위한 deformable attention 메커니즘 [50]의 사용이다. 이 메커니즘은 더 빠른 수렴 속도, 감소된 시간 복잡도를 제공하며, Sec. K에서 보여주듯이 표준 CA보다 전반적으로 더 나은 성능을 제공하는 것으로 알려져 있다. Fig. 2b (하단)에 묘사된 바와 같이, 이 모듈의 핵심은 query와 key 간의 명시적인 상호작용이 없다는 점이다. Query와 key는 다음과 같이 정의된다:

\mathbf{Q}=\mathbf{X}_{\mathcal{Q}} \mathbf{W}_{\mathcal{Q}}^{\text {def }}, \mathbf{K}=\mathbf{X}_{\mathcal{K}} \mathbf{W}_{\mathcal{K}}^{\text {def }},

여기서 $\mathbf{W}_{\mathcal{Q}}^{\text {def }}, \mathbf{W}_{\mathcal{K}}^{\text {def }}$ 는 두 개의 선형 projection이다. 따라서 deformable attention은 $\mathbf{Q} \mathbf{K}^{T}$ 유사도 행렬을 계산하는 것을 피하고, 대신 offset 및 attention-score 예측기인 $\mathcal{G}_{\Delta}$ 와 $\mathcal{G}_{\mathbf{A}}$ 를 사용하여 query에만 기반하여 선택 가능한 key의 작은 부분 집합 $P$ 를 선택하고 가중치를 부여한다. 이 메커니즘의 출력인 선택된 key들의 가중 집계(weighted aggregation), 즉 $\mathbf{S}$ 는 다음과 같이 계산된다:

\begin{array}{r} \Delta=\mathcal{G}_{\Delta}(\mathbf{Q}) \in \mathbb{R}^{M \times P}, \mathbf{A}=\mathcal{G}_{\mathbf{A}}(\mathbf{Q}) \in \mathbb{R}^{M \times P} \\ \quad \mathbf{S}=\sum_{p=1}^{P}\left(\mathbf{A}_{:, p} \mathbf{K}\left[\mathbf{c}+\mathbf{w} \odot \Delta_{:, p}\right]\right) \in \mathbb{R}^{M \times F} \end{array}

여기서 $\mathcal{G}_{\Delta}, \mathcal{G}_{\mathbf{A}}$ 는 종종 CNN으로 모델링되며, $x[y]$ 는 인덱스 $y$ 에 대한 $x$ 의 bilinear sampling이다. 특히, 우리의 2차원 설정에서 offset $\Delta_{:, p}$ 는 중심 참조 $\mathbf{c}=\mathbf{R}_{:, 0}^{\ell} \in \mathbb{R}^{M}$ 에 추가되고, action width $\mathbf{w}=\mathbf{R}_{:, 1}^{\ell} \in \mathbb{R}^{M}$ 에 걸쳐 가중치가 부여된다. 추가 세부 사항은 Sec. K를 참조하라.

한계점: 흥미롭게도, 문헌에서 deformable attention에 관해서는 대부분의 연구들이 deformable self-attention 또는 cross-attention을 다루는지 여부와 무관하게 작동하며, 이 메커니즘의 이점이 두 시나리오 모두에 적용된다고 가정한다. 그러나 본 연구에서는 실제로 deformable attention은 self-attention 시나리오에만 자연스럽게 적합하다는 것을 발견했다. 그 이유는 deformable attention의 효과가 $\mathbf{Q}$ 와 $\mathbf{K}$ 간의 암묵적인 상호작용에 본질적으로 의존하기 때문인데, 이는 cross-attention의 경우에는 존재하지 않는다. 구체적으로, **self-attention 설정에서는 $\mathbf{X}_{\mathcal{Q}}=\mathbf{X}_{\mathcal{K}}$ **이다 (Eq. 7 참조). 따라서 $\mathcal{G}_{\Delta}$ 와 $\mathcal{G}_{\mathbf{A}}$ 를 CNN으로 모델링하면 query가 query의 로컬 이웃(local neighborhood)에 대한 context를 얻을 수 있고, 결과적으로 key/value 공간에 대한 context를 얻을 수 있다. 이는 그들의 독립성 가정을 깨뜨리고, query에게 어디를 봐야 할지 결정하는 중요한 정보를 제공한다.

중요하게도, 이는 deformable cross attention의 경우에는 해당되지 않는다. deformable cross attention에서는 key로부터 query로 cross-modal 정보를 주입하려고 시도하는데, 이것이 본 연구의 목표이다. 이 시나리오에서는 $\mathbf{X}_{\mathcal{Q}} \neq \mathbf{X}_{\mathcal{K}}$ 이므로, CNN 기반 offset 예측기를 사용해도 key/value 공간에 대한 지식이 주입되지 않아 예측이 맹목적이거나 이전 반복의 맹목적인 예측에 기반하게 된다. 구체적으로, Sec. 6.2에서는 우리의 task에서 이러한 순진한(naive) deformable cross-attention의 단점이 offset 초기화 값 근처에서의 offset collapse 또는 추정된 action 경계를 넘어선 프레임에서 key를 선택할 수 없는 무능력과 같은 다양한 경험적 함의를 가진다는 것을 보여준다. 이는 세그먼트를 더 긴 action으로 정제하는 데 중요하다. 이러한 문제점은 우리가 제안하는 Reference-based Deformable Self-Attention(RDSA)을 개발하는 동기가 되었다. RDSA는 deformable CA 모듈을 참조 $\mathbf{R}^{\ell}$ 에 기반한 deformable SA로 재구성할 수 있는 대안적인 메커니즘이다.

우리가 제안하는 대안 (RDSA): 우리가 제안하는 RDSA (Fig. 2b 참조)는 중심-너비 참조 $\mathbf{R}^{\ell} \in \mathbb{R}^{M \times 2}$ 와 dense embedding $\mathbf{D}^{\ell} \in \mathbb{R}^{T \times F}$ 를 입력으로 받는다. 그런 다음, offset과 attention score를 계산하기 위해 학습 가능한 query $\mathbf{Q}=\mathbf{H}^{\ell}$ 를 활용하는 다른 방법들과 달리 (Eq. 8 참조), 우리는 대안적인 query embedding을 사용할 것을 제안한다. 구체적으로, 우리는 먼저 dense embedding $\mathbf{D}_{l}$ 을 간단한 CNN으로 정제하여 프레임이 주변의 로컬 context를 얻을 수 있도록 한다. 그런 다음, bilinear sampling을 사용하여 세 가지 핵심 action embedding을 추출한다: 가장 왼쪽(l), 중심(c), 가장 오른쪽(r). 중심은 매우 유익한 action feature를 제공하는 반면, 양쪽 끝은 순간 경계를 정제하는 데 도움을 준다. 이는 다음을 산출한다:

\hat{\mathbf{Q}}=\hat{\mathbf{X}}_{\mathcal{Q}} \mathbf{W}_{\mathcal{Q}}^{\text {def }}, \hat{\mathbf{X}}_{\mathcal{Q}}=C N N\left(\mathbf{D}^{\ell}\right)[l, c, r] .

여기서 $\hat{\mathbf{X}}_{\mathcal{Q}} \in \mathbb{R}^{M \times 3 F}$ 이다. 이는 Eq. 8을 다음과 같이 재작성한다:

\hat{\Delta}=\mathcal{G}_{\Delta}(\hat{\mathbf{Q}}), \hat{\mathbf{A}}=\mathcal{G}_{\mathbf{A}}(\hat{\mathbf{Q}}) .

마지막으로, 새로운 offset과 attention score $\hat{\Delta}$ 와 $\hat{\mathbf{A}}$ 를 사용하여 Eq. 9의 deformable attention을 적용한다. 이는 이전에 Eq. 5에서 주입한 텍스트 정보에 기반하여 action의 핵심 지점들이 어디를 봐야 할지 묻는 것으로 볼 수 있다. $\hat{\mathbf{X}}_{\mathcal{Q}}$ 와 $\mathbf{X}_{\mathcal{K}}$ 가 이제 동일한 잠재 공간에 존재하므로(둘 다 $\mathbf{D}^{\ell}$ 에서 파생되었으므로), 이는 표준 deformable CA의 context 한계를 자연스럽게 해결한다. 이를 통해 모델은 모든 핵심 계산 이점을 유지하면서 어떤 key에 attend할지에 대해 정보에 입각한 결정을 내릴 수 있다.

3.4. Prediction heads and training objectives

$K$ 개의 중간 layer에 걸쳐 SDST를 재귀적으로 적용한 후, 우리는 각각의 saliency score와 action segment proposal을 계산하고, 그에 상응하는 objective function을 정의한다. 아래에서 간략하게 설명하지만, 더 자세한 내용은 Sec. C를 참조하기 바란다.

Highlight Detection (HD): HD를 해결하기 위해, 우리는 saliency score를 dense embedding $\mathbf{D}^{K}$ 와 $\mathbf{T}^{K}$ 의 pooled representation 간의 cosine similarity로 정의한다. 그런 다음, 이러한 점수들의 순위를 학습하는 **InfoNCE loss [31]**를 적용한다.

\mathcal{L}_{H D}=\lambda_{0} \mathcal{L}_{\text {InfoNCE }}

Moment Retrieval (MR): MR을 해결하기 위해, 우리는 먼저 Hungarian algorithm을 적용하여 예측된 query와 GT action 간의 일대일 매칭을 얻는다. 그런 다음, $\mathbf{H}^{\ell}$ 를 투영하여 $M$ 개의 다른 query에 대한 **action probability $\mathbf{p} \in \mathbb{R}^{M}$ **를 계산하고, 이를 **FocalLoss [21]**로 학습한다. 또한, L1 loss와 IoU loss를 사용하여 최적화하는 **moment boundary $\hat{\mathbf{Y}}^{m} \in \mathbb{R}^{M \times 2}$ **를 계산한다. 마지막으로, L1 loss를 사용하여 actionness score를 학습하는데, 이는 각 query와 GT action 간의 최대 IoU를 예측한다.

\mathcal{L}_{M R}=\lambda_{1} \mathcal{L}_{a c t}+\sum_{l=1}^{\ell} \lambda_{2} \mathcal{L}_{c l s}^{\ell}+\lambda_{3} \mathcal{L}_{l 1}^{\ell}+\lambda_{4} \mathcal{L}_{I o U}^{\ell}

$\mathcal{L}_{\text {act }}$ 항을 제외한 모든 항은 더 빠른 수렴을 촉진하기 위해 다양한 refinement level에 걸쳐 최적화된다는 점에 유의하라.

Alignment losses: 비디오-텍스트 정렬을 개선하기 위해, 우리는 **두 개의 SampledNCE loss [46]**를 기반으로 $\mathcal{L}_{\text {align }}$ 을 정의하여 다양한 refinement level에 걸쳐 $\mathbf{V}$ 및 $\mathbf{T}$ embedding을 정렬한다. 우리는 이를 batch 차원과 중간 layer 차원 모두에 적용한다. 이는 action embedding을 텍스트 표현에 더 가깝게 당기면서 중간 layer에 걸쳐 보완적인 정보를 학습한다.

최종 loss: 최종 loss는 다음과 같이 정의된다.

\mathcal{L}=\lambda_{5} \mathcal{L}_{H D}+\lambda_{6} \mathcal{L}_{M R}+\lambda_{7} \mathcal{L}_{\text {align }}

4. Extracting intermediate representations of InternVideo2

ST의 핵심은 frozen VLM으로부터 중간 멀티모달 표현(intermediate multimodal representation)을 활용하는 것이다. 이전의 ST 접근 방식들은 주로 CLIP에 의존했지만, 우리는 CLIP이 시간 모델링(temporal modeling)과 단순한 정적 설명(static description)을 넘어선 시각 feature와 텍스트 쿼리 정렬(aligning visual features with textual queries)에 있어 주목할 만한 한계를 가지고 있다고 주장한다. 이러한 한계를 극복하기 위해, 우리는 **InternVideo2 [40]**를 프레임워크에 통합하여, 그것의 진보된 시공간 모델링 능력 [8]을 활용한다. 그러나 InternVideo2, 특히 그것의 visual encoder $\mathcal{E}_{v}$ 로부터 중간 표현을 추출하는 것은 성능에 상당한 영향을 미침에도 불구하고, 문헌에서 여전히 도전적이고 충분히 탐구되지 않은 task로 남아있다.

특히, 주요 과제는 $\mathcal{E}_{v}$ 의 $\ell$ -번째 layer의 출력 임베딩인 $\hat{\mathbf{V}}^{\ell} \in \mathbb{R}^{T \times L_{v} \times F}$ 의 시공간 토큰 차원 $L_{v}$ 를 최종 중간 feature $\tilde{\mathbf{V}}^{\ell} \in \mathbb{R}^{T \times F}$ 로 어떻게 풀링(pooling)할 것인가에서 발생한다 (Eq. 11 참조). 이전의 CLIP 기반 방법들은 단순히 CLS token을 $L_{v}$ 에 대한 "요약(summaries)"으로 사용했다. 그러나 우리는 이 전략이 InternVideo2에 대해 최적화되지 않음을 발견했다 (Sec. 6.1 참조). 이는 InternVideo2의 공간 집계(spatial-aggregation) 능력을 제한하기 때문이다. 주목할 만하게도, [40]은 최종 layer 임베딩을 계산하는 AdaptivePool 모듈을 최적화하며, 이 임베딩은 텍스트와 정렬된다. 우리는 이러한 향상된 멀티모달 정렬을 활용하는 것이 성능의 핵심이라고 추측한다. 불행히도, 이러한 풀링된 표현은 마지막 layer에서만 계산되므로, 나머지 중간 layer들을 어떻게 풀링할 것인가에 대한 의문이 남는다. 이상적으로는 layer-independent한 AdaptivePool 모듈들을 최적화할 수 있겠지만, 이는 전체 모델에 대한 완전한 역전파(back-propagation)를 필요로 한다. 더 효율적인 대안은 AdaptivePool 모듈의 gradient만 계산하는 것이다. 그러나 이는 gradient 자체 때문이 아니라, 프레임당 $L_{v}$ 개의 시공간 토큰을 로드해야 하는 필요성 때문에 여전히 계산적으로 불가능하다. 이러한 입력 메모리 크기 증가는 예를 들어, QVHighlights의 경우 15배의 메모리 증가로 이어진다. 따라서 우리는 이 frozen 풀링 모듈을 $K$ 개의 중간 layer에 걸쳐 재사용하는 것이 메모리 효율적인 학습을 가능하게 한다고 가정한다. 즉, 추가적인 역전파나 메모리 요구 사항이 필요 없으며, 각각의 분포 변화에도 불구하고 향상된 풀링 능력을 활용할 수 있다. 공식적으로, 우리는 다음과 같이 계산한다:

\tilde{\mathbf{v}}^{\ell}=\text { AdaptivePool }\left(\hat{\mathbf{V}}^{\ell}\right) \in \mathbb{R}^{T \times F}, 1 \leq \ell \leq K .

Sec. 6.1에서 보여주듯이, 이 풀링 전략은 다른 대안들보다 성능을 상당히 향상시키며, 이 모듈 재활용의 이점을 입증한다.

5. Experimentation

5.1. Experimental setup

우리는 MR 및 HD에 대한 제안 모델을 다양한 데이터셋, 즉 QVHighlights [18], TACoS [36], 그리고 Charades-STA [6] 데이터셋으로 테스트한다. 데이터셋에 대한 자세한 내용은 Sec. B에서 확인할 수 있다.
QVHighlights에서의 MR task의 경우, 우리는 두 가지 IoU 임계값(0.5 및 0.7)에 대한 Recall@1과, **0.05 간격으로 0.5부터 0.95까지의 IoU 임계값([0.5:0.05:0.95])에 대한 mean average precision (mAP)**을 계산한다.
HD의 경우, "VeryGood"으로 분류된 가장 salient한 프레임들, 즉 positive frame들에 대한 mAP와 HIT@1을 보고한다.
TACoS와 Charades-STA의 경우, 우리는 0.3, 0.5, 0.7 IoU 임계값에 대한 Recall@1과 mIoU를 계산한다.

5.2. Main experimental results

우리는 먼저 SDST의 성능을 다양한 관련 baseline과 비교한다. 구체적으로, Tab. 1에서 QVHighlights의 test 및 val split에 대한 우리 방법의 평가를 살펴보자. 이 결과는 우리 방법이 $\mathrm{R}^{2}$ -Tuning을 상당히 능가함을 보여준다. 유사하게, SDST는 현재 SOTA 방법인 SG-DETR [8]과 매우 경쟁적인 성능을 보이며 여러 metric에서 이를 능가하기도 한다. 그러나 우리 방법은 SG-DETR의 파라미터 수의 27%만을 가지고도 이러한 성능을 달성한다는 점에 주목해야 한다. 통계적 유의성 분석에 관심 있는 독자는 Sec. M을 참조하라.

Tab. 1에 제시된 대부분의 방법들은 InternVideo2-e.g., CLIP 또는 Slowfast와 다른 backbone에 의존한다. 보다 공정한 비교를 위해, Fig. 1에서는 [8]의 연구를 따라 InternVideo2 feature를 사용할 때 관련 baseline 세트를 평가한다 (전체 ablation은 Sec. E에서 확인할 수 있다). 우리 연구가 SG-DETR과 동등한 성능을 보이며, 더욱 중요하게는 SDST가 $\mathrm{R}^{2}$ -Tuning을 매우 크게 능가하여 MR 성능을 평균 mAP 3.82% 또는 HD 성능을 mAP 2.21% 향상시킴을 알 수 있다. 이는 더욱 엄격한 anchor-based 방법보다 proposal-free 아키텍처를 활용하는 이점을 경험적으로 보여준다. 다른 ST 연구들과의 확장된 비교는 Sec. H에서 확인할 수 있다.

우리의 발견을 보완하기 위해, Tab. 2에서는 Charades-STA 및 TACoS 벤치마크에서 우리 방법을 평가한다. 우리 방법이 이 두 데이터셋 모두에서 SOTA를 달성함을 알 수 있다. 예를 들어, Charades-STA에서는 기존 SOTA를 R1@0.7에서 2.71%, mIoU에서 2.06% 향상시킨다. 유사하게, TACoS에서는 SDST가 SG-DETR을 R1@0.7에서 2.39%, mIoU에서 1.27% 향상시킨다.

6. Ablation studies

이 섹션에서는 우리의 주요 기여와 관련된 다양한 측면에 대해 ablation 연구를 수행한다. 특별한 언급이 없는 한, 우리는 기존 문헌을 따라 QVHighlights의 validation split에서 평가를 진행한다. 또한, 가장 좋은 결과는 굵게 표시한다.

6.1. Leveraging InternVideo2 features for ST

Pooling이 중요한가?
섹션 4에서 논의했듯이, InternVideo2 backbone을 ST에 사용하는 주요 과제 중 하나는 spatio-temporal clip-wise 중간 표현(intermediate representations)을 pooling하는 것이다. Table 3에서는 다양한 pooling 전략을 비교한다. 구체적으로, 우리는 **표준 CLSpooling, average-pooling, 그리고 우리가 제안하는 frozen AdaptivePool의 재활용(섹션 4)**을 비교한다.
관찰 결과, CLSpooling은 AdaptivePool 전략에 비해 MR에서 평균 mAP가 최대 5.07%, HD에서 HIT@1이 7.74%까지 성능 저하를 가져온다. Average pooling은 이러한 저하를 부분적으로 완화하지만, 여전히 상당히 감소된 성능을 보인다. 이는 신중하게 선택된 pooling 전략의 중요한 영향을 확인시켜준다.
Feature refinement vs. feature sampling:
ST에서 가장 중요한 결정 중 하나는 사용해야 할 중간 레벨의 개수를 결정하는 것이다. 일반적으로, 이는 마지막 $K$ 개의 중간 layer를 refine할 때의 성능을 평가하는 것을 포함한다 [25]. **Figure 3 (빨간색)**에서 보듯이, 우리 경우에 가장 좋은 성능을 보이는 $K$ 는 4이다. 문헌에서는 종종 이 주장이 마지막 layer feature만 사용하는 것보다 중간 표현을 사용하는 것이 더 유익하다는 것을 주장하기에 충분히 설득력 있다고 제시한다. 그러나 본 연구에서는 다음과 같은 의문을 제기하는 것이 합리적이라고 생각한다: 이러한 분석이 중간 feature의 중요성을 나타내는 것인가, 아니면 단순히 선택된 feature와 관계없이 여러 refinement 단계를 수행해야 할 필요성을 보여주는 것인가?

Method	test					HD		val					HD		#Params
	MR							MR
	R1			mAP		$\geq$ Very good		R1			mAP		$\geq$ Very good
	@ 0.5	@ 0.7	@0.5	@0.75	Avg.	mAP	HIT@1	@0.5	@0.7	@0.5	@0.75	Avg.	mAP	HIT@1
BeautyThumb	-	-	-	-	-	14.36	20.88	-	-	-	-	-	-	-	-
DVSE	-	-	-	-	-	18.75	21.79	-	-	-	-	-	-	-	-
MCN	11.41	2.71	24.94	8.22	10.67	-	-	-	-	-	-	-	-	-	-
CAL	25.49	11.54	23.40	7.65	9.89	-	-	-	-	-	-	-	-	-	-
XML+	46.69	33.46	47.89	34.67	34.90	35.38	55.06	-	-	-	-	-	-	-	-
Moment-DETR	52.89	33.02	54.82	29.40	30.73	35.69	55.60	53.94	34.84	-	-	32.20	35.65	35.65	4.8 M
UMT	56.23	41.18	53.83	37.01	36.12	38.18	59.99	60.26	44.26	56.70	39.90	38.59	39.90	64.20	14.9 M
MomentDiff	58.21	41.48	54.57	37.21	36.84	-	-	-	-	-	-	-	-	-	-
QD-DETR	62.40	44.98	62.52	39.88	39.86	38.94	62.40	62.68	46.66	62.23	41.82	41.22	39.13	63.03	7.6 M
MH-DETR	60.05	42.48	60.75	38.13	38.38	38.22	60.51	60.84	44.90	60.76	39.64	39.26	38.77	61.74	8.2 M
UniVTG	58.86	40.86	57.60	35.59	35.47	38.20	60.96	59.74	-	-	-	36.13	38.80	61.8	41.3 M
TR-DETR	64.66	48.96	63.98	43.73	42.62	39.91	63.42	67.10	51.48	66.27	46.42	45.09	-	-	7.9 M
CG-DETR	65.43	48.38	64.51	42.77	42.86	40.33	66.21	67.35	52.06	65.57	45.73	44.93	40.80	66.70	12.0 M
BAM-DETR	62.71	48.64	64.57	46.33	45.36	-	-	65.10	51.61	65.41	48.56	47.61	-	-	-
EaTR	-	-	-	-	-	-	-	61.36	45.79	61.86	41.91	41.74	37.15	58.65	9.0 M
Mr. BLIP	74.77	60.51	68.12	53.38	-	-	-	76.13	63.35	69.39	55.78	-	-	-	19.0 M
LLaVA-MR	76.59	61.48	69.41	54.40	-	-	-	78.13	64.13	69.64	56.32	-	-	-	17.0 M
HL-CLIP	-	-	-	-	-	41.94	70.60	-	-	-	-	-	42.37	72.40	2.0 M
$\mathrm{R}^{2}$ -Tuning	68.03	49.35	69.04	47.56	46.17	40.75	64.20	68.71	52.06	-	-	47.59	40.59	64.32	2.7 M
SG-DETR ${ }^{\dagger}$	72.20	56.60	73.20	55.80	54.10	43.76	69.13	-	-	73.52	57.91	55.64	$\underline{43.91}$	71.47	15.0 M
Flash-VTG ${ }^{\dagger}$	70.69	53.96	72.33	53.85	52.00	-	-	73.10	57.29	72.75	54.33	52.84	-	-	10.9 M
Ours ${ }^{\dagger}$	70.82	56.23	71.31	54.99	53.31	43.40	69.13	73.68	60.90	73.52	57.42	55.60	44.00	72.00	4.1 M

Table 1: QVHighlights test 및 val split에 대한 MR 및 HD 결과.
${ }^{\dagger}$ 는 InternVideo2 feature 사용을 나타낸다. 굵은 글씨는 최고 성능, 밑줄은 두 번째 최고 성능을 의미하며, MR과 HD를 모두 지원하는 연구만 고려한다. 나머지는 회색으로 표시된다.

Method	Charades-ST			TACoS
	R@0.5	R@0.7	mIoU	R@0.5	R@0.7	mIoU
M-DETR	53.6	31.4	-	24.7	12.0	25.5
UMT	48.3	29.3	-	-	-	-
UniVTG	58.0	35.7	50.1	35.0	17.4	33.6
QD-DETR	57.3	32.6	-	36.8	21.1	35.8
CG-DETR	58.4	36.3	50.1	39.6	22.2	36.5
BAM-DETR	60.0	39.4	52.3	41.5	26.8	39.3
TR-DETR	57.6	33.5	-	-	-	-
MR. BLIP	69.3	49.3	58.6	-	-	-
LLaVA-MR	70.6	49.6	59.8	-	-	-
$\mathrm{R}^{2}$ -Tuning	59.8	37.0	50.9	38.7	25.1	35.9
SG-DETR ${ }^{\dagger}$	70.2	49.5	59.1	44.7	$\underline{29.9}$	$\underline{40.9}$
FlashVTG ${ }^{\dagger}$	70.3	$\underline{49.9}$	-	41.8	24.7	37.6
Ours ${ }^{\dagger}$	72.0	52.6	61.2	44.5	32.3	42.2

Table 2: Charades-STA 및 TACoS 데이터셋 비교.
${ }^{\dagger}$ 는 InternVideo2 feature 사용을 나타낸다. 굵은 글씨는 최고 성능, 밑줄은 두 번째 최고 성능을 의미한다.

Pool strat.	MR					HD
	$\mathbf{R 1 @ 0 . 5}$	$\mathbf{R 1 @ 0 . 7}$	$\mathbf{m A P @ 0 . 5}$	$\mathbf{m A P @ 0 . 7 5}$	$\mathbf{m A P}$	$\mathbf{m A P}$	HIT@1
CLS	66.45	52.65	67.96	51.32	50.53	41.01	64.26
Avg. pool	70.65	56.9	70.43	54.58	53.44	43.06	69.68
Adapt. pool	$\mathbf{7 3 . 6 8}$	$\mathbf{6 0 . 9 0}$	$\mathbf{7 3 . 5 2}$	$\mathbf{5 7 . 4 2}$	$\mathbf{5 5 . 6 0}$	$\mathbf{4 4 . 0 0}$	$\mathbf{7 2 . 0 0}$

Table 3: 다양한 pooling 전략 사용의 효과.

이 문제에 대한 해답을 찾기 위해, **Figure 3 (파란색)**에서는 $K$ 개의 다른 refinement 단계를 수행할 때의 성능을 평가한다. 중요한 점은, 이때 항상 마지막 layer feature만 사용한다는 것이다.
관찰 결과, $K=2$ 및 $K=3$ 의 경우, 실제로 중간 feature를 사용한 동등한 실험보다 성능이 향상되었다. 반면, $K=4$ 및 $K=5$ 의 경우, 마지막 layer feature만 사용하는 것이 성능을 저해했다.
따라서 이러한 실험들은 중간 feature의 유용성을 입증하는 것이 이전에 생각했던 것만큼 간단하지 않다는 것을 시사한다. 사실, 이는 중간 feature 사용의 이점이 더 얕은 layer를 고려할 때만 발생한다는 것을 나타낸다.

Figure 3: Refinement 레벨 수 및 중간 또는 마지막 layer feature만 사용 여부에 대한 ablation.

Levels	MR					HD
	R1@0.5	R1@0.7	mAP@0.5	mAP@0.75	mAP	mAP	HIT@1
$[37,38,39,40]$	73.68	60.90	73.52	57.42	55.60	44.0	72.00
$[25,30,35,40]$	71.48	59.48	71.45	56.37	54.83	43.42	70.19
$[10,20,30,40]$	69.03	55.35	69.56	53.37	52.47	42.73	68.39

Table 4: 중간 feature의 다양한 샘플링 전략에 대한 ablation.
첫 번째 열은 총 40개 layer 중 $K=4$ 개의 샘플링된 layer를 나타낸다.

더 얕은 layer에서 feature를 샘플링하지 않는 이유는 무엇인가?
Table 4에서 보듯이, 이는 우리가 depth-pooling trade-off라고 부르는 현상 때문에 반드시 도움이 되는 것은 아니다. 우리는 더 얕은 layer에서 샘플링하는 것이 실제로 추가적인 보완 정보를 제공한다고 추측한다. 그럼에도 불구하고, 이는 마지막 layer feature 분포와 관련하여 필연적으로 분포 변화(distribution shift)를 초래하며, 이는 frozen AdaptivePool의 효과를 저해한다 (Eq. 15 참조). 이 모듈을 계산상의 이유로 재학습하는 것이 불가능하므로, 우리는 pooling의 품질과 고려해야 할 feature의 깊이 사이의 미묘한 trade-off에 직면하게 된다.

6.2. Study of deformable attention

다른 baseline과의 비교: 여기서는 우리가 제안하는 RDSA의 이점을 경험적으로 평가한다. 구체적으로, Tab. 5에서는 표준 CA [39]와 Def. CA [50]의 성능뿐만 아니라, **후자의 다양한 decoder-query 초기화 전략 [48]**을 경험적으로 비교한다.

Att. strat.			MR		HD
	R1@0.5	R1@0.7	mAP@0.5	mAP@0.75	mAP	mAP	HIT@1
Stand. CA 39	70.77	51.74	66.78	45.19	42.72	43.16	69.87
Def. CA [50]	72.58	58.19	71.82	55.80	54.27	43.26	70.58
Def. CA +PureInit 48	72.13	57.87	70.68	54.85	52.92	43.19	70.32
Def. CA +MixedInit 48]	72.26	58.71	71.94	56.43	54.94	43.10	69.86
Ours	73.68	60.90	73.53	57.42	55.60	44.0	72.00

Table 5: 다양한 attention 전략 및 decoder query 초기화 방식에 따른 비교.

Figure 4: $K=4$ 개의 refinement level에 대한 $M$ 개의 decoder query와 $N$ 개의 batch element에 걸친 가중 오프셋(weighted offset)의 평균. 여기서 head 0 (왼쪽)은 왼쪽 경계 근처에서 초기화되고, head 1 (오른쪽)은 오른쪽 경계 근처에서 초기화된다.

CA 사용으로 인한 현저한 성능 저하나, query 초기화 기법들이 Def. CA의 성능을 향상시키기는커녕 오히려 해로운 경우도 있음을 주목하라. 이와 대조적으로, 우리의 방법은 테스트된 모든 baseline을 일관되게 능가하며, 원래 Def. CA 대비 R1@0.7에서 2.71%, mAP에서 1.62% 향상을 보인다. RDSA의 다양한 샘플링 전략에 대한 ablation은 Sec. K를 참조하라.

오프셋은 어디를 가리키는가? Fig. 4에서는 주어진 query $q$ 의 가중 오프셋 $d_q = \sum_{p=1}^{P} A_{q, p} \Delta_{q, p}$ 가 $K$ 개의 refinement 단계에 걸쳐 어떻게 정제되는지를 보여준다. Eq. 9에 나타난 바와 같이, 이 오프셋들은 추정된 moment 너비에 상대적이며, -1과 +1은 각각 추정된 가장 왼쪽 및 가장 오른쪽 경계를 나타낸다. Def. CA는 context awareness가 부족하여, 오프셋 예측이 오프셋 초기화 지점 근처에 머무르는 경향이 있다. 이와 대조적으로, RDSA는 향상된 contextualization을 활용하여 오프셋 초기화에 대한 편향을 줄인다. 특히, RDSA는 현재 action 경계를 넘어선 지점(오프셋 $<-1$ 및 $>+1$ )까지 탐색하여, moment 경계를 정제하는 데 중요한 경계 근처 정보를 포착한다. 이는 예측된 moment 경계 내에 머무르는 [50]과 대조적이다. 우리는 이것이 RDSA가 긴 action을 localize하는 데 특히 유용한 이유라고 생각한다 (Sec. D 참조).

6.3. Conditioning signal for the sparse stream $\mathcal{S}$

RDSA를 효과적으로 통합하기 위해서는 표현력이 풍부한 비디오 기반 조건화 신호를 얻는 것이 필수적이다 (즉, Fig. 2a의 빨간색 화살표). Tab. 6에서 볼 수 있듯이, 원시 비디오 표현 $\mathbf{V}^{\ell}$ 을 사용하면 성능이 크게 저하되는데, 이는 텍스트 및 시간 정보를 통합하는 더 풍부한 신호의 필요성을 강조한다. dense stream $\mathcal{D}$ 의 CA 또는 SA 모듈 출력을 조건으로 사용하는 것이 결과를 개선하지만, 이들은 비선형성이 부족하다. 대신, 비선형 PFFN 출력을 사용하면 더 큰 유연성을 제공하여 우수한 표현력을 얻을 수 있다.

Type of features	MR				HD
	R1@0.5	R1@0.7	mAP@0.5	mAP@0.75	mAP	mAP	HIT@1
Raw. rep	$\underline{72.58}$	56.37	70.12	50.99	50.74	44.13	$\underline{71.37}$
Post CA	72.26	$\underline{58.39}$	$\underline{72.20}$	55.92	54.83	43.64	70.65
Post CA+SA	72.13	58.32	72.00	$\underline{56.57}$	$\underline{54.94}$	43.78	70.06
Post CA+SA+FFN	73.68	60.90	73.53	57.42	55.60	44.00	72.00

Table 6: 다양한 조건화 신호 평가.

CA	SA	RDSA	FFN			MR		HD
				R1@0.5	R1@0.7	mAP@0.5	mAP@0.75	mAP	mAP	HIT@1
	$\checkmark$	$\checkmark$	$\checkmark$	71.42	57.74	71.73	56.18	54.47	43.53	71.35
		$\checkmark$	$\checkmark$	71.87	58.71	72.13	55.99	54.32	43.28	69.55
$\checkmark$	$\checkmark$		$\checkmark$	59.68	30.71	59.02	24.6	29.09	43.58	70.39
$\checkmark$	$\checkmark$	$\checkmark$		72.84	59.29	73.13	56.91	55.72	43.85	72.58
73.68 <br> 60.90 <br> 73.52 <br> 57.42 <br> 55.60 <br> 44.0 <br> 72.00

Table 7: sparse stream $\mathcal{S}$ 모듈의 중요성.

특히, 이러한 선택은 HD 성능도 향상시키며, 이는 MR과 HD 간의 task 상호작용의 이점을 강조한다.

6.4. Effect of each module of the sparse stream $\mathcal{S}$

이 ablation 연구에서는 $\mathcal{S}$ 의 각 구성 요소가 기여하는 바를 경험적으로 평가한다. 구체적으로, 우리는 CA, SA, RDSA, 그리고 최종 PFFN의 영향을 평가한다. Table 7에서, 초기 텍스트 주입(textual injection) CA는 R1 metric에 특히 중요한 것으로 보이며, 추론(reasoning) SA 모듈은 mAP에 중요하다. 또한, 예상대로 RDSA 모듈은 매우 중요하다. 이는 RDSA가 없으면 query가 입력 비디오를 인지하지 못하게 되어, 무작위 추측 외에는 다른 선택지가 없기 때문에 당연한 결과이다. 다시 한번, 최종 PFFN이 비선형성을 통해 제공하는 추가적인 표현력(expressivity)은 다른 모듈만큼은 아니지만 여전히 유익함을 입증한다.

7. Conclusions

본 연구에서는 Sparse-Dense SideTuner를 소개했으며, 이는 VTG(Video-Text Grounding)를 위한 최초의 proposal-free side-tuning 방법이다. 우리의 듀얼 스트림 아키텍처는 dense embedding과 recurrent decoder query를 공동으로 최적화하여, MR(Moment Retrieval)과 HD(Highlight Detection)의 sparse하고 dense한 특성에 신중하게 적응한다. 또한, 우리는 **Deformable CA(Cross-Attention)**의 내재적인 context 제한을 발견했으며(이는 우리와 같은 proposal-free 아키텍처의 핵심 구성 요소임), 이를 해결하기 위해 Reference-based Deformable Self-Attention이라는 대안을 제안한다. 마지막으로, InternVideo2를 side-tuning 프레임워크에 효과적으로 통합하여 상당한 성능 향상을 이끌어냈다. 우리는 QVHighlights, TACoS, Charades-STA 데이터셋에서 제안된 방법을 평가했으며, 기존 ST(Side-Tuning) 연구들을 능가하고 SOTA 또는 near-SOTA 성능을 달성했다. 이 모든 것은 최소한의 파라미터 수와 낮은 메모리 오버헤드를 유지하면서 이루어졌다. 우리는 종종 간과되는 이러한 방법들의 cross-domain generalization 능력에 대한 연구를 향후 과제로 남겨둔다.

감사의 글 (Acknowledgments): 본 연구는 스페인 프로젝트 PID2022-136436NB-I00 및 ICREA Academia 프로그램을 통해 ICREA의 부분적인 지원을 받았다.

Supplementary Material

이 보충 자료에서는 본 연구의 주요 기여에 대한 추가 세부 사항과 다양한 ablation study를 제공한다. 구체적으로,

Sec. A에서는 제안된 SDST 아키텍처와 테스트된 평가 설정에 대한 구현 세부 사항을 설명한다.
Sec. B에서는 실험에 사용된 데이터셋인 QVHighlights, TACoS, Charades-STA에 대한 자세한 설명을 제시한다.
Sec. C에서는 SDST가 사용하는 목적 함수를 확장하여, Highlight Detection (HD) 및 **Moment Retrieval (MR)**에 사용되는 손실 함수와 효과적인 side-tuning에 중요한 alignment loss를 다룬다.
Sec. D에서는 deformable attention mechanism과 관련된 필요한 배경 지식을 제공한다.

이어서 일련의 ablation study를 수행한다:

Sec. E에서는 InternVideo2-1B feature만을 사용하여 공정한 비교 하에 SDST와 다른 관련 baseline들을 평가한다.
Sec. F에서는 본문의 효율성 분석을 확장하여 메모리, 파라미터, 실행 시간과 같은 여러 효율성 지표를 분석한다.
Sec. G에서는 제안된 방식의 학습 안정성과 그에 따른 최적화의 어려움을 ablation한다.
Sec. H에서는 다른 Parameter-Efficient 및 Memory-Efficient Fine-Tuning 방법들과의 비교를 확장한다.
Sec. I에서는 중간 refinement layer 간의 파라미터 공유가 미치는 영향을 조사한다.
Sec. J에서는 InternVideo2-1B를 활용할 때 중간 feature의 기여도를 연구한다.
Sec. K에서는 제안된 RDSA mechanism에 대한 심층 분석을 제공하며, 여기에는 다양한 샘플링 전략의 효과, 추가적인 CNN 기반 context-enhancing module, 예측된 offset에 대한 확장 분석이 포함된다.
Sec. L에서는 sparse stream $\mathcal{S}$ 내 모듈의 순서와 그것이 성능에 미치는 영향을 조사한다.

마지막으로, Sec. M에서는 Friedman 및 Nemenyi 분석을 포함한 다양한 통계적 유의성 검정을 제시하여 우리 결과의 견고성을 확인한다.

A. Implementation details

이 섹션에서는 제안하는 SDST 아키텍처의 가장 관련성 높은 구현 세부 사항을 설명하며, 요약은 Tab. A에 제공되어 있다. 보고된 하이퍼파라미터는 최고 성능 모델에만 해당한다는 점에 유의해야 한다. 이 하이퍼파라미터들은 [25]와 같은 기존 ST 연구들과 비교하여 대부분 고정되어 있으며, 단순화를 위해 1.0으로 설정된 몇 가지 새로운 하이퍼파라미터만 도입되었다. 반면, learning rate 최적화를 위해서는 grid search를 수행한다.

전반적으로, 우리 방법은 PyTorch 2.0 및 CUDA 12.8을 사용하여 구현되었으며, fp16 정밀도로 단일 NVIDIA RTX 6000 GPU에서 실행된다. 특별한 언급이 없는 한, 우리 모델은 AdamW optimizer를 사용하여 최적화되며, **learning rate는 $1e-4$ , weight decay는 $1e-4$ **이다. 이는 20 epoch마다 decay되는 step-based schedule을 따른다. 처음 2000 iteration 동안은 warmup ratio 0.001로 linear warmup을 적용하고, gradient는 최대 norm 35로 clip한다.

우리 모델은 256의 hidden dimension으로 작동하며 sinusoidal positional encoding을 활용한다. 전체 모델은 ReLU 비선형성에 의존하여 모델의 표현력을 향상시킨다. 정규화(regularization)를 개선하기 위해 0.5의 dropout을 사용하고, 0.25의 drop probability를 가진 droppath를 통합한다. 우리 모델은 cross-modality injection 및 temporal relation learning을 위한 다양한 Transformer block을 포함하며, 이들 모두 8개의 head, 0.0의 attention dropout, 0.0의 attention output dropout을 가진다. attention module은 Xavier로 초기화된다. Transformer block의 feedforward module은 선택된 hidden dimension의 4배에 해당하는 hidden dimension ratio를 사용하며, 0.0의 dropout과 Kaiming 초기화를 활용한다. 중요하게도, 표준 관행에 따라, 우리는 학습의 안정성을 향상시키기 위해 항상 residual connection을 통합하고, PostNorm 기반의 학습 가능한 LayerNorm module을 통해 입력을 정규화하는 PostNorm 전략 [39]을 따른다.

아키텍처적으로, 우리 모델은 dense stream과 sparse stream, 그리고 각각의 prediction head로 구성된다. dense stream은 cross-modality injection 및 temporal relation learning을 위한 다양한 Transformer block을 포함하며, 이들 모두 8개의 head, 0.0의 attention dropout, 0.0의 attention output dropout을 가진다. attention module은 Xavier로 초기화된다. Transformer block의 feedforward module은 선택된 hidden dimension의 4배에 해당하는 hidden dimension ratio를 사용하며, 0.0의 dropout과 Kaiming 초기화를 활용한다. 중요하게도, Transformer block 전반에 걸쳐, 우리는 PostNorm 기반의 학습 가능한 LayerNorm module을 통해 입력을 정규화한다. 또한, Sparse stream의 핵심 구성 요소 중 하나는 RDSA라는 새로운 deformable attention mechanism을 사용하는 것이다. 이는 먼저 context-enhancing CNN을 적용하는데, 이 CNN은 256의 hidden dimension, 학습 가능한 LayerNorm, 비선형성을 가진 2-layer CNN으로 정의된다. 그런 다음, 가장 왼쪽, 중앙, 가장 오른쪽 토큰을 연결한 후, MLP를 사용하여 64차원의 latent space로 투영한다. 이는 4개의 서로 다른 샘플링된 Key와 각각의 attention score를 계산하기 위해 두 개의 간단한 linear projection을 적용하는 데 사용된다.

다양한 prediction head에 대해, 우리는 여러 다른 모듈을 구분한다. 한편으로, CLS 및 Regression head는 각각 1-layer 및 3-layer MLP로 정의된다. 다른 한편으로, 우리는 [24]와 같은 이전 연구들을 따라 actionness head를 정의하는데, 이는 Roi size가 16인 RoiPooling을 사용한다. 이 roi feature들은 3-layer MLP를 적용하여 actionness prediction에 사용된다.

마지막으로, 몇 가지 중요한 학습 고려 사항을 제시한다. 서로 다른 데이터셋에 걸친 모든 실험은 batch size 32와 최소 비디오 길이 5를 사용한다. FPS는 QVHighlights 및 TACoS의 경우 0.5로, Charades-STA의 경우 1.0으로 설정된다. 우리는 QVHighlights에서 60 epoch, Charades-STA에서 50 epoch, TACoS에서 150 epoch 동안 학습한다. 샘플당 쿼리 수는 데이터셋의 특성에 따라 달라진다. 예를 들어, QVHighlights 및 Charades-STA에서는 30개의 서로 다른 쿼리를 정의하는 반면, TACoS에서는 5개만 사용한다. Charades-STA의 경우, 30 epoch의 decay schedule과 함께 $2.5 \times 10^{-4}$ 의 약간 더 높은 learning rate를 사용한다.

B. Description of the chosen datasets

제안하는 SDST의 효과를 검증하기 위해, 우리는 세 가지 다른 데이터셋인 QVHighlights [18], TACoS [36], Charades-STA [6]에 대한 실험을 수행한다.

QVHighlights: QVHighlights는 세 데이터셋 중 MR(Moment Retrieval) 및 HD(Highlight Detection) task 모두에 대한 어노테이션을 제공하는 유일한 데이터셋이다. 구체적으로, 이 데이터셋은 일상 활동부터 다양한 주제에 걸친 인간이 주석한 NLP 쿼리가 포함된 1만 개의 YouTube 비디오로 구성된다. 편의를 위해 이 비디오들은 최대 150초 길이로 잘려 있다.

TACoS: TACoS는 MR을 위해 널리 사용되는 데이터셋으로, 평균 287초 길이의 요리 장면 비디오 127개로만 구성되어 있다. 전체적으로 1만 9천 개의 문장-모먼트 쌍을 포함한다. 문헌의 이전 연구들을 따라, 우리는 합성(synthetic) saliency 어노테이션을 생성하여 이 데이터셋을 우리의 multi-task 기반 모델을 지원하도록 개조하였다. 이를 위해, 프레임이 액션에 속하면 saliency 점수를 1로, 그렇지 않으면 0으로 간주한다.

Charades-STA: Charades-STA는 원래 Charades 데이터셋을 확장한 것으로, 1만 개의 비디오와 1만 6천 개의 다양한 문장-모먼트 어노테이션을 포함한다. 이 데이터셋은 다양한 실내 활동을 포착하고 있어, 일상적인 인간 활동 이해 모델을 평가하는 데 적합한 벤치마크이다.

C. Descriptions of the objective functions

이 섹션에서는 우리가 제안하는 SDST에 사용된 다양한 objective function에 대해 더 자세히 설명한다.

C.1. Highlight detection loss

최종 refinement layer의 dense visual embedding $\mathbf{D}^{K} \in \mathbb{R}^{T \times F}$ 가 주어졌을 때, 우리는 먼저 학습 가능한 AdaptivePooling 메커니즘을 적용하여 원본 textual representation $\mathbf{T}^{K} \in \mathbb{R}^{L \times F}$ 로부터 **단일의 aggregated textual embedding $\mathbf{T}^{\text {pool }} \in \mathbb{R}^{F}$ **를 생성한다.
그 다음, per-frame saliency score $\hat{\mathbf{Y}}^{s} \in \mathbb{R}^{T}$ 를 다음과 같이 정의한다:

\hat{\mathbf{Y}}^{s}=\text { cos_sim }\left(\mathbf{D}^{K}, \mathbf{T}^{\text {pool }}\right)=\frac{\sum_{j=1}^{F} \mathbf{D}_{j}^{K} \mathbf{T}_{j}^{\text {pool }}}{\left\|\mathbf{D}^{K}\right\| \mid \mathbf{T}^{\text {pool }} \|} .

여기서 cosine similarity는 각 visual frame에 대해 계산된다.
더 높은 점수가 주어진 frame이 textual embedding $\mathbf{T}^{\text {pool }}$ (마지막 layer $K$ 에 해당)에 대해 더 높은 관련성을 가짐을 보장하기 위해, 우리는 positive frame들의 순위를 매기는 SampledNCE loss를 사용한다.

C.2. Moment Retrieval losses

표준 DETR 파이프라인에 따라, 우리는 각 중간 layer $\ell$ 에서 예측된 moment boundaries $\mathbf{R}^{\ell} \in \mathbb{R}^{M \times 2}$ 와 ground-truth (GT) annotation $\mathbf{Y}^{m} \in \mathbb{R}^{M^{*} \times 2}$ 간의 일대일 매칭(one-to-one matching)을 얻기 위해 Hungarian algorithm을 적용한다.
별도로 명시되지 않는 한, 우리는 ground-truth $\mathbf{Y}_{m}$ 의 해당 매칭을 $\hat{\mathbf{Y}}^{m} \in \mathbb{R}^{M^{*} \times 2}$ 로 지칭한다.
아래에서는 이러한 매칭된 embedding에 적용하는 다양한 objective function을 설명한다.

Classification loss:
classification loss는 M개의 서로 다른 recurrent decoder query의 예측된 action probability $\hat{\mathbf{p}} \in \mathbb{R}^{M \times 1}$ 를 사용하며, 매칭되지 않은 proposal의 확률은 0으로 만들고, 나머지는 확률을 1로 설정한다.
매칭된 query와 매칭되지 않은 query 간의 불균형을 고려하여, 우리는 Focal Loss를 활용한다.

\mathcal{L}_{\mathrm{cls}}=-\frac{1}{M} \sum_{m=1}^{M} \alpha\left(1-\hat{\mathbf{p}}_{m}\right)^{\gamma} \log \left(\hat{\mathbf{p}}_{m}\right)

여기서 $\hat{\mathbf{p}}_{m}$ 은 proposal $m$ 에 대한 예측 확률이며, $\alpha$ 와 $\gamma$ 는 클래스 불균형을 해결하는 데 도움이 되는 표준 Focal Loss 하이퍼파라미터이다.

Regression losses:
다음으로 우리는 실제 boundary의 regression에 초점을 맞춘다. 이를 위해 이전 DETR 연구들 [18]을 따라, 먼저 다음과 같이 L1 loss를 정의한다.

\mathcal{L}_{\mathrm{L} 1}=\frac{1}{M^{*}} \sum_{i=1}^{M^{*}}\left|\hat{\mathbf{Y}}_{i}^{m}-\mathbf{Y}_{i}^{m}\right|

이는 예측된 segment boundary와 ground-truth segment boundary 간의 절대 오차를 최소화한다.
추가적으로, 우리는 예측된 action segment와 GT action segment 간의 overlap을 최대화하기 위해 IoU 기반 loss [24]를 사용한다.

\mathcal{L}_{\mathrm{IoU}}=1-\frac{\sum_{i=1}^{M^{*}} \operatorname{IoU}\left(\hat{\mathbf{Y}}_{i}^{m}, \mathbf{Y}_{i}^{m}\right)}{M^{*}},

여기서 $\operatorname{IoU}\left(\hat{\mathbf{Y}}_{i}^{m}, \mathbf{Y}_{i}^{m}\right)$ 는 예측된 segment와 ground-truth segment 간의 intersection-over-union이다.

Actionness losses:
Sec. 3.4에서 설명했듯이, 우리의 NMS post-processing은 먼저 예측된 segment가 GT에 매칭될 확률을 측정하는 CLS score를 고려한다. [24]에서 보여주듯이, 효과적인 post-processing을 위해서는 regression 품질에 대한 추정치가 또 다른 핵심 요소이므로 이것만으로는 충분하지 않다. 이를 위해 우리는 actionness score $\hat{\mathbf{Y}}^{a} \in \mathcal{R}^{M}$ 를 각 query와 GT 중 어느 하나와의 최대 overlap으로 정의한다. 즉, 각 학습 가능한 recurrent query embedding에 대해 어떤 GT action과의 최대 IOU를 계산한다. 그런 다음, 이 점수를 regression하기 위해 L1 loss를 적용하며, 이 점수는 추론 시 활용될 수 있다.

Pipeline component	Module	Field	Value
Architecture	General config	Dropout	0.5
		K	4
		PE	Sinusoidal
		Hidden dimension	256
		Droppath	0.25
		Non-Linearities	ReLU
		FFN ratio	4
		Attention dropout	0.0
		FFN dropout	0.0
		Attention output dropout	0.0
		FFN output dropout	0.0
		PreNorm	No
		Normalization type	LN
		Attention initialization	Xavier
		FFN initialization	Kaiming
	Sparse module	Deformable sampling points	4
	CLS head	Type <br> Depth	MLP <br> 1

			MLP <br> 3
	Regression head	Type <br> Depth
	Actionness head	Type	MLP
		Depth	3
		Roi size	16
		Roi scale	0
Optimization	Optimizer		AdamW
	Learning Rate		$1 \mathrm{e}-4$
	Weight Decay		$1 \mathrm{e}-4$
	LR Schedule	Type <br> Decay rate	Step-based <br> Every 20 epochs
	Warmup strategy	Type	Linear
		N. iterations	2000
		Ratio	0.001
	Gradient clipping	Max norm	35
Datasets	QVHighlights	Batch size	32
		FPS	0.5
		Min video len	5
		Epochs	60
		Num. queries	30
	Charades-STA	Batch size	32
		FPS	1.0
		Min video len	5
		Epochs	50
		Num. queries	30
		Learning rate	$2.5 \mathrm{e}-4$
		Learning rate schedule	30
	TACoS	Batch size	32
		FPS	0.5
		Min video len	5
		Epochs	150
		Num. queries	5

Table A: 우리 모델의 가장 관련성 높은 하이퍼파라미터 및 구현 세부사항 요약.

\mathcal{L}_{a c t}=\frac{1}{M} \sum_{i=1}^{M}\left|\hat{\mathbf{Y}}_{i}^{a}-\max _{j}^{M^{*}}\left(\operatorname{IOU}\left(\mathbf{R}_{i}^{\ell}, \mathbf{Y}_{j}^{m}\right)\right)\right|

여기서 $\hat{\mathbf{Y}}_{i}^{a}$ 는 $i$ -번째 recurrent decoder query의 예측된 actionness score이며, $\max _{j=1}^{M^{*}}\left(\operatorname{IOU}\left(\mathbf{R}_{i}^{\ell}, \mathbf{Y}_{j}^{m}\right)\right)$ 는 $i$ -번째 query와 GT action 중 어느 하나와의 최대 overlap이다.

C.3. Alignment losses

효과적인 side-tuning을 보장하는 한 가지 중요한 측면은 시각 및 텍스트 잠재 공간을 의미론적으로 가깝게 만드는 alignment loss를 포함하는 것이다. 이는 특히 중요하다. 왜냐하면 backbone이 어느 정도의 alignment를 보장하도록 사전학습되었음에도 불구하고, VTG와 같은 새로운 도메인에 적응시키는 과정에서 필연적으로 도메인 변화(domain shift)와 노이즈가 발생하기 때문이다. 이러한 alignment loss가 없다면, feature의 품질이 크게 저하되어 최종 성능을 저해할 것이다.
본 연구에서는 두 가지 contrastive loss [25]를 도입하여 이 문제를 해결한다. 이 loss들은 서로 다른 수준의 중간 표현(intermediate representation)에서 비디오-쿼리 일관성(video-query consistency)을 강화한다:

비디오 수준 alignment (video-level alignment)
레이어별 alignment (layer-wise alignment)

특히, 이 loss들은 모든 중간 레이어에 독립적으로 적용된다.

C.3.1 Video-level contrastive loss

주어진 레벨 $\ell$ 에서, 이 loss는 액션과 관련된 프레임과 해당 텍스트 쿼리 임베딩 간의 유사성을 강화한다. 구체적으로, 해당 레벨의 임베딩 $\mathbf{V}^{\ell}$ 와 풀링된 텍스트 임베딩 $\mathbf{T}^{\text {pool }}$ 을 사용하여, 긍정적인 프레임(즉, 액션에 속하는 프레임)은 더 가깝게 당기고, 부정적인 프레임은 밀어낸다. 흥미롭게도, 주어진 $j$ -번째 프레임에 대해, 우리는 동일한 refinement 레벨 $\ell$ 에서 나머지 배치 요소들의 모든 다른 $j$ -번째 프레임들을 부정적인 샘플로 간주한다. 그 후, 우리는 InfoNCE loss를 통해 우리의 objective를 강화한다:

\mathcal{L}_{\text {video_cal }}=\text { InfoNCE }\left(\mathbf{V}^{\ell}, \mathbf{T}^{\text {pool }}\right)

여기서 InfoNCE [31]는 올바른 비디오-텍스트 쌍 간의 유사성을 최대화하는 동시에 관련 없는 샘플들과의 분리를 촉진한다.

C.3.2 Layer-wise contrastive loss

이 loss는 이전 loss와 유사하지만, batch 대신 layer 간에 작동한다. 즉, 동일한 frame-query 쌍이 두 개의 서로 다른 레벨 $\ell$ 과 $\ell^{\prime}$ 에서 다른 representation을 학습하도록 보장한다. 이는 이러한 representation들이 중복되지 않고 모델에 보완적인 정보를 추가하도록 촉진한다.
더 구체적으로, [25]를 따라 우리는 레벨 $\ell$ 에서의 negative를 동일한 frame-embedding이지만 다른 중간 layer $\ell^{\prime}$ 에 해당하는 것으로 정의한다.

\mathcal{L}_{\text {video_cal }}=\text { InfoNCE }\left(\mathbf{V}^{\ell}, \mathbf{T}^{\text {pool }}\right)

C.4. Inference

추론 시, 우리는 soft NMS 후처리를 적용하여 중복되는 action 예측을 필터링한다. 이 알고리즘은 **신뢰도 점수(confidence score)**를 기반으로 proposal들을 정렬하는데, 본 연구에서는 이 신뢰도 점수를 클래스 확률과 actionness 점수의 곱의 제곱근으로 정의한다.

\hat{\mathbf{C}}=\sqrt{\hat{\mathbf{p}} \cdot \hat{\mathbf{Y}}^{a}} .

이는 높은 분류 신뢰도와 높은 localization 신뢰도를 동시에 우선시하는 방식이다.

D. Background on the deformable attention mechanism

Vanilla Attention 메커니즘은 현재 커뮤니티에서 가장 인기 있는 아키텍처 중 하나인 Transformer의 핵심 구성 요소이다. Attention 메커니즘은 다음과 같이 정의될 수 있다:

\begin{gathered} \mathbf{Q}=\mathbf{X}_{\mathcal{Q}} \mathbf{W}_{\mathcal{Q}}, \mathbf{K}=\mathbf{X}_{\mathcal{K}} \mathbf{W}_{\mathcal{K}}, \quad \mathbf{V}=\mathbf{X}_{\mathcal{V}} \mathbf{W}_{\mathcal{V}} \\ \mathbf{S}=\frac{\sigma\left(\mathbf{Q K}^{T}\right)}{\sqrt{d_{k}}} \mathbf{V} \end{gathered}

여기서 $\sigma$ 는 softmax activation이며, $\mathbf{X}_{\mathcal{Q}}, \mathbf{X}_{\mathcal{K}}, \mathbf{X}_{\mathcal{V}}$ 는 각각 query, key, value projection matrix인 $\mathbf{W}_{\mathcal{Q}}, \mathbf{W}_{\mathcal{K}}, \mathbf{W}_{\mathcal{V}}$ 에 대한 입력을 정의한다. Self-attention의 경우 $\mathbf{X}_{\mathcal{Q}}=\mathbf{X}_{\mathcal{K}}$ 인 반면, cross-attention의 경우 $\mathbf{X}_{\mathcal{Q}} \neq \mathbf{X}_{\mathcal{K}}$ 이다.

이 메커니즘은 최근 커뮤니티에서 매우 널리 사용되고 있음에도 불구하고, quadratic complexity나 느린 수렴 속도와 같은 몇 가지 중요한 단점을 가지고 있다. 이러한 단점은 효율성을 개선하면서도 유사한 성능을 달성하기 위한 다양한 efficient attention 메커니즘 제안의 동기가 되었다. 이와 관련하여, 우리는 deformable convolution에 대한 이전 연구들에서 영감을 받아 [50]에 의해 제안된 Deformable attention 메커니즘을 강조한다. 이 메커니즘은 attend할 수 있는 key의 양을 미리 정의된 (작은) key token 집합으로 제한함으로써 Vanilla Attention [39]에 비해 상당한 효율성 향상을 달성한다. 더 공식적으로, 이 모듈의 핵심은 query와 key 간의 명시적인 상호작용이 없다는 점이며, 이는 다음과 같이 정의된다.

\mathbf{Q}=\mathbf{X}_{\mathcal{Q}} \mathbf{W}_{\mathcal{Q}}^{\text {def }}, \mathbf{K}=\mathbf{X}_{\mathcal{K}} \mathbf{W}_{\mathcal{K}}^{\text {def }}

여기서 $\mathbf{W}_{\mathcal{Q}}^{\text {def }}, \mathbf{W}_{\mathcal{K}}^{\text {def }}$ 는 두 개의 linear projection이다. 따라서 Deformable attention은 $\mathbf{Q} \mathbf{K}^{T}$ 유사도 행렬을 계산하는 것을 피하고, 대신 offset 및 attention-score predictor인 $\mathcal{G}_{\Delta}$ 와 $\mathcal{G}_{\mathbf{A}}$ 를 사용하여 query에만 기반하여 선택 가능한 key의 작은 부분 집합 $P$ 를 선택하고 가중치를 부여한다. 선택된 key들의 가중치 합인 이 메커니즘의 출력 $\mathbf{S}$ 는 다음과 같이 계산된다.

Method	MR-mAP			HD $\geq$ Very Good
M-DETR	$60.20 \pm 0.55$	$34.43 \pm 0.43$	$35.40 \pm 0.41$	$40.31 \pm 0.21$	$63.89 \pm 0.62$
UniVTG	$63.51 \pm 0.25$	$38.83 \pm 0.26$	$37.78 \pm 0.16$	$42.68 \pm 0.09$	$69.34 \pm 0.23$
QD-DETR	$67.78 \pm 0.29$	$46.40 \pm 0.26$	$45.52 \pm 0.15$	$41.82 \pm 0.07$	$68.06 \pm 0.24$
CG-DETR	$69.86 \pm 0.21$	$49.35 \pm 0.28$	$48.69 \pm 0.17$	$42.72 \pm 0.07$	$69.87 \pm 0.15$
TR-DETR	$70.08 \pm 0.15$	$49.20 \pm 0.50$	$47.99 \pm 0.42$	$43.43 \pm 0.16$	$71.13 \pm 0.25$
R2-Tuning*	$71.40 \pm 0.330$	$53.786 \pm 0.684$	$51.49 \pm 0.358$	$41.72 \pm 0.085$	$69.52 \pm 0.472$
SG-DETR	$73.52 \pm 0.05$	$57.91 \pm 0.13$	$55.64 \pm 0.20$	$\underline{43.91} \pm 0.14$	$\underline{71.47} \pm 0.73$
Ours	$73.20 \pm 0.226$	$56.76 \pm 0.53$	$55.31 \pm 0.23$	$43.93 \pm 0.063$	$71.62 \pm 0.348$

Table B: InternVideo2-1b feature를 활용했을 때의 대표적인 baseline 집합 평가, QVHighlights val split에서 평가됨. Bold는 최고 성능을, underline은 두 번째 최고 성능을 나타냄.

\begin{array}{r} \Delta=\mathcal{G}_{\Delta}(\mathbf{Q}) \in \mathbb{R}^{M \times P}, \mathbf{A}=\mathcal{G}_{\mathbf{A}}(\mathbf{Q}) \in \mathbb{R}^{M \times P} \\ \quad \mathbf{S}=\sum_{p=1}^{P}\left(\mathbf{A}_{:, p} \mathbf{K}\left[\mathbf{c}+\mathbf{w} \odot \Delta_{:, p}\right]\right) \in \mathbb{R}^{M \times F} \end{array}

여기서 $\mathcal{G}_{\Delta}, \mathcal{G}_{\mathbf{A}}$ 는 종종 CNN으로 모델링되며, $x[y]$ 는 인덱스 $y$ 에 대한 $x$ 의 bilinear sampling이다. 이는 특정 query가 주어졌을 때, attend할 key token의 작은 부분 집합과 그에 해당하는 가중치(가중 평균을 계산하는 데 필요)를 식별하는 학습 가능한 방법으로 볼 수 있다. 따라서 효율성 향상의 핵심은 Vanilla Attention과 달리 모든 key를 볼 필요 없이 query 자체의 간단한 projection layer 결과만으로 이러한 결정을 내릴 수 있다는 점이다.

E. Detailed ablation using only InternVideo21B features

제안하는 SDST와 나머지 테스트된 baseline들 간의 공정한 비교를 보장하기 위해, Table B에서는 [8]의 연구를 따라 InternVideo2-1B feature만을 사용하여 관련 baseline들을 3개의 독립적인 seed로 테스트하였다. 우리는 MR 및 HD를 수행할 수 있는 관련 baseline들만 평가하였다.
우리의 방법이 VTG를 위한 기존의 다른 side-tuning 방법 [25]보다 상당히 우수한 성능을 보임을 확인할 수 있다. 구체적으로, MR 능력은 3.82% mAP 향상되었고, HD는 2.21% mAP 및 2.1% HIT@1 향상되었다. 이전 관찰과 유사하게, 우리의 방법은 나머지 방법들보다 우수하며 SG-DETR과도 경쟁력 있는 성능을 보이고, 두 가지 HD metric에서는 SG-DETR보다도 더 나은 성능을 보인다. 우리의 방법이 SG-DETR의 학습 가능한 파라미터의 27.3%만을 사용한다는 점을 고려할 때, 이는 특히 주목할 만하다.

또한, Table C에서는 나머지 두 데이터셋인 Charades-STA와 TACoS에 대한 분석도 제시한다. 마찬가지로, 이 두 시나리오에서도 우리의 방법은 두 번째로 우수한 성능을 보인 연구들(Charades-STA의 FlashVTG, TACoS의 SG-DETR)보다 모든 metric에서 더 나은 성능을 보인다. 단, TACoS의 R1@0.5에서는 미미한 성능 저하가 발생한다.

Method	Charades-ST			TACoS
	R1@0.5	R1@0.7	mIoU	R1@0.5	R1@0.7	mIoU
$\mathrm{R}^{2}$ -Tuning	68.2	46.26	58.14	38.02	25.27	35.36
SG-DETR	70.2	49.5	59.1	$\mathbf{4 4 . 7}$	$\underline{29.9}$	$\underline{40.9}$
FlashVTG	70.3	$\underline{49.9}$	-	41.8	24.7	37.6
Ours	$\mathbf{7 2 . 0}$	$\mathbf{5 2 . 6}$	$\mathbf{6 1 . 2}$	$\underline{44.5}$	$\mathbf{32 . 3}$	$\mathbf{4 2 . 2}$

Table C : InternVideo2-1b feature를 활용했을 때 Charades-STA 및 TACoS 데이터셋에서 여러 대표적인 baseline들의 비교. 굵은 글씨는 최고 성능을, 밑줄은 두 번째 최고 성능을 나타낸다.

	# Params (M)	Memory (GB)	Runtime (it/s)
Moment-DETR	4.8	1.54	7.45
R2-Tuning	2.7	2.4	5.55
TR-DETR	7.9	1.76	4.75
HL-CLIP	2.0	22.98	0.64
Llava-MR	17.0	$\approx 80 \times 8$	-
MR.Blip	19.0	$\approx 80 \times 8$	-
SG-DETR	15.0	-	-
Flash-VTG	10.9	2.3	5.2
Ours	4.1	3.4	4.16

Table D: InternVideo2-1b feature와 batch size 32로 QVHighlight에서 평가된 대표 모델들의 효율성 요약.

$\mathcal{L}_{1}$	$\mathcal{L}_{\text {IOU }}$	$\mathcal{L}_{\text {align }}$	$\mathcal{L}_{\text {act }}$	$\mathcal{L}_{c l s}$	R1@0.5 <br> R1@ 0.7		MR mAP@0.5 <br> mAP@0.75		mAP <br> mAP	HD mAP <br> HIT@1

	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	71.68	58.58	72.28	56.28	55.0	43.52	71.35
$\checkmark$		$\checkmark$	$\checkmark$	$\checkmark$	73.94	59.55	72.07	55.21	54.25	43.35	71.35 71.26
$\checkmark$	$\checkmark$			$\checkmark$	71.55	58.13	71.55	55.21	54.25	43.68	69.48
$\checkmark$	$\checkmark$	$\checkmark$		$\checkmark$	73.1	59.61	73.87	57.01	55.6	43.29	71.00
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$		70.52	57.23	69.88	54.82	52.95	42.28	68.65
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	73.68	60.90	73.52

Table E: InternVideo2-1b feature를 사용하여 QVHighlight val에서 평가된 우리 모델의 주요 loss들의 중요성.

F. Additional efficiency analysis

본 논문에서는 일반적으로 파라미터 수만을 기준으로 기존 관련 연구 대비 모델의 효율성을 연구한다. Table D에서는 이 분석을 **학습 메모리(training memory)와 실행 시간(running time)**으로 확장한다. 단순화를 위해 이 연구는 QVHighlights 데이터셋에 한정한다.

G. Study of the inherent optimization difficulty

부인할 수 없듯이, 기존의 SOTA 모델들 (예: [25, 8])은 상당한 수의 loss와 구성 요소를 축적한다. 그리고 불행히도 우리의 모델도 예외는 아니다. 이는 향후 더 compact한 모델을 만들려는 연구에 상당한 기회를 제공하지만, 이 섹션에서는 sparse stream $\mathcal{S}$ 의 다양한 모델 구성 요소의 필요성을 정당화했던 본문 Tab. 7의 ablation을 확장하고자 한다. 구체적으로, 우선 제안된 다양한 loss들의 필요성에 초점을 맞춘다. 단, saliency 관련 loss처럼 본질적인 task 해결에 필수적인 loss는 제외한다. 이를 위해 Tab. E를 참조하라.

최적화 및 파라미터의 난이도 측면에서

Perm. #	MR				HD
	R1@0.5	R1@0.7	mAP@0.5	mAP@0.7	mAP	mAP	HIT@1
1	73.03	59.10	72.78	56.31	55.17	43.70	70.58
2	73.94	59.35	73.92	57.26	55.87	44.30	72.58
3	72.19	57.87	72.43	56.22	54.72	44.03	71.74
4	72.97	58.77	73.13	56.84	55.58	44.52	71.68
Chosen	73.68	60.90	73.52	57.42	55.60	44.00	72.00
Mean $\pm$ Std	$73.16 \pm 0.61$	$59.19 \pm 0.98$	$73.15 \pm 0.52$	$56.81 \pm 0.48$	$55.38 \pm 0.40$	$44.11 \pm 0.27$	$71.71 \pm 0.65$

Table F: 주요 검색 및 감지 지표를 사용한 다양한 순열에 걸친 성능.

Perm #	$\lambda_{L 1}$	$\lambda_{I O U}$	$\lambda_{\text {sal }}$	$\lambda_{\text {align_video }}$	$\lambda_{\text {align_layer }}$	$\lambda_{\text {act }}$	$\lambda_{\text {cls }}$
1	1.47	1.91	0.11	0.18	0.42	0.84	1.27
2	1.43	0.41	0.17	0.33	0.37	0.3	0.29
3	1.81	0.92	0.36	0.42	0.23	0.63	0.64
4	0.4	1.24	0.31	0.1	0.16	1.13	0.64
Chosen	1	1	0.1	0.1	0.1	1	1

Table G: 무작위로 선택된 4가지 loss 가중치 구성과 최종 선택된 구성.

탐색에서 우리는 하이퍼파라미터 선택의 상당한 견고성을 강조한다. 구체적으로, Sec. A에서 명시된 바와 같이, 대부분의 하이퍼파라미터는 [25]와 같은 이전 관련 연구들과 일관되게 유지된다. 새로 도입된 하이퍼파라미터는 단순화를 위해 1.0으로 설정되었다. 그럼에도 불구하고, 이것이 이러한 하이퍼파라미터 선택에 대한 견고성을 보장하지는 않는다. 결과적으로 우리는 다음 실험을 제안한다: 우리는 4가지 추가적인 다른 구성(즉, 모든 loss 가중치)을 무작위로 샘플링한다. 이때 $\lambda_{L 1}, \lambda_{I O U}, \lambda_{a c t}, \lambda_{c l s}$ 에 대해 $[0.25, 2]$ 범위, $\lambda_{\text {sal }}, \lambda_{\text {align_video }}, \lambda_{\text {align_layer }}$ 에 대해 $[0.1, 0.5]$ 범위로 설정한다. Tab. G에 정의된 각 구성에 대한 결과는 Tab. F에서 확인할 수 있으며, 이러한 새로운 무작위 순열에도 불구하고 우리 모델이 크게 벗어나지 않음을 알 수 있다. 사실, 최고의 구성을 cherry picking할 필요가 없는 이러한 더 견고한 성능 지표는 Tab. 1의 전체 순위에서도 여전히 동등하게 평가될 것이다.

H. Comparison with other PEFT and MEFT methods

이 섹션에서는 QVHighlights val split에 대해 InternVideo2-1B feature를 활용할 때, 제안하는 SDST와 다른 관련 PEFT 방법들을 비교한다. 중요한 점은, 심각한 계산 제약으로 인해 Adapter, LORA, Prompt-based와 같은 관련 방법들을 평가할 수 없었다는 것이다. 구체적으로, 이러한 방법들은 **frozen backbone을 통한 전체 역전파(full backpropagation)**를 필요로 하며, 이는 우리 NVIDIA RTX 6000의 메모리 용량을 초과한다. 이는 ST와 같은 MEFT 방법의 중요성을 강조한다. 또한, [25]는 이러한 메모리 소모가 큰 대안들이 VTG에서 ST보다 성능이 떨어진다는 것을 보여주므로, 우리는 이 ablation의 범위를 w/o Tuning과 관련 ST baseline들, 즉 **E $^3$ VA [47], LoSA [9], LST [38], R $^2$ -Tuning [25]**으로 안전하게 제한할 수 있다. 이들 중 R $^2$ -Tuning만이 우리의 multi-modal 설정에 자연스럽게 적합하다. 따라서 공정한 비교를 위해 우리는 다른 baseline들을 우리 설정에 맞게 최소한으로 수정하였다.

Method	#Params (M)	Memory (GB)	MR			HD
			R1@0.5	R1@0.7	mAP	mAP	HIT@1
w/o Tuning	2.70	2.35	66.97	51.10	46.19	41.45	67.23
E ${ }^{3}$ VA 47	2.57	2.96	68.97	53.16	47.68	41.04	68.13
LoSA 9	6.40	2.39	72.13	58.32	53.73	41.82	68.19
LST [38]	2.04	2.49	70.32	55.55	50.59	41.53	69.48
$\mathrm{R}^{2}$ -Tuning [25]	2.70	2.44	70.84	55.35	51.30	41.64	69.74
Ours	4.10	3.40	73.68	60.90	55.60	44.00	72.00

Table H: QVHighlights val split에서 다양한 튜닝 방법들의 성능 비교. 굵은 글씨는 최고 성능을 나타낸다.

	R1@0.5	R1@0.7	mIOU	R1@0.5	R1@0.7	mIOU
w/o Tuning	67.69	45.56	57.98	34.22	21.82	32.51
$\mathrm{E}^{3}$ VA [47]	66.13	45.11	56.23	38.77	26.02	36.15
LoSA [9]	67.69	45.16	57.42	38.54	24.49	35.71
LST [38]	68.2	46.26	58.14	38.02	25.57	35.26
$\mathrm{R}^{2}$ -Tuning[25]	69.25	46.67	58.69	39.54	27.37	36.27
Ours	$\mathbf{7 2 . 0 0}$	$\mathbf{5 2 . 6 0}$	$\mathbf{6 1 . 2 0}$	$\mathbf{4 4 . 5 0}$	$\mathbf{3 2 . 3 0}$	$\mathbf{4 2 . 2 0}$

Table I: Charades-STA 및 TACoS에서 MR에 대한 다양한 튜닝 방법들의 성능 비교. 굵은 글씨는 최고 성능을 나타낸다.

Tab. H에서 **LoSA [9]**를 제외하고는 모든 baseline들이 비슷한 수의 학습 가능한 파라미터를 가지고 있음을 확인할 수 있다. 마찬가지로, 이 모든 방법들은 매우 효율적인 메모리 사용량을 보여주는데, 이는 앞서 언급했듯이 다른 PEFT 대안들과 대조된다. 우리는 이들 테스트된 모든 baseline들이 MR에서 w/o Tuning보다 상당히 개선된 성능을 보이지만, HD 측면에서는 상당히 유사한 성능을 나타낸다는 것을 발견했다. 전반적으로, 우리가 제안하는 SDST는 이 모든 방법들을 개선하며, 특히 HD에서 크게 향상된 성능을 보여준다.

Tab. I에서는 Charades-STA 및 TACoS 데이터셋에 대한 유사한 분석을 포함하며, 비슷한 결과를 보여준다.

표 J는 SDST의 파라미터 공유 여부에 따른 성능을 비교한다. 즉, $K=4$ 개의 서로 다른 중간 layer 각각에 대해 독립적인 SG side-tuner를 생성하는 것이 MR 및 HD task에서 성능 향상을 가져오는지 여부를 평가한다.
결과적으로 이는 사실이 아니다. 8.32M개의 추가 파라미터에도 불구하고, 서로 다른 side-tuning 모듈을 공유하지 않는 것은 테스트된 모든 지표에서 성능 저하를 초래한다.
우리는 동일한 alignment 모듈(Eq.2 참조)을 후속 $\mathcal{L}_{\text {align }}$ loss와 공유하는 것이 다음을 촉진한다고 가정한다:

embedding들이 고유한 잠재 공간을 공유하고,
서로 다른 layer들이 다른 의미론에 집중하도록 한다. 이는 나머지 모듈의 공유를 가능하게 하며, 우리는 이것이 최적화를 안정화하고 성능을 향상시키는 데 기여한다는 것을 관찰했다.

Shared			MR			HD		Params
	R1@0.5	R1@0.7	mAP@0.5	mAP@0.75	mAP	mAP	HIT@1
$\checkmark$	$\mathbf{7 3 . 6 8}$	$\mathbf{6 0 . 9 0}$	$\mathbf{7 3 . 5 2}$	$\mathbf{5 7 . 4 2}$	$\mathbf{5 5 . 6 0}$	$\mathbf{4 4 . 0}$	$\mathbf{7 2 . 0 0}$	4.10 M
	71.23	57.1	71.62	55.44	54.1	43.82	70.45	12.43 M

Table J: QVHighlights val split에서 공유 파라미터 사용 여부의 효과에 대한 ablation 결과. 굵은 글씨는 최고 성능을 나타낸다.

K	Interm?			MR mAP@0.5	mAP@0.75	HD
		R1@0.5	R1@0.7			mAP	mAP	HIT@1
1	$\checkmark$	68.00	54.13	68.72	51.23	48.72	43.66	68.26
2	$\checkmark$	71.94	57.48	71.98	55.15	53.64	43.49	69.61
3	$\checkmark$	72.84	58.19	72.92	56.0	54.69	43.85	69.94
4	$\checkmark$	73.68	60.90	73.52	57.42	55.60	44.0	72.00
5	$\checkmark$	72.39	58.77	71.71	55.35	54.34	43.7	71.87
1		68.00	54.13	68.72	51.23	48.72	43.66	68.26
2		73.23	59.29	72.75	56.61	55.06	44.18	71.68
3		73.61	59.42	73.27	56.41	55.32	43.69	70.84
4		70.84	57.03	72.02	54.27	54.6	44.29	71.55
5		70.00	57.03	70.62	54.72	53.54	43.27	68.52

Table K: 여러 refinement level(즉, 마지막 k개)에 걸친 refinement 효과와 중간 layer feature 대 마지막 layer feature 사용 효과에 대한 ablation 결과. 결과는 QVHighlights val split에 해당한다.

J. Extended ablation on the use of intermediate InternVideo2-1B features

Sec. 6.1에서는 다양한 refinement 단계의 중요성을 보여주고, 마지막 layer feature만 사용하는 대신 중간 layer feature를 사용하는 것의 효과를 정량화하기 위한 ablation study를 제안한다. 완전성을 위해, Tab. K에서는 우리의 연구 결과와 통찰력을 더욱 뒷받침하는 모든 평가 지표를 포함한 완전한 ablation 결과를 제시한다.

K. Study of deformable attention

Action-length 기반 분석: Section 6.2에서는 표준 CA [39], Deformable CA [50], 심지어 [48]과 같은 decoder query 초기화 메커니즘에 비해 우리가 제안하는 RDSA 방법의 경험적 이점을 보여준다. 이러한 결과를 보완하기 위해, Table L에서는 액션 길이(짧은, 중간, 긴 액션)에 따른 MR 성능을 분석한다. 이 비교는 표준 CA 모듈의 핵심적인 한계 중 하나가 짧은 액션을 정확하게 식별하는 능력이 거의 없다는 것을 보여준다. 짧은 액션에 대한 표준 CA의 성능은 Deformable CA 및 RDSA에 비해 각각 14.33% 및 15.07% 저하됨을 확인할 수 있다. 또한, 우리의 방법은 긴 액션 예측에 특히 효과적이며, Deformable CA에 비해 2.84% mAP 향상을 보인다.

CNN 및 샘플링 포인트의 효과: 이 섹션에서는 RDSA에 대한 깊은 이해를 위해 추가적인 통찰력을 제공하고자 한다. 구체적으로, 우리는 이 모듈의 두 가지 중요한 측면에 초점을 맞춘다: 대체 query embedding을 형성하기 위해 샘플링되는 포인트와 로컬 컨텍스트를 얻기 위한 추가 CNN 모듈 (Equation [10] 참조).

Att. strat.	mAP short	mAP middle	mAP long	mAP
Stand. CA	3.31	45.92	51.17	42.72
Def.CA	17.64	57.68	56.92	54.27
Ours	$\mathbf{1 8 . 3 8}(+0.74)$	$\mathbf{5 8 . 1 5}(+0.47)$	$\mathbf{5 9 . 7 6}(+2.84)$	$\mathbf{5 5 . 6 0}(+1.33)$

Table L: QVHighlights val split에서 다양한 비디오 길이에 따른 여러 attention 전략의 성능 비교. 우리의 방법과 두 번째로 성능이 좋은 baseline(즉, Def. CA) 간의 절대적인 차이를 포함한다. 굵은 글씨는 최고 성능을 나타낸다.

이를 위해 Table M에서는 세 가지 가능한 샘플링 전략에 대해 ablation을 수행한다. 첫 번째는 액션의 중심 프레임만 샘플링하고, 두 번째는 액션 경계의 왼쪽 및 오른쪽 극단점(extremum)을 모두 샘플링하며, 세 번째는 이 세 가지 embedding을 모두 샘플링한다. Section 3.3.4에서 설명했듯이, 이러한 embedding은 예측된 액션 참조를 기반으로 샘플링되며, 연결(concatenation) 후 Deformable Self-Attention 메커니즘을 위한 대체 query embedding으로 사용된다.

이와 관련하여, 우리의 ablation 결과는 RDSA가 CNN 모듈을 함께 사용할 때 극단점(extremum) embedding으로부터 가장 큰 이점을 얻는다는 것을 보여준다. 이는 CNN이 현재 액션 경계 주변의 컨텍스트를 효과적으로 수집하여, offset 예측에 중요한 정보를 제공하고, 따라서 모델이 예측된 세그먼트를 더욱 정교하게 다듬기 위해 어디를 봐야 하는지에 대한 중요한 정보를 제공한다는 것을 나타낸다.

또한, 중심 embedding이 전체 성능에 덜 중요한 역할을 하는 것처럼 보이지만, 여전히 필요하다는 것을 관찰한다. 흥미롭게도, CNN의 사용은 이러한 embedding의 효과를 오히려 해친다. 우리는 정의상 중심 embedding이 매우 액션과 유사한 embedding으로 둘러싸여 있는 경향이 있기 때문에, 로컬 주변 정보가 반드시 유용하지 않으며, 심지어 학습 불안정성을 유발하거나 과적합을 악화시킬 수 있다고 추측한다.

요약하자면, 이러한 실험들은 제안된 3가지 샘플링된 embedding을 사용하는 것의 중요성과 추가 CNN 모듈이 액션 경계의 로컬 주변 정보를 수집하는 데 미치는 전반적인 긍정적인 영향을 보여준다.

예측된 offset에 대한 확장 분석: 마지막으로, Section 6.2에서 제공된 예측된 offset이 어디를 가리키는지에 대한 분석을 확장한다. 구체적으로, Figure A에서는 액션의 중심 근처(즉, 0)에서 head를 초기화하는 head에 대한 유사한 분석을 추가로 보여준다. 이 경우, 이전 관찰과 유사하게, 원래 Deformable CA [50]는 offset을 원래 초기화에 더 가깝게 유지하여 입력 비디오에 대한 적절한 이해 부족을 시사한다. 대조적으로, 우리의 방법은 offset을 가장 왼쪽 경계에 더 가까운 프레임으로 가리키도록 학습한다. 또한, 우리 모델은 더 깊은 레벨을 처리할수록 더 왼쪽을 보도록 학습한다는 것을 발견한다.

Sampling points	CNN			MR		HD
		R1@0.5	R1@0.7	mAP@0.5	mAP@0.75	mAP	mAP	HIT@1
c	$\checkmark$	71.94	58.39	71.37	55.35	53.57	43.59	71.23
		70.97	57.03	71.45	55.18	54.01	43.44	70.58
1-r	$\checkmark$	72.26	57.16	71.77	55.03	53.55	43.26	70.71
		72.32	57.74	72.31	55.91	54.36	43.28	71.81
1-c-r	$\checkmark$	72.13	58.77	71.54	54.81	53.94	43.25	71.68
		73.68	60.90	73.53	57.42	55.60	44.00	72.00

Table M: 중심 샘플링(c), 가장 왼쪽 및 가장 오른쪽 액션 경계 샘플링(l) 및 (r)과 같은 다양한 샘플링 전략의 효과에 대한 Ablation. 또한, 향상된 컨텍스트 학습을 위한 추가 CNN 모듈의 중요성을 정량화한다. 결과는 QVHighlights val split에 해당한다. 굵은 글씨는 최고 성능을 나타낸다.

Figure A: QVHighlights val split 평가 시 refinement 레벨에 따른 head 2의 attention-weighted offset 거리.

Mod. permutation	MR				HD
	R1@0.5	R1@0.7	mAP@0.5	mAP@0.75	mAP	mAP	HIT@1
SA-CA-Def-FFN	70.77	56.13	71.54	54.66	53.81	43.36	70.39
SA-Def-CA-FFN	70.97	57.29	71.30	54.72	53.74	43.06	69.87
Def-SA-CA-FFN	71.81	57.61	71.61	55.05	53.91	43.16	70.19
Def-CA-SA-FFN	72.77	58.71	72.78	56.46	54.98	44.04	71.35
CA-Def-SA-FFN	72.58	59.42	72.78	57.26	54.94	43.46	70.77
CA-SA-Def-FFN	73.68	60.90	73.52	57.42	55.60	44.00	72.00

Table N: QVHighlights val split에서 평가된 sparse stream 구성 요소의 순서 중요성에 대한 Ablation.

L. Study of the ordering of the different modules of the sparse stream

sparse stream의 4가지 모듈 순서는 고려해야 할 중요한 측면 중 하나이다. 이를 위해 Tab. N에서는 여러 관련 조합을 평가하였다. 계산상의 제약으로 인해 최종 FFN 모듈에 대한 ablation은 수행하지 않았다. Tab. N의 결과는 CA 모듈을 가능한 한 빨리 포함하여 텍스트 컨텍스트를 얻는 것이 유리함을 보여준다.

M. Ablation statistical significance tests

이 섹션에서는 우리가 제안하는 SDST (ours) 의 성능이 다른 관련 baseline들과 유의미하게 다른지 평가하고자 한다. 주요 결과에 대해, 예를 들어 QVHighlights test의 제출 횟수가 제한적이라는 점을 고려할 때, 다양한 seed에 걸쳐 다른 baseline들과 공정한 비교를 확립하기 어려웠다. 따라서 우리는 연구된 3가지 데이터셋과 각 metric에 걸쳐 다양한 모델 순위의 통계적 분석에 초점을 맞춘다. 구체적으로, 우리는 두 가지 주요 통계 테스트를 수행한다: Friedman test [5]와 Nemenyi's test [13].

M.1. Friedman Test

Friedman test는 $k$ 개의 서로 다른 변수가 동일한 모집단에 속하는지 여부를 검정하는 **비모수 통계 검정(non-parametric statistical test)**이다. 구체적으로, 우리는 이 검정을 적용하여 주어진 다양한 모델들의 순위가 서로 다른 데이터셋과 metric에 걸쳐 유의미하게 다른지를 연구한다.
Friedman test의 **귀무가설(null hypothesis)**은 모든 모델이 유사하게 수행되므로, 데이터셋/metric에 걸쳐 순위에 유의미한 차이가 없다는 것으로 정의한다.
수학적으로, Friedman 통계량 $\chi_{F}^{2}$ 는 다음과 같이 주어진다:

\chi_{F}^{2}=\frac{12}{N \cdot k \cdot(k+1)} \sum_{i=1}^{k}\left(R_{i}-\frac{N(k+1)}{2}\right)^{2},

여기서

$N$ 은 데이터셋 및 해당 metric의 수,
$K$ 는 테스트된 모델의 수,
$R_{i}$ 는 서로 다른 데이터셋과 metric에 걸쳐 모델 $i$ 의 순위 합계이다.

우리의 경우, Friedman test는 $\chi_{F}^{2}=$ 5.640의 통계량과 0.933의 p-value를 산출했다. 이 값은 통계적 유의성을 결정하는 데 일반적으로 사용되는 임계값인 0.05보다 크다. 따라서 우리는 귀무가설을 기각할 수 없으며, 모든 데이터셋에서 평가된 모델들의 순위 사이에 유의미한 차이가 없다고 결론 내릴 수 있다. 즉, 우리는 SDST를 포함한 다양한 평가된 baseline 모델들의 성능이 서로 다른 데이터셋과 metric에 걸쳐 일관되게 나타남을 관찰한다.

	QVHighlights(test)							Charades-ST			TACoS
Method	MR					HD
	R1			mAP		$\geq$ Very good		R1			R1
	@0.5	@ 0.7	@0.5	@ 0.75	Avg.	mAP	HIT@1	@0.5	@ 0.7	mIOU	@0.5	@ 0.7	mIOU
Moment-DETR	9	9	9	9	9	7	6	9	9	-	9	9	9
QD-DETR	7	7	7	7	7	5	4	8	8	-	7	7	7
UniVTG	8	8	8	8	8	6	5	7	7	6	8	8	8
CG-DETR	5	6	5	6	6	4	2	6	6	5	5	6	5
BAM-DETR	6	5	5	5	5	-	-	5	4	4	4	3	3
R2-Tuning	4	4	4	4	4	3	3	4	5	3	6	4	6
SG-DETR ${ }^{\dagger}$	1	1	1	1	1	1	1	3	4	2	1	2	2
Flash-VTG ${ }^{\dagger}$	3	3	2	3	3	-	-	2	2	-	3	5	4
Ours ${ }^{\dagger}$	2	2	3	2	2	2	1	1	1	1	2	1	1

Table O: QVHighlights test 및 val 데이터셋에 대한 SOTA와의 비교. 또한, 비교 가능성을 위해 이 결과들은 사전학습(pre-training)에 의존하지 않는다. ${ }^{\dagger}$ 는 해당 방법이 InternVideo2 backbone을 사용함을 나타낸다 (우리의 모델과 비교 가능).

Comparison w.r.t. SDST	p-value	Statistically different
Moment-DETR	0.0012	$\checkmark$
QD-DETR	0.0013	$\checkmark$
UniVTG	0.0011	$\checkmark$
CG-DETR	0.0013	$\checkmark$
BAM-DETR	0.0013	$\checkmark$
R2-Tuning	0.0013	$\checkmark$
SG-DETR	0.7926
Flash-VTG	0.0011	$\checkmark$

Table P: 제안된 SDST에 대한 다양한 쌍별 비교(pairwise comparison)에 대한 Nemenyi의 유의성 검정 결과.

M.2. Pairwise Nemenyi's Test

이 두 번째 통계적 유의성 검정에서는 제안된 방법이 나머지 baseline들, 특히 R2-Tuning과 SG-DETR보다 유의미하게 더 나은 성능을 보이는지를 판단하기 위한 보다 세분화된 분석에 중점을 둔다. 이를 위해 Nemenyi's test를 사용하여 **쌍별 비교(pairwise comparison)**를 진행한다.
더 자세히 설명하면, 각 모델 쌍에 대해 Nemenyi test statistic은 다양한 데이터셋과 metric에 걸친 **각 모델의 순위 차이(rank differences)**를 기반으로 계산된다. 얻어진 p-value는 Tab. P에 제시되어 있다. 이 결과는 우리의 방법(SDST)이 SG-DETR을 제외한 모든 다른 baseline보다 통계적으로 더 우수한 성능을 보이며, SG-DETR과는 통계적으로 동등한 성능을 나타냄을 시사한다. 이는 이전 관찰과 일치하며, 우리의 방법이 SG-DETR의 파라미터 수의 27%만을 사용하면서도 SOTA와 통계적으로 동등한 성능을 달성함을 증명한다.

이러한 결과는 Ours와 SG-DETR 간의 p-value가 0.7926으로, 두 방법 사이에 통계적으로 유의미한 차이가 없음을 나타낸다. 반면, Ours와 다른 모델들 간의 비교에서는 모든 p-value가 0.05 미만으로, Ours가 다른 모델들보다 통계적으로 유의미하게 더 우수함을 시사한다.