RGTR: 쿼리 다양화를 통한 Temporal Sentence Grounding Transformer

기존 DETR 기반의 Temporal Sentence Grounding 모델들은 중복되고 불필요한 proposal을 생성하는 문제를 겪습니다. 이를 해결하기 위해 제안된 Region-Guided Transformer (RGTR)는 학습 가능한 쿼리 대신 명시적인 지역적 가이드를 제공하는 anchor pair를 moment query로 사용하여 쿼리 다양성을 높이고 중복 proposal을 제거합니다. 각 moment query는 특정 시간 영역의 예측을 담당하여 최적화의 어려움을 줄이고 proposal의 다양성을 보장합니다. 또한, IoU-aware scoring head를 도입하여 proposal의 품질을 향상시킵니다. 논문 제목: Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding

Sun, Xiaolong, et al. "Diversifying query: Region-guided transformer for temporal sentence grounding." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 39. No. 7. 2025.

Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding

Xiaolong Sun 1{ }^{1 *}, Liushuai Shi 1{ }^{1 *}, Le Wang 1{ }^{1 \dagger} Sanping Zhou 1{1}, Kun Xia 1{1}, Yabing Wang 1{1}, Gang Hua 2{2}<br>1{ }^{1} National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, National Engineering Research Center for Visual Information and Applications, and Institute of Artificial Intelligence and Robotics, Xi'an Jiaotong University<br>2{ }^{2} Multimodal Experiences Research Lab, Dolby Laboratories<br>{sunxiaolong,shiliushuai,xiakun}@stu.xjtu.edu.cn, {lewang,spzhou}@xjtu.edu.cn, {wyb7wyb7,ganghua}@gmail.com

Abstract

Temporal sentence grounding은 언어 설명과 관련된 순간(moment) 구간을 찾아내는 것을 목표로 하는 도전적인 task이다. 최근 DETR 기반 모델들은 여러 개의 학습 가능한 moment query를 활용하여 상당한 진전을 이루었지만, 중복되고 불필요한 제안(proposal)들로 인해 부정확한 예측을 초래하는 문제점을 가지고 있다. 우리는 이러한 한계가 학습 가능한 query들이 특정 모드를 담당하도록 하는 task 관련 지침의 부족 때문이라고 생각한다. 더욱이, 가변적이고 개방형 어휘(open-vocabulary) 언어 설명으로 인해 발생하는 복잡한 해 공간(solution space)은 최적화를 어렵게 만들고, 학습 가능한 query들이 서로를 적응적으로 구별하기 어렵게 하여 더 심각한 중복 제안으로 이어진다.

이러한 한계를 해결하기 위해 우리는 temporal sentence grounding을 위한 **Region-Guided TRansformer (RGTR)**를 제안한다. RGTR은 query 다양성을 높이고 중복 제안을 제거하기 위해 지역적 지침(regional guidance)을 도입한다. RGTR은 학습 가능한 query 대신 anchor 쌍 집합을 moment query로 채택하여 명시적인 지역적 지침을 도입한다. 각 moment query는 특정 시간적 영역에 대한 moment 예측을 담당하며, 이는 최적화 난이도를 줄이고 제안의 다양성을 보장한다. 또한, 우리는 제안 품질을 향상시키기 위해 IoU-aware scoring head를 설계한다. 광범위한 실험을 통해 RGTR의 효과를 입증했으며, 세 가지 공개 벤치마크에서 state-of-the-art 방법들을 능가하고 분포 외(out-of-distribution) 분할에서도 우수한 일반화 및 견고성을 보여준다.

코드 — https://github.com/TensorsSun/RGTR

1 Introduction

Temporal Sentence Grounding (TSG)은 정리되지 않은(untrimmed) 비디오에서 주어진 언어 설명과 의미적으로 일치하는 순간(moment) 구간을 찾아내는 것을 목표로 한다. 초기 방법들은 미리 정의된 dense proposal을 설계하거나 (Gao et al. 2017; Wang et al. 2022b), 문장-프레임 상호작용을 직접 학습함으로써 TSG task를 해결했다 (Liu et al. 2022a; Yang and Wu 2022). 최근 **detection Transformer (DETR)**의 성공은 Transformer를 TSG 프레임워크에 통합하는 데 영감을 주었다 (Moon et al. 2023b; Xiao et al. 2024). 이들은 학습 가능한 query 집합으로부터 moment span을 디코딩하여 복잡한 grounding 파이프라인을 간소화한다.

DETR 기반 접근 방식이 TSG task에서 주목할 만한 성능을 달성했음에도 불구하고, 우리는 다른 분야(예: 객체 탐지)와 비교했을 때 DETR 구조의 몇 가지 고유한 한계점을 여전히 관찰한다. 구체적으로, 이들은 제한된 query 분포와 중복된 proposal로 인해 정확하지 않은 예측을 초래한다. Fig. 1에서 보듯이, 우리는 세 가지 DETR 기반 방법에서 moment query의 중심-길이(center-length) 분포를 제시한다. 각 query는 서로 다른 시간적 영역을 예측하도록 학습된다 (예: 왼쪽 하단 영역은 비디오 시작 근처의 짧은 순간을 나타내고, 중앙 상단 영역은 긴 순간을 나타낸다). 이전 방법들에서는 각 query가 동일한 영역에 대해 수많은 중복되고 불필요한 proposal을 포함하여 (예: 하단 부분의 짧은 순간들), 비효율적인 예측을 초래한다. 우리는 이러한 한계가 특정 모드를 수행하기 위한 학습 가능한 query에 task 관련 지침(예: 카테고리 제약, 공간 분포 사전 지식 등)이 부족하기 때문이라고 생각한다. task 관련 지침이 중복된 proposal을 줄이는 데 중요함에도 불구하고, TSG task에서는 거의 탐구되지 않았다. 더욱이, 가변적이고 개방형 어휘(open-vocabulary) 언어 설명으로 인해 생성되는 복잡한 해법 공간최적화 난이도를 악화시켜, 학습 가능한 query들이 서로를 적응적으로 구별하기 어렵게 만들고 더 심각한 중복 proposal을 초래한다. 또 다른 한계는 이전 방법들의 proposal scoring이 순전히 분류 신뢰도에 기반하여 예측된 경계의 품질을 무시한다는 점이다. 대신, 우리는 정확하게 분류된 proposal 중 ground-truth와 더 잘 겹치는 proposal에 더 높은 점수가 할당되어야 한다고 주장한다. 위의 한계점들은 TSG task에서 DETR 구조의 정확한 localization을 크게 제한한다.

본 논문에서는 TSG task에서 앞서 언급된 한계점들을 해결하기 위해 효과적인 Region-Guided TRansformer (RGTR) 프레임워크를 소개한다. 중복된 proposal 문제를 해결하기 위해, 우리는 ground-truth moment span의 분포를 기반으로 하는 지역적 사전 지식(regional priors)을 task 관련 지침으로 도입한다. 이러한 지역적 지침은 query 다양성을 증가시켜 중복된 proposal을 제거할 수 있다. 구체적으로, 우리는 moment query로서 새로운 개념의 anchor pair를 가진 region-guided decoder를 설계하여 지역적 지침을 제공한다. 각 moment query는 **정적 anchor(static anchor)**와 **동적 anchor(dynamic anchor)**로 구성되며, 이 둘은 ground-truth moment span에 대한 서로 다른 클러스터링 중심(clustering center)으로 초기화된다. 이러한 명시적인 초기화는 각 moment query에 지역적 사전 지식(regional priors)을 지침으로 부여하여 query 분포의 다양성을 향상시킨다. 두 가지 유형의 anchor는 decoder에서 서로 다른 역할을 수행한다. 정적 anchor는 지역적 지침을 유지하도록 설계되었으므로, 디코딩 중에는 업데이트되지 않는다. 고정된 정적 anchor의 도움으로 동적 anchor는 다양한 시간적 영역에 대해 다양한 예측을 생성하기 위해 지속적으로 업데이트된다. 이들은 명시적인 지역적 지침을 통해 localization을 협력적으로 안내하고 중복된 proposal을 제거한다. 또한, 고품질 proposal의 scoring을 개선하기 위해 IoU-aware scoring head를 제안한다. L2 loss로 IoU 점수를 감독함으로써, 예측 head는 분류 신뢰도와 localization 품질을 모두 고려한다.

Figure 1: QVHighlights val split에서 EaTR (Jang et al. 2023), TR-DETR (Sun et al. 2024), CG-DETR (Moon et al. 2023a) 및 RGTR (Ours)의 3가지 대표적인 moment query에 대한 모든 moment 예측의 시각화 비교. x축은 정규화된 moment span 중심 좌표를 나타내고, y축은 정규화된 moment span 길이를 나타낸다. 이전 방법들의 모든 query는 수많은 중복된 proposal을 생성한다. 예를 들어, 두 번째 query는 비디오 중간 근처의 긴 순간(중앙 상단 영역)을 예측하는 경향이 있지만, 짧은 순간(하단 영역)의 proposal은 이러한 목적과 상충되어 비효율적인 예측을 초래한다. 대조적으로, 우리 RGTR의 각 query에 대한 예측 영역은 뚜렷하고 더 집중되어 있다.

세 가지 TSG 벤치마크에 대한 광범위한 실험은 RGTR 프레임워크의 효과를 입증한다. Fig. 1에서 보듯이, RGTR은 이전 방법들과 비교하여 불필요한 proposal을 제거하고 다양한 query 분포를 보여준다. 우리의 주요 기여는 다음과 같이 요약된다: (1) 우리는 새로운 region-guided decoder를 설계했으며, 이는 명시적으로 초기화된 anchor pair 집합을 moment query로 채택하여 task 관련 지침으로서 지역적 사전 지식(regional priors)을 도입한다. (2) 우리는 localization 품질을 통합하여 분류 신뢰도 추정을 향상시키고 고품질 proposal을 구별하는 IoU-aware scoring head를 제안한다. (3) 이러한 기술들을 사용하여, 우리는 중복된 proposal을 제거하고 localization 품질을 향상시키는 Region-Guided TRansformer를 소개한다. RGTR은 세 가지 도전적인 벤치마크에서 state-of-the-art 성능을 달성하며, out-of-distribution split에서도 우수한 일반화 및 견고성을 보여준다.

Temporal Sentence Grounding
Temporal sentence grounding트리밍되지 않은 비디오(untrimmed video)와 언어 설명이 주어졌을 때, 설명된 활동의 시간적 구간(moment spans)을 예측하는 것을 목표로 하며, 이는 (Gao et al. 2017)에서 처음 제안되었다. 초기 방법들은 proposal-based methodsproposal-free methods로 나뉜다.
Proposal-based methods (Liu et al. 2018; Xia et al. 2022; Wang et al. 2022b)는 초기에 여러 후보 proposal을 생성하고, 설명과의 유사도를 기반으로 순위를 매긴다.
Proposal-free methods (Lu et al. 2019; Chen et al. 2020; Yang and Wu 2022)는 미리 정의된 후보 moment의 필요성을 피하기 위해 제안되었다. 이들은 segment 후보에 의존하는 대신, 목표 moment의 시작 및 끝 경계를 직접 예측한다.
Detection Transformer (DETR) (Carion et al. 2020)의 최근 성공은 Transformer를 temporal sentence grounding 프레임워크에 통합하는 데 영감을 주었다 (Lei, Berg, and Bansal 2021; Liu et al. 2022c; Lee and Byun 2023). DETR 기반 방법들은 수작업으로 만든 기술들을 제거함으로써 전체 프로세스를 end-to-end 방식으로 단순화한다. 그러나 특정 모드를 제공하기 위한 learnable query에 대한 task 관련 지침이 부족하여, 거의 모든 이전 방법들은 수많은 중복되고 불필요한 proposal을 생성한다. 이와 대조적으로, 우리의 방법은 지역적 지침(regional guidance)을 도입하여 중복된 proposal을 제거한다.

Detection Transformers
최근 Transformer를 객체 탐지(object detection)에 적용한 DETR (Carion et al. 2020)은 Transformer 기반의 완전한 end-to-end 객체 탐지 시스템을 구축하였다. decoder query의 공식화 또한 이전 연구에서 널리 연구되었다 (Zhu et al. 2020; Shi et al. 2022, 2023). Anchor DETR (Wang et al. 2022a)는 특정 탐지 모드를 위한 anchor point를 기반으로 query를 초기화한다. DAB-DETR (Liu et al. 2022b)는 콘텐츠 및 액션 embedding으로 decoder query를 공식화한다. DINO (Zhang et al. 2022)는 위치 query에 대한 위치 사전 정보(positional prior)를 추가하고 콘텐츠 query를 무작위로 초기화한다. 이러한 성공에 영감을 받아, 우리는 정확한 예측을 위한 명시적인 지역적 지침을 도입하기 위해 anchor pair 세트를 도입한다.

Figure 2: (a) 제안된 RGTR 아키텍처의 개요. 비디오와 텍스트 설명이 주어지면, 먼저 두 개의 frozen pretrained model을 사용하여 시각 및 텍스트 feature를 추출한다. 이어서, cross-modal alignment encoder가 시각 및 텍스트 feature를 효과적으로 정렬하고 융합하기 위해 구성된다. 그런 다음, 명시적으로 초기화된 anchor pair 세트를 통해 디코딩 프로세스에 지역적 지침을 도입하기 위해 region-guided decoder를 설계한다. 마지막으로, IoU-aware scoring headlocalization quality를 통합하여 분류 신뢰도 추정(classification confidence estimation)을 향상시킴으로써 고품질 proposal을 생성한다. (b) **지역적 사전 정보(regional priors)를 가진 클러스터링 중심(clustering centers)**은 모든 ground-truth moment span의 분포에 대해 k-means 알고리즘을 적용하여 얻어진다.

3 Method

3.1 Overview

길이가 LL인 프레임들로 구성된 untrimmed video V={vt}t=1L\mathcal{V}=\left\{v_{t}\right\}_{t=1}^{L}NN개의 단어로 이루어진 자연어 설명 T={tn}n=1N\mathcal{T}=\left\{t_{n}\right\}_{n=1}^{N}이 주어졌을 때, TSG는 주어진 설명과 가장 관련성이 높은 순간 구간 m=(mc,mσ)m=\left(m_{c}, m_{\sigma}\right)을 정확하게 예측하는 것을 목표로 한다. 여기서 mcm_{c}mσm_{\sigma}는 순간 구간의 중심 시간과 지속 길이를 나타낸다.

최근 DETR 기반 방법론들은 수작업으로 설계된 구성 요소들을 학습 가능한 positional query로 대체하여 목표 순간을 예측한다. 학습 가능한 참조 검색 영역 집합을 나타내는 이러한 positional query는 이전 방법론들(Moon et al. 2023b; Yang et al. 2024; Xiao et al. 2024)에서 무작위로 학습 가능한 embedding으로 초기화되었다. 그러나 task 관련 지침(예: 카테고리 제약, 공간 분포 사전 지식 등)의 부족언어 설명의 광범위한 가변성으로 인해, positional query의 무작위 초기화는 최적화 난이도를 크게 가중시키고 수많은 중복 제안(overlapped proposal)을 생성한다.

이러한 문제를 해결하기 위해 우리는 **Region-Guided TRansformer (RGTR)**를 제안한다. RGTR은 명시적으로 초기화된 anchor 쌍 집합을 moment query로 채택하여, 지침 없이 무작위로 초기화된 학습 가능한 query를 대체한다. 우리 프레임워크에서는 anchor 쌍을 통해 region-guided decoder를 구축하여 디코딩 프로세스에 지시적이고 다양한 참조 검색 영역을 제공한다. 또한, 고품질 제안을 구별하기 위해 IoU-aware scoring head를 도입한다. 전체 아키텍처는 Fig. 2a에 나타나 있다.

3.2 Cross-Modal Alignment Encoder

이전 방법들(Moon et al. 2023b; Li et al. 2024)에 따라, 우리는 사전학습된 CLIP (Radford et al. 2021) 및 Slowfast 모델 (Feichtenhofer et al. 2019)을 사용하여 clip-level visual feature FvRL×dvF_{v} \in \mathbb{R}^{L \times d_{v}}를 추출한다. 여기서 LL은 클립의 개수를, dvd_{v}는 visual feature의 차원을 나타낸다. 또한, CLIP 모델을 활용하여 word-level textual feature FtRN×dtF_{t} \in \mathbb{R}^{N \times d_{t}}를 추출한다. 여기서 NN은 단어의 개수를, dtd_{t}는 textual feature의 차원을 나타낸다.

주어진 clip-level visual feature FvF_{v}와 word-level textual feature FtF_{t}는 먼저 multi-layer perceptron (MLP)을 사용하여 공통의 multimodal 공간으로 투영되어 해당 feature FˉvRL×D\bar{F}_{v} \in \mathbb{R}^{L \times D}FˉtRN×D\bar{F}_{t} \in \mathbb{R}^{N \times D}를 생성한다. 여기서 DD는 embedding 차원이다. 이전 연구(Li et al. 2021; Sun et al. 2024)에서 강조되었듯이, 상호작용 전에 modality를 정렬(align)하는 것은 modal gap을 줄이고 더 나은 modal representation을 얻을 수 있다. 따라서 우리는 비디오와 문장 간의 정렬을 촉진하기 위해 alignment loss Lalign \mathcal{L}_{\text {align }}을 사용한다.

Lalign =1Bi=1Blogexp((Gvi)(Gti))i=1Bj=1Bexp((Gvi)(Gtj)),\mathcal{L}_{\text {align }}=-\frac{1}{B} \sum_{i=1}^{B} \log \frac{\exp \left(\left(G_{v}^{i}\right)\left(G_{t}^{i}\right)^{\top}\right)}{\sum_{i=1}^{B} \sum_{j=1}^{B} \exp \left(\left(G_{v}^{i}\right)\left(G_{t}^{j}\right)^{\top}\right)},

여기서 BB는 배치 크기를 나타내며, GviRDG_{v}^{i} \in \mathbb{R}^{D}GtiRDG_{t}^{i} \in \mathbb{R}^{D}는 각각 학습 배치 내 ii-번째 비디오와 ii-번째 문장의 global feature를 나타낸다.

정렬 후, 우리는 text-to-video encoder를 채택하여 text-aware video representation을 얻는다. 구체적으로, 세 개의 cross-attention layer가 textual feature를 visual feature에 통합하는 데 사용된다:

F^v=Attention(Qv,Kt,Vt)=Softmax(QvKtD)Vt.\hat{F}_{v}=\operatorname{Attention}\left(Q_{v}, K_{t}, V_{t}\right)=\operatorname{Softmax}\left(\frac{Q_{v} K_{t}^{\top}}{\sqrt{D}}\right) V_{t} .

여기서 Qv=Linearq(Fˉv)Q_{v}=\operatorname{Linear}_{q}\left(\bar{F}_{v}\right), Kt=Lineark(Fˉt)K_{t}=\operatorname{Linear}_{k}\left(\bar{F}_{t}\right), 그리고 Vt=Linearv(Fˉt)V_{t}= \operatorname{Linear}_{v}\left(\bar{F}_{t}\right)이다. 이어서, 세 개의 self-attention layer가 representation을 강화하여 모델이 비디오 시퀀스 관계를 더 잘 이해하도록 돕는다. 여기서 우리는 F^v\hat{F}_{v}Qv^,Kv^Q_{\hat{v}}, K_{\hat{v}}Vv^V_{\hat{v}}로 투영하고, 이를 사용하여 최종 cross-modal fusion embedding FF를 얻는다.FF에는 saliency score constraints Lsal \mathcal{L}_{\text {sal }} (Moon et al. 2023b)가 적용된다.

3.3 Region-Guided Decoder

주어진 fusion embedding FF를 바탕으로, 우리는 **디코더에서 설명과 의미적으로 정렬된 moment span을 지역화(localize)**하는 것을 목표로 한다. Section 3.1에서 논의했듯이, 기존 방법들은 task 관련 지침 없이 무작위로 초기화된 학습 가능한 쿼리를 사용하여 최적화 난이도를 높이고 수많은 중복 제안(overlapped proposal)을 생성했다.
이와 대조적으로, 우리는 명시적으로 초기화된 앵커 쌍(anchor pair)을 moment query로 채택하여 지시적이고 다양한 지역적 지침(regional guidance)을 제공하는 region-guided decoder를 설계한다. 각 앵커 쌍은 **정적 앵커(static anchor)**와 **동적 앵커(dynamic anchor)**로 구성되며, 이들은 모두 ground-truth moment span에 대한 클러스터링 중심(clustering center)으로 초기화된다.
두 가지 유형의 앵커는 디코더에서 서로 다른 역할을 수행한다:

  • 정적 앵커: 업데이트 없이 지역적 지침을 유지한다.
  • 동적 앵커: 다양한 예측을 수행한다.

이들은 명시적인 지역적 지침을 통해 지역화를 협력적으로 안내한다. region-guided decoder의 구조는 Figure 3에 설명되어 있다. 다음에서는 상세한 과정을 설명한다.

앵커 명시적 초기화 (Anchor Explicit Initialization)
TSG task의 특성상, 우리는 다른 detection task에 존재하는 task 관련 지침(예: 카테고리 제약)이 부족하다. 그럼에도 불구하고, ground-truth moment span의 분포를 고려하여 디코딩 과정에 지역적 지침을 제공할 수 있다.
구체적으로, 정적 앵커와 동적 앵커의 형태는 먼저 a=(ac,aσ)a=\left(a_{c}, a_{\sigma}\right)로 정의된다. 여기서 aca_{c}는 중심 좌표이고 aσa_{\sigma}는 moment의 지속 시간이다.
그런 다음, Figure 2b에 나타난 바와 같이, 우리는 모든 ground-truth moment span의 분포에 대해 k-means clustering 알고리즘을 적용하여 K\mathcal{K}개의 클러스터링 중심 ARK×2A \in \mathbb{R}^{\mathcal{K} \times 2}를 생성한다. 이 클러스터링 중심은 다양한 중심 좌표와 지속 시간을 가진 명시적인 시간적 영역을 나타낸다. 텍스트에 설명된 이벤트는 비디오의 어느 곳에서든 발생할 수 있으므로, 다양한 시간적 영역을 지침으로 생성하는 것이 중요하다.
따라서 정적 앵커와 동적 앵커는 K\mathcal{K}개의 클러스터링 중심 AA로 초기화된다: As0=Ad0=ARK×2A_{s}^{0}=A_{d}^{0}=A \in \mathbb{R}^{\mathcal{K} \times 2}.
그리고 앵커 쌍의 positional embedding은 다음과 같이 생성된다:

Ps0=Pd0=MLP(PE(A)),P_{s}^{0}=P_{d}^{0}=\operatorname{MLP}(\operatorname{PE}(A)),

여기서 PE()\operatorname{PE}(\cdot)는 sinusoidal embedding을 생성하기 위한 positional encoding을 의미한다. 명확성을 위해, 정적 앵커는 업데이트되지 않더라도 jj-번째 디코더 레이어에서 정적 앵커와 그 positional embedding을 나타내기 위해 AsjA_{s}^{j}PsjP_{s}^{j}를 사용한다. 명시적인 초기화를 통해 지역적 사전 지식(regional prior)이 도입되어 디코더가 중복되지 않는 제안을 생성하도록 안내한다.

앵커 쌍 업데이트 (Anchor Pair Update)
명시적인 초기화를 통해 지역적 지침을 도입하는 것도 중요하지만, 디코딩 반복 과정에서 이 지침을 유지하는 것도 중요하다. 이러한 아이디어에 따라, 정적 앵커는 업데이트 없이 지침을 유지하도록 설계되었고, 동적 앵커는 Figure 3에 나타난 바와 같이 지역화를 위해 업데이트되도록 설계되었다.
정적 앵커의 경우:

Asj+1=As0=A,Psj+1=Ps0=MLP(PE(A)).A_{s}^{j+1}=A_{s}^{0}=A, \quad P_{s}^{j+1}=P_{s}^{0}=\operatorname{MLP}(\operatorname{PE}(A)) .

jj-번째 디코더 레이어의 동적 앵커 Adj=(acj,aσj)A_{d}^{j}=\left(a_{c}^{j}, a_{\sigma}^{j}\right)와 예측 헤드로부터의 상대 위치 ΔAdj=(Δacj,Δaσj)\Delta A_{d}^{j}=\left(\Delta a_{c}^{j}, \Delta a_{\sigma}^{j}\right)가 주어졌을 때, 동적 앵커는 다음과 같이 업데이트된다:

Adj+1=Adj+ΔAdj=(acj+Δacj,aσj+Δaσj)Pdj+1=MLP(PE(Adj+1))\begin{gathered} A_{d}^{j+1}=A_{d}^{j}+\Delta A_{d}^{j}=\left(a_{c}^{j}+\Delta a_{c}^{j}, a_{\sigma}^{j}+\Delta a_{\sigma}^{j}\right) \\ P_{d}^{j+1}=\operatorname{MLP}\left(\operatorname{PE}\left(A_{d}^{j+1}\right)\right) \end{gathered}

Figure 3: 제안하는 region-guided decoder의 구조. 앵커 쌍(정적 앵커와 동적 앵커)을 포함하며, PE는 positional encoding을 의미한다.

모든 예측 헤드는 동일한 파라미터를 공유한다.

Region-Guided Attention Module
일반적인 디코더와 유사하게, 우리의 region-guided decoder도 self-attention modulecross-attention module의 두 부분으로 구성된다. 그러나 Figure 3에 나타난 바와 같이, 우리는 두 모듈에서 서로 다른 역할을 위해 다른 앵커를 사용한다.
self-attention module에서는 정적 앵커가 미리 설정된 대표적인 시간적 영역에 content embedding을 집중시키고 다른 영역 간에 정보를 공유하는 데 활용된다. 구체적으로, 우리는 정적 앵커를 self-attention module의 positional embedding으로 활용하여 업데이트된 content embedding CsjC_{s}^{j}가 다음과 같이 되도록 한다:

Csj=MultiHeadAttn(Cj1+Ps0,Cj1+Ps0,Cj1),C_{s}^{j}=\operatorname{MultiHeadAttn}\left(C^{j-1}+P_{s}^{0}, C^{j-1}+P_{s}^{0}, C^{j-1}\right),

여기서 Cj1RK×DC^{j-1} \in \mathbb{R}^{\mathcal{K} \times D}(j1)(j-1)번째 디코더 레이어에서 온 content embedding이며, C0C^{0}는 0으로 초기화된다.
cross-attention module에서는 동적 앵커를 query positional embedding으로 사용하여 CsjC_{s}^{j}의 도움을 받아 fusion embedding FF로부터 영역별 feature를 집계한다. 따라서 content embedding은 다음과 같이 업데이트된다:

Cj=MultiHeadAttn([Csj,Pdj],[F,PE(F)],F),C^{j}=\operatorname{MultiHeadAttn}\left(\left[C_{s}^{j}, P_{d}^{j}\right],[F, \operatorname{PE}(F)], F\right),

여기서 [,][\cdot, \cdot]는 concatenation 함수를 의미한다. 지역적 지침을 가진 앵커 쌍을 채택함으로써, 디코더는 최적화 난이도를 줄이고 중복 제안을 제거한다.

3.4 IoU-Aware Scoring Head

region-guided decoder중복되고 불필요한 proposal을 줄여 proposal의 품질을 향상시키지만, 고품질 proposal은 중복 감소뿐만 아니라 정확한 경계(boundary)도 요구한다. 이전 DETR 기반 방법들(Jang et al. 2023; Sun et al. 2024)에서는 **classification confidence(foreground 또는 background)**를 사용하여 모든 proposal의 순위를 매겼다. 그러나 단일 이진 분류 점수는 시간적 경계 정확도를 간과하여 proposal 품질을 부적절하게 평가할 수 있다. 고품질 proposal을 구별하기 위해 우리는 localization 품질과 classification confidence를 모두 고려하는 IoU-aware scoring head를 도입한다.

Methodtestval
R1mAPR1mAP
@0.5@0.7@0.5@0.75Avg.@0.5@0.7@0.5@0.75Avg.
M-DETR (Lei, Berg, and Bansal 2021)52.8933.0254.8229.4030.7353.9434.84--32.20
QD-DETR (Moon et al. 2023b)62.4044.9862.5239.8839.8662.6846.6662.2341.8241.22
UniVTG (Lin et al. 2023)58.8640.8657.6035.5935.4759.74---36.13
TR-DETR (Sun et al. 2024)64.6648.9663.9843.7342.6267.1051.4866.27\underline{66.27}46.4245.09
TaskWeave (Yang et al. 2024)-----64.2650.0665.3946.47\underline{46.47}45.38
UVCOM (Xiao et al. 2024)63.5547.4763.3742.6743.1865.1051.81--45.79
CG-DETR (Moon et al. 2023a)65.4348.3864.5142.7742.8667.35\underline{67.35}52.0665.5745.7344.93
LLMEPET { }^{\dagger} (Jiang et al. 2024)66.7349.9465.76\underline{65.76}43.91\underline{43.91}44.05\underline{44.05}66.5851.10--46.24\underline{46.24}
RGTR (Ours)65.50\underline{65.50}49.2267.1245.7745.5367.6852.9067.3848.0046.95

Table 1: QVHighlights test 및 val 분할에 대한 성능 비교. \dagger는 LLM 기반 방법을 나타낸다.

MethodTACoSCharades-STA
R@0.3R@0.5R@0.7mIoUR@0.3R@0.5R@0.7mIoU
M-DETR (Lei, Berg, and Bansal 2021)37.9724.6711.9725.4965.8352.0730.5945.54
MomentDiff (Li et al. 2024)44.7833.68---55.5732.42-
UniVTG (Lin et al. 2023)51.4434.9717.3533.6070.8158.01\underline{58.01}35.6550.10
CG-DETR (Moon et al. 2023a)52.2339.61\underline{39.61}22.2336.4870.4358.4436.34\underline{36.34}50.13
LLMEPET { }^{\dagger} (Jiang et al. 2024)52.73\underline{52.73}-22.78\underline{22.78}36.55\underline{36.55}70.91\underline{70.91}-36.4950.25
RGTR (Ours)53.0440.3124.3237.4472.0457.9335.1650.32

Table 2: TACoS 및 Charades-STA에 대한 성능 비교. \dagger는 LLM 기반 방법을 나타낸다.

구체적으로, decoder의 출력은 FFN과 선형 layer에 입력되어 moment span과 confidence score pcp_c를 예측한다. 추가적으로, 예상 IoU pIoUp_{\text{IoU}}를 예측하기 위한 선형 layer를 추가한다. 우리는 classification confidence만으로 proposal의 점수를 매기는 대신, confidence와 IoU 점수의 결합, 즉 pcp_cpIoUp_{\text{IoU}}의 곱으로 점수를 매긴다. IoU 점수는 ground-truth IoU인 g^IoU\hat{g}_{\text{IoU}}에 대한 L2 loss로 학습된다.

LIoU=pIoUg^IoU2.\mathcal{L}_{\mathrm{IoU}}=\left\|p_{\mathrm{IoU}}-\hat{g}_{\mathrm{IoU}}\right\|^{2} .

이 추가적인 IoU 점수는 localization 품질을 명시적으로 통합하여 classification confidence 추정치를 향상시키고, 이를 통해 고품질 proposal을 생성할 수 있다. 또한, 추론 시에는 non maximum suppression (NMS)이 적용된다.

3.5 Training Objectives

RGTR의 objective loss는 네 가지 부분으로 구성된다: moment loss Lmom \mathcal{L}_{\text {mom }}, saliency loss Lsal \mathcal{L}_{\text {sal }}, alignment loss Lalign \mathcal{L}_{\text {align }}, 그리고 IoU loss LIoU \mathcal{L}_{\text {IoU }}. 전체 objective는 다음과 같이 정의된다:

Loverall =Lmom +λsal Lsal +λalign Lalign +λIoU LIoU ,\mathcal{L}_{\text {overall }}=\mathcal{L}_{\text {mom }}+\lambda_{\text {sal }} \mathcal{L}_{\text {sal }}+\lambda_{\text {align }} \mathcal{L}_{\text {align }}+\lambda_{\text {IoU }} \mathcal{L}_{\text {IoU }},

여기서 λ\lambda_{*}는 balancing parameter이다. Lmom \mathcal{L}_{\text {mom }}Lsal \mathcal{L}_{\text {sal }}은 QD-DETR (Moon et al. 2023b)과 동일하다.

4 Experiments

4.1 Datasets and Metrics

데이터셋 (Datasets)
우리는 제안하는 방법을 세 가지 temporal sentence grounding 벤치마크에서 평가하였다: QVHighlights (Lei, Berg, and Bansal 2021), Charades-STA (Gao et al. 2017), TACoS (Regneri et al. 2013). QVHighlights는 다양한 주제를 다루며, Charades-STA는 복잡한 일상 인간 활동으로 구성되어 있고, TACoS는 주로 요리 활동에 초점을 맞춘 긴 형식의 비디오를 보여준다.

평가 지표 (Metrics)
우리는 **IoU 임계값 0.3, 0.5, 0.7에서의 Recall@1 (R1)**을 채택하였다. QVHighlights는 문장당 여러 개의 ground-truth moment를 포함하므로, **IoU 임계값 0.5, 0.75에서의 mean average precision (mAP)**과 IoU 임계값 [0.5: 0.05: 0.95] 세트에 대한 평균 mAP도 함께 보고한다. Charades-STA와 TACoS의 경우, top-1 예측의 mean IoU를 계산한다.

4.2 Implementation Details

이전 방법들(Moon et al. 2023b)에 따라, 우리는 SlowFast와 CLIP을 사용하여 시각 feature를 추출하고, CLIP을 사용하여 텍스트 feature를 추출한다. embedding dimension DD는 256으로 설정한다. anchor pair의 개수 K\mathcal{K}는 QVHighlights의 경우 20, Charades-STA 및 TACoS의 경우 10으로 설정한다. NMS threshold는 0.8로 설정한다. balancing parameter는 λalign =0.3,λiou =1\lambda_{\text {align }}=0.3, \lambda_{\text {iou }}=1로 설정하며, λsal \lambda_{\text {sal }}은 QVHighlights의 경우 1, Charades-STA 및 TACoS의 경우 4로 설정한다. 모든 모델은 batch size 32로 200 epoch 동안 학습하며, weight decay 1e41 \mathrm{e}-4의 AdamW optimizer를 사용한다. learning rate는 1e41 \mathrm{e}-4로 설정한다.

MethodR0.5R0.7mAPavg \mathrm{mAP}_{\text {avg }}
Charades-STA-Len
2D-TAN (Zhang et al. 2020)28.6817.7222.79
MMN (Wang et al. 2022b)34.3119.9426.85
QD-DETR { }^{\dagger} (Moon et al. 2023b)54.0632.53\underline{32.53}36.37\underline{36.37}
MomentDiff (Li et al. 2024)38.3223.3828.19
RGTR61.1740.2344.30
Charades-STA-Mom
2D-TAN (Zhang et al. 2020)20.4410.8417.23
MMN (Wang et al. 2022b)27.2014.1219.18
QD-DETR { }^{\dagger} (Moon et al. 2023b)46.3128.6530.46\underline{30.46}
MomentDiff (Li et al. 2024)33.5915.7121.37
RGTR49.8129.7733.19

Table 3: Charades-STA의 두 가지 out-of-distribution split에 대한 결과. 모든 모델에 VGG 및 Glove feature가 사용되었다. \dagger는 공식 코드베이스를 통해 재현되었음을 나타낸다.

SettingAEIRGAMIASHR0.5R0.7mAPavg \mathrm{mAP}_{\text {avg }}
(a)65.3548.9743.12
(b)\checkmark64.6550.5844.82
(c)\checkmark66.1949.6144.03
(d)\checkmark\checkmark65.5551.2945.36
(e)\checkmark\checkmark66.1351.6846.51
(f)\checkmark\checkmark\checkmark67.68\mathbf{6 7 . 6 8}52.90\mathbf{5 2 . 9 0}46.95\mathbf{4 6 . 9 5}

Table 4: QVHighlights val split에서 RGTR 구성 요소에 대한 ablation study. anchor explicit initialization (AEI), region-guided attention module (RGAM), 그리고 **IoU-aware scoring head (IASH)**를 조사한다.

4.3 Performance Comparison

Tab. 1에서 보여주듯이, 우리는 QVHighlights에서 RGTR과 이전 방법들을 비교한다. 공정한 비교를 위해 test 및 validation split 모두에 대한 수치를 보고한다. 우리 방법은 거의 모든 metric에서 새로운 state-of-the-art 성능을 달성한다. 특히, RGTRLLMEPET (Jiang et al. 2024)과 같은 최신 방법들을 능가하며, test split에서 mAP@0.5에서 67.12%, **mAP_avg에서 45.53%**를 달성한다. validation split에서도 RGTR은 선두를 유지한다. RGTR의 주목할 만한 성능 우위는 명시적인 regional guidance를 가진 anchor pair의 효과를 입증한다.

Tab. 2는 TACoSCharades-STA에 대한 비교를 제시한다. 우리 방법은 TACoS에서 최고 성능을 달성한다. Charades-STA에서도 RGTR은 경쟁력을 유지한다. 그러나 QVHighlights에서 우리의 결과가 현저히 우수했던 반면, TACoSCharades-STA에서는 그 차이가 약간 줄어드는 것을 관찰한다. 우리는 이를 QVHighlights에 비해 두 데이터셋의 편향된 분포 때문이라고 생각하며, 이는 anchor pair가 학습하는 쿼리 다양성을 감소시킨다.

4.4 Experiments on Out-of-Distribution Splits

강건성(robustness)을 측정하기 위해, 우리는 또한 RGTR을 두 가지 out-of-distribution 분할(Li et al. 2024)인 Charades-STA-LenCharades-STA-Mom에 대해 평가하였다. 이 두 분할은 각각 학습 세트와 테스트 세트 간에 길이 및 순간 위치 분포의 변화를 가진다. 우리의 anchor pair는 학습 세트의 클러스터 중심을 기반으로 초기화되기 때문에, 분포가 크게 변하면 성능이 저하될 수 있다. 그러나 Table 3에서 보듯이, RGTR은 두 out-of-distribution 설정 모두에서 이전의 모든 방법들을 능가한다. 이러한 놀라운 결과는 anchor pair에 의해 도입된 regional guidance가 단순히 학습 세트와 테스트 세트 분포 간의 유사성에 의존하기보다는, moment query 간의 다양성을 증가시키는 방식으로 더 효과적으로 작동함을 시사한다. Table 5의 다른 anchor 초기화 방법에 대한 ablation 실험 또한 이 점을 확인시켜 준다. 데이터셋 분포와 관련이 없지만 query 다양성을 증가시키는 초기화 방법인 uniform grid points를 사용하더라도 모델 성능이 크게 향상된다. 따라서 분포 변화에도 불구하고, regional guidance로부터 오는 query 다양성은 효과적인 localization에 여전히 중요하다.

MethodChangesR0.5R0.7mAPavg \mathrm{mAP}_{\text {avg }}
Initializationrandom66.1949.6144.03
uniform grid67.1050.9744.93
k-means67.68\mathbf{6 7 . 6 8}52.90\mathbf{5 2 . 9 0}46.95\mathbf{4 6 . 9 5}
ScoringIoU superv.67.87\mathbf{6 7 . 8 7}52.8446.54
cls + IoU67.2352.3946.92
cls ×\times IoU67.6852.90\mathbf{5 2 . 9 0}46.95\mathbf{4 6 . 9 5}

Table 5: 초기화 및 스코어링 방법에 대한 Ablation study.

Figure 4: moment query의 개수 K\mathcal{K}에 대한 Ablation study.

Figure 5: 점수와 ground-truth IoU 간의 상관관계.

4.5 Ablation Study

주요 Ablation.
우리는 먼저 RGTR의 각 구성 요소의 효과를 조사한다. Tab. 4에서 보듯이, 우리는 anchor explicit initialization, region-guided attention module, IoU-aware scoring head에 따른 영향을 보고한다.

Figure 6: region-guided decoder의 20개 dynamic anchor에 대한 QVHighlights val split의 moment 예측 시각화.

Figure 7: QVHighlights에 대한 정성적 결과.

특히, 설정 (b)는 decoder가 명시적으로 초기화된 dynamic anchor만 사용하는 반면, 설정 (d)는 decoding 과정에서 static anchor와 dynamic anchor를 모두 활용한다. 결과는 각 구성 요소가 전체 성능에 크게 기여하며, 설정 (f)는 모든 구성 요소를 사용하여 R1@0.7에서 3.93%, mAPavg에서 3.83% 성능을 향상시킨다는 것을 보여준다.

Anchor 초기화 방법.
우리는 k-means 알고리즘을 대체하기 위해 두 가지 간단한 초기화 방법을 채택한다. "random"은 무작위로 학습 가능한 query를 moment query로 활용하는 것을 의미한다. "uniform grid"는 정규화된 mc×mσm_c \times m_\sigma 영역에 균일한 그리드를 생성하고, 실제 시간 영역에서 5×5=255 \times 5 = 25개의 지점을 균일하게 샘플링하는 것을 의미한다. Tab. 5에서 보듯이, k-means 초기화의 성능은 무작위 초기화 및 균일 그리드 초기화보다 훨씬 우수하다. 이는 k-means 알고리즘이 decoding 과정에 최적의 명시적 지역 사전 정보(prior)를 제공할 수 있음을 입증한다.

Scoring 방법.
Tab. 5는 product fusion을 다른 scoring 방법들과 비교한다. 여기서 **IoU superv.**는 IoU loss를 supervision으로 사용하여 confidence score만 사용하는 것을 의미한다. 모든 방법은 상당한 성능 향상을 보였으며, 그 중 product 방법이 가장 좋은 성능을 달성했다.

Moment Query의 수.
이전 방법들에서는 moment query의 수 K\mathcal{K}가 일반적으로 10으로 제한되었다. 이는 명시적인 guidance 없이 K\mathcal{K}를 증가시키면 더 많은 중복 제안(proposal)이 생성되어 성능 향상이 미미하거나 심지어 저하되기 때문이다. 대조적으로, 우리 방법은 각 moment query에 대해 명시적인 지역 guidance를 제공한다. 즉, 각 moment query는 특정 시간 영역을 담당한다. 따라서 K\mathcal{K}를 증가시키면 moment query가 더 많은 시간 영역을 커버할 수 있어 효과적인 예측으로 이어진다. Fig. 4에서 우리는 K\mathcal{K}에 따른 EaTR, TR-DETR, 그리고 우리 RGTR의 mAPavg 성능을 제시한다. 우리는 다른 두 가지 방법을 다른 K\mathcal{K}에서 재구현했다. 위에서 논의한 바와 같이, TR-DETR과 EaTR의 경우 K\mathcal{K}가 10에 도달하면 성능이 최고조에 달한 후 크게 감소한다. 대조적으로, RGTR의 경우 K\mathcal{K}를 20으로 증가시키면 성능이 크게 향상되어, 명시적인 지역 guidance를 가진 anchor pair의 효과를 입증한다.

Score와 IoU 간의 상관관계.
IoU-aware scoring과 classification confidence scoring을 비교하기 위해, Fig. 5에서 QVHighlights validation set에 대한 score와 ground-truth IoU 간의 상관관계 산점도를 그렸다. 우리의 IoU-aware score가 ground-truth IoU와 더 강한 상관관계를 보이며, fitted line의 기울기가 0.49에서 0.67로 증가하여 고품질 제안의 구별 능력이 향상되었음을 확인할 수 있다.

4.6 Visualization and Qualitative Result

Fig. 6에서 볼 수 있듯이, 우리는 QVHighlights 데이터셋에서 region-guided decoder 내의 20개 dynamic anchor를 모두 시각화하였다. Fig. 1의 이전 방법들과 비교할 때, RGTRanchor pair를 통해 지역적 guidance를 도입하여 query 다양성을 효과적으로 향상시키고 중복되는 proposal들을 제거한다.

Fig. 7에서는 QVHighlights 데이터셋의 정성적 예시를 보여준다. 이 예시에서 문장은 여러 moment span에 해당한다. 우리 방법은 query 다양성을 향상시키는 데 중점을 두기 때문에, RGTR은 다른 방법들보다 더 정확한 예측을 생성한다. 특히, 서로 다른 중심 좌표와 duration에 동시에 attention을 기울여야 하는 경우에 더욱 그렇다.

5 Conclusion

본 논문에서는 TSG(Temporal Sentence Grounding) task에서 DETR 구조의 한계점을 해결하기 위해 Region-Guided TRansformer (RGTR) 프레임워크를 제안한다. 중복되는 proposal을 제거하기 위해, 우리는 region-guided decoder를 설계하였다. 이 decoder는 anchor pair 집합을 moment query로 사용하여 decoding 과정에 명시적인 지역적 가이드(regional guidance)를 도입한다. 각 anchor pair는 특정 temporal region에 대한 moment prediction을 담당하여, 최적화 난이도를 줄이고 중복 proposal을 제거한다. 고품질 proposal을 구별하기 위해, 우리는 localization 품질을 통합하여 classification confidence 추정치를 향상시키는 IoU-aware scoring head를 사용한다. 세 가지 공개 데이터셋과 두 가지 out-of-distribution split에 대한 실험은 RGTR의 우수성을 입증한다.