Pan, Yi, et al. "ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval." arXiv preprint arXiv:2508.19024 (2025). Accepted by EMNLP 2025 Findings

ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval

Yi Pan ${ }^{1,2}$ Yujia Zhang ${ }^{1 *}$ Michael Kampffmeyer ${ }^{3}$ Xiaoguang Zhao ${1}$ <br> ${ }^{1}$ 중국과학원 자동화연구소 멀티모달 인공지능 시스템 국가핵심실험실<br> ${ }^{2}$ 중국과학원 인공지능 대학원<br> ${ }^{3}$ 노르웨이 북극대학교 UiT 물리학 및 기술학과 {panyi2022,zhangyujia2014,xiaoguang.zhao}@ia.ac.cn, michael.c.kampffmeyer@uit.no

Abstract

**부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)**은 쿼리가 특정 세그먼트에만 관련될 때 비디오를 검색하는 실용적이지만 도전적인 task이다. 기존 연구들은 unimodal feature를 처리하는 모델 개발 패러다임을 따르는 반면, CLIP과 같은 강력한 사전학습된 vision-language model은 이 분야에서 아직 충분히 탐색되지 않았다. 이러한 간극을 메우기 위해 우리는 PRVR을 위해 특별히 설계된 CLIP의 체계적인 아키텍처 적응 모델인 ProPy를 제안한다.

ProPy는 다중 granularity 이벤트의 의미론적 관련성에서 통찰력을 얻어 두 가지 핵심 혁신을 도입한다: (1) Prompt Pyramid 구조: 다중 granularity 수준에서 의미론을 포착하기 위해 이벤트 prompt를 구성한다. (2) Ancestor-Descendant Interaction Mechanism: 이 피라미드 위에 구축되어 이벤트 간의 동적인 의미론적 상호작용을 가능하게 한다.

이러한 설계로 ProPy는 세 가지 공개 데이터셋에서 SOTA 성능을 달성하며, 이전 모델들을 상당한 차이로 능가한다. 코드는 https://github.com/BUAAPY/ProPy 에서 확인할 수 있다.

1 Introduction

Partially Relevant Video Retrieval (PRVR) (Dong et al., 2022; Wang et al., 2024b)은 특정 세그먼트에만 관련된 쿼리를 기반으로 비디오를 검색하는 도전적인 task이다. 쿼리가 전체 비디오와 일치해야 하는 전통적인 Text-to-Video Retrieval (T2VR) (Gabeur et al., 2020; Luo et al., 2022)과 달리, PRVR은 긴 비디오가 종종 여러 이벤트로 구성되고 사용자가 특정 세그먼트에만 관심이 있을 수 있는 실제 시나리오와 더 잘 부합한다. 이는 PRVR을 실제 애플리케이션에 더욱 실용적이고 유망하게 만든다.

상당한 발전에도 불구하고, 대부분의 PRVR 방법들 (Dong et al., 2022; Wang et al., 2024b; Dong et al., 2023; Jiang et al., 2023; Wang et al., 2024a; Li et al., 2025)은 추출된 unimodal feature를 처리하기 위한 모델을 개발하는 패러다임을 따른다.

Figure 1: Intra-segment relations 및 Inter-segment relations. Q2의 'drink again'에 대한 의미론적 이해는 이전 세그먼트의 문맥 정보에 의존한다. 한편, Q3와 관련된 상위 수준의 행동 'eating dinner'는 Q1 및 Q2에 해당하는 하위 수준의 intra-segment 이벤트들로 구성된다.

CLIP (Radford et al., 2021)과 같은 사전학습된 vision-language model이 T2VR (Luo et al., 2022)에서 놀라운 성공을 거두었지만, PRVR에서는 그 잠재력이 아직 충분히 탐구되지 않았다. 최근 연구인 QASIR (Nishimura et al., 2023)은 CLIP 위에 어댑터를 도입하여 super-image feature를 처리한다. 그러나 이 접근 방식은 심층적인 구조적 적응을 포함하지 않아 CLIP의 기능을 완전히 활용하지 못한다. 이러한 격차를 해소하기 위해 우리는 PRVR을 위해 특별히 설계된 CLIP의 체계적인 아키텍처 적응을 포함하는 모델을 제안한다. 우리의 접근 방식은 명시적인 global token을 통해 비디오 의미론을 집계하여 효과와 효율성을 모두 입증한 최근의 prompt 기반 T2VR 방법들 (Yang et al., 2024; Zhang et al., 2024; Liu et al., 2025)을 기반으로 한다. 그러나 PRVR은 고유한 도전 과제를 제시한다: 비디오는 단일 벡터 표현으로 인코딩되기보다는 여러 이벤트의 구성으로 모델링되어야 한다. 각 세그먼트를 독립적인 하위 비디오로 취급하는 T2VR 접근 방식의 단순한 확장은 이벤트 간의 풍부한 의미론적 관계를 포착하지 못한다. 구체적으로, Figure 1에 설명된 바와 같이 모델링에 중요한 두 가지 근본적인 유형의 이벤트 관계가 있다:

계층적 포함 관계를 가진 이벤트 간의 구성 의미론을 나타내는 intra-segment relations,
시간적으로 구별되는 이벤트 간의 문맥적 종속성을 포착하는 inter-segment relations.

전자는 여러 하위 이벤트(drink)로 구성된 긴 이벤트(eat dinner)를 이해하는 데 중요하며, 후자는 문맥 의미론이 필요한 장면(drink again)에서 중요하다. 이러한 관계를 모델링하고 관련 이벤트의 의미론적 상호 작용을 보장하는 것은 포괄적인 비디오 이해에 유익하다 (Fei et al., 2024; Yang et al., 2023).

앞서 언급한 이벤트 관계와 그 의미론적 상호 작용을 효과적으로 모델링하기 위해 우리는 PRVR을 위한 새로운 CLIP 기반 아키텍처인 **ProPy (Interactive Prompt Pyramid)**를 제안한다. ProPy는 다양한 세분성을 가진 세그먼트에 초점을 맞춘 일련의 event prompt를 활용하고, 세그먼트의 길이와 위치를 기반으로 이를 Prompt Pyramid로 구성한다. 이는 비디오를 다중 세분성 이벤트로 계층적으로 구조화한다. intra-segment 및 inter-segment 관계 간의 구별을 설명하기 위해 우리는 Ancestor-Descendant Interaction Mechanism을 설계했으며, 이는 intra-segment 관계에 대한 직접적인 상호 작용을 촉진하고 inter-segment 관계에 대한 간접적인 상호 작용을 촉진한다. 특히, 두 event prompt의 제어되는 세그먼트가 포함 관계를 나타낼 때 ancestor-descendant 관계가 설정된다. 직접적인 상호 작용은 intra-segment 이벤트에만 허용되며, inter-segment 상호 작용은 상위 수준 event prompt를 통해 간접적으로 수행된다. 이러한 신중하게 설계된 아키텍처와 메커니즘을 통해 ProPy는 세 가지 도전적인 데이터셋에서 SOTA 성능을 달성하여 우리 방법의 우수성을 입증한다. 전반적으로 우리의 기여는 다음과 같이 요약될 수 있다:

우리는 PRVR task에 대한 새로운 솔루션인 ProPy를 제안한다. 우리가 아는 한, ProPy는 PRVR 분야에서 사전학습된 vision-language model에 대한 체계적인 아키텍처 설계를 포함하는 첫 번째 연구이다.
PRVR의 고유한 특성을 기반으로, 우리는 다양한 세분성을 가진 이벤트를 처리하기 위한 Prompt Pyramid 구조와 intra-segment 및 inter-segment 관계를 가진 이벤트에 대한 충분한 의미론적 상호 작용을 보장하기 위한 Ancestor-Descendant Interaction Mechanism을 설계한다.
ProPy는 세 가지 공개 데이터셋에서 주목할 만한 개선과 함께 SOTA 성능을 달성하여 그 효과와 우수성을 입증한다.

**Text-to-Video Retrieval (T2VR)**은 주어진 텍스트 쿼리와 완벽하게 일치하는 비디오를 검색하는 데 중점을 둔다 (Gabeur et al., 2020; Luo et al., 2022; Yang et al., 2024; Huang et al., 2023). 이미지 도메인에서 CLIP (Radford et al., 2021)과 같은 사전학습된 vision-language model (Li et al., 2022, 2023)이 도입된 이후, 이러한 모델들을 T2VR에 적용하기 위한 상당한 연구 노력 (Jia et al., 2022; Deng et al., 2023; Luo et al., 2022; Yang et al., 2024; Cao et al., 2024; Liu et al., 2025)이 이루어졌다. 특히, 최근의 prompt-based 방법들 (Zang et al., 2022; Yang et al., 2024; Liu et al., 2025; Zhang et al., 2024; Huang et al., 2023)은 소수의 prompt token만을 사용하여 효율성을 유지하면서도 경쟁력 있는 성능을 보여주었다.

**Partially Relevant Video Retrieval (PRVR)**은 비디오의 부분 세그먼트와 관련된 쿼리를 기반으로 비디오를 검색하는 task를 다룬다 (Dong et al., 2022; Wang et al., 2024b). 현재 PRVR 접근 방식 (Dong et al., 2022; Wang et al., 2024b; Dong et al., 2023; Cheng et al., 2024; Jun et al., 2025; Ren et al., 2025; Li et al., 2025)은 주로 Multiple Instance Learning (MIL) 패러다임 (Waqas et al., 2024)을 채택하며, 학습 및 추론 과정에서 여러 이벤트를 모델링하기 위해 coarse-fine 두 갈래 아키텍처를 사용한다. 일부 최근 연구 (Song et al., 2025; Moon et al., 2025)에서는 사전학습된 vision-language model을 통합했지만, 주로 아키텍처 혁신 없이 기본적인 feature 추출에 활용하거나 feature distillation을 위한 소스로 사용한다 (Dong et al., 2023; Zhang et al., 2025). 우리 연구와 가장 유사한 QASIR (Nishimura et al., 2023)은 CLIP 위에 adapter를 도입하여 super-image feature를 처리하는 반면, 핵심 CLIP layer는 변경하지 않는다. 우리는 이러한 표면적인 수정만으로는 PRVR task에서 CLIP의 기능을 완전히 활용하기에 불충분하다고 주장한다.

3 Methodology

우리는 PRVR task를 다음과 같이 공식적으로 정의한다: 주어진 비디오 집합 $\mathbb{V}=\left\{V_{1}, V_{2}, \ldots V_{|\mathbb{V}|}\right\}$ 에서, 각 비디오 $V_{i}$ 는 $N_{f}$ 개의 프레임 리스트로 표현될 수 있다: $V_{i}= \left\{f_{1}^{i}, f_{2}^{i}, \ldots, f_{N_{f}}^{i}\right\}$ . PRVR task는 특정 세그먼트 $m_{j}^{i}$ 에만 관련된 쿼리 $T^{i}$ 를 사용하여 비디오를 검색하는 것을 목표로 한다: $V_{i}=\underset{V \in \mathbb{V}}{\arg \max } P\left(V \mid T^{i}\right)$ , 여기서 $m_{j}^{i} \subseteq V_{i}$ 는 연속적인 프레임으로 구성된 부분집합이다.

Figure 2: (a): ProPy 개요. **시각 브랜치(visual branch)**의 경우, event Prompt Pyramid는 프레임 시퀀스와 visual prompt를 기반으로 구축되며, 이후 Ancestor-Descendant (A-D) Interaction 메커니즘에 따라 event prompt가 업데이트된다. Temporal Adapter는 프레임 feature에 적용되어 시간적 의미(temporal semantics)를 강화한다. **텍스트 브랜치(textual branch)**의 경우, prefix 및 postfix textual prompt가 추가된다. 명확성을 위해 8개의 프레임과 3-layer pyramid만 보여준다. (b): Ancestor-Descendant Interaction 메커니즘의 세부 사항. 왼쪽: 쿼리 event prompt의 attention 영역. 'selected prompt'는 attention 연산 중 쿼리 역할을 하는 event prompt를 의미한다. 오른쪽: event prompt의 attention mask $M_{e}^{e}$ . attention 점수가 있는 위치는 짙은 파란색으로 표시된다. (c): intra-segment semantics를 위한 직접적인 상호작용과 inter-segment semantics를 위한 간접적인 상호작용의 예시.

3.1 Overview of ProPy

Figure 2 (a)에서 볼 수 있듯이, ProPy는 CLIP의 visual branch와 textual branch에 깊이 통합되어 있다. Visual branch는 Prompt Pyramid로 구성된 $N_e$ 개의 event prompt $E \in \mathbb{R}^{N_e \times d_v}$ (여기서 $d_v$ 는 ViT의 차원)를 활용하여 다중 granularity segment feature를 추출한다. $l$ -번째 ViT layer의 경우, 우리는 $N_v$ 개의 visual prompt (Yang et al., 2024) $P_l^v \in \mathbb{R}^{N_v \times d_v}$ 와 temporal adapter (Pan et al., 2022) $\Omega_l$ 을 추가하여 공간 및 시간 정보를 추출한다. Ancestor-Descendant Interaction Mechanism은 intra/inter-segment 관계를 기반으로 $E$ 를 업데이트한다. Textual branch는 DGL (Yang et al., 2024)에 따라 $N_t$ 개의 text prompt $P_l^t \in \mathbb{R}^{N_t \times d}$ (여기서 $d$ 는 CLIP의 차원)를 통합한다. 이 모델은 Contrastive Learning (Radford et al., 2021) 및 Multiple Instance Learning (Waqas et al., 2024) 패러다임을 기반으로 학습된다.

3.2 Visual Branch

Prompt Pyramid
먼저 제안하는 Prompt Pyramid의 구성에 대해 자세히 설명한다. 사용된 표기법은 Table 1에 상세히 나와 있다.
$N_f$ 프레임을 가진 비디오 $V$ 가 주어졌을 때, 이론적으로는 길이가 1부터 $N_f$ 까지인 $N_f \times (N_f+1)/2$ 개의 세그먼트가 존재한다. 메모리 절약을 위해, 우리는 경험적으로 $N_f = 2^K, K>1$ 로 설정하고, 길이가 $2^k (1 \le k \le K)$ 인 세그먼트들을 선택한다.
그 다음, 길이가 $2^k$ 인 세그먼트들로부터 $n_k$ 개의 세그먼트를 균등하고 희소하게 샘플링하고, 이를 계층적으로 배열된 학습 가능한 event prompt와 짝지어 다음과 같이 구성한다:

E=\left\{\mathcal{L}_{k}=\left\{e_{j}^{k} \mid 1 \leq j \leq n_{k}\right\} \mid 1 \leq k \leq K\right\}

Notation	Meaning
$E$	set of all event prompts
$\mathcal{L}_{k}$	the $k$ -th event prompt layer
$e_{j}^{k}$	the $j$ -th event prompt from $\mathcal{L}_{k}$
$m_{j}^{k}$	the segment corresponding to $e_{j}^{k}$
$n_{k}$	number of event prompts from $\mathcal{L}_{k}$
$c_{k}$	the number of children of $e_{j}^{k}$
$o_{k}$	the offset of children between $e_{j}^{k}$ and $e_{j+1}^{k}$
$\mathcal{A}\left(e_{j}^{k}\right)$	the ancestors set of $e_{j}^{k}$
$\mathcal{D}\left(e_{j}^{k}\right)$	the descendants set of $e_{j}^{k}$
$\mathcal{P}\left(e_{j}^{k}\right)$	the parent set of $e_{j}^{k}$
$\mathcal{C}\left(e_{j}^{k}\right)$	the children set of $e_{j}^{k}$

Table 1: Prompt Pyramid의 표기법

여기서 $\mathcal{L}_k$ 는 $k$ -번째 prompt layer이며, 위치에 따라 정렬된 $n_k$ 개의 event prompt를 포함한다. $e_j^k$ 는 길이가 $2^k$ 인 세그먼트 $m_j^k$ 에 해당한다. 총 $N_e = \sum_{k=1}^K n_k$ 개의 event prompt가 존재한다.

두 prompt 쌍 $\left(e_{j_{1}}^{k_{1}}, e_{j_{2}}^{k_{2}}\right)$ 는 그들이 관장하는 세그먼트가 포함 관계를 만족할 경우 Ancestor-Descendant (A-D) 관계를 형성한다. 공식적으로는 다음과 같다:

\begin{gathered} e_{j_{1}}^{k_{1}} \in \mathcal{A}\left(e_{j_{2}}^{k_{2}}\right) \Leftrightarrow e_{j_{2}}^{k_{2}} \in \mathcal{D}\left(e_{j_{1}}^{k_{1}}\right) \\ \Leftrightarrow m_{j_{2}}^{k_{2}} \subsetneq m_{j_{1}}^{k_{1}} \end{gathered}

특히, $k_1 = k_2+1$ 인 경우, $\left(e_{j_{1}}^{k_{1}}, e_{j_{2}}^{k_{2}}\right)$ 는 Parent-Child (P-C) 관계를 형성하며, 해당 집합은 각각 $\mathcal{P}\left(e_{j_{2}}^{k_{2}}\right)$ 와 $\mathcal{C}\left(e_{j_{1}}^{k_{1}}\right)$ 로 표기된다. 대칭적인 피라미드를 구축하기 위해, $k$ -번째 layer의 prompt들에 대해 자식의 수 $c_k$ 와 가장 왼쪽 자식의 offset $o_k$ 를 상수로 설정한다. 공식적으로는 다음과 같다:

\left\{\begin{array}{l} c_{k}=\left|\mathcal{C}\left(e_{j_{1}}^{k}\right)\right|, 1 \leq j_{1} \leq n_{k} \\ \mathscr{L}_{k}\left(j_{1}\right)=\underset{j_{2}}{\arg \min }\left\{e_{j_{2}}^{k-1} \mid e_{j_{2}}^{k-1} \in \mathcal{C}\left(e_{j_{1}}^{k}\right)\right\} \\ o_{k}=\mathscr{L}_{k}\left(j_{1}+1\right)-\mathscr{L}_{k}\left(j_{1}\right), 1 \leq j_{1}<n_{k} \end{array}\right.

여기서 $\mathscr{L}_k(j_1)$ 은 $e_{j_1}^k$ 의 가장 왼쪽 자식의 인덱스를 찾는 연산이다. $c_k$ 와 $o_k$ 는 다음 제약 조건을 따른다:

\frac{n_{k}-c_{k+1}}{o_{k+1}}+1=n_{k+1}, o_{k+1} \mid\left(n_{k}-c_{k+1}\right)

이는 CNN의 kernel-stride 제약 조건과 유사하며 (Li et al., 2021), $c_{k+1}$ 을 kernel size로, $o_{k+1}$ 을 stride로 간주한다. 하지만 두 가지 차이점이 있다: 1) padding이 적용되지 않는다. 2) $o_{k+1}$ 은 $n_k - c_{k+1}$ 을 정확히 나누어야 한다. 최상위 layer ( $k=K$ )의 경우, offset $o_K$ 는 $1(n_{K-1}=c_K, n_K=1)$ 로 설정된다. 프레임 수 $N_f$ 가 주어지면, 하이퍼파라미터 $\mathcal{H}=\left\{\left(c_{k}, o_{k}\right)\right\}$ 가 지정되는 즉시 prompt pyramid는 고유하게 결정된다. 구조 구성의 영향은 Section 4.3에서 논의된다.

Ancestor-Descendant 상호작용 메커니즘
다음으로, visual branch에서 event prompt의 업데이트 메커니즘을 설명한다. $N_f$ 프레임을 가진 비디오 $\mathbf{V}$ 가 주어졌을 때, CLIP은 먼저 각 프레임을 분할하고 임베딩하여 순차적 feature $F \in \mathcal{R}^{N_f \times N_s \times d_v}$ 를 생성한다. 여기서 $N_s$ 는 시퀀스 길이(추가된 [CLS] 토큰 포함)를 나타낸다. 이 feature들은 $N$ 개의 layer를 가진 ViT에 의해 처리된다. $l$ -번째 ViT layer의 업데이트 과정에는 세 가지 구성 요소가 참여한다: event prompt $E_l \in \mathbb{R}^{N_e \times d_v}$ , 프레임 feature $F_l \in \mathcal{R}^{N_f \times N_s \times d_v}$ , 그리고 **per-layer visual prompt $P_l^v \in \mathbb{R}^{N_v \times d_v}$ **이다. 이들은 event prompt와 프레임 feature 간의 시공간적 attention을 유도한다.

우리는 ViT의 attention layer를 사용하여 $E_l$ 을 업데이트하며, 이때 ViT의 가중치는 고정(frozen)된 상태를 유지한다. 명확성을 위해, 먼저 단일 event prompt $e_l^k$ ( $k$ -번째 layer에서; prompt 인덱스 $j$ 는 단순화를 위해 생략)에 대한 업데이트 과정 (Figure 2 (b))을 설명한 다음, 병렬 계산으로 일반화한다. 업데이트는 세 가지 구성 요소에 대한 attention 연산으로 구성된다:
첫째, $e_l^k$ 는 자신이 관장하는 세그먼트 내의 프레임, 즉 $F_l(e_l^k) \in \mathbb{R}^{2^k \times N_s \times d_v}$ 에 attend하여 세그먼트 feature를 생성한다.
둘째, prompt는 자신의 완전한 계층적 컨텍스트(hierarchical context), 즉 조상(ancestors), 자손(descendants) 및 자기 자신과 직접 상호작용한다. 이는 $E_l(e_l^k)$ 로 표기되며 다음과 같다:

E_{l}\left(e_{l}^{k}\right)=\mathcal{A}\left(e_{l}^{k}\right) \cup \mathcal{D}\left(e_{l}^{k}\right) \cup\left\{e_{l}^{k}\right\}

셋째, $e_l^k$ 는 시공간적 의미를 포착하기 위해 visual prompt $P_l^v$ 를 통합한다. 구조 정보를 보존하기 위해, 우리는 $P_l^v$ 를 $n_1$ 번 ( $n_1$ 은 최하위 prompt layer $\mathcal{L}_1$ 의 event prompt 수) 복제하여 $\widetilde{P}_l^v \in \mathbb{R}^{n_1 \times N_v \times d_v}$ 를 생성한다. 이 증강된 visual prompt들은 최하위 prompt layer $\mathcal{L}_1$ 과 일대일로 대응된다. $e_l^k$ 가 주어지면, 우리는 먼저 $\mathcal{L}_1$ 에 있는 그 자손 prompt들 (또는 $l=1$ 인 경우 자기 자신)을 참조한 다음, 모든 해당 visual prompt들, 즉 $\widetilde{P}_l^v(e_l^k)$ 를 통합한다. 이러한 방식으로, Ancestor-Descendant 관계를 가진 어떤 prompt 쌍에 대해서도, 그들의 visual prompt 또한 포함 관계를 나타낸다. 이 구성 요소들은 attention 연산의 key와 value로 사용된다:

\left\{\begin{array}{l} K / V\left(e_{l}^{k}\right)=\left[F_{l}\left(m^{k}\right), E_{l}\left(e_{l}^{k}\right), \widetilde{P}_{l}^{v}\left(e_{l}^{k}\right)\right] \\ e_{l+1}^{k}=\operatorname{Attn}\left(e_{l}^{k}, K\left(e_{l}^{k}\right), V\left(e_{l}^{k}\right)\right) \end{array}\right.

여기서 $[\cdot, \cdot, \cdot]$ 은 첫 번째 차원에서의 연결(concatenation) 연산을 나타내며, $F_l(m^k)$ 와 $\widetilde{P}_l^v(e_l^k)$ 는 연결 전에 2D 텐서로 평탄화된다. 실제로는 세 가지 attention mask를 사용하여 병렬 계산을 구현한다. 공식적으로는 다음과 같다:

\left\{\begin{array}{l} K_{l}=V_{l}=\left[F_{l}, E_{l}, \widetilde{P}_{l}^{v}\right] \\ M=\left[M_{f}^{e}, M_{e}^{e}, M_{v}^{e}\right] \\ E_{l+1}=\operatorname{Attn}\left(E_{l}, K_{l}, V_{l}, \operatorname{mask}=M\right) \end{array}\right.

여기서 $M_f^e \in \mathbb{R}^{N_e \times (N_f \times N_s)}$ , $M_e^e \in \mathbb{R}^{N_e \times N_e}$ , $M_v^e \in \mathbb{R}^{N_e \times (n_1 \times N_v)}$ 는 각각 프레임, event prompt, visual prompt에 대한 attention mask이다. 이 세 가지 마스크에 대한 빠른 구성 알고리즘은 Appendix B에 자세히 설명되어 있다.

event prompt는 자신의 세그먼트 내 프레임에만 접근할 수 있으며, 다른 고수준 의미론은 다른 event prompt를 통해서만 교환된다는 점에 유의해야 한다. 이는 feature leakage를 방지하면서도 의미론적 상호작용을 보존하는 데 도움이 된다. 어떤 두 event prompt도 직접적인 상호작용을 위해 최소한 하나의 공통 prompt (예: 최상위 layer의 global prompt)를 공유하도록 보장되며, 이는 세그먼트 간 의미론을 교환하는 간접적인 통신 채널을 제공한다 (Figure 2 (c) 참조). 이러한 설계는 모든 event prompt가 상호 연결되도록 보장하며, 가까운 위치의 이벤트는 더 밀도 높은 상호작용 경로를 유지하고, 멀리 떨어진 이벤트는 더 희소한 연결을 보여주어, 세그먼트 내 및 세그먼트 간 관계를 자연스럽게 반영한다.

프레임 Feature 업데이트 (Frame Feature Update)
이전 T2VR 연구들 (Yang et al., 2024; Zhang et al., 2024)은 temporal semantics를 포착하기 위해 frame-wise attention에 global prompt를 통합했다. 그러나 PRVR의 경우, 우리는 이 접근 방식이 비효율적이며, 심지어 프레임 feature 업데이트가 없는 모델보다도 성능이 떨어진다는 것을 발견했다 (Section 4.3). 우리는 이를 MIL 학습의 내재된 불확실성이 불안정한 정보 경로를 생성하기 때문이라고 본다. 대신, 우리는 adapter (Pan et al., 2022) $\Omega_l$ 을 사용하여 event prompt와 독립적으로 프레임 feature에서 직접 temporal semantics를 추출하는 더 안정적인 접근 방식을 채택한다. temporal adapter $\Omega_l$ 은 down-projection, 3D-CNN, up-projection으로 구성된다.
자세히 설명하면, $N_f$ 개의 프레임과 [CLS] 토큰을 포함하는 평탄화된 패치 토큰의 길이 $N_s = H \times W + 1$ 을 가진 프레임 feature $F_l \in \mathcal{R}^{N_f \times N_s \times d_v}$ 가 주어졌을 때, temporal adapter는 패치 토큰에만 작동한다. Feature들은 CNN 전에 2D 형태로 크기가 조정된 다음, up-projection 전에 다시 1D 시퀀스로 돌아간다:

\left\{\begin{array}{l} \widetilde{F}_{l}=F_{l}[:, 1:,:] \in \mathcal{R}^{N_{f} \times(H \times W) \times d_{v}} \\ F_{l}^{\text {down }}=\operatorname{Down}_{l}\left(\widetilde{F}_{l}\right) \in \mathcal{R}^{N_{f} \times H \times W \times\left(d_{v} / / 2\right)} \\ F_{l}^{\text {temp }}=\operatorname{CNN}_{l}\left(F_{l}^{\text {down }}\right) \in \mathcal{R}^{N_{f} \times H \times W \times\left(d_{v} / / 2\right)} \\ F_{l}^{\text {up }}=\operatorname{Up}_{l}\left(F_{l}^{\text {temp }}\right) \in \mathcal{R}^{N_{f} \times(H \times W) \times d_{v}} \\ F_{l+1}[:, 1:,:]=\left[F_{l}[:, 0,:], F_{l}[:, 1:,:]+F_{l}^{\text {up }}\right] \end{array}\right.

마지막 layer의 출력 event prompt는 다중 세분화(multigranularity) event feature를 나타내기 위해 $d$ 차원으로 투영되며, 이는 $\widetilde{E} \in \mathbb{R}^{N_e \times d}$ 로 표기된다.

3.3 Textual Branch

텍스트 브랜치는 DGL (Yang et al., 2024)을 기반으로 구축된다. 멀티모달 정렬(alignment)을 강화하기 위해, 두 개의 projection layer가 시각적 prompt $P_{l}^{v}$ 를 prefix 및 postfix prompt로 투영하는 데 사용된다. 이들은 단어 feature와 연결되어 업데이트된다:

\left\{\begin{array}{l} P_{l}^{\text {pre } / \text { post }}=f_{\text {pre } / \text { post }}\left(P_{l}^{v}\right) \in \mathbb{R}^{(\text {Nt } / 2) \times d} \\ {\left[\ldots, T_{l+1}, \ldots\right]=L_{l}^{t}\left(\left[P_{l, \text { pre }}^{t}, T_{l}, P_{l, \text { post }}^{t}\right]\right)} \end{array}\right.

여기서 $L_{l}^{t}$ 는 텍스트 브랜치의 $l$ -번째 layer이고, $P_{l}^{\text {pre } / \text { post }}$ 는 prefix 및 postfix prompt이며, $f_{\text {pre } / \text { post }}$ 는 projection layer이고, $T_{l}$ 은 입력 단어 feature이다. 쿼리 표현 $\widetilde{T} \in \mathbb{R}^{d}$ 는 최종 layer의 마지막 단어 feature로부터 얻어진다.

3.4 Training Objective

MIL 패러다임에 따라, 쿼리 $\widetilde{T}$ 와 이벤트 prompt $\widetilde{E}$ 사이의 가장 높은 유사도 점수가 선택된다:

S(T, V)=\max _{e}\{\cos (\widetilde{T}, \widetilde{E})\}

이러한 정렬(alignment)은 대칭적인 InfoNCE loss (Chen et al., 2020; Radford et al., 2021)를 기반으로 한 **쌍별 유사도(pair-wise similarities)**를 통해 수행된다.

4 Experiments

4.1 Experimental Settings

데이터셋 (Datasets)
우리는 ProPy를 4개의 공개 데이터셋인 TVR (Lei et al., 2020), ActivityNet Captions (Krishna et al., 2017), Charades-STA (Gao et al., 2017), QVHighlights (Lei et al., 2021) 에 대해 평가한다.
TVR은 약 21.8K개의 비디오로 구성되며, 각 비디오는 5개의 설명과 짝을 이룬다.
ActivityNet-Captions (간단히 ActivityNet으로 지칭)는 약 20K개의 YouTube 비디오로 구성되며, 평균 118초 길이의 비디오당 3.7개의 설명이 제공된다.
Charades-STA는 6.7K개의 비디오를 포함하며, 비디오당 평균 2.4개의 설명이 주석되어 있다.
QVHighlights는 10K개 이상의 비디오를 포함하는 moment retrieval 데이터셋이다.
우리는 데이터 분할 및 평가 지표에 대해 이전 연구들 (Dong et al., 2022; Moon et al., 2025)을 따른다.

Table 2: TVR, ActivityNet Captions 및 Charades-STA 데이터셋에서의 성능 비교. 회색으로 강조된 행은 ResNet152 + I3D + Roberta feature를 활용한 방법들의 원본 성능을 나타낸다. 최고, 두 번째, 세 번째 성능은 각각 굵게(bold), 밑줄(underline), 물결(wave)로 표시되어 있다.

Method	TVR					ActivityNet Captions					Charades-STA
	R@1	R@5	R@10	R@100	SumR	R@1	R@5	R@10	R@100	SumR	R@1	R@5	R@10	R@100	SumR
MS-SL	13.5	32.1	43.4	83.4	172.4	7.1	22.5	34.7	75.8	140.1	1.8	7.1	11.8	47.7	68.4
PEAN	13.5	32.8	44.1	83.9	174.2	7.4	23.0	35.5	75.9	141.8	2.7	8.1	13.5	50.3	74.7
GMMFormer	13.9	33.3	44.5	84.9	176.6	8.3	24.9	36.7	76.1	146.0	2.1	7.8	12.5	50.6	72.9
DL-DKD	14.4	34.9	45.8	84.9	179.9	8.0	25.0	37.5	77.1	147.6	-	-	-	-	-
Proto	15.4	35.9	47.5	86.4	185.1	7.9	24.9	37.2	77.3	147.4	-	-	-	-	-
ARL	15.6	36.3	47.7	86.3	185.9	8.3	24.6	37.4	78.0	148.3	-	-	-	-	-
GMMFormer-V2	16.2	37.6	48.8	86.4	189.1	8.9	27.1	40.2	78.7	154.9	2.5	8.6	13.9	53.2	78.2
DGL-MIL	17.5	38.2	51.1	87.5	194.3	10.5	26.4	40.5	77.4	154.8	1.4	5.3	9.2	40.6	56.5
MS-SL	17.2	39.1	51.5	87.4	195.2	9.4	26.1	37.9	77.2	150.6	1.3	4.6	8.2	38.5	52.6( $\downarrow 15.8$ )
QASIR	19.0	39.9	50.4	87.2	196.5	$\underline{14.1}$	$\underline{32.9}$	44.5	79.9	171.4	1.9	5.8	10.1	40.0	57.8
GMMFormer	18.4	39.5	50.8	89.2	197.9	9.4	26.4	38.2	76.2	150.2	0.9	4.5	8.0	39.0	52.4( $\downarrow 20.5$ )
GMMFormer-V2	19.2	40.1	50.5	90.3	200.1	10.8	28.8	41.1	78.1	158.8	1.3	4.7	9.0	40.4	55.4( $\downarrow 22.8$ )
AMDNet	19.7	$\underline{42.4}$	$\underline{54.1}$	88.9	$\underline{205.1}$	$\underline{12.3}$	32.5	$\underline{45.9}$	$\underline{82.1}$	172.8	1.1	4.2	7.2	36.4	48.9
Propy	22.4	45.0	55.9	$\underline{89.5}$	212.8	14.9	34.9	47.5	82.7	180.0	$\underline{2.6}$	8.7	14.8	50.4	76.5

Table 3: QVHighlights val split에서의 성능. 회색으로 강조된 행은 Proto (Moon et al., 2025)에서 채택된 CLIP-B/16 feature를 사용한 결과이다.

Model	R@1	R@5	R@10	R@100	SumR
GMMFormer	18.2	43.7	56.7	92.5	211.1
MS-SL	20.4	46.7	60.7	$\underline{94.6}$	222.5
Proto	$\underline{22.6}$	$\underline{48.8}$	$\underline{61.3}$	93.9	$\underline{226.6}$
GMMFormer	16.3	39.7	52.3	88.4	196.7
AMDNet	17.1	40.8	52.5	88.4	198.8
GMMFormer-V2	15.6	40.2	53.7	88.5	198.0
MS-SL	17.4	43.4	55.2	88.8	204.8
Propy	$\mathbf{37 . 4}$	$\mathbf{6 5 . 6}$	$\mathbf{7 6 . 1}$	$\mathbf{9 6 . 5}$	$\mathbf{2 7 5 . 5}$

Table 4: 피라미드 구조에 대한 Ablation.

$N_{f}$	$\mathcal{H}=\left\{\left(c_{k}, o_{k}\right)\right\}$	$\mathrm{R} @ 5$	$\mathrm{R} @ 10$	$\mathrm{R} @ 100$
16	$\{(4,2),(3,2),(3,1)\}$	8.3	14.1	47.7
16	$\{(2,1),(3,2),(3,2),(3,1)\}$	8.5	14.2	48.1
32	$\{(4,2),(3,2),(3,2),(3,1)\}$	8.5	14.4	49.3
32	$\{(2,2),(2,1),(3,2),(3,2),(3,1)\}$	$\mathbf{8 . 7}$	$\mathbf{1 4 . 8}$	$\mathbf{5 0 . 4}$

구현 세부 사항 (Implementation Details)
우리는 CLIP-B/32를 backbone으로 선택한다.
차원 $d_{v}, d$ 는 각각 768과 512로 설정된다.
기본 구조 하이퍼파라미터의 경우, $N_{f}$ 는 32로 설정되고 $\mathcal{H}$ 는 $\{(2,2),(2,1),(3,2),(3,2),(3,1)\}$ 로 구성된다.
DGL (Yang et al., 2024)을 따라, 우리는 layer당 4개의 visual prompt ( $N_{v}$ )와 8개의 textual prompt ( $N_{t}$ ) 를 사용한다.
학습률은 ActivityNet에 대해 $1 \mathrm{e}-3$ , QVHighlights에 대해 $9 \mathrm{e}-4$ , TVR 및 Charades-STA에 대해 $8 \mathrm{e}-4$ 로 설정되며, 모든 데이터셋에서 batch size는 24로 통일된다.
(Luo et al., 2022; Yang et al., 2024)를 따라, ProPy는 AdamW optimizer를 사용하여 10 epoch 동안 학습된다.
모든 실험은 단일 NVIDIA RTX 3090 GPU에서 수행된다.

Table 5: 이벤트 prompt의 의미론적 상호작용 메커니즘에 대한 Ablation study.

Attention Area	Interaction	$\mathrm{R} @ 5$	$\mathrm{R} @ 10$	$\mathrm{R} @ 100$
$\mathcal{A}$	inter-only	8.1	12.6	49.5
$\mathcal{D}$	intra-only	8.4	13.4	48.3
$\mathcal{P}$	inter-only	8.5	13.7	49.1
$\mathcal{C}$	intra-only	8.3	13.3	47.8
$\mathcal{P} \cup \mathcal{C}$	inter-intra	8.6	14.1	49.4
$\mathcal{W}$	unstructured	$\mathbf{8 . 7}$	14.2	48.7
$\mathcal{S}$	none	8.3	14.1	48.6
$\mathcal{A} \cup \mathcal{D}$	inter-intra	$\mathbf{8 . 7}$	$\mathbf{1 4 . 8}$	$\mathbf{5 0 . 4}$

Baseline 모델 (Baselines)
ProPy는 PRVR을 위한 CLIP 기반의 최초 prompt 기반 모델이며, 유사한 아키텍처를 채택한 기존 방법은 없다.
포괄적인 비교를 위해 우리는 3가지 유형의 baseline 모델을 평가한다.
(1) DGL-MIL: 우리의 기본 프레임워크인 DGL (Yang et al., 2024)을 MIL 패러다임에 맞게 조정한다. 특히, global prompt의 수를 $N_{e}$ 로 확장하고 전체 세트를 정렬(alignment)에 사용한다.
(2) QASIR (Nishimura et al., 2023): feature 강화를 위해 superimage construction을 사용하는 CLIP 기반 모델이다.
(3) 기타 PRVR 모델 (Dong et al., 2022, 2023; Wang et al., 2024a,b; Jiang et al., 2023; Song et al., 2025; Moon et al., 2025; Cho et al., 2025): 공정한 비교를 위해 추출된 CLIP-B/32 feature를 사용하여 이전의 오픈 소스 PRVR 모델들을 실행한다. 또한, ResNet152 (He et al., 2016) + I3D (Carreira and Zisserman, 2017) + RoBERTa (Liu et al., 2019) feature로 학습된 이들의 원본 성능도 참고 자료로 포함한다.
추가 구현 세부 사항은 Appendix A에 제공된다.

4.2 Overall Comparison

성능 비교는 Table 2, 3에 제시되어 있다. Table 2에서 볼 수 있듯이, ProPy는 TVR과 ActivityNet의 모든 baseline을 크게 능가하며, TVR에서 7.7%, ActivityNet에서 7.2%의 절대적인 성능 향상을 달성했다. 이러한 성능 향상은 부분적으로 CLIP의 잘 정렬된 멀티모달 feature 덕분이라고 할 수 있으며, 이는 CLIP feature를 사용했을 때 다른 PRVR 모델들의 성능이 향상된 것에서도 입증된다.

그러나 Charades-STA에서는 대부분의 PRVR 모델이 CLIP feature를 사용했을 때 성능 저하를 보인 반면, ProPy는 여전히 경쟁력 있는 성능을 유지했다. 이는 이전 연구(Nishimura et al., 2023)의 관찰과 일치하는데, Charades-STA의 **더 짧은 쿼리 길이(평균 6.2단어, ActivityNet은 12.2단어, TVR은 13.6단어)**는 불충분한 텍스트적 supervision으로 이어져(Moon et al., 2025) 더 깊은 비디오 이해를 요구한다. 이러한 상황에서 **CLIP의 정적인 이미지 feature(마지막 layer에서 추출)**는 3D-CNN의 동적인 I3D feature보다 성능이 떨어진다. ProPy는 모든 CLIP layer에서 의미론적으로 풍부한 feature를 집계하고 temporal adapter를 통합하여 이러한 한계를 해결함으로써 포괄적인 비디오 이해를 가능하게 한다.

도전적인 QVHighlights 데이터셋에서 ProPy는 **놀라운 성능 향상(Table 3)**을 달성했으며, 심지어 CLIP-B/16(16x16 그리드 크기를 가진 더 강력한 backbone) feature를 사용하는 방법들까지 능가했다. ProPy는 37.4%의 R@1 점수를 기록하여 경쟁자들을 훨씬 뛰어넘었다. 이러한 결과들은 ProPy의 우수성과 광범위한 적용 가능성을 입증한다.

4.3 Analysis

달리 명시되지 않는 한, 다음 실험들은 Charades-STA 데이터셋을 기반으로 한다.

Pyramid Structure Settings
우리는 Table 4에서 보여지듯이, 너비( $N_f$ )와 깊이(layer 수)의 영향을 조사한다. 결과는 두 파라미터 중 하나를 증가시키면 더 풍부한 정보와 더 많은 이벤트 후보를 제공하여 성능이 향상됨을 나타낸다. 그러나 모델 설계 시 메모리 문제, 특히 파라미터 $N_f$ 와 관련된 프레임 feature 메모리도 고려해야 한다.

Ancestor-Descendant Interaction Mechanism
우리는 상호작용 메커니즘의 영향을 분석한다. 7가지 대체 메커니즘을 평가한다:

$\mathcal{A}$ : 조상(ancestors)에게만 attend하여 자손(descendant)의 세그먼트 내(intra-segment) 정보를 놓친다.
$\mathcal{D}$ : 자손에게만 attend하여 조상에 의해 유도되는 세그먼트 간(inter-segment) 통신을 차단한다.
$\mathcal{P}$ : 부모 노드(parent nodes)에게만 attend하여 제한적인 세그먼트 간 상호작용을 제공한다.
$\mathcal{C}$ : 자식 노드(child nodes)에게만 attend하여 부분적인 세그먼트 내 상호작용을 제공한다.
$\mathcal{P} \cup \mathcal{C}$ : 부모와 자식 attention을 모두 결합한다.
$\mathcal{W}$ : 구조 없이 모든 노드에 attend한다.
$\mathcal{S}$ : 어떤 상호작용도 금지한다.

Table 5의 결과는 다음을 보여준다: (1) 비상호작용 모델 $\mathcal{S}$ 의 성능이 좋지 않으므로, 의미론적 상호작용이 필수적이다. (2) $\mathcal{W}$ 의 결과에서 보듯이, 상호작용 구조는 성능에 상당한 영향을 미친다. (3) 세그먼트 내 및 세그먼트 간 상호작용 모두 중요하다 ( $\mathcal{A} \cup \mathcal{D}$ 는 $\mathcal{A}$ 및 $\mathcal{D}$ 보다 우수하고, $\mathcal{P} \cup \mathcal{C}$ 는 $\mathcal{P}$ 및 $\mathcal{C}$ 보다 우수하다). (4) Ancestor-Descendant Interaction Mechanism은 두 가지 상호작용 유형을 효과적으로 통합하여 최적의 성능을 달성한다.

Table 6: 프레임 feature 업데이트 메커니즘에 대한 ablation study.

Mechanism	R@1	R@5	R@10	R@100	SumR
attn-pyr	1.5	5.9	9.5	37.1	54.0
attn-whole	1.4	6.4	10.4	37.3	55.5
attn-adapter	1.7	6.6	9.8	40.0	58.1
orig	1.9	6.6	11.3	42.5	62.3
adapter	$\mathbf{2 . 6}$	$\mathbf{8 . 7}$	$\mathbf{1 4 . 8}$	$\mathbf{5 0 . 4}$	$\mathbf{7 6 . 5}$

Table 7: MIL 학습을 위한 다른 layer의 이벤트 prompt에 대한 ablation study.

Levels(k)	R@1	R@5	R@10	R@100	SumR
$\{1,2,3\}$	2.4	8.1	13.0	48.8	72.3
$\{3,4,5\}$	2.3	8.0	13.2	48.5	72.0
$\{1,2,3,4\}$	$\mathbf{2 . 6}$	$\mathbf{9 . 0}$	14.3	49.9	75.8
$\{2,3,4,5\}$	2.3	8.3	13.6	49.1	73.3
$\{1,2,3,4,5\}$	$\mathbf{2 . 6}$	8.7	$\mathbf{1 4 . 8}$	$\mathbf{5 0 . 4}$	$\mathbf{7 6 . 5}$

프레임 Feature 업데이트 메커니즘 (Updating Mechanism of Frame Feature)
우리는 프레임 feature 업데이트 메커니즘에 대한 연구를 수행하며, 3가지 다른 메커니즘을 평가한다: (1) orig: 학습 가능한 구성 요소가 없는 바닐라 CLIP 처리. (2) attn-whole: 모든 이벤트 prompt를 key/value로 사용하는 DGL 스타일 attention. (3) attn-pyr: 프레임이 지배적인 이벤트 prompt와만 상호작용하도록 제한된 attention ( $M_f^e$ 로 마스킹됨). (4) attn-adapter: (3)의 향상된 버전으로, layer별 adapter를 포함한다. Table 6에서 보여지듯이, 상당한 성능 향상은 temporal adapter의 효과를 입증한다.

Visual Prompt에 대한 연산 (Operation on Visual Prompt)
visual prompt에 대한 연산을 검증하기 위해, 우리는 두 가지 대체 연산을 추가로 고려한다: (1) no-copy: 모든 이벤트 prompt는 업데이트를 위해 $N_v$ 개의 visual prompt를 통합한다. 해당 attention mask $M_v^e$ 는 $N_e \times N_v$ 의 형태를 가진다. (2) $C(E)$ : visual prompt는 $N_e$ 번 복사되어 이벤트 prompt에 1대1 방식으로 할당된다. $M_v^e$ 는 $N_e \times (N_e \times N_v)$ 의 형태를 가진다. 원래 디자인은 $C(\mathcal{L}_1)$ 로 표기되며, 이는 visual prompt를 $n_1$ 번 복사한다. Table 8에 결과가 나와 있으며, $C(\mathcal{L}_1)$ 디자인이 최고의 성능을 달성함을 보여준다. 이 디자인은 이벤트 prompt의 포함 관계를 고려하여 유익한 구조 정보를 보존한다.

이벤트 Prompt의 다른 레벨 (Different Levels of Event Prompts)
우리는 피라미드 구조를 고정하고 MIL 학습을 위한 이벤트 prompt의 다른 레벨을 선택하여

Figure 3: TSNE 시각화. 빨간색 점은 텍스트 feature, 파란색 점은 세그먼트 feature를 나타낸다.

Figure 4: 왼쪽: ProPy의 검색 결과 (샘플은 R@1 메트릭을 기반으로 선택됨). attention map은 선택된 이벤트 prompt와 이미지 패치 간의 점수를 시각화한다. 오른쪽: 선택된 이벤트 prompt (빨간색 테두리)와 다른 prompt 간의 attention 점수. 가장 높은 점수를 가진 이벤트는 주황색 테두리로 표시된다.

Table 8: visual prompt에 대한 연산 ablation study.

Operation	$\mathrm{R} @ 1$	$\mathrm{R} @ 5$	$\mathrm{R} @ 10$	$\mathrm{R} @ 100$	SumR
no-copy	2.2	8.2	13.0	48.8	72.2
$C(E)$	2.1	8.1	13.3	48.5	72.0
$C\left(\mathcal{L}_{1}\right)$	$\mathbf{2 . 6}$	$\mathbf{8 . 7}$	$\mathbf{1 4 . 8}$	$\mathbf{5 0 . 4}$	$\mathbf{7 6 . 5}$

Table 9: 각 디자인에 대한 ablation. $\mathcal{AD}, \Omega, C(\mathcal{L}_1)$ 은 각각 Ancestor-Descendant Interaction, adapter 사용, visual prompt를 $n_1$ 번 복제하는 것을 의미한다. 비교된 연산은 이벤트 prompt 상호작용 비활성화, 바닐라 CLIP 처리, 복제 없음이다.

Idx	$\mathcal{A D}$	$\Omega$	$C\left(\mathcal{L}_{1}\right)$	R@1	R@5	R@10	R@100	SumR
a				1.8	5.8	9.3	38.6	55.5
b	$\checkmark$			1.7	6.8	11.0	41.9	61.4
c		$\checkmark$		1.5	6.6	10.9	41.5	60.5
d			$\checkmark$	1.7	5.6	9.4	39.4	56.1
e	$\checkmark$	$\checkmark$		2.2	8.2	13.0	48.8	72.2
f	$\checkmark$		$\checkmark$	1.9	6.6	11.3	42.5	62.3
g		$\checkmark$	$\checkmark$	2.1	8.3	14.1	48.6	73.1
h	$\checkmark$	$\checkmark$	$\checkmark$	2.6	8.7	14.8	50.4	76.5

다른 prompt layer의 역할을 조사한다. Table 7의 결과는 학습 시 더 많은 레벨의 prompt를 가진 모델이 더 적은 레벨의 모델보다 우수함을 보여준다. 또한 우리는 하단에 가까운 layer( $k=1$ )가 성능에 더 많이 기여함을 발견한다. 근본적인 이유를 밝히기 위해, Figure 5에 표시된 학습 중 선택된 이벤트의 분포에 대한 통계 실험을 수행한다. 이는 ProPy가

Table 10: Weakly-Supervised VCMR 설정에서 ActivityNet 데이터셋에 대한 성능. 회색으로 강조된 행은 ResNet152 + I3D + Roberta feature를 활용하는 방법의 원래 성능을 나타낸다.

Method	$\mathrm{IoU}=0.3$		$\mathrm{IoU}=0.5$		$\mathrm{IoU}=0.7$
	R@10	R@100	R@10	R@100	R@10	R@100
FAWL	11.86	38.98	6.25	21.77	2.88	10.05
JSG	13.27	40.61	8.76	29.98	3.83	15.78
FAWL	23.68	48.02	17.54	43.57	9.35	20.66
JSG	25.62	54.31	19.35	45.15	10.92	26.14
Propy	28.57	57.42	20.81	46.22	12.94	31.85

Table 11: Charades-STA에 대한 파라미터 및 추론 시간 (쿼리당) 비교. Matching time은 비디오-텍스트 매칭 프로세스에 걸리는 시간을 나타낸다.

Method	Parameters(MB)		Inference Time(ms)
	trainable	total	matching	total
MS-SL	4.85	4.85	0.65	3.05
GMMFormer	12.85	12.85	0.44	1.79
ProPy	7.97	159.24	1.16	20.3

쉬운 것에서 어려운 것으로 학습한다는 것을 보여준다: 즉, 처음에는 더 짧은 세그먼트를 처리한 다음 점진적으로 더 긴 세그먼트로 확장하며, 학습된 의미론은 저수준에서 고수준으로 진화한다.

Ablation Study
우리는 각 디자인에 대한 ablation study를 수행한다. Table 9에서 보여지듯이, Ancestor-Descendant Mechanism이 개별적으로 가장 큰 기여를 한다. adapter가 장착되면, 모델은 Ancestor-Descendant Mechanism 또는 $C(\mathcal{L}_1)$ 연산과 비슷한 성능을 달성한다 (e 및 g). 이는 구조화된 visual prompt가 이벤트 학습에 유익함을 나타낸다. temporal adapter, Ancestor-Descendant Mechanism 및 구조화된 visual prompt를 포함하는 전체 설정이 최고의 성능을 달성한다.

Grounding Capability
우리는 Weakly-Supervised Video Corpus Moment Retrieval (Chen et al., 2023) 설정에서 ProPy의 grounding capability를 평가한다. Table 10에서 보여지듯이, ProPy는 다중 세분화 이벤트 피라미드 디자인 덕분에 ActivityNet에서 SOTA 성능을 달성한다. 특히, 이전 방법들 (Chen et al., 2023; Pan et al., 2025)과 비교하여, ProPy는 복잡한 비디오 내 손실(intra-video losses)과 시간이 많이 소요되는 NMS (Lin et al., 2018) 연산을 필요로 하지 않는다.

효율성 비교 (Efficiency Comparison)
Table 11에서 보여지듯이, ProPy는 상대적으로 더 많은 파라미터를 포함한다. 그러나 대부분의 파라미터는 frozen CLIP 가중치이며, 학습 가능한 파라미터는 5%에 불과하다. 이 학습 가능한 파라미터 중 temporal adapter가 7.11M (89%)을 차지하고, prompt는 0.86M (11%)만 차지한다. 그러나 앞서 논의했듯이, 이러한 temporal adapter를 통합하는 것은 전체 성능에 매우 중요하다. ProPy는 더 긴 추론 시간을 필요로 하지만, 대부분의 시간은 CLIP layer를 통한 feature 계산에 소요된다. feature 계산 프로세스가 완료되면, 매칭 시간은 다른 모델과 비슷하다. 이는 실제 검색 시나리오에서 ProPy가 상당한 지연 시간 증가 없이 높은 검색 정확도를 누릴 수 있음을 나타낸다.

Figure 5: 선택된 이벤트의 길이 분포.

정성적 분석 (Qualitative Analysis)
우리는 Figure 3에서 t-SNE 클러스터링 결과를 시각화한다. 관찰된 바와 같이, 클러스터 분포는 데이터셋마다 다르며, 비디오 콘텐츠와 텍스트 주석의 차이를 반영한다. 주로 행동이나 이벤트에 초점을 맞춘 ActivityNet의 경우, 의미론적으로 유사한 행동들이 서로 가깝게 위치하여 많은 수의 뚜렷한 클러스터 중심을 이룬다. TVR에서는 비디오가 6개의 다른 TV 쇼에서 가져왔으며, 각 쇼는 반복되는 캐릭터와 장면을 특징으로 하여 대략 4~6개의 클러스터를 형성한다. QVHighlights는 뉴스 및 브이로그의 비디오를 포함하며, 더 다양한 시각 콘텐츠와 텍스트 설명을 가지고 있어 뚜렷한 클러스터 중심 없이 더 확산된 분포를 보인다. 앞서 논의했듯이, Charades-STA 데이터셋은 제한된 세분화된 주석을 가진 짧은 텍스트 쿼리를 포함하여 텍스트 feature가 몇 개의 밀집된 중심 주위에 붕괴된다. Charades 데이터셋을 제외하고, 다른 데이터셋의 t-SNE 플롯은 일반적으로 공유 feature 공간에서 비디오와 텍스트 feature 간의 합리적인 정렬 정도를 보여준다.

우리는 Figure 4에서 TVR의 일부 검색 결과를 추가로 보여준다. 결과는 다음을 보여준다: (1) ProPy는 'opens a book' 및 'hands the book back'과 같은 고품질의 시공간 의미론을 추출할 수 있다. (2) ProPy는 충분한 의미론적 상호작용을 보장한다. 예를 들어, 후자의 이벤트인 'hands the book back to Castel'은 'book', 'Castel'이라는 이전 컨텍스트를 필요로 하며, 시각화는 선택된 이벤트가 부모에게 가장 높은 attention을 부여한다는 것을 보여주는데, 이는 이전 이벤트에 대한 직접적인 정보 채널 중 하나이다.

5 Conclusion

우리는 **PRVR(Person Re-identification in Videos with Rich Descriptions)**을 위한 최초의 심층 CLIP 기반 모델인 ProPy를 제안한다. 비디오 이벤트의 이벤트 내(intra-event) 및 이벤트 간(inter-event) 관계를 모두 고려하여, 우리는 다중 세분화(multi-granularity) 이벤트 feature를 추출하는 Interactive Prompt Pyramid 아키텍처와 충분한 의미론적 상호작용을 보장하는 Ancestor-Descendant Interaction Mechanism을 설계한다. 광범위한 실험을 통해 ProPy의 우수성과 일반화 가능성을 입증한다.

6 Limitations

ProPy는 적은 수의 trainable parameter만을 요구하지만, CLIP feature가 차지하는 메모리는 무시할 수 없다. 또한, $2^k$ segment sampling 전략과 구조 파라미터 $\mathcal{H}$ 는 경험적으로 결정되었다. 향후 연구에서는 비디오 프레임 및 피라미드 구조의 adaptive selection 방법 (예: (Wang et al., 2024c))을 포함할 예정이다.

Acknowledgement

본 연구는 중국과학원 국제협력 프로그램(과제 번호 104GJHZ2023053FN)과 멀티모달 인공지능 시스템 국가핵심실험실 청년과학자 기금(과제 번호 ES2P100118)의 지원을 받아 수행되었다.

A More Implementation Details

(Yang et al., 2024)에 따라, 비디오는 먼저 3 fps 및 $224 \times 224$ 해상도로 압축된다. 모델은 decoupled weight decay가 0.2로 설정된 AdamW optimizer를 사용하여 학습된다. 학습 중에는 warm-up 전략이 채택된 후 cosine learning rate policy가 적용된다.
다른 PRVR 모델의 경우, 우리는 CLIP의 textual branch 마지막 layer에서 나온 출력 시퀀스를 텍스트 feature로 활용하고, visual branch 마지막 layer에서 나온 [CLS] feature를 시각 feature로 활용한다. 최소한의 수정을 위해, 다른 PRVR 모델의 프레임 수는 128로 설정되었는데, 이는 ProPy의 32보다 훨씬 큰 값이다. baseline PRVR 모델의 학습 과정 또한 원본 과정을 따르며, 즉 early stop 전략과 함께 최대 100 epoch으로 진행된다.

Figure 6: ProPy의 수학적 관계. 각 layer에 대해 인덱스는 0부터 시작한다. 우리는 $k$ -번째 layer의 인덱스 1과 $n_k-1$ 을 가진 prompt에 초점을 맞춘다. 이 prompt의 가장 왼쪽 및 가장 오른쪽 후손(descendant)의 관계는 전이적(transitive)이다.

B Mask Construction Algorithm

피라미드 구조와 attention mask는 프레임 수 $N_f$ 와 구조 하이퍼파라미터 $\mathcal{H}=\left\{\left(c_{k}, o_{k}\right)\right\}$ 에 의해 결정된다 ( $c_k, o_k$ 는 자식 노드의 수와 오프셋). 우리는 Ancestor-Descendant Interaction Mechanism에 사용되는 세 가지 attention mask $M_e^e, M_f^e, M_v^e$ 를 구성하는 빠른 알고리즘을 제공한다. 이 알고리즘은 두 단계로 이루어진다.

Step 1: Cross-layer structure parameters

먼저, Equation (3)의 정의를 확장하여 layer $\mathcal{L}_{k_{1}}$ 과 $\mathcal{L}_{k_{2}}\left(k_{1}>k_{2}\right)$ 사이의 **cross-layer 구조 파라미터 $c_{k_{1}}^{k_{2}}$ 와 $o_{k_{1}}^{k_{2}}$ **를 다음과 같이 정의한다:

\begin{gathered} c_{k_{1}}^{k_{2}}=\left|\left\{e_{j_{2}}^{k_{2}} \mid e_{j_{2}}^{k_{2}} \in \mathcal{D}\left(e_{j_{1}}^{k_{1}}\right)\right\}\right| \\ \mathscr{L}_{k_{1}}^{k_{2}}\left(j_{1}\right)=\underset{j_{2}}{\arg \min }\left\{e_{j_{2}}^{k_{2}} \mid e_{j_{2}}^{k_{2}} \in \mathcal{D}\left(e_{j_{1}}^{k_{1}}\right)\right\} \\ o_{k_{1}}^{k_{2}}=\mathscr{L}_{k_{1}}^{k_{2}}\left(j_{1}+1\right)-\mathscr{L}_{k_{1}}^{k_{2}}\left(j_{1}\right) \end{gathered}

Algorithm 1: Structure parameters
    Input: \(N_{f}, \mathcal{H}=\left\{\left(c_{k}, o_{k}\right)\right\}\)
    Output: \(\mathbf{H}=\left\{\left(k_{1}, k_{2}\right):\left(c_{k_{1}}^{k_{2}}, o_{k_{1}}^{k_{2}}\right)\right\}\)
    \(\mathbf{L}=\left[N_{f}\right]\) // 각 layer의 길이
    \(K=\operatorname{len}(H) ;\)
    for \(k \leftarrow 1\) to \(K\) do
        \(\mathbf{H}[(k, k-1)]=\left(c_{k}, o_{k}\right) / /\) \(\mathcal{H}\)로부터
        \(n_{k}=\left(\mathbf{L}[k-1]-c_{k}\right) / / o_{k}+1 ;\)
        L. append \(\left(n_{k}\right)\);
    end
    for \(k_{1} \leftarrow K\) to 1 do
        for \(k_{2} \leftarrow k_{1}-2\) to 0 do
            \(c_{k_{1}}^{k_{2}+1}, o_{k_{1}}^{k_{2}+1}=\mathbf{H}\left[\left(k_{1}, k_{2}+1\right)\right] ;\)
            \(c_{k_{2}+1}^{k_{2}}, o_{k_{2}+1}^{k_{2}}=\mathbf{H}\left[\left(k_{2}+1, k_{2}\right)\right] ;\)
            \(o_{k_{1}}^{k_{2}}=o_{k_{1}}^{k_{2}+1} * o_{k_{2}+1}^{k_{2}}\);
            \(c_{k_{1}}^{k_{2}}=\mathbf{L}\left[k_{2}\right]-o_{k_{1}}^{k_{2}} *\left(\mathbf{L}\left[k_{1}\right]-1\right) ;\)
            \(\mathbf{H}\left[\left(k_{1}, k_{2}\right)\right]=\left(c_{k_{1}}^{k_{2}}, o_{k_{1}}^{k_{2}}\right) ;\)
        end
    end
    return H, L

편의상 프레임 시퀀스를 길이 $n_{0}=N_{f}$ 인 $\mathcal{L}_{0}$ 으로 간주한다. 우리는 Algorithm 1을 사용하여 $c_{k_{1}}^{k_{2}}$ 와 $o_{k_{1}}^{k_{2}}$ 를 계산한다. 핵심 코드는 Algorithm 1의 12행과 13행으로, $\left(c_{k_{1}}^{k_{2}}, o_{k_{1}}^{k_{2}}\right)$ 를 반복적인 방식(iterative manner)으로 업데이트한다. 이에 대한 간략한 증명은 다음과 같다. 우리는 Equation (3)과 유사하게 $\mathcal{L}_{k_{2}}$ 에서 $e_{j_{1}}^{k_{1}}$ 의 가장 오른쪽 후손(rightmost descendant)의 인덱스를 찾기 위한 추가 연산 $\mathscr{R}_{k_{1}}^{k_{2}}(j)$ 를 정의한다:

\mathscr{R}_{k_{1}}^{k_{2}}(j)=\underset{j_{2}}{\arg \max }\left\{e_{j_{2}}^{k_{2}} \mid e_{j_{2}}^{k_{2}} \in \mathcal{D}\left(e_{j_{1}}^{k_{1}}\right)\right\}

다음 관계를 찾는 것은 어렵지 않다:

\begin{aligned} \mathscr{L}_{k_{1}}^{k_{2}}(j) & =o_{k_{1}}^{k_{2}} \times j \\ \mathscr{R}_{k_{1}}^{k_{2}}(j)-\mathscr{L}_{k_{1}}^{k_{2}}(j) & =c_{k_{1}}^{k_{2}}-1 \end{aligned}

$j$ 를 1로 설정하면 $\mathscr{L}_{k_{1}}^{k_{2}}(1)=o_{k_{1}}^{k_{2}}$ 를 얻는다. 또한, Figure 6에서 보여주듯이 $\mathscr{L}$ 과 $\mathscr{R}$ 은 **전이적 속성(transitive property)**을 가지며, 이는 다음으로 이어진다:

\begin{aligned} o_{k_{1}}^{k_{2}} & =\mathscr{L}_{k_{1}}^{k_{2}}(1)=\mathscr{L}_{k_{1}-1}^{k_{2}}\left(\mathscr{L}_{k_{1}}^{k_{1}-1}(1)\right) \\ & =\mathscr{L}_{k_{1}-1}^{k_{2}}\left(o_{k_{1}}^{k_{1}-1}\right)=o_{k_{1}-1}^{k_{2}} \times o_{k_{1}}^{k_{1}-1} \\ & =\ldots=\prod_{k=k_{1}}^{k_{2}+1} o_{k}^{k-1} \end{aligned}

유사하게, 우리는 각 layer의 가장 오른쪽에 위치한 이벤트에 대한 $\mathscr{R}$ 의 전이적 속성을 활용한다:

\begin{array}{r} \mathscr{R}_{k_{1}}^{k_{2}}\left(n_{k_{1}}-1\right)=\mathscr{R}_{k_{1}-1}^{k_{2}}\left(\mathscr{R}_{k_{1}}^{k_{1}-1}\left(n_{k_{1}}-1\right)\right) \\ \quad=\mathscr{R}_{k_{1}-1}^{k_{2}}\left(n_{k_{1}-1}-1\right)=\ldots=n_{k_{2}}-1 \end{array}

그런 다음, Equation (13)을 적용하여 $c_{k_{1}}^{k_{2}}$ 는 다음과 같이 계산될 수 있다:

\begin{aligned} c_{k_{1}}^{k_{2}} & =\mathscr{R}_{k_{1}}^{k_{2}}\left(n_{k_{1}}-1\right)-\mathscr{L}_{k_{1}}^{k_{2}}\left(n_{k_{1}}-1\right)+1 \\ & =\left(n_{k_{2}}-1\right)-o_{k_{1}}^{k_{2}} \times\left(n_{k_{1}}-1\right)+1 \\ & =n_{k_{2}}-o_{k_{1}}^{k_{2}} \times\left(n_{k_{1}}-1\right) \end{aligned}

Equation (14)와 (16)은 Algorithm 1의 12행과 13행에서 반복적인 방식으로 구현된다.

Step 2: Mask Construction

그런 다음, Algorithm 2에서 생성된 이러한 구조 파라미터를 기반으로 마스크를 구성하고, attention 영역을 양수 값으로 layer-by-layer 채운다.
$\mathcal{L}_{k_{1}}$ 에서 $\mathcal{L}_{k_{2}}$ 로 가는 서브 마스크 $M_{k_{1}}^{k_{2}} \in \mathbb{R}^{n_{k_{1}} \times n_{k_{2}}}$ ( $k_{1}>k_{2}$ )의 경우, attention score는 관계 $e_{j_{2}}^{k_{2}} \in \mathcal{D}\left(e_{j_{1}}^{k_{1}}\right)$ 와 위치에 따라 조건화되어 채워진다:

M_{k_{1}}^{k_{2}}\left[j_{1}\right]\left[j_{2}\right]= \begin{cases}1 & \text { if } 0 \leq j_{2}-o_{k_{1}}^{k_{2}} \times j_{1}<c_{k_{1}}^{k_{2}} \\ 0 & \text { else }\end{cases}

동일한 layer $\mathcal{L}_{k}$ 에 대한 마스크 $M_{k}^{k} \in \mathbb{R}^{n_{k} \times n_{k}}$ 는 **항등 행렬(identity matrix)**이다.
$\widetilde{M}_{f}^{e}$ 는 frame layer $\mathcal{L}_{0}$ 에 구성된다. $\widetilde{M}_{v}^{e}$ 는 $\mathcal{L}_{1}$ 의 마스크와 동일하다.
$\widetilde{M}_{f}^{e}, \widetilde{M}_{v}^{e}$ 는 각각 $\mathbb{R}^{N_{e} \times\left(N_{f} \times N_{s}\right)}, \mathbb{R}^{N_{e} \times\left(n_{1} \times N_{v}\right)}$ 형태의 $M_{f}^{e}, M_{v}^{e}$ 로 확장된다.

C More Visualization

우리는 Figure 7에서 TVR, Charades-STA, ActivityNetCaptions로부터 얻은 더 많은 시각화 결과를 제공한다. ActivityNet의 이벤트들은 global prompt와 같은 상위 수준의 이벤트 prompt와 상호작용하는 경향이 있다는 점이 주목할 만하다. 그 이유는 ActivityNet의 많은 비디오가 단일 주제를 중심으로 밀접하게 구성되어 있으며, 더 긴 텍스트 주석과 더 복잡한 종속성을 가지고 있기 때문이다. 이는 prompt가 더 넓은 범위에 걸쳐 문맥 정보를 얻기 위해 상위 수준의 조상(ancestor)과 상호작용하도록 강제한다.

Algorithm 2: Mask Construction
    Input: H, L
    Output: \(M_{e}^{e}, \widetilde{M}_{f}^{e}, \widetilde{M}_{v}^{e}\)
    \(N_{e}=\boldsymbol{\operatorname { s u m }}(\mathbf{L}[1:]) / /\) prompt number
    \(n_{1}=\mathbf{L}[1] ~ / / ~ l e n g t h ~ o f ~ \mathcal{L}_{1}\)
    \(N_{f}=\mathbf{L}[0]\) // frame number
    \(\mathbf{M}=\mathbf{z e r o s}\left(N_{e}+N_{f}, N_{e}+N_{f}\right) ;\)
    for \(k_{1} \leftarrow K\) to 0 do
        for \(k_{2} \leftarrow k_{1}\) to 0 do
            \(u_{1}=\boldsymbol{\operatorname { s u m }}\left(\mathbf{L}\left[k_{1}+1:\right]\right) ;\)
            \(v_{1}=\boldsymbol{\operatorname { s u m }}\left(\mathbf{L}\left[k_{1}:\right]\right) ;\)
            \(u_{2}=\operatorname{sum}\left(\mathbf{L}\left[k_{2}+1:\right]\right) ;\)
            \(v_{2}=\boldsymbol{\operatorname { s u m }}\left(\mathbf{L}\left[k_{2}:\right]\right) ;\)
            if \(k_{1}=k_{2}\) then
                // same layer
                \(\mathbf{M}_{\text {sub }}=\mathbf{M}\left[u_{1}: v_{1}, u_{2}: v_{2}\right]\);
                \(\mathbf{M}_{\text {sub }}\).fill_diagonal(1)
            end
            else
                \(c_{k_{1}}^{k_{2}}, o_{k_{1}}^{k_{2}}=\mathbf{H}\left[\left(k_{1}, k_{2}\right)\right] ;\)
                for \(i \leftarrow 0\) to \(\mathbf{L}\left[k_{1}\right]-1\) do
                    \(u_{i}=u_{2}+i * o_{k_{1}}^{k_{2}}\),
                    \(v_{i}=u_{i}+c_{k_{1}}^{k_{2}}\);
                    \(\mathbf{M}\left[u_{1}+i\right]\left[u_{i}: v_{i}\right]=1 ;\)
                    // symmetrical
                    \(\mathbf{M}\left[u_{i}: v_{i}\right]\left[u_{1}+i\right]=1 ;\)
                end
            end
        end
    end
    \(M_{e}^{e}=\mathbf{M}\left[: N_{e}\right]\left[: N_{e}\right] / / \mathbb{R}^{N_{e} \times N_{e}}\)
    \(\widetilde{M}_{f}^{e}=\mathbf{M}\left[: N_{e}\right]\left[N_{e}:\right] / / \mathbb{R}^{N_{e} \times N_{f}}\)
    \(\widetilde{M}_{v}^{e}=\mathbf{M}\left[: N_{e}\right]\left[N_{e}-n_{1}: N_{e}\right] / / \mathbb{R}^{N_{e} \times n_{1}}\)
    return \(M_{e}^{e}, \widetilde{M}_{f}^{e}, \widetilde{M}_{v}^{e}\)

Figure 7: 추가 시각화 결과. 샘플은 R@1 metric을 기반으로 선택되었다. 선택된 이벤트 prompt는 빨간색 테두리로 강조 표시되어 있다. 가장 높은 attention score를 가진 이벤트는 주황색 테두리로 표시되어 있다.