HLFormer: 쌍곡 학습(Hyperbolic Learning)을 통한 부분 관련 비디오 검색 성능 향상

HLFormer는 텍스트 쿼리가 일부 내용만 설명하는 미편집 비디오를 매칭하는 PRVR(Partially Relevant Video Retrieval) 문제를 해결하기 위해 제안된 최초의 쌍곡 학습(Hyperbolic Learning) 프레임워크입니다. 기존 방법들이 사용하는 Euclidean 공간은 비디오의 본질적인 계층 구조를 왜곡할 수 있는 반면, HLFormer는 쌍곡 공간을 활용하여 이러한 계층적 의미 모델링을 보완합니다. 이 모델은 Lorentz Attention Block과 Euclidean Attention Block을 결합하여 하이브리드 공간에서 비디오 임베딩을 인코딩하고, Mean-Guided Adaptive Interaction Module을 통해 동적으로 특징을 융합합니다. 또한, Partial Order Preservation Loss를 도입하여 "text ≺ video"라는 계층 구조를 기하학적으로 강제함으로써 텍스트와 비디오 간의 부분적 관련성 매칭을 강화합니다. 논문 제목: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

Li, Jun, et al. "HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning." arXiv preprint arXiv:2507.17402 (2025). ICCV 2025

Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

Jun Li 1{ }^{1 *}, Jinpeng Wang 2{ }^{2 * \dagger}, Chaolei Tan 4{ }^{4}, Niu Lian 1{1}, Long Chen 4{4}, Yaowei Wang 3{3}, Min Zhang 1{1}, Shu-Tao Xia 2,3{2,3}, Bin Chen 1{1}<br>1{ }^{1} Harbin Institute of Technology, Shenzhen<br>2{ }^{2} Tsinghua Shenzhen International Graduate School, Tsinghua University<br>3{ }^{3} Research Center of Artificial Intelligence, Peng Cheng Laboratory<br>4{ }^{4} The Hong Kong University of Science and Technology<br>220110924@stu.hit.edu.cn \boxtimes wjp20@mails.tsinghua.edu.cn

Abstract

**Partially Relevant Video Retrieval (PRVR)**은 untrimmed video부분적인 내용만을 설명하는 텍스트 쿼리를 매칭하는 중요한 과제를 다룬다. 기존 방법들은 유클리드 공간(Euclidean space)에서의 기하학적 왜곡으로 인해 비디오의 본질적인 계층적 구조를 때때로 잘못 표현하고 특정 계층적 의미를 간과하여, 궁극적으로 최적화되지 않은 temporal modeling으로 이어진다.
이러한 문제를 해결하기 위해 우리는 PRVR을 위한 최초의 hyperbolic modeling 프레임워크인 HLFormer를 제안한다. HLFormer는 hyperbolic space learning을 활용하여 유클리드 공간의 suboptimal한 계층적 모델링 능력을 보완한다.
구체적으로, HLFormer는 Lorentz Attention BlockEuclidean Attention Block을 통합하여 hybrid space에서 비디오 embedding을 인코딩하며, Mean-Guided Adaptive Interaction Module을 사용하여 feature를 동적으로 융합한다.
또한, 우리는 Lorentzian cone 제약 조건을 통해 "text \prec video" 계층 구조를 강화하는 Partial Order Preservation Loss를 도입한다. 이 접근 방식은 비디오 콘텐츠와 텍스트 쿼리 간의 부분적 관련성(partial relevance)을 강화함으로써 cross-modal matching을 더욱 향상시킨다.
광범위한 실험 결과, HLFormer는 state-of-the-art 방법들을 능가하는 성능을 보여준다. 코드는 https://github.com/lijun2005/ICCV25-HLFormer에서 공개된다.

1. Introduction

Text-to-video retrieval (T2VR) [5, 11-13, 15, 18, 35, 38, 44]은 많은 검색 애플리케이션에서 핵심적인 모듈이자 멀티모달 학습에서 인기 있는 주제이다. 대부분의 T2VR 모델은 짧은 클립이나 미리 잘린(pre-trimmed) 비디오 세그먼트를 위해 개발되었지만, 사용자 쿼리가 비디오의 부분적인 내용만을 설명하는 경우 어려움에 직면할 수 있다. 실제 사용에서 이러한 실질적인 문제는 더욱 도전적인 설정인 부분적으로 관련된 비디오 검색(Partially Relevant Video Retrieval, PRVR) [14]을 촉진하며, 이는 각 텍스트 쿼리를 가장 적합한 untrimmed 비디오와 매칭하는 것을 목표로 한다.

Figure 1. (a) Untrimmed 비디오에서 **의미론적 계층(semantic hierarchy)**을 모델링하는 것은 **부분적으로 관련된 비디오 검색(PRVR)**에 도움이 된다. (b) **유클리드 공간(Euclidean space)**은 평평한 기하학적 구조 때문에 의미론적 계층을 모델링하는 데 덜 효과적이다. 계층적 관계가 먼 데이터 포인트들이 가까이 있을 수 있다. (c) **쌍곡 공간(Hyperbolic space)**은 가장자리에 가까워질수록 더 큰 기수(cardinals)를 허용하며, 이는 계층을 보존하는 데 더 유리하다.

레이블이 지정되지 않은 순간 타임스탬프 때문에 PRVR은 다음 두 가지 강력한 능력을 요구한다: (i) 비디오에서 핵심 순간을 식별하여 유익한 feature를 추출하는 능력, (ii) 텍스트 쿼리와 비디오를 정확하게 매칭하기 위한 강력한 cross-modal representation을 학습하는 능력. 기존 연구들은 이 두 가지 측면에서 예비적인 해결책을 개발했지만, 여전히 도전 과제가 남아있다. (i)의 경우, MS-SL [14]은 다중 스케일 슬라이딩 윈도우를 통해 연속적인 프레임 조합을 **모두 열거(exhaustively enumerated)**했는데, 이는 필연적으로 중복성, 노이즈, 그리고 높은 계산 복잡성을 야기하여 순간 feature 추출에 비효율적이었다. GMMFormer [60, 61]는 Gaussian neighborhood priors를 활용하여 각 타임스탬프를 탐색하고 잠재적인 핵심 순간을 발견함으로써 효율성을 개선했다. 그러나 인접하거나 의미론적으로 유사한 후보 순간들을 구별하는 것은 여전히 어려울 수 있다. DL-DKD [16]는 사전학습된 CLIP [50]을 활용하여 텍스트-프레임 정렬을 향상시켰지만, temporal 일반화 능력은 텍스트-이미지 teacher model에 의해 제한된다. (ii)의 경우, 대부분의 기존 솔루션은 전체적인 수준에서 고전적인 T2VR의 아이디어(예: 랭킹 및 contrastive learning)를 계승했지만, **부분적 관련성(partial relevance) 및 의미론적 함의(semantic entailment)**와 같은 PRVR의 중요한 특성들은 여전히 충분히 탐구되지 않았다.

본 논문에서는 비디오가 자연스럽게 **의미론적 계층(semantic hierarchy)**을 나타낸다는 믿음 아래, 이 task를 **계층적 관점(hierarchical perspective)**에서 재검토한다. Fig. 1(a)에 설명된 바와 같이, untrimmed 비디오는 프레임에서 유익한 세그먼트(예: Dunk), 확장된 순간, 그리고 궁극적으로 전체 비디오로 진행되는 것으로 간주될 수 있다. 이러한 내재적 속성을 활용하는 것은 긴 비디오 이해에 도움이 될 것으로 기대된다. 특히 PRVR의 경우, 계층적 사전 지식(hierarchical prior)은 순간 feature를 배열하는 데 긍정적인 지침을 제공한다. 동시에, 쿼리-비디오 매칭으로부터의 supervisory signal은 암묵적인 bottom-up 모델링을 통해 순간 추출을 더욱 정밀하게 활성화할 수 있다. 계층적 feature를 탐색하는 것은 결코 사소한 일이 아니다. 불행히도, 유클리드 공간에 의존하는 기존 PRVR 접근 방식은 평평한 기하학적 구조에서 원하는 패턴을 모델링하는 데 덜 효과적이다. Fig. 1(b)는 이를 예시한다: 계층적 관계가 먼 두 임베딩이 빨간색 화살표로 표시된 것처럼 공간적으로 서로 가까울 수 있다. 편향된 표현은 유익한 순간을 배경으로부터 분리하는 데 어려움을 증가시키며, 이는 부분적 관련성을 고려한 cross-modal 매칭의 견고성을 제한한다.

쌍곡 학습(hyperbolic learning) [10, 17, 30, 32, 46]의 최근 성공에 영감을 받아, 이는 비유클리드 공간에서 기하급수적으로 확장되는 metric을 활용하여 계층적 구조를 더 잘 포착한다 (Fig. 1(c)). 우리는 PRVR을 향상시키기 위한 쌍곡 학습의 진지한 탐구인 HLFormer를 소개한다. temporal 모델링에서는 정보성 순간 feature를 포괄적으로 캡처하기 위한 듀얼 브랜치 전략을 신중하게 설계한다. 특히, **쌍곡 브랜치(hyperbolic branch)**의 경우, 우리는 **쌍곡 self-attention 메커니즘을 갖춘 Lorentz Attention Block (LAB)**을 개발한다. end-to-end 매칭 최적화를 통한 암묵적인 계층적 사전 지식을 통해, LAB는 쿼리와 관련된 정보성 순간 feature를 활성화하고 쌍곡 공간에서 노이즈가 많은 배경으로부터 이를 구별하도록 학습하며, 이는 계층적 의미론을 캡처하는 데 있어 유클리드 attention의 한계를 보완한다. 우리는 듀얼 브랜치 순간 feature를 Mean-Guided Adaptive Interaction Module (MAIM)과 통합하는데, 이는 가볍지만 효과적이다. cross-modal 매칭에서는 텍스트 쿼리가 해당 비디오에 종속되는 PRVR의 내재적인 "text \prec video" 계층을 활용하여, 보조 Lorentzian manifold에서 해당 비디오 표현에 의해 고정된 쌍곡 원뿔(hyperbolic cone) 내에 텍스트 임베딩을 기하학적으로 제한하는 Partial Order Preservation (POP) loss를 도입한다. 이 **계층적 metric 정렬(hierarchical metric alignment)**은 지역화된 텍스트 의미론과 그 상위 비디오 구조 간의 의미론적 일관성을 보장하면서 부분적 관련성을 보존한다.

ActivityNet Captions [29], Charades-STA [23], TVR [31]의 세 가지 벤치마크 데이터셋에 대한 실험적 평가는 HLFormer의 state-of-the-art 성능을 입증한다. Ablation study계층적 표현을 위한 쌍곡 기하학의 필요성Partial Order Preservation Loss에서 명시적인 관계 제약의 중요한 역할을 확인한다. 한편, 시각적 증거는 쌍곡 학습이 비디오-텍스트 함의(entailment)를 유지하면서 discriminative representation을 향상시키고, 순간 구별을 선명하게 하며, 쿼리 정렬을 개선할 수 있음을 추가로 보여준다.

주요 기여는 다음과 같이 요약할 수 있다:

  • 우리는 쌍곡 학습을 통해 PRVR을 향상시키는 것을 제안한다. 여기에는 계층적 사전 지식을 갖춘 Lorentz attention block이 포함되어 순간 feature 추출을 향상시키며, 이는 유클리드 attention 및 hybrid-space fusion과 협력한다.
  • 우리는 쌍곡 원뿔 제약(hyperbolic cone constraints)을 통해 "text \prec video" 계층을 기하학적으로 강제하는 partial order preservation loss를 설계하여 부분적 관련성을 강화한다.
  • 세 가지 벤치마크에 대한 광범위한 실험은 HLFormer의 우수성을 검증하며, 쌍곡 모델링 및 기하학적 제약의 효능을 확인하는 분석을 포함한다.

2.1. Partially Relevant Video Retrieval

비디오 콘텐츠의 증가 [19, 36, 62]와 함께, **비디오 검색(video retrieval)**은 핵심 연구 분야가 되었다. Text-to-Video Retrieval (T2VR) [5, 11, 15, 18, 35, 37, 38, 44, 58, 59]은 텍스트 쿼리가 주어졌을 때, 미리 잘라낸(pre-trimmed) 짧은 클립들 중에서 완전히 관련성 있는 비디오를 검색하는 데 초점을 맞춘다. Video Corpus Moment Retrieval (VCMR) [7, 31, 52, 53]은 대규모 코퍼스 내의 비디오에서 특정 순간(moment)을 찾아내는 것을 목표로 한다. Partially Relevant Video Retrieval (PRVR) [8, 9, 14, 16, 27, 60, 61, 64]은 Dong et al. [14]에 의해 소개된 비교적 최근의 task로, 대규모의 untrimmed 긴 비디오 컬렉션에서 부분적으로 관련성 있는 비디오를 검색하는 것을 목표로 한다. T2VR과 달리, PRVR은 쿼리가 비디오의 특정 순간에만 해당되는 '부분적 관련성(partial relevance)'이라는 도전 과제를 해결해야 한다. VCMR의 첫 번째 단계는 PRVR과 유사하지만, VCMR은 순간(moment) 수준의 어노테이션을 요구하여 확장성(scalability)에 한계가 있다.

기존 방법들은 다양한 관점에서 PRVR 검색 성능을 향상시켰다. MS-SL [14]은 PRVR task를 Multi-instance Learning으로 정의하고, 명시적인 redundant clip embedding을 통해 강력한 baseline을 제공한다. GMMFormer [60, 61]와 PEAN [27]은 효율성 향상을 위해 implicit clip modeling을 제안한다. DL-DKD [16]는 CLIP [50]의 dynamic distillation을 통해 뛰어난 결과를 달성한다. BGM-Net [64]은 쿼리와 비디오를 매칭하기 위해 instance-level matching scheme을 활용한다. 그러나 이러한 방법들은 주로 유클리드 공간(Euclidean space)에 의존하는데, 이는 때때로 untrimmed 긴 비디오의 계층적 구조를 왜곡시킨다. 결과적으로, 이들은 비디오 계층 구조의 사전 정보(hierarchy priors)를 완전히 활용하지 못한다. 이러한 문제를 극복하기 위해, 우리는 hyperbolic learning을 통해 계층적 구조를 암묵적으로 포착하여 PRVR 성능을 향상시키는 HLFormer를 제안한다.

2.2. Hyperbolic Learning

Hyperbolic learning은 실제 데이터셋의 **계층적 구조(hierarchical structures)**를 모델링하는 데 효과적이라는 점에서 상당한 주목을 받아왔다. 컴퓨터 비전 task의 초기 연구에서는 이미지-레이블 쌍으로부터 hyperbolic image embedding을 탐구했으며 [28, 46], 이후의 발전은 hyperbolic optimization을 멀티모달 학습으로 확장시켰다. 특히 MERU [10]와 HyCoCLIP [48]은 hyperbolic space 적응을 통해 CLIP [50]과 같은 Euclidean 기반 모델들을 능가하는 성능을 보여주었다.

응용 분야는 semantic segmentation [1, 4], 인식 task (피부 [65], 행동 [40]), meta-learning [17], 그리고 탐지 프레임워크 (폭력 [32, 49], 이상 징후 [34])에 이른다. 완전한 hyperbolic neural network에 대한 최근 발전 [6, 22, 25, 33, 56]은 그 잠재력을 더욱 강조한다.

이러한 연구들에 영감을 받아, 우리는 PRVR(Partial-order Retrieval for Video-text Retrieval)을 위한 hyperbolic learning의 잠재력을 탐구하는 첫 번째 연구를 제시한다. DSRL [32] 및 HOVER [51]와 같은 다른 방법들과 달리, 우리의 접근 방식은 hyperbolic space를 활용하여 untrimmed long video의 계층적 구조를 포착하는 데 있어 Euclidean space의 한계를 보완한다. 또한, 우리는 hyperbolic space에서 비디오와 텍스트 간의 부분적 관련성(partial relevance)을 명시적으로 포착하여 검색 성능을 향상시키는 Partial Order Preservation Loss를 도입한다.

3. Method

3.1. Preliminaries

Hyperbolic Space
Hyperbolic space일정한 음의 곡률 KK를 갖는 Riemannian manifold로, 곡률이 0인(평평한) 유클리드 공간의 기하학과 대비된다. 여러 isometrically equivalent한 hyperbolic 모델 중, 우리는 수치적 안정성과 계산 효율성 때문에 Lorentz model [47]을 채택했으며, 기본적으로 KK는 -1로 설정된다.

Lorentz Model
형식적으로, nn-차원 Lorentz model은 **Riemannian manifold Ln=(Ln,gx)\mathbb{L}^{n}=\left(\mathcal{L}^{n}, \mathfrak{g}_{\boldsymbol{x}}\right)**이다. 여기서 gx=diag(1,1,,1)\mathfrak{g}_{\boldsymbol{x}}= \operatorname{diag}(-1,1, \cdots, 1)Riemannian metric tensor이다. Ln\mathbb{L}^{n}의 각 점은 x=[x0,xs]Rn+1\boldsymbol{x}=\left[x_{0}, \boldsymbol{x}_{s}\right] \in \mathbb{R}^{n+1} 형태를 가지며, x0=xs2+1Rx_{0}= \sqrt{\left\|\boldsymbol{x}_{s}\right\|^{2}+1} \in \mathbb{R}이다. Chen et al. [6]에 따라, 우리는 x0x_{0}를 **시간 축(time axis)**으로, xs\boldsymbol{x}_{s}를 **공간 축(spatial axes)**으로 표기한다. Ln\mathcal{L}^{n}은 다음과 같이 주어진다:

Ln:={xRn+1x,xL=1,x0>0},\mathcal{L}^{n}:=\left\{\boldsymbol{x} \in \mathbb{R}^{n+1} \mid\langle\boldsymbol{x}, \boldsymbol{x}\rangle_{\mathcal{L}}=-1, x_{0}>0\right\},

그리고 Lorentzian inner product는 다음과 같다:

x,yL:=x0y0+xsys.\langle\boldsymbol{x}, \boldsymbol{y}\rangle_{\mathcal{L}}:=-x_{0} y_{0}+\boldsymbol{x}_{s}^{\top} \boldsymbol{y}_{s} .

여기서 Ln\mathcal{L}^{n}은 원점 o=(1,0,,0)\boldsymbol{o}=(1,0, \cdots, 0)을 갖는 (n+1)(n+1)차원 Minkowski 공간의 hyperboloid 상단 시트이다.

Tangent Space
xLn\boldsymbol{x} \in \mathbb{L}^{n}에서의 Tangent spacex\boldsymbol{x}에 직교하는 유클리드 공간으로, 다음과 같이 정의된다:

TxLn:={yRn+1y,xL=0}.\mathcal{T}_{\boldsymbol{x}} \mathbb{L}^{n}:=\left\{\boldsymbol{y} \in \mathbb{R}^{n+1} \mid\langle\boldsymbol{y}, \boldsymbol{x}\rangle_{\mathcal{L}}=0\right\} .

여기서 TxLn\mathcal{T}_{\boldsymbol{x}} \mathbb{L}^{n}Rn+1\mathbb{R}^{n+1}의 유클리드 부분 공간이다. 특히, 원점 o\boldsymbol{o}에서의 tangent space는 ToLn\mathcal{T}_{\boldsymbol{o}} \mathbb{L}^{n}으로 표기된다.

Logarithmic and Exponential Maps
hyperbolic space Ln\mathbb{L}^{n}와 유클리드 부분 공간 TxLn\mathcal{T}_{\boldsymbol{x}} \mathbb{L}^{n} 사이의 상호 매핑은 logarithmic mapexponential map을 통해 구현될 수 있다. **Exponential map expx(z)\exp _{\boldsymbol{x}}(\boldsymbol{z})**는 임의의 tangent vector zTxLn\boldsymbol{z} \in \mathcal{T}_{\boldsymbol{x}} \mathbb{L}^{n}Ln\mathbb{L}^{n}으로 매핑할 수 있으며, 다음과 같이 표현된다:

expx(z)=cosh(zL)x+sinh(zL)zzL,\exp _{\boldsymbol{x}}(\boldsymbol{z})=\cosh \left(\|\boldsymbol{z}\|_{\mathcal{L}}\right) \boldsymbol{x}+\sinh \left(\|\boldsymbol{z}\|_{\mathcal{L}}\right) \frac{\boldsymbol{z}}{\|\boldsymbol{z}\|_{\mathcal{L}}},

여기서 zL=z,zL\|\boldsymbol{z}\|_{\mathcal{L}}=\sqrt{\langle\boldsymbol{z}, \boldsymbol{z}\rangle_{\mathcal{L}}}이다. 그리고 **logarithmic map logx(y)\log _{\boldsymbol{x}}(\boldsymbol{y})**는 반대 역할을 하여 yLn\boldsymbol{y} \in \mathbb{L}^{n}TxLn\mathcal{T}_{\boldsymbol{x}} \mathbb{L}^{n}으로 다음과 같이 매핑한다:

logx(y)=arcosh(x,yL)(x,yL)21(y+(x,yL)x).\log _{\boldsymbol{x}}(\boldsymbol{y})=\frac{\operatorname{arcosh}\left(-\langle\boldsymbol{x}, \boldsymbol{y}\rangle_{\mathcal{L}}\right)}{\sqrt{\left(-\langle\boldsymbol{x}, \boldsymbol{y}\rangle_{\mathcal{L}}\right)^{2}-1}}\left(\boldsymbol{y}+\left(\langle\boldsymbol{x}, \boldsymbol{y}\rangle_{\mathcal{L}}\right) \boldsymbol{x}\right) .

Lorentzian centroid
**제곱 Lorentzian 거리(squared Lorentzian distance)**에 대한 가중 평균 중심(weighted centroid)은 minμLni=1mνidL2(xi,μ)\min _{\mu \in \mathbb{L}^{n}} \sum_{i=1}^{m} \nu_{i} d_{\mathcal{L}}^{2}\left(\boldsymbol{x}_{i}, \mu\right)를 해결하며, 여기서 xiLn\boldsymbol{x}_{i} \in \mathbb{L}^{n}이고 νi0,i=1mνi>0\nu_{i} \geq 0, \sum_{i=1}^{m} \nu_{i}>0이다. 이는 다음과 같이 표현된다:

μ=i=1mνixii=1mνixiL.\mu=\frac{\sum_{i=1}^{m} \nu_{i} \boldsymbol{x}_{i}}{\left\|\left|\sum_{i=1}^{m} \nu_{i} \boldsymbol{x}_{i} \|_{\mathcal{L}}\right|\right.} .

3.2. Problem Formulation and Overview

Partially Relevant Video Retrieval (PRVR)은 주어진 텍스트 쿼리에 의미적으로 관련된 순간을 포함하는 비디오를 대규모 untrimmed 비디오 코퍼스에서 검색하는 것을 목표로 한다. PRVR 데이터베이스에서는 각 비디오가 여러 순간(moment)을 가지며, 여러 텍스트 설명과 연결되어 있다. 이때 각 텍스트 설명은 관련 비디오의 특정 순간에 해당한다. 중요한 점은 이러한 순간들의 시간적 경계(즉, 시작 및 종료 시점)가 주석(annotate)되어 있지 않다는 것이다.

본 논문에서는 PRVR을 위해 설계된 최초의 hyperbolic 모델링 접근 방식인 HLFormer를 소개한다. 제안된 프레임워크는 Fig. 2 (a)에 나타난 바와 같이 텍스트 쿼리 표현 인코딩, 비디오 표현 인코딩, 유사도 계산의 세 가지 핵심 구성 요소로 이루어져 있다.

텍스트 표현 (Text Representation)
NqN_q개의 단어로 구성된 텍스트 쿼리가 주어지면, 먼저 사전학습된 RoBERTa [39] 모델을 사용하여 단어 수준(word-level) feature를 추출한다. 이 feature들은 fully connected (FC) layer를 통해 더 낮은 차원의 공간으로 투영된다. 이어서 표준 Transformer [57] layer를 적용하여 dd-차원의 **contextualized feature vector 시퀀스 Q={qi}i=1NqRNq×d\boldsymbol{Q}=\left\{\boldsymbol{q}_{i}\right\}_{i=1}^{N_{q}} \in \mathbb{R}^{N_{q} \times d}**를 얻는다. 마지막으로, 간단한 attention mechanism을 사용하여 **문장 임베딩 qRd\boldsymbol{q} \in \mathbb{R}^{d}**를 얻는다:

q=i=1Nqaiq×qi,aq=softmax(wQ),\boldsymbol{q}=\sum_{i=1}^{N_{q}} \boldsymbol{a}_{i}^{q} \times \boldsymbol{q}_{i}, \quad \boldsymbol{a}^{q}=\operatorname{softmax}\left(\boldsymbol{w} \boldsymbol{Q}^{\top}\right),

여기서 wR1×d\boldsymbol{w} \in \mathbb{R}^{1 \times d}는 학습 가능한 벡터이고, aqR1×Nq\boldsymbol{a}^{q} \in \mathbb{R}^{1 \times N_{q}}는 attention vector를 나타낸다.

비디오 표현 (Video Representation)
untriimmed 비디오가 주어지면, 먼저 사전학습된 2D 또는 3D CNN을 사용하여 임베딩 feature를 추출한다. 그런 다음 gaze branch와 glance branch를 활용하여 각각 프레임 수준(frame-level) 및 클립 수준(clip-level)의 다중 세분성(multi-granularity) 비디오 표현을 포착한다.

Figure 2. HLFormer 개요. (a) **문장 임베딩 q\boldsymbol{q}**는 query branch를 통해 얻어지며, gaze 및 glance branch는 비디오를 인코딩하여 **프레임 수준 임베딩 Vf\boldsymbol{V}_{f}와 클립 수준 임베딩 Vc\boldsymbol{V}_{c}**를 생성하고 **비디오 표현 Vv\boldsymbol{V}_{v}**를 형성한다. q\boldsymbol{q}Ldiv L_{\text {div }}를 통해 **쿼리 다양성(query diversity)**을 학습하고 유사도 점수 SfS_{f}ScS_{c}를 계산하며, LpopL_{p o p}를 사용하여 Vv\boldsymbol{V}_{v}와의 **부분 순서 관계(partial order relations)**를 보존한다. (b) HLFormer block병렬 Lorentz 및 Euclidean attention block을 결합하여 다중 공간 인코딩을 수행하며, Mean Guided Adaptive Interaction Module을 통해 동적 집계(dynamic aggregation)를 수행한다. (c) Partial Order Preservation Loss는 텍스트 쿼리 임베딩 t\boldsymbol{t}가 비디오 임베딩 v\boldsymbol{v}에 의해 정의된 원뿔(cone) 내에 놓이도록 보장한다. t\boldsymbol{t}가 원뿔 내에 있으면 손실은 0이다.

gaze branch에서는 MfM_f개의 프레임을 조밀하게 샘플링하며, 이를 FRMf×D\boldsymbol{F} \in \mathbb{R}^{M_{f} \times D}로 표기한다. 여기서 DD는 프레임 feature 차원이다. 샘플링된 프레임은 fully connected (FC) layer를 통해 차원을 dd로 줄인 후, HLFormer block을 거쳐 **프레임 임베딩 Vf={fi}i=1MfRMf×d\boldsymbol{V}_{\boldsymbol{f}}=\left\{\boldsymbol{f}_{i}\right\}_{i=1}^{M_{f}} \in \mathbb{R}^{M_{f} \times d}**를 얻는다. 이는 쿼리에 대한 세밀한 관련성 평가를 위한 의미적으로 풍부한 프레임 수준 정보를 포착한다.

glance branch는 시간 차원을 따라 입력을 다운샘플링하여 프레임을 클립으로 집계한다. MS-SL [14]에 따라, 고정된 수 McM_c의 클립은 연속적인 프레임에 대한 mean pooling을 통해 드물게 샘플링된다. 풀링된 클립 feature에는 fully connected layer가 적용된 후, HLFormer block을 거쳐 **클립 임베딩 Vc={ci}i=1McRMc×d\boldsymbol{V}_{\boldsymbol{c}}=\left\{\boldsymbol{c}_{i}\right\}_{i=1}^{M_{c}} \in \mathbb{R}^{M_{c} \times d}**를 생성한다. 이 임베딩은 적응형 클립 수준 정보를 포착하여, 모델이 더 거친 세분성(coarser granularity)으로 관련 순간을 인지할 수 있도록 한다.

유사도 계산 (Similarity Computation)
텍스트-비디오 쌍 (T,V)(\mathcal{T}, \mathcal{V}) 간의 유사도를 계산하기 위해, 먼저 위에서 언급된 임베딩 q,Vf\boldsymbol{q}, \boldsymbol{V}_{\boldsymbol{f}}Vc\boldsymbol{V}_{\boldsymbol{c}}를 측정한다. 그런 다음, cosine similarity와 max 연산을 사용하여 프레임 수준 및 클립 수준 유사도 점수를 계산한다:

Sf(T,V)=max{cos(q,f1),,cos(q,fMf)}Sc(T,V)=max{cos(q,c1),,cos(q,cMc)}.\begin{aligned} S_{f}(\mathcal{T}, \mathcal{V}) & =\max \left\{\cos \left(\boldsymbol{q}, \boldsymbol{f}_{1}\right), \ldots, \cos \left(\boldsymbol{q}, \boldsymbol{f}_{M_{f}}\right)\right\} \\ S_{c}(\mathcal{T}, \mathcal{V}) & =\max \left\{\cos \left(\boldsymbol{q}, \boldsymbol{c}_{1}\right), \ldots, \cos \left(\boldsymbol{q}, \boldsymbol{c}_{M_{c}}\right)\right\} . \end{aligned}

다음으로, 전체 텍스트-비디오 쌍 유사도를 계산한다:

S(T,V)=αfSf(T,V)+αcSc(T,V),S(\mathcal{T}, \mathcal{V})=\alpha_{f} S_{f}(\mathcal{T}, \mathcal{V})+\alpha_{c} S_{c}(\mathcal{T}, \mathcal{V}),

여기서 αf,αc[0,1]\alpha_{f}, \alpha_{c} \in[0,1]αf+αc=1\alpha_{f}+ \alpha_{c}=1을 만족하는 하이퍼파라미터이다. 마지막으로, 계산된 유사도 점수를 기반으로 부분적으로 관련된 비디오를 검색하고 순위를 매긴다.

3.3. HLFormer Block

HLFormer Block은 우리 방법론의 핵심을 구성한다. Fig. 2 (b)에서 보듯이, HLFormer Block은 세 가지 주요 모듈로 이루어져 있다: (i) Euclidean Attention Block: 유클리드 공간에서 fine-grained 시각 feature를 포착한다. (ii) Lorentz Attention Block: 비디오 임베딩을 hyperbolic Lorentz 공간으로 투영하여 비디오의 계층적 구조를 포착한다. (iii) Mean-Guided Adaptive Interaction Module: 하이브리드 공간 feature를 동적으로 융합한다. 각 모듈에 대한 자세한 내용은 아래에서 설명한다.

Euclidean Attention Block
MM개의 feature 임베딩 xRM×d\boldsymbol{x} \in \mathbb{R}^{M \times d}가 주어졌을 때(여기서 dd는 feature 차원), Euclidean Attention Block은 Euclidean Gaussian Attention [61]을 활용하여 multi-scale 시각 feature를 포착하며, 이는 다음과 같이 표현된다:

GA(x)=softmax(MσgxWq(xWk)dh)xWv,\operatorname{GA}(\boldsymbol{x})=\operatorname{softmax}\left(\mathcal{M}_{\sigma}^{g} \odot \frac{\boldsymbol{x} W^{q}\left(\boldsymbol{x} W^{k}\right)^{\top}}{\sqrt{d_{h}}}\right) \boldsymbol{x} W^{v},

여기서 Mσg\mathcal{M}_{\sigma}^{g}Mσg(i,j)=12πe(ji)2σ2\mathcal{M}_{\sigma}^{g}(i, j)= \frac{1}{2 \pi} e^{-\frac{(j-i)^{2}}{\sigma^{2}}} 요소를 갖는 Gaussian matrix이며, σ2\sigma^{2}는 분산을 나타낸다. σ\sigma를 변화시킴으로써 다양한 스케일에서의 feature 상호작용이 모델링되어, 여러 receptive field를 가진 비디오 feature가 생성된다. Wq,Wk,WvW^{q}, W^{k}, W^{v}는 선형 투영(linear projection)이며, dhd_{h}는 latent attention 차원이고, \odot는 요소별 곱셈(element-wise product)을 나타낸다. 마지막으로, 우리는 Transformer block의 self-attention을 Euclidean Gaussian attention으로 대체하여 Euclidean Attention Block을 구성한다.

Lorentz Attention Block
추출된 Euclidean 비디오 임베딩 xinERM×d\boldsymbol{x}_{\mathrm{in}}^{E} \in \mathbb{R}^{M \times d}가 주어졌을 때, 우리는 먼저 선형 레이어를 통해 이를 RM×n\mathbb{R}^{M \times n}으로 투영하고 스케일링을 적용한다. Lorentz manifold 상의 원점(origin)을 o:=[1,0,,0]\boldsymbol{o}:= [1,0, \ldots, 0]라고 하자. 이는 o,[0,xin E]L=0\left\langle\boldsymbol{o},\left[0, \boldsymbol{x}_{\text {in }}^{E}\right]\right\rangle_{\mathcal{L}}=0을 만족한다. 따라서 [0,xin E]\left[0, \boldsymbol{x}_{\text {in }}^{E}\right]o\boldsymbol{o}에서의 tangent space 벡터로 해석될 수 있다. Lorentz 임베딩은 다음 지수 맵(exponential map) Eq. (4)를 통해 얻어진다:

xinL=expo([0,βxinEW1])Ln,RM×(n+1),\boldsymbol{x}_{\mathrm{in}}^{\mathcal{L}}=\exp _{\boldsymbol{o}}\left(\left[0, \beta \boldsymbol{x}_{\mathrm{in}}^{E} W_{1}\right]\right) \in \mathbb{L}^{n}, \mathbb{R}^{M \times(n+1)},

여기서 W1W_{1}은 선형 레이어를 나타내고, β\beta는 수치 오버플로우를 방지하기 위한 학습 가능한 스케일링 인자이다.

Lorentz 임베딩 xin L\boldsymbol{x}_{\text {in }}^{\mathcal{L}}을 얻은 후, 우리는 hyperbolic 공간의 특성으로 인해 본질적으로 두드러진 계층적 구조를 나타내는 이 임베딩의 계층적 사전 지식(hierarchical priors)을 포착하고 완전히 활용하기 위해 Lorentz 선형 변환(linear transformation) 및 Lorentz self-attention 모듈을 설계한다.

이전 연구들 [6, 33]에서 영감을 받아, 우리는 Lorentz linear layer를 재정의하여 행렬 M=[pW]\boldsymbol{M}=\left[\begin{array}{l}\boldsymbol{p}^{\top} \\ \boldsymbol{W}\end{array}\right]을 학습한다. 여기서 pRn+1\boldsymbol{p} \in \mathbb{R}^{n+1}은 가중치 파라미터이고, WRm×(n+1)\boldsymbol{W} \in \mathbb{R}^{m \times(n+1)}xLn,fx(M)xLm\forall \boldsymbol{x} \in \mathbb{L}^{n}, f_{\boldsymbol{x}}(\boldsymbol{M}) \boldsymbol{x} \in \mathbb{L}^{m}을 보장한다. 구체적으로, 변환 행렬 fx(M)f_{\boldsymbol{x}}(\boldsymbol{M})은 다음과 같이 표현된다:

fx(M)=fx([pW])=[Wx2+1pxpW]f_{\boldsymbol{x}}(\boldsymbol{M})=f_{\boldsymbol{x}}\left(\left[\begin{array}{l} \boldsymbol{p}^{\top} \\ \boldsymbol{W} \end{array}\right]\right)=\left[\begin{array}{c} \frac{\sqrt{\|\boldsymbol{W} \boldsymbol{x}\|^{2}+1}}{\boldsymbol{p}^{\top} \boldsymbol{x}} \boldsymbol{p}^{\top} \\ \boldsymbol{W} \end{array}\right]

정규화(normalization)를 포함한 다른 구성 요소를 추가하면, Lorentz Linear layer의 최종 정의는 다음과 같다:

y=HL(x)=[ϕ(Wx,p)2+1ϕ(Wx,p)]\boldsymbol{y}=\mathrm{HL}(\boldsymbol{x})=\left[\begin{array}{c} \sqrt{\|\phi(\boldsymbol{W} \boldsymbol{x}, \boldsymbol{p})\|^{2}+1} \\ \phi(\boldsymbol{W} \boldsymbol{x}, \boldsymbol{p}) \end{array}\right]

연산 함수는 다음과 같다:

ϕ(Wx,p)=λ(px+b)Wh(x)+b(Wh(x)+b),\phi(\boldsymbol{W} \boldsymbol{x}, \boldsymbol{p})=\frac{\lambda\left(\boldsymbol{p}^{\top} \boldsymbol{x}+b^{\prime}\right)}{\|\boldsymbol{W} h(\boldsymbol{x})+\boldsymbol{b}\|}(\boldsymbol{W} h(\boldsymbol{x})+\boldsymbol{b}),

여기서 b\boldsymbol{b}bb^{\prime}는 bias 항이고, λ>0\lambda>0는 스케일링 범위를 조절한다. hh는 활성화 함수(activation function)를 나타낸다.

Lorentz Linear Layer를 기반으로, 우리는 Gaussian 제약 조건(constraints)을 feature 상호작용에 통합하는 Lorentz self-attention 모듈을 제안한다. 이는 hyperbolic 공간에서 multi-scale 및 계층적 비디오 임베딩을 가능하게 한다. 구체적으로, hyperbolic 비디오 임베딩 xin LLn,RM×(n+1)\boldsymbol{x}_{\text {in }}^{\mathcal{L}} \in \mathbb{L}^{n}, \mathbb{R}^{M \times(n+1)}이 주어졌을 때, 우리는 먼저 Eq. (13)을 사용하여 attention query Q\mathcal{Q}, key K\mathcal{K}, value V\mathcal{V}를 얻으며, 이들은 모두 RM×(n+1)\mathbb{R}^{M \times(n+1)} 형태를 가진다. Eq. (6)을 기반으로 attention score를 계산하고, Gaussian matrix MσgRM×M\mathcal{M}_{\sigma}^{g} \in \mathbb{R}^{M \times M}를 score matrix와 요소별 곱셈(element-wise multiplication)하여 multi-scale receptive field를 얻는다. 출력은 xout L={μ1,,μQ}RM×(n+1)\boldsymbol{x}_{\text {out }}^{\mathcal{L}}=\left\{\boldsymbol{\mu}_{1}, \ldots, \boldsymbol{\mu}_{|\mathcal{Q}|}\right\} \in \mathbb{R}^{M \times(n+1)}로 정의된다:

Sij=exp(dL2(qi,kj)Mσg(i,j)(n+1))k=1Kexp(dL2(qi,kk)Mσg(i,k)(n+1))μi=j=1KSijvjk=1KSikvkL\begin{aligned} S_{i j} & =\frac{\exp \left(\frac{-d_{\mathcal{L}}^{2}\left(\boldsymbol{q}_{i}, \boldsymbol{k}_{j}\right) \odot \mathcal{M}_{\sigma}^{g}(i, j)}{\sqrt{(n+1)}}\right)}{\sum_{k=1}^{|\mathcal{K}|} \exp \left(\frac{-d_{\mathcal{L}}^{2}\left(\boldsymbol{q}_{i}, \boldsymbol{k}_{k}\right) \odot \mathcal{M}_{\sigma}^{g}(i, k)}{\sqrt{(n+1)}}\right)} \\ \boldsymbol{\mu}_{i} & =\frac{\sum_{j=1}^{|\mathcal{K}|} S_{i j} \boldsymbol{v}_{j}}{\left|\left\|\sum_{k=1}^{|\mathcal{K}|} S_{i k} \boldsymbol{v}_{k}\right\|_{\mathcal{L}}\right|} \end{aligned}

여기서 squared Lorentzian distance dL2(a,b)=22a,bLd_{\mathcal{L}}^{2}(\boldsymbol{a}, \boldsymbol{b})=-2-2\langle\boldsymbol{a}, \boldsymbol{b}\rangle_{\mathcal{L}}이다. xout L\boldsymbol{x}_{\text {out }}^{\mathcal{L}}을 계산한 후, 우리는 시간 축을 버리고(discarding) 로그 맵(logarithmic map) Eq. (5)를 적용하여 Euclidean 공간 임베딩 xmid E\boldsymbol{x}_{\text {mid }}^{E}를 얻는다. 그런 다음, 선형 레이어와 재스케일링(rescaling)을 통해 출력 xout E\boldsymbol{x}_{\text {out }}^{E}를 얻는다:

\begin{aligned} & \boldsymbol{x}_{\mathrm{mid}}^{E}=\text { drop_time_axis }^{-}\left(\log _{\boldsymbol{o}}\left(\boldsymbol{x}_{\mathrm{out}}^{\mathcal{L}}\right)\right) \in \mathbb{R}^{M \times n} \\ & \boldsymbol{x}_{\mathrm{out}}^{E}=\frac{\boldsymbol{x}_{\mathrm{mid}}^{E} W_{2}}{\beta} \in \mathbb{R}^{M \times d} \end{aligned}

여기서 W2Rn×dW_{2} \in \mathbb{R}^{n \times d}이고, β\beta는 Eq. (11)의 스케일 인자이다. 마지막으로, 우리는 Transformer block의 self-attention을 Lorentz attention으로 대체하여 Lorentz Attention Block을 구성한다.

Mean-Guided Adaptive Interaction Module
우리는 NLN_{\mathcal{L}}개의 Lorentz Attention Block과 NEN_{E}개의 Euclidean Attention Block을 병렬로 배치하여 multi-scale hybrid-space 비디오 임베딩을 위한 NON_{O}개의 Gaussian Attention Block을 구성한다. 이러한 feature들을 통합하기 위해, 우리는 Mean-Guided Adaptive Interaction Module을 도입한다. 이 모듈은 전역적으로 풀링된(globally pooled) feature를 활용하여 동적 집계 가중치(dynamic aggregation weights)를 계산한다. 구체적으로, 우리는 먼저 전역 쿼리(global query) φR1×d\varphi \in \mathbb{R}^{1 \times d}를 얻고, cross-attention layer (CA)와 완전 연결 레이어(FC)로 구성된 Cross Attention Block을 통해 집계 가중치를 계산한다:

φ=Mean(xσ1,xσ2,..,xσNo),wi=FC(CA(φ,xσi,xσi)),i=1,2,,No,w~i,j=ewi,j/τk=1Noewk,j/τ,j=1,,M,x~j=i=1Now~i,jxσi,j,j=1,,M,xMAIM =Concat(x~1,x~2,,x~M),\begin{aligned} \boldsymbol{\varphi} & =\operatorname{Mean}\left(\boldsymbol{x}_{\sigma_{1}}, \boldsymbol{x}_{\sigma_{2}}, . ., \boldsymbol{x}_{\sigma_{N_{o}}}\right), \\ w_{i} & =\operatorname{FC}\left(\operatorname{CA}\left(\boldsymbol{\varphi}, \boldsymbol{x}_{\sigma_{i}}, \boldsymbol{x}_{\sigma_{i}}\right)\right), i=1,2, \ldots, N_{o}, \\ \tilde{w}_{i, j} & =\frac{e^{w_{i, j} / \tau}}{\sum_{k=1}^{N_{o}} e^{w_{k, j} / \tau}}, j=1, \ldots, M, \\ \tilde{\boldsymbol{x}}_{j} & =\sum_{i=1}^{N_{o}} \tilde{w}_{i, j} \boldsymbol{x}_{\sigma_{i}, j}, j=1, \ldots, M, \\ \boldsymbol{x}_{\text {MAIM }} & =\operatorname{Concat}\left(\tilde{\boldsymbol{x}}_{1}, \tilde{\boldsymbol{x}}_{2}, \ldots, \tilde{\boldsymbol{x}}_{M}\right), \end{aligned}

여기서 xσiRM×d\boldsymbol{x}_{\sigma_{i}} \in \mathbb{R}^{M \times d}ii-번째 Gaussian block의 출력을 나타내고, MM은 시간 지점(즉, 클립 또는 프레임)의 수에 해당한다. wiRMw_{i} \in \mathbb{R}^{M}ii-번째 Gaussian block에 대한 집계 가중치를 나타내며, τ\tau는 온도 인자(temperature factor)이다. x~jRd\tilde{\boldsymbol{x}}_{\boldsymbol{j}} \in \mathbb{R}^{d}는 시간 지점 jj에서의 집계된 feature를 나타내고, xMAIM \boldsymbol{x}_{\text {MAIM }}은 최종 출력이다.

3.4. Learning Objectives

PRVR에서 각 비디오가 해당 텍스트를 완전히 포함하는 부분적 관련성을 고려할 때, **부분 순서 관계(partial order relationship)**가 설정되며, 텍스트 쿼리는 비디오에 의해 의미론적으로 포괄된다: text \prec video. MERU [10]에서 영감을 받아, 우리는 Hyperbolic Space에서 이 관계를 강제하기 위해 Partial Order Preservation Loss를 제안한다. Section 3.2의 Vf\boldsymbol{V}_{f}Vc\boldsymbol{V}_{c}가 주어졌을 때, Eq. (7)과 유사한 간단한 attention 모듈이 적용되고, 이어서 mean pooling을 통해 **통합된 비디오 표현 Vv\boldsymbol{V}_{v}**를 얻는다. 비디오 및 텍스트 표현은 exponential map을 통해 Lorentz space로 매핑되어, Figure 2(c)에 나타난 바와 같이 v,tLn\boldsymbol{v}, \boldsymbol{t} \in \mathbb{L}^{n}를 생성한다. 우리는 각 v\boldsymbol{v}에 대한 entailment cone을 정의하며, 이는 half-aperture로 특징지어진다:

HA(v)=arcsin(2cvs).\mathbf{H A}(\boldsymbol{v})=\arcsin \left(\frac{2 c}{\left\|\boldsymbol{v}_{\boldsymbol{s}}\right\|}\right) .

여기서 c=0.1c=0.1은 원점 근처의 경계 조건을 정의하는 데 사용된다. 우리는 t\boldsymbol{t}가 entailment cone 밖에 떨어지는 경우를 페널티하기 위해 **exterior angle EA(v,t)=πOvt\mathbf{E A}(\boldsymbol{v}, \boldsymbol{t})=\pi-\angle O v t**를 측정한다:

EA(v,t)=arccos(t0+v0v,tLvs(v,tL)21)\mathbf{E A}(\boldsymbol{v}, \boldsymbol{t})=\arccos \left(\frac{t_{0}+v_{0}\langle\boldsymbol{v}, \boldsymbol{t}\rangle_{\mathcal{L}}}{\left\|\boldsymbol{v}_{\boldsymbol{s}}\right\| \sqrt{\left(\langle\boldsymbol{v}, \boldsymbol{t}\rangle_{\mathcal{L}}\right)^{2}-1}}\right)

단일 비디오-텍스트 쌍에 대한 Loss는 다음과 같다:

Lpop(v,t)=max(0,EA(v,t)HA(v)).L_{p o p}(\boldsymbol{v}, \boldsymbol{t})=\max (0, \mathbf{E A}(\boldsymbol{v}, \boldsymbol{t})-\mathbf{H A}(\boldsymbol{v})) .

이 외에도, MS-SL [14]에 따라, 우리는 모델을 학습시키기 위해 **표준 유사도 검색 Loss인 Lsim L_{\text {sim }}**을 사용한다. 한편, **검색 성능 향상을 위해 query diversity Ldiv L_{\text {div }} [61]**가 사용된다. 총 Loss는 다음과 같이 정의된다:

Lagg=Lsim+λ1Ldiv+λ2LpopL_{a g g}=L_{s i m}+\lambda_{1} L_{d i v}+\lambda_{2} L_{p o p}

λ1\lambda_{1}λ2\lambda_{2}는 학습 Loss의 균형을 맞추는 하이퍼파라미터이다.

4. Experiments

4.1. Experimental Setup

데이터셋 (Datasets)
우리는 세 가지 벤치마크 데이터셋에서 실험을 수행한다: (i) ActivityNet Captions [29]: 약 2만 개의 YouTube 비디오로 구성되며, 평균 길이는 118초이다. 각 비디오는 평균 3.7개의 주석된 순간(moment)과 해당 텍스트 설명을 포함한다. (ii) TV show Retrieval (TVR) [31]: 6개의 TV 쇼에서 가져온 21.8만 개의 비디오로 구성된다. 각 비디오는 다른 순간들을 설명하는 5개의 자연어 설명과 연결되어 있다. (iii) Charades-STA [23]: 6,670개의 비디오와 16,128개의 문장 설명으로 구성된다. 평균적으로 각 비디오는 약 2.4개의 순간과 해당 텍스트 쿼리를 포함한다. 우리는 이전 연구들 [14, 61]에서 사용된 것과 동일한 데이터 분할 방식을 채택한다. PRVR task에서는 moment annotation을 사용할 수 없다는 점에 유의해야 한다.

평가 지표 (Metrics)
이전 연구들 [14, 61]을 따라, 우리는 rank-based 평가 지표, 특히 **R@K(K=1,5,10,100)R@K (K=1, 5, 10, 100)**를 사용한다. 지표 R@KR@K정답 항목이 랭킹 목록의 상위 KK개 위치 내에 나타나는 쿼리의 비율을 나타낸다. 모든 결과는 백분율(%)로 보고되며, 값이 높을수록 검색 성능이 우수함을 의미한다. 전반적인 비교를 용이하게 하기 위해, 우리는 **모든 Recall 값의 합(SumR)**도 함께 보고한다.

4.2. Implementation Details

데이터 처리 (Data Processing)
TVR 데이터셋의 비디오 표현을 위해, 우리는 Lei et al. [31]이 제공하는 feature set을 사용한다. 이 feature set은 프레임 레벨 ResNet152 feature [24]와 세그먼트 레벨 I3D feature [2]를 연결(concatenating)하여 얻은 3,072차원 시각 feature로 구성된다. ActivityNet Captions 및 Charades-STA 데이터셋의 경우, 각각 Zhang et al. [66]과 Mun et al. [45]이 제공하는 I3D feature만을 활용한다.
문장 표현을 위해서는 TVR 데이터셋에 대해 Lei et al. [31]이 제공하는 768차원 RoBERTa feature를 사용한다. ActivityNet Captions 및 Charades-STA 데이터셋에서는 MS-SL [14]을 사용하여 추출된 1,024차원 RoBERTa feature를 사용한다.

모델 구성 (Model Configurations)
HLFormer 블록은 8개의 Gaussian 블록(NO=8N_O=8), 4개의 Lorentz Attention 블록(NL=4N_{\mathcal{L}}=4), 그리고 **4개의 Euclidean Attention 블록(NE=4N_E=4)**으로 구성된다.
Gaussian 블록의 분산은 212^1부터 2NL12^{N_{\mathcal{L}}-1}\infty까지, Euclidean 블록의 분산은 212^1부터 2NE12^{N_E-1}\infty까지 범위에 걸쳐 설정된다.
latent dimension은 d=384d=384이며, 4개의 attention head를 사용한다.

학습 구성 (Training Configurations)
우리는 Adam optimizer를 사용하며, mini-batch size는 128, epoch 수는 100으로 설정한다. 모델은 PyTorch로 구현되었고, 하나의 Nvidia RTX 3080 Ti GPU에서 학습되었다. learning rate 조정 스케줄은 MS-SL과 유사한 방식을 채택한다.

4.3. Comparison with State-of-the arts

Baselines
우리는 비교를 위해 6개의 대표적인 PRVR baseline을 선정했다: MS-SL [14], PEAN [27], LH [20], BGMNet [64], GMMFormer [61], DL-DKD [16].
또한 HLFormerT2VRVCMR 방법들과도 비교한다.
T2VR의 경우, 6개의 T2VR 모델을 선정했다: CE [38], HGR [5], DE++ [13], RIVRL [15], CLIP4Clip [41], Cap4Video [63].
VCMR의 경우, 4개의 모델을 고려했다: XML [31], ReLoCLNet [67], CONQUER [26], JSG [7].

Retrieval Performance
Table 1은 세 가지 대규모 비디오 데이터셋에서 다양한 모델의 retrieval 성능을 보여준다.
관찰된 바와 같이, 전반적인 비디오-텍스트 관련성을 포착하도록 설계된 T2VR 모델PRVR에서 저조한 성능을 보인다.
모멘트 검색에 초점을 맞춘 VCMR 모델은 더 나은 결과를 달성한다.
PRVR 방법들은 이 task를 위해 특별히 설계되었기 때문에 가장 좋은 성능을 보인다.
HLFormerhyperbolic space learning비디오 계층 구조 사전 정보의 효과적인 활용 덕분에 모든 baseline을 일관되게 능가한다.
ActivityNet CaptionsTVR에서 DL-DKD보다 SumR에서 각각 **4.9%**와 4.3% 더 높은 성능을 보이며, Charades-STA에서는 PEAN보다 5.4% 더 높은 성능을 달성한다.

4.4. Model Analyses

Temporal Modeling 설계의 효율성
우리는 attention block의 개수 NoN_o와 attention mechanism 비율 NL/NEN_L / N_E의 영향을 조사하기 위해 ablation study를 수행했으며, 그 결과는 Fig. 3에 나타나 있다. 모델 성능은 NoN_o가 증가함에 따라 향상되다가, No8N_o \geq 8일 때 안정화되거나 감소한다. 단 두 개의 attention block만으로도 HLFormer는 대부분의 경쟁 방법들을 능가한다. 또한, Euclidean 또는 Lorentz attention block만을 사용하는 것은 최적의 성능을 내지 못하는 반면, hybrid attention block이 가장 좋은 결과를 달성한다.

| Model | ActivityNet Captions | | | | | Charades-STA | | | | | TVR | | | | | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | | R@1 | R@5 | R@10 | R@100 | SumR | R@1 | R@5 | R@10 | R@100 | SumR | R@1 | R@5 | R@10 | R@100 | SumR | | T2VR | | | | | | | | | | | | | | | | | HGR [5] | 4.0 | 15.0 | 24.8 | 63.2 | 107.0 | 1.2 | 3.8 | 7.3 | 33.4 | 45.7 | 1.7 | 4.9 | 8.3 | 35.2 | 50.1 | | RIVRL [15] | 5.2 | 18.0 | 28.2 | 66.4 | 117.8 | 1.6 | 5.6 | 9.4 | 37.7 | 54.3 | 9.4 | 23.4 | 32.2 | 70.6 | 135.6 | | DE++ [13] | 5.3 | 18.4 | 29.2 | 68.0 | 121.0 | 1.7 | 5.6 | 9.6 | 37.1 | 54.1 | 8.8 | 21.9 | 30.2 | 67.4 | 128.3 | | CE [38] | 5.5 | 19.1 | 29.9 | 71.1 | 125.6 | 1.3 | 4.5 | 7.3 | 36.0 | 49.1 | 3.7 | 12.8 | 20.1 | 64.5 | 101.1 | | CLIP4Clip [41] | 5.9 | 19.3 | 30.4 | 71.6 | 127.3 | 1.8 | 6.5 | 10.9 | 44.2 | 63.4 | 9.9 | 24.3 | 34.3 | 72.5 | 141.0 | | Cap4Video [63] | 6.3 | 20.4 | 30.9 | 72.6 | 130.2 | 1.9 | 6.7 | 11.3 | 45.0 | 65.0 | 10.3 | 26.4 | 36.8 | 74.0 | 147.5 | | VCMR | | | | | | | | | | | | | | | | | ReLoCLNet [67] | 5.7 | 18.9 | 30.0 | 72.0 | 126.6 | 1.2 | 5.4 | 10.0 | 45.6 | 62.3 | 10.0 | 26.5 | 37.3 | 81.3 | 155.1 | | XML [31] | 5.3 | 19.4 | 30.6 | 73.1 | 128.4 | 1.6 | 6.0 | 10.1 | 46.9 | 64.6 | 10.7 | 28.1 | 38.1 | 80.3 | 157.1 | | CONQUER [26] | 6.5 | 20.4 | 31.8 | 74.3 | 133.1 | 1.8 | 6.3 | 10.3 | 47.5 | 66.0 | 11.0 | 28.9 | 39.6 | 81.3 | 160.8 | | JSG [7] | 6.8 | 22.7 | 34.8 | 76.1 | 140.5 | 2.4 | 7.7 | 12.8 | 49.8 | 72.7 | - | - | - | - | - | | PRVR | | | | | | | | | | | | | | | | | MS-SL [14] | 7.1 | 22.5 | 34.7 | 75.8 | 140.1 | 1.8 | 7.1 | 11.8 | 47.7 | 68.4 | 13.5 | 32.1 | 43.4 | 83.4 | 172.4 | | PEAN [27] | 7.4 | 23.0 | 35.5 | 75.9 | 141.8 | 2.7 | 8.1 | 13.5 | 50.3 | 74.7 | 13.5 | 32.8 | 44.1 | 83.9 | 174.2 | | LH [20] | 7.4 | 23.5 | 35.8 | 75.8 | 142.4 | 2.1 | 7.5 | 12.9 | 50.1 | 72.7 | 13.2 | 33.2 | 44.4 | 85.5 | 176.3 | | BGM-Net [64] | 7.2 | 23.8 | 36.0 | 76.9 | 143.9 | 1.9 | 7.4 | 12.2 | 50.1 | 71.6 | 14.1 | 34.7 | 45.9 | 85.2 | 179.9 | | GMMFormer [61] | 8.3 | 24.9 | 36.7 | 76.1 | 146.0 | 2.1 | 7.8 | 12.5 | 50.6 | 72.9 | 13.9 | 33.3 | 44.5 | 84.9 | 176.6 | | DL-DKD [16] | 8.0 | 25.0 | 37.5 | 77.1 | 147.6 | - | - | - | - | - | 14.4 | 34.9 | 45.8 | 84.9 | 179.9 | | HLFormer (ours) | 8.7 | 27.1 | 40.1 | 79.0 | 154.9 | 2.6 | 8.5 | 13.7 | 54.0 | 78.7 | 15.7 | 37.1 | 48.5 | 86.4 | 187.7 |

Table 1. ActivityNet Captions, Charades-STA 및 TVR 데이터셋에서 HLFormer와 다른 faithful 방법들의 검색 성능. State-of-the-art 성능은 굵게 표시되어 있다. "-"는 해당 결과가 없음을 나타낸다.

IDModelActivityNet CaptionsCharades-STATVR
R@1R@5R@10R@100SumRR@1R@5R@10R@100SumRR@1R@5R@10R@100SumR
(0)HLFormer (full)8.727.140.179.0154.92.68.513.754.078.715.737.148.586.4187.7
Efficacy of Multi-scale Branches
(1)w/ow / o gaze branch7.624.436.777.3146.11.88.013.950.874.513.934.045.285.3178.3
(2)w/ow / o glance branch6.421.733.675.4137.21.67.713.148.470.811.430.541.882.4166.1
Efficacy of Different Loss Terms
(3)Lsim L_{\text {sim }} Only7.725.038.178.3149.12.08.113.252.075.315.136.247.886.0185.2
(4)w/oLdiv w / o L_{\text {div }}8.526.639.678.8153.52.07.813.653.076.415.736.448.486.0186.5
(5)w/oLpop w / o L_{\text {pop }}8.626.939.778.8154.02.28.414.053.077.615.636.848.486.0186.8
Efficacy of various Aggregation Strategies
(6)w/w / MP8.525.738.277.8150.22.08.013.252.175.315.236.547.486.0185.1
(7)w/w / CL8.726.839.578.6153.62.08.213.952.076.115.336.948.486.0186.6

Table 2. HLFormer의 Ablation Study. 가장 좋은 점수는 굵게 표시되어 있다.

이는 표현적 초점의 차이에 기인할 수 있다: Euclidean 공간은 fine-grained한 지역적 feature 학습을 강조하며 때로는 전역적인 계층 구조를 간과하는 반면, hyperbolic 공간은 지역적 세부 사항을 희생하면서 전역적인 계층 관계를 우선시한다. 더욱이, hyperbolic 공간은 노이즈에 더 민감하고 수치적으로 불안정한 경향이 있다. hybrid 공간을 통합함으로써 HLFormer는 상호 보완을 달성하여 표현 학습을 향상시키고 비디오의 의미 이해를 촉진한다.

Hyperbolic Learning의 효율성
Hyperbolic learning은 비디오의 계층적 구조를 포착하는 데 상당한 이점을 보여준다. Fig. 4(a)에서 볼 수 있듯이, Euclidean 공간에서만 학습된 embedding은 클러스터 경계가 불분명하며, 주변의 빨간색과 녹색 점들이 밀접하게 섞여 있다. 이와 대조적으로, Fig. 4(b)는 Lorentz attention을 통합함으로써 더 판별적인 표현 학습을 촉진하고, moment 클러스터 경계를 정교하게 만들며, moment 간 분리를 증가시키고, moment 내 프레임 분포를 압축하여 더욱 뚜렷한 계층적 구조를 드러낸다는 것을 보여준다.

Multi-scale Branches의 효율성
multi-scale branches의 효과를 평가하기 위해, 우리는 glance clip-level branch 또는 gaze frame-level branch 중 하나를 제거하여 비교 실험을 수행했다. Tab. 2에서 볼 수 있듯이, 어떤 branch라도 없으면 성능이 눈에 띄게 저하된다. 이러한 결과는 coarse-to-fine multi-granularity 검색 메커니즘의 효율성을 입증할 뿐만 아니라, 두 branch의 상호 보완적인 특성을 강조한다.
다양한 Loss Terms의 효율성
HLFormer의 세 가지 loss term (즉, LsimL_{\text{sim}}, LdivL_{\text{div}}, LpopL_{\text{pop}})의 효과를 분석하기 위해, 우리는 몇 가지 HLFormer 변형을 구성했다:
(i) LsimL_{\text{sim}} Only: 오직 LsimL_{\text{sim}}만을 사용하여 모델을 학습시킨다.
(ii) w/o LdivL_{\text{div}}: query diverse learning 없이 모델을 학습시킨다.
(iii) w/o LpopL_{\text{pop}}: HLFormer에서 partial order preservation task를 제거한다.

Figure 3. 다양한 attention block의 영향, 기본 설정은 굵게 표시되어 있다.

Figure 4. UMAP [42] 시각화는 TVR 비디오에서 학습된 프레임 embedding을 보여준다. 같은 색상의 데이터 포인트는 같은 moment에 해당한다.

Tab. 2에서 볼 수 있듯이, LsimL_{\text{sim}}만 사용했을 때 가장 나쁜 성능이 나타난다. Variant (5)와 Variant (3)을 비교하면, LdivL_{\text{div}}를 추가하면 SumR이 증가하며, 이는 그 필요성을 입증한다. 유사하게, Variant (4)와 Variant (3) 및 Fig. 5를 비교하면, LpopL_{\text{pop}}를 통합하는 것은 검색 정확도를 높일 뿐만 아니라, 텍스트 쿼리가 해당 비디오 내에 의미적으로 embedding되어 부분적인 관련성을 유지하도록 보장한다.
Aggregation Strategy의 효율성
우리는 세 가지 aggregation 전략을 비교한다:
(i) w/ MP: 정적 융합을 위한 mean pooling.
(ii) w/ CL: 선형 레이어를 사용한 feature 연결.
(iii) MAIM (기본): mean-guided adaptive interaction module.
Tab. 2에서 볼 수 있듯이, MP는 고정된 정적 융합으로 인해 의미적 상호작용이 제한되어 가장 나쁜 성능을 보인다. CL은 선형 레이어를 활용한 동적 feature 융합을 통해 MP보다 개선된다. MAIM은 적응형 aggregation 가중치를 학습하고 전역적 안내 하에 hyperbolic 정보를 동적으로 선택함으로써 최고의 성능을 달성한다.

Figure 5. 학습된 hyperbolic 공간의 시각화. 원점에 가까울수록 의미 계층이 높고 granularity가 거칠다.

Hyperbolic 공간의 시각화
HyCoCLIP [48]에서 영감을 받아, 우리는 TVR 학습 세트에서 3K개의 embedding을 샘플링하여 학습된 hyperbolic 공간을 시각화한다. Fig. 5에서 볼 수 있듯이, 우리는 히스토그램을 통해 norm 분포를 분석하고 HoroPCA [3]를 사용하여 차원을 축소한다. Glance branch embedding은 텍스트 쿼리 embedding보다 원점에 더 가깝게 위치하며, 이는 clip-level 비디오 표현이 텍스트 쿼리를 포괄한다는 것을 나타낸다. 이러한 현상은 비디오와 텍스트 표현 간의 부분 순서 관계를 강제하는 LpopL_{\text{pop}}에 기인할 수 있다. 이와 대조적으로, LpopL_{\text{pop}}가 없으면 embedding은 상관관계 없는 분포를 보인다. 더욱이, 의미적으로 더 거친 텍스트 쿼리는 fine-grained gaze-level embedding보다 원점에 더 가깝게 위치하며, 이는 명확한 계층적 구조를 반영한다.

5. Conclusions

본 논문에서는 **PRVR(Partial-Relevance Video Retrieval)**에 특화된 새로운 hyperbolic modeling framework인 HLFormer를 제안한다. HLFormer는 hyperbolic space의 본질적인 기하학적 특성을 활용하여, untrimmed video의 계층적이고 다중 granular 구조를 효과적으로 포착함으로써 video-text retrieval 정확도를 향상시킨다. 또한, 쌍을 이루는 비디오와 텍스트 간의 부분적 관련성(partial relevance)을 보장하기 위해, 의미론적 함의(semantic entailment)를 강화하는 partial order preservation loss를 도입한다. 광범위한 실험 결과, HLFormer는 state-of-the-art 방법들을 지속적으로 능가하는 성능을 보여주었다. 우리의 연구는 hyperbolic learning을 활용한 PRVR에 대한 새로운 관점을 제시하며, 이 방향으로의 추가 연구를 촉진하기를 기대한다.

감사의 글 (Acknowledgments)
익명의 심사위원들과 의장님들의 노력과 건설적인 제안에 진심으로 감사드립니다. 이는 원고를 개선하는 데 큰 도움이 되었습니다. 본 연구는 중국 국가자연과학기금(National Natural Science Foundation of China)의 624B2088, 62171248, 62301189 보조금, PCNL KEY 프로젝트(PCL2023AS6-1), 그리고 선전 과학기술 프로그램(Shenzhen Science and Technology Program)의 KJZD20240903103702004, JCYJ20220818101012025, GXWD20220811172936001 보조금의 지원을 받았습니다. Long Chen은 홍콩 특별행정구 RGC Early Career Scheme (26208924), 중국 국가자연과학기금 Young Scholar Fund (62402408), Huawei Gift Fund, 그리고 HKUST Sports Science and Technology Research Grant (SSTRG24EG04)의 지원을 받았습니다.