ARL: 부분 관련 비디오 검색을 위한 모호성 억제 텍스트-비디오 표현 학습

Partially Relevant Video Retrieval (PRVR)은 텍스트 쿼리와 부분적으로만 관련된 비디오를 찾는 기술입니다. 기존 모델들은 텍스트-비디오 쌍이 1:1 관계라고 가정하여, 라벨링되지 않은 관련성 높은 비디오들을 부정적(negative) 샘플로 잘못 학습하는 모호성(ambiguity) 문제를 가집니다. 본 논문은 이러한 모호성을 억제하는 표현 학습 프레임워크인 ARL (Ambiguity-Restrained representation Learning)을 제안합니다. ARL은 uncertainty와 similarity라는 두 가지 기준을 사용하여 모호한 텍스트-비디오 쌍을 탐지하고, multi-positive contrastive learning 및 dual triplet margin loss를 통해 이들을 유연하게 학습합니다. 또한, 텍스트-프레임 레벨까지 학습을 확장하고, 단일 모델의 오류 전파를 막기 위해 cross-model ambiguity detection을 도입하여 PRVR 성능을 크게 향상시켰습니다. 논문 제목: Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval

Cho, Cheol-Ho, et al. "Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 39. No. 3. 2025.

Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval

Cheol-Ho Cho, WonJun Moon, Woojin Jun, MinSeok Jung, and Jae-Pil Heo*<br>Sungkyunkwan University<br>{hoonchcho, wjun0830, junwoojinjin, minseokjung0328, jaepilheo}@gmail.com

Abstract

**부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)**은 주어진 텍스트 쿼리에 대해 특정 세그먼트가 관련 있는 비디오를 검색하는 것을 목표로 한다. PRVR의 일반적인 학습 과정은 각 텍스트 쿼리가 하나의 비디오에만 관련된다는 **일대일 관계(one-to-one relationship)**를 가정한다. 그러나 우리는 **텍스트와 비디오 콘텐츠 간의 개념적 범위에 기반한 내재된 모호성(inherent ambiguity)**을 지적하고, 이 모호성을 모델 학습 과정에 통합하는 프레임워크를 제안한다.

구체적으로, 우리는 모호한 텍스트-비디오 쌍을 다루기 위해 **Ambiguity-Restrained representation Learning (ARL)**을 제안한다. 초기에 ARL은 **불확실성(uncertainty)**과 **유사성(similarity)**이라는 두 가지 기준에 따라 모호한 쌍을 감지한다.

  • 불확실성은 인스턴스들이 데이터셋 전반에 걸쳐 공통적으로 공유되는 context를 포함하는지 여부를 나타내며,
  • 유사성은 쌍 간의 의미론적 중첩(semantic overlap)을 나타낸다.

감지된 모호한 쌍을 사용하여, 우리의 ARL은 multi-positive contrastive learningdual triplet margin loss를 통해 의미론적 관계를 계층적으로 학습한다.

또한, 우리는 **비디오 인스턴스 내의 세분화된 관계(fine-grained relationships)**를 깊이 있게 탐구한다. 쌍별 정보가 제공되는 텍스트-비디오 수준의 일반적인 학습과 달리, 우리는 종종 여러 context를 포함하는 동일한 untrimmed 비디오 내 프레임 간의 내재된 모호성을 다룬다. 이를 통해 텍스트-프레임 수준에서의 학습을 더욱 향상시킬 수 있다.

마지막으로, 우리는 단일 모델이 학습을 위해 모호한 쌍을 감지할 때 발생하는 오류 전파(error propagation)를 완화하기 위해 cross-model ambiguity detection을 제안한다. 모든 구성 요소를 결합한 우리의 제안 방법은 PRVR에서 그 효과를 입증한다.

Introduction

사회 발전과 더불어 정보 전달을 위한 비디오 미디어의 활용이 광범위해졌다. 이에 따라 사용자가 텍스트 쿼리를 사용하여 원하는 비디오를 찾을 수 있게 해주는 Text-to-Video Retrieval (T2VR) 분야 또한 주목받고 있다. 그러나 기존 T2VR 접근 방식들은 비디오가 텍스트 쿼리와 관련된 부분만을 포함한다고 가정하는 경우가 많다. 이러한 가정은 비디오의 길이와 맥락이 다양할 수 있는 실제 시나리오와는 맞지 않는다. 이 문제를 해결하기 위해, 특정 비디오 세그먼트만이 텍스트 쿼리에 해당하는 untrimmed video를 다루기 위한 partially relevant video retrieval (PRVR) (Dong et al. 2022)이 제안되었다.

Figure 1: 텍스트-비디오 쌍 간의 모호한 관계에 대한 설명. 'Sheldon sits down in his spot on the couch.'라는 텍스트 쿼리에 대해 세 untrimmed video 모두 관련 장면을 포함한다. 그러나 비디오 (a)만 긍정(positive)으로 학습되고, 비디오 (b)와 (c)는 이전 기술에서 일반적으로 부정(negative)으로 처리된다. 텍스트와 비디오 간의 이러한 모호한 관계는 다양한 맥락을 포함하는 untrimmed video에서 더 자주 발생할 수 있다.

MS-SL (Dong et al. 2022)은 텍스트 쿼리가 포함할 수 있는 다양한 맥락에 대비하기 위해 multi-scale video feature를 모델링했다. 반면 GMMFormer (Wang et al. 2024)는 MS-SL의 포괄적인 multi-scale clip 모델링이 비효율적이라고 비판하며, Gaussian attention을 사용하여 local context만을 인코딩하는 방식을 제안했다. 이러한 방법들이 PRVR에서 상당한 발전을 이루었음에도 불구하고, 텍스트-비디오 쌍 라벨링의 모호성은 아직 탐구되지 않은 문제로 남아있다.

일반적으로 텍스트와 비디오 인스턴스 간의 모든 관계를 탐색하는 데 드는 높은 비용 때문에 텍스트와 비디오 인스턴스는 쌍(pair-wise)으로 라벨링된다. 이로 인해 이전 연구들은 쌍으로 라벨링된 인스턴스만을 긍정(positive) 관계로 학습하고, 유사한 비디오-텍스트 쌍이 존재하더라도 다른 모든 쌍은 부정(negative)으로 처리했다. 그러나 우리는 쌍으로 라벨링된 검색 데이터셋이 종종 텍스트-비디오 인스턴스 간의 모호성을 야기한다고 주장한다. 예를 들어, Fig. 1에서 보듯이, 텍스트 쿼리가 상단의 쌍으로 묶인 비디오와 부분적으로 관련이 있는 것은 분명하지만, 데이터셋 내의 다른 비디오 인스턴스와도 관련이 있을 수 있다.

이러한 관점에서 우리는 **모델의 online (epoch별) 지식을 활용하여 모호한 관계에 있는 인스턴스를 감지하는 프레임워크인 Ambiguity-Restrained representation Learning (ARL)**을 제안한다. 이러한 모호성은 모든 비쌍(unpaired) 쌍을 부정 관계로 처리할 때 발생할 수 있는 잘못된 supervision을 줄이기 위해 objective에 반영된다. 모호한 관계를 결정하기 위해 Fig. 2에서 보듯이 불확실성(uncertainty)과 유사도(similarity) 측정값을 사용한다. 간단히 말해, 우리는 높은 불확실성과 높은 쌍별 유사도를 보이는 텍스트-비디오 쌍을 모호한 관계로 정의한다. 이는 해당 쌍이 데이터셋 전반에 걸쳐 공통적으로 공유하는 의미론적 특성서로 간의 유사성을 가지고 있기 때문에 단순히 부정으로 정의할 수 없음을 나타낸다. 우리가 제안하는 ARL은 이렇게 식별된 모호한 관계를 학습에 포함한다. 특히, 긍정 및 부정 관계는 기존 방식으로 학습하는 반면, 모호한 관계를 가진 인스턴스에 대해서는 제약을 완화하여 모델이 유연하게 처리할 수 있도록 한다. 텍스트-비디오 관계를 넘어, untrimmed video가 종종 여러 맥락을 포함하기 때문에 모호성을 인지하는 objective를 사용하여 텍스트-프레임 관계를 추가로 탐색한다. 마지막으로, 모델이 예측하고 그 예측을 학습에 사용할 때 발생할 수 있는 모호한 관계 감지 오류 전파 위험을 완화하기 위해 cross-model ambiguity detection을 사용한다.

우리의 주요 기여는 다음과 같다: (1) 우리는 **PRVR에서 라벨 모호성을 해결하는 최초의 접근 방식인 ambiguity-restrained representation learning (ARL)**을 제안한다. 인스턴스 간의 관계를 모델링함으로써 ARL은 불확실한 관계 학습의 영향을 완화한다. (2) 우리는 untrimmed video의 여러 맥락을 고려하기 위해 ARL을 텍스트-프레임 수준으로 확장하여 학습 중 모든 프레임의 효과적인 활용을 향상시킨다. (3) 우리는 오류로 감지된 모호성을 반복적으로 학습하는 것을 방지하기 위해 cross-model ambiguity detection을 도입한다. (4) 우리는 TVR 및 ActivityNet 두 데이터셋에서 state-of-the-art 성능을 달성한다.

Text-to-Video Retrieval

**Text-to-video retrieval (T2VR)**은 비디오 context와 텍스트 설명을 정렬하여 메타데이터 없는 검색 패러다임을 구현하는 것을 목표로 한다. vision-language 정렬 모델의 이점을 활용하기 위해, 대규모 텍스트-이미지 쌍으로 사전학습된 CLIP 모델이 초기 학습 지점으로 널리 사용된다. 이후, 비디오와 텍스트 간 정보량 불일치를 해결하기 위해, 여러 연구들은 feature matching을 위한 기본 단위 설계에 집중해왔다 (Gorti et al. 2022; Lin et al. 2022). 예를 들어, frame-word (Wang et al. 2022) 및 frame-sentence (Jin et al. 2023; Wu et al. 2023) 등이 있다.

Context 범위의 불확실성은 T2VR 문헌에서 논의되어 왔다. 특히, 이러한 불확실성을 해결하기 위한 접근 방식들이 있었다 (Fang et al. 2023; Li et al. 2024; Song and Soleymani 2019). PVSE (Song and Soleymani 2019)와 UATVR (Fang et al. 2023)은 텍스트-비디오 쌍의 **다각적인 표현(multi-faceted representations)**을 추출했다. PAU (Li et al. 2024)는 서로 다른 불확실성 측정치 간의 일관성을 보장함으로써 텍스트-비디오 데이터에 내재된 aleatoric uncertainty를 다루었다. 우리의 연구는 텍스트-비디오 데이터의 불확실성을 다루는 높은 수준의 공통 개념을 공유한다. 그러나 우리의 연구는 모든 텍스트-비디오 쌍 간의 모호한 관계를 탐색하는 데 중점을 둔다는 점에서 차이가 있다.

Figure 2: 모호한 쌍 감지(ambiguous pair detection)에 대한 설명. 모호한 텍스트-비디오 쌍을 식별하기 위해, 우리는 **불확실성(uncertainty)**과 **유사성(similarity)**이라는 두 가지 핵심 지표를 사용한다. 각 텍스트 및 비디오 인스턴스에 대한 불확실성서로 다른 modality 간의 평균 유사성을 측정하여 계산된다. 이는 데이터셋 내의 contextual overlap 정도를 반영한다. 유사성텍스트와 untrimmed 비디오의 프레임 간의 최대 유사성으로 결정된다. 우리는 불확실성과 유사성이 모두 높은 경우에 해당 쌍이 모호한 관계를 가진다고 정의하며, 이는 데이터셋 내에서 그리고 쌍 간에 공통적으로 공유되는 context를 나타낸다.

Partially Relevant Video Retrieval

T2VR 시나리오를 넘어, PRVR은 주어진 텍스트 쿼리에 비디오의 일부만 해당할 때도 비디오를 검색하는 검색 엔진의 세분화된(fine-grained) 능력을 목표로 한다. PRVR을 해결하기 위한 일반적인 접근 방식은 비디오를 여러 세그먼트로 클립(clip)하는 것이다. MS-SL (Dong et al. 2022)은 다양한 길이의 클립을 exhaustive하게 구성하고 텍스트 쿼리와 유사도 매칭을 수행했다. GMMFormer (Wang et al. 2024)는 attention layer에 정규 분포 가중치를 적용하여 클립 표현을 형성할 때 locality feature를 구현했다.

반면, 우리의 연구는 비디오 검색 데이터셋에서 일대일 라벨링으로 인해 발생하는 텍스트-비디오 인스턴스 간의 모호한 관계를 탐지하는 데 핵심적인 초점을 맞춘다.

Noisy Label Learning

노이즈가 있는 레이블(noisy labels)을 이용한 학습은 실제 응용 분야에서의 중요성으로 인해 주목받아 왔다 (Han et al. 2018; Li, Socher, and Hoi 2020; Azadi et al. 2015; Wang et al. 2019). **불확실성 추정(uncertainty estimation)**과 co-training 프레임워크는 이 분야의 또 다른 인기 있는 연구 흐름이다.

불확실성은 종종 노이즈 레이블을 감지하는 데 활용되며 (Neverova, Novotny, and Vedaldi 2019; Ju et al. 2022; Northcutt, Jiang, and Chuang 2021; Zheng and Yang 2021), co-training 프레임워크노이즈 레이블을 정제하는 데 효과적인 것으로 나타났다 (Han et al. 2018; Wei et al. 2020; Tan et al. 2021; Li, Socher, and Hoi 2020). 이 문제는 최근 비디오-텍스트 학습(video-text learning) 맥락에서도 다루어졌다 (Lin et al. 2024).

Figure 3: ARL 개요. (왼쪽) 텍스트-비디오 학습 세트가 주어지면, 우리는 먼저 텍스트-비디오 유사도(similarity)를 계산하여 데이터셋 수준의 불확실성(uncertainty)을 산출한다. Batch 단위로 인덱싱된 불확실성텍스트와 비디오 간의 batch 단위 유사도와 함께 사용되어 미니배치 내의 모호한 텍스트-비디오 관계를 탐색한다. (오른쪽) 두 가지 수준의 Label Ambiguity Detection (LAD) 모듈이 모호한 관계를 감지한다. Text-Video LAD는 각 미니배치 내 텍스트 쿼리와 비디오 간의 유사도 맵 s(qi,Vj)s\left(q_{i}, V_{j}\right)와 불확실성 맵 u(qi,Vj)u\left(q_{i}, V_{j}\right)를 활용한다. Text-Frame LAD는 각 텍스트-비디오 쌍에 대해 각 쿼리와 비디오 프레임 간의 유사도 맵 sf(qi,vjk)s^{f}\left(q_{i}, v_{j k}\right)와 불확실성 맵 uf(qi,vjk)u^{f}\left(q_{i}, v_{j k}\right)를 활용한다.

쌍으로 레이블링된 관계에서 발생할 수 있는 **모호성(ambiguity)**에 대응하기 위해, 본 연구는 **불확실성(uncertainty)**과 co-training 개념을 활용한다.

Method

Overview

Ambiguity-Restrained representation Learning (ARL)의 개요는 Fig. 3에 나타나 있다. 설명을 위해, 우리는 각 epoch에서 텍스트-비디오 불확실성(uncertainty)을 정의하기 위해 학습 세트의 모든 텍스트와 비디오 간의 유사도를 계산한다. 이어서, 배치 단위로 인덱싱된 불확실성은 미니 배치 내 텍스트와 비디오 간의 유사도와 함께 Label Ambiguity Detection (LAD) 모듈로 처리된다. LAD는 텍스트-비디오 및 텍스트-프레임이라는 두 가지 수준에서 텍스트 및 비디오 양식 간의 모호한 관계를 식별한다. 마지막으로, 우리는 PRVR 문헌에서 일반적으로 사용되는 이중 브랜치 구조를 사용하여 cross-model ambiguity detection을 수행한다. cross-model ambiguity detection을 위해 각 브랜치에 동일한 구조와 입력을 사용함으로써, 각 모델은 다른 모델에서 감지된 모호한 세트를 통해 학습할 수 있다. cross-model ambiguity detection은 Fig.3에 묘사되어 있지 않다는 점에 유의하라. 본 논문의 나머지 부분에서는 명확성을 위해 모든 텍스트 쿼리와 비디오 인스턴스가 동일한 수의 요소, 즉 LqL_{q}개의 단어와 LvL_{v}개의 프레임으로 구성된다는 가정 하에 학습 시나리오를 설명한다.

Text Query Representation. 학습 데이터셋의 NqN_{q}개 쿼리 중 ii-번째 텍스트 쿼리가 주어지면, 우리는 사전학습된 text encoder를 사용하여 각 단어에 대한 feature를 추출한다. 이어서, 우리는 fully connected (FC) layer와 ReLU 활성화 함수를 사용하여 단어 feature를 저차원 공간으로 임베딩한다. 그 후, 이 feature에 positional encoding을 통합하고 Transformer layer를 사용하여 dd 차원의 단어 feature 벡터 QiRLq×dQ_{i} \in \mathbb{R}^{L_{q} \times d}를 얻는다. 마지막으로, 우리는 단어 feature 벡터에 attention pooling 모듈을 적용하여 쿼리 텍스트 임베딩 qiRdq_{i} \in \mathbb{R}^{d}를 얻는다.

Video Representation. NvN_{v}개의 학습 세트 비디오 중 jj-번째 untrimmed 비디오가 주어지면, 우리는 사전학습된 2D 또는 3D CNN을 사용하여 프레임 feature VjRLv×dvV_{j}^{\prime} \in \mathbb{R}^{L_{v} \times d_{v}}를 추출한다. 텍스트 브랜치와 대칭적으로, 비디오 feature도 차원을 줄이기 위해 ReLU 활성화 함수가 있는 fully connected layer를 통과한다. 그 후, 추출된 feature에 positional encoding PP를 통합한 다음, Transformer layer를 통해 feature를 전달하여 VjRLv×dV_{j} \in \mathbb{R}^{L_{v} \times d}를 얻는다:

Vj=[vj1,vj2,,vjLv]=Transformer(FC(Vj)+P),V_{j}=\left[v_{j 1}, v_{j 2}, \ldots, v_{j L_{v}}\right]=\operatorname{Transformer}\left(\mathrm{FC}\left(V_{j}^{\prime}\right)+P\right),

여기서 vjkv_{j k}jj-번째 비디오의 kk-번째 프레임 feature를 나타낸다.

Similarity Measure. 텍스트 및 비디오 표현이 주어지면, 텍스트 쿼리 feature qiq_{i}와 비디오 프레임 feature vjkv_{j k} 간의 프레임 단위 유사도 점수 sfs^{f}는 다음과 같이 도출된다:

sf(qi,vjk)=cos(qi,vjk)s^{f}\left(q_{i}, v_{j k}\right)=\cos \left(q_{i}, v_{j k}\right)

여기서 cos(,)\cos (\cdot, \cdot)는 텍스트 쿼리와 비디오 프레임 간의 cosine similarity이다. 그런 다음, 텍스트와 관련된 비디오 프레임이 부분적이기 때문에 텍스트 쿼리와 비디오 프레임 간의 최대 유사도 값이 검색 점수로 사용된다. 검색(유사도) 점수는 다음과 같이 얻어진다:

s(qi,Vj)=sf(qi,vjk^),s\left(q_{i}, V_{j}\right)=s^{f}\left(q_{i}, v_{j \hat{k}}\right),

여기서 vjk^=argmaxvjkcos(qi,vjk)v_{j \hat{k}}=\operatorname{argmax}_{v_{j k}} \cos \left(q_{i}, v_{j k}\right)이고 k^\hat{k}는 각각 최대 유사도를 가진 비디오 프레임과 그 인덱스를 나타낸다.

Ambiguity-Restrained Representation Learning

모호성(Ambiguity)의 정의.
Partially Relevant Video Retrieval (PRVR)을 위한 일반적인 데이터셋은 수천 개의 매칭된 텍스트-비디오 쌍으로 구성된다. 이때, 쌍을 이루는 텍스트-비디오 데이터를 긍정(positive) 쌍으로 처리하고, 모든 쌍을 이루지 않는 데이터를 부정(negative) 쌍으로 간주하는 것이 일반적인 관행이다. 그러나 우리는 모든 쌍을 이루지 않는 데이터를 부정으로 처리하는 것이 올바른지 의문을 제기한다.

우리는 단순히 부정으로 분류하기 어려운 쌍을 이루지 않는 텍스트-비디오 쌍에 대해 모호한(ambiguous) 관계를 정의함으로써 이 문제를 해결한다. 구체적으로, 우리는 이러한 모호한 관계를 식별하기 위해 불확실성(uncertainty)과 유사도(similarity) 측정값을 사용하고, 모델이 이러한 인스턴스를 처리하는 데 유연성을 부여한다.
첫째, 불확실성은 각 인스턴스가 공통적으로 공유되는 의미론(semantics)을 포함하는지 여부를 나타낸다. 이는 데이터셋 전체의 평균 유사도로 계산되며, 따라서 많은 인스턴스가 특정 인스턴스와 높은 유사도를 가질 경우 불확실성이 높게 측정된다.
둘째, 유사도쌍별 텍스트-비디오 유사성 정도를 나타내며, 단일 텍스트 쿼리와 비디오 프레임 표현 간의 최대 유사도로 정의된다. 따라서 유사도가 높은 쌍은 비디오 인스턴스가 주어진 쿼리와 유사한 속성을 공유하는 프레임을 포함한다는 것을 나타낸다.
두 메트릭 모두 동일한 유사도 연산에서 파생되었지만, 우리는 이 두 메트릭이 서로 다른 목적을 가진 다른 기준으로 작용한다는 점에 주목한다. 또한 Fig. 4의 연구는 이 두 메트릭이 서로 다른 분포를 나타낸다는 주장을 더욱 뒷받침한다.

웜업 단계(Warmup Phase).
우리의 방법은 텍스트와 비디오 간의 모호한 관계를 식별하기 위해 모델의 온라인 지식(에포크당)을 활용한다. 따라서 우리는 모델이 일반적인 텍스트-비디오 관계를 학습하도록 초기 훈련하기 위해 몇 에포크 동안 모델을 웜업해야 한다. 웜업 단계에서는 검색 task에서 일반적으로 사용되는 triplet ranking loss (Dong et al. 2023; Faghri et al. 2018)와 infoNCE loss (Ma et al. 2022; Zhang et al. 2021)를 채택한다.

불확실성 추정(Uncertainty Estimation).
각 텍스트/비디오 인스턴스에 대한 불확실성훈련 진행 전 전체 데이터셋에 걸친 유사도를 고려하여 측정된다. 구체적으로, 우리는 온라인 모델을 사용하여 훈련 데이터셋의 모든 텍스트 쿼리와 비디오 프레임 간의 feature 유사도 맵 MRNq×Nv×LvM \in \mathbb{R}^{N_{q} \times N_{v} \times L_{v}}를 계산한다. 여기서 MxyzM_{x y z}는 전체 데이터셋에서 xx-번째 텍스트 쿼리와 yy-번째 비디오의 zz-번째 프레임 간의 유사도를 나타낸다.
유사도 맵 MM을 사용하여, 우리는 각 텍스트 쿼리의 **데이터셋 전체 불확실성 UˉqRNq\bar{U}^{q} \in \mathbb{R}^{N_{q}}**을 텍스트와 데이터셋의 모든 비디오 프레임 간의 평균 유사도로 정의하고, 비디오 프레임의 **불확실성 UˉvRNv×Lv\bar{U}^{v} \in \mathbb{R}^{N_{v} \times L_{v}}**을 모든 텍스트 쿼리에 대한 평균 유사도로 정의한다:

Uˉxq=1NvLvy=1Nvz=1LvMxyz,Uˉyzv=1Nqx=1NqMxyz\bar{U}_{x}^{q}=\frac{1}{N_{v} L_{v}} \sum_{y=1}^{N_{v}} \sum_{z=1}^{L_{v}} M_{x y z}, \quad \bar{U}_{y z}^{v}=\frac{1}{N_{q}} \sum_{x=1}^{N_{q}} M_{x y z}

여기서 Uˉxq\bar{U}_{x}^{q}xx-번째 텍스트 쿼리의 불확실성 값이고, Uˉyzv\bar{U}_{y z}^{v}yy-번째 비디오 인스턴스의 zz-번째 프레임의 불확실성 값이다. 비디오 프레임에 대한 평균 유사도가 높은 텍스트와 쿼리에 대한 평균 유사도가 높은 프레임은 모두 더 큰 불확실성을 나타낸다.

불확실성이 높다는 것은 해당 인스턴스의 맥락이 다른 인스턴스와 공통적으로 공유될 가능성이 높다는 것을 의미한다. 이러한 유사도 맵과 불확실성은 매 에포크마다 Eq. 4를 사용하여 업데이트된다.

각 미니 배치 내에서 불확실성 UqU^{q}UvU^{v}를 더 명확하게 인덱싱하기 위해, 우리는 불확실성의 배치 수준 부분 집합을 UqU^{q}UvU^{v}로 정의한다. UqU^{q}UvU^{v}는 미니 배치 내의 모든 쿼리 및 비디오의 불확실성을 포함하는 Uˉq\bar{U}^{q}Uˉv\bar{U}^{v}의 부분 집합이다.

아래에서 우리는 텍스트 쿼리와 각 비디오 프레임 간의 불확실성 값을 ufu^{f}로, 쿼리와 전체 비디오 간의 불확실성을 uu로 정의한다:

u(qi,Vj)=12(Uiq+Ujk^v);uf(qi,vjk)=12(Uiq+Ujkv),u\left(q_{i}, V_{j}\right)=\frac{1}{2}\left(U_{i}^{q}+U_{j \hat{k}}^{v}\right) ; u^{f}\left(q_{i}, v_{j k}\right)=\frac{1}{2}\left(U_{i}^{q}+U_{j k}^{v}\right),

여기서 k^\hat{k}는 Eq. 3에서 언급된 바와 같이 ii-번째 텍스트 쿼리와 가장 높은 유사도를 가진 프레임 인덱스를 나타낸다. 텍스트-비디오 레이블 모호성 감지(Text-Video Label Ambiguity Detection).
텍스트/비디오 인스턴스당 모호한 관계에 있는 쌍을 발견하기 위해, 우리는 계산된 불확실성 uu와 유사도 점수 ss를 활용한다. ii-번째 텍스트 쿼리 qiq_{i}에 대해, 모호한 비디오 쌍의 집합은 다음과 같이 수집된다:

Aiq={Vas(qi,Va)>τs and u(qi,Va)>τu}\mathcal{A}_{i}^{q}=\left\{V_{a} \mid s\left(q_{i}, V_{a}\right)>\tau_{s} \text { and } u\left(q_{i}, V_{a}\right)>\tau_{u}\right\}

여기서 τs\tau_{s}τu\tau_{u}는 임계값 하이퍼파라미터이다.
반면에, 비디오 VjV_{j}에 대한 모호한 쿼리 집합은 다음과 같이 정의된다:

Ajv={qas(qa,Vj)>τs and u(qa,Vj)>τu}\mathcal{A}_{j}^{v}=\left\{q_{a} \mid s\left(q_{a}, V_{j}\right)>\tau_{s} \text { and } u\left(q_{a}, V_{j}\right)>\tau_{u}\right\}

모호성 인식 표현 학습(Ambiguous Aware Representation Learning).
훈련을 위해 우리는 이전 연구들 (Dong et al. 2022; Wang et al. 2024)을 따라 margin triplet ranking loss와 contrastive learning (Chen et al. 2020)을 활용한다. 아래에서는 모호한 관계를 구현하기 위한 목적 함수의 수정 사항을 열거한다. contrastive learning의 경우, 우리는 supervised contrastive learning (Khosla et al. 2020)에 수정을 추가하여 multi-positive contrastive objective를 갖추도록 한다:

Lijt2v=log(es(qi,Vj)+VaAiqes(qi,Va)es(qi,Vj)+VAiqNiqes(qi,V))Lijv2t=log(es(qi,Vj)+qaAjves(qa,Vj)es(qi,Vj)+qAjvNjves(q,Vj))Lnce=1n(qi,Vj)BLijt2v+Lijv2t\begin{gathered} \mathcal{L}_{i j}^{\mathrm{t} 2 \mathrm{v}}=-\log \left(\frac{e^{s\left(q_{i}, V_{j}\right)}+\sum_{V_{a} \in \mathcal{A}_{i}^{q}} e^{s\left(q_{i}, V_{a}\right)}}{e^{s\left(q_{i}, V_{j}\right)}+\sum_{V \in \mathcal{A}_{i}^{q} \vee \mathcal{N}_{i}^{q}} e^{s\left(q_{i}, V\right)}}\right) \\ \mathcal{L}_{i j}^{\mathrm{v} 2 \mathrm{t}}=-\log \left(\frac{e^{s\left(q_{i}, V_{j}\right)}+\sum_{q_{a} \in \mathcal{A}_{j}^{v}} e^{s\left(q_{a}, V_{j}\right)}}{e^{s\left(q_{i}, V_{j}\right)}+\sum_{q \in \mathcal{A}_{j}^{v} \vee \mathcal{N}_{j}^{v}} e^{s\left(q, V_{j}\right)}}\right) \\ \mathcal{L}^{\mathrm{nce}}=\frac{1}{n} \sum_{\left(q_{i}, V_{j}\right) \in \mathcal{B}} \mathcal{L}_{i j}^{\mathrm{t} 2 \mathrm{v}}+\mathcal{L}_{i j}^{\mathrm{v} 2 \mathrm{t}} \end{gathered}

여기서 B\mathcal{B}는 미니 배치를 나타내고, (qi,Vj)(q_{i}, V_{j})는 이 배치 내의 긍정 쌍을 나타낸다. Njv\mathcal{N}_{j}^{v}Niq\mathcal{N}_{i}^{q}는 각 비디오와 쿼리에 대한 부정 샘플 집합으로, Njv\mathcal{N}_{j}^{v}jj-번째 비디오와 긍정 또는 모호한 관계에 있지 않은 샘플을 포함한다. 요컨대, 우리의 multi-positive contrastive objective모호한 관계를 수용함으로써 더 유연한 모델 학습을 가능하게 한다. 분자의 모호한 집합 내 인스턴스는 부정으로 훈련되지 않지만, 모든 인스턴스가 앵커와 긍정적인 관계를 갖도록 반드시 훈련되는 것은 아니다. 이는 단일 유사도 값을 최대화하는 것이 여전히 손실 수렴을 촉진할 수 있기 때문이다.

반면에, 우리는 margin triplet ranking loss를 위해 이중 triplet을 구성한다. 하나는 Latrip \mathcal{L}_{a}^{\text {trip }}을 위한 모호한 집합을 포함하고, 다른 하나는 Lntrip \mathcal{L}_{n}^{\text {trip }}을 위한 부정 쌍을 포함한다:

Latrip =1n(qi,Vj)B{max(0,ma+s(qa,Vj)s(qi,Vj))+max(0,ma+s(qi,Va)s(qi,Vj))}\begin{array}{r} \mathcal{L}_{a}^{\text {trip }}=\frac{1}{n} \sum_{\left(q_{i}, V_{j}\right) \in \mathcal{B}}\left\{\max \left(0, m_{a}+s\left(q_{a}, V_{j}\right)-s\left(q_{i}, V_{j}\right)\right)+\right. \\ \left.\max \left(0, m_{a}+s\left(q_{i}, V_{a}\right)-s\left(q_{i}, V_{j}\right)\right)\right\} \end{array} Lntrip =1n(qi,Vj)B{max(0,m+s(qn,Vj)s(qi,Vj))+max(0,m+s(qi,Vn)s(qi,Vj))}\begin{array}{r} \mathcal{L}_{n}^{\text {trip }}=\frac{1}{n} \sum_{\left(q_{i}, V_{j}\right) \in \mathcal{B}}\left\{\max \left(0, m+s\left(q_{n}, V_{j}\right)-s\left(q_{i}, V_{j}\right)\right)+\right. \\ \left.\max \left(0, m+s\left(q_{i}, V_{n}\right)-s\left(q_{i}, V_{j}\right)\right)\right\} \end{array}

여기서 mam_{a}mm은 각각의 마진을 나타내고, qaAjvq_{a} \in \mathcal{A}_{j}^{v}VaAiqV_{a} \in \mathcal{A}_{i}^{q}는 각각 각 비디오와 쿼리에 대한 모호한 샘플을 나타낸다. qnq_{n}VnV_{n}은 각 쿼리와 비디오에 대한 부정 샘플이다. 우리는 Latrip \mathcal{L}_{a}^{\text {trip }}에 대한 마진을 더 작게 설정하여, 모호한 인스턴스가 맥락적으로 관련 없는 인스턴스보다 앵커에 더 유사하게 유지되도록 한다 (ma<mm_{a}<m). 모호한 인스턴스에 대한 거리 제약을 완화함으로써, 우리는 앵커와 잠재적으로 긍정적인 관계를 가진 모호한 집합이 부정 훈련에서 제외되도록 허용한다. 마진 mam_{a}는 계층 구조를 유지하는 데 사용되며, Eq. 8-9에서 쌍을 이루는 인스턴스가 긍정으로 훈련되도록 보장한다. 결론적으로, 텍스트-비디오 쌍에 대한 모호성 제약 목적 함수는 다음과 같이 공식화된다: Lvideo =λnce Lnce +Latrip +Lntrip \mathcal{L}^{\text {video }}= \lambda_{\text {nce }} \mathcal{L}^{\text {nce }}+\mathcal{L}_{a}^{\text {trip }}+\mathcal{L}_{n}^{\text {trip }}, 여기서 λnce \lambda_{\text {nce }}는 손실의 균형을 맞추는 하이퍼파라미터이다.

미정제 비디오 내 텍스트-프레임 레이블 모호성 감지(Text-Frame Label Ambiguity Detection Within Untrimmed Video).
미정제 비디오의 경우, 단일 인스턴스 내에 다양한 맥락이 존재할 수 있다. 그러나 동일한 비디오 내의 관계를 탐색하는 것은 아직 탐구되지 않은 문제이다. 따라서 우리는 텍스트 쿼리와 프레임별 표현 간의 관계를 심층적으로 탐구한다. 미니 배치 내에서 텍스트와 비디오 인스턴스 간의 모호성 관계를 발견하는 과정과 대칭적으로, 우리는 쿼리 feature qq와 비디오 프레임 feature vv 사이에 Eq. 6과 Eq. 7을 적용한다. 유사도 및 불확실성 측정값, 즉 ssuu는 각각 프레임별 유사도 sfs^{f} (Eq. 2)와 불확실성 ufu^{f} (Eq. 5)로 대체된다. 결과적으로, Eq. 8-12의 텍스트-비디오 관계 학습을 위한 동일한 목적 함수가 각 비디오에 대한 텍스트-프레임 관계 학습에 적용된다. 텍스트-프레임 쌍 Lframe \mathcal{L}^{\text {frame }}에 대한 목적 함수도 Lvideo \mathcal{L}^{\text {video }}와 동일하다. λnce \lambda_{\text {nce }}는 공유된다.

Cross-Model Ambiguity Detection

모호한 쌍(ambiguous pairs)은 self-training과 유사하게 모델 자체의 예측을 사용하여 감지할 수 있다 (Balcan, Beygelzimer, and Langford 2006; Freund, Schapire, and Abe 1999). 그러나 우리는 모델이 자신의 지식에 의존하여 모호성 감지를 수행할 때, 초기 불완전한 예측을 점진적으로 강화하며 오류 전파에 취약해질 수 있음을 지적한다.

이러한 문제를 해결하기 위해, 우리는 두 개의 동일한 encoder를 활용한다. 이들은 서로 상대방이 감지한 모호한 세트(ambiguous sets)를 전달하여 노이즈가 있는 레이블의 영향(impact of noisy labels)을 완화한다 (Han et al. 2018). θ\thetaΦ\Phi로 표시된 두 모델이 주어졌을 때, 각 모델은 자신의 online knowledge를 사용하여 Eq. 4-Eq. 7에 따라 모호한 text-video 쌍을 계산하고, 이를 상대 모델에게 학습 지침(training guidance)으로 제공한다.

마지막으로, 예측에 대한 검색 점수(retrieval score)는 각 모델의 Eq. 3 평균으로 산출된다:

s(qi,Vj)=12(sθ(qi,Vj)+sΦ(qi,Vj))s\left(q_{i}, V_{j}\right)=\frac{1}{2}\left(s_{\theta}\left(q_{i}, V_{j}\right)+s_{\Phi}\left(q_{i}, V_{j}\right)\right)

여기서 sθs_{\theta}sΦs_{\Phi}는 각각 모델 θ\thetaΦ\Phi로부터 얻은 검색 점수를 나타낸다.

Experiments

Datasets and Metrics

우리는 두 개의 대규모 비디오 데이터셋, 즉 TVR (Lei et al. 2020)과 ActivityNet Captions (Krishna et al. 2017)에서 우리의 방법을 평가한다. 우리는 이전 연구들 (Zhang et al. 2020, 2021)에서 제공한 데이터 분할을 채택한다. (Dong et al. 2022)를 따라, 우리는 rank-based recall을 평가 지표로 사용한다. 즉, **R@K (K=1, 5, 10, 100)**를 사용하며, 여기서 R@K는 랭킹 리스트의 상위 K 내에서 원하는 항목을 성공적으로 검색한 쿼리의 비율을 나타낸다. 또한, 포괄적인 비교를 위해 **Sum of all Recalls (SumR)**를 보고한다.

Implementation Details

우리는 TVR을 위해 ResNet (He et al. 2016)과 I3D (Carreira and Zisserman 2017)를 사용하고, ActivityNetCaptions를 위해서는 I3D만을 사용하여 시각적 feature를 추출한다. 텍스트 쿼리 표현을 위해서는 두 데이터셋 모두 RoBERTa (Liu et al. 2019) feature를 사용한다. 또한, 대규모 모델에서 우리 방법의 효과를 입증하기 위해 CLIP-L/14 (Radford et al. 2021)를 사용하여 실험을 수행하였다.

일반적인 파라미터는 (Wang et al. 2024)와 동일하게 설정되었지만, 임계값 τs\tau_{s}τu\tau_{u}는 학습 데이터셋의 유사도(similarity) 및 불확실성(uncertainty) 분포 값을 사용하여 각 epoch마다 정의되었다. 특히, τs\tau_{s}긍정 쌍(positive pairs)의 유사도 분포 평균값으로 설정되고, τu\tau_{u}학습 데이터셋의 불확실성 분포 평균에 해당하는 값으로 설정된다. 더 자세한 내용은 appendix에 제공된다.

Comparison With the State-of-the-Arts

검색 성능 (Retrieval Performance)
우리는 비디오 코퍼스 모먼트 검색(video corpus moment retrieval) 및 PRVR에 대한 우리의 접근 방식과 state-of-the-art 방법들을 비교한 결과를 보고한다. 모든 성능은 모먼트 supervision을 사용하지 않고 얻은 결과이다. Table 1과 Table 2에서 TVR 및 ActivityNet Captions 데이터셋에 대한 결과를 보여준다.
관찰된 바와 같이, 우리가 제안한 방법은 모든 recall metric에서 이전 연구들보다 뛰어난 성능을 보이며, ResNet, I3D, Roberta를 사용했을 때 GMMFormer 대비 SumR에서 9.3%, 2.3%의 마진으로 우위를 점한다.
더욱이, DL-DKD (Dong et al. 2023)가 지식 증류(knowledge distillation)를 위해 추가적인 CLIP-B/32 모델을 사용했음에도(†로 표시) 불구하고, 우리의 방법과 DL-DKD 사이의 일관된 성능 격차를 강조한다. 우리는 이러한 우수한 성능이 PRVR을 위한 untrimmed 비디오에서의 일대일 관계 학습(one-to-one relationship learning)에서 발생하는 모호성(ambiguity)에 대한 연구 덕분이라고 생각한다.
이러한 경향은 CLIP-L/14에서도 유사하게 관찰되었으며, MSSL 및 GMMFormer 대비 각각 9.1% 및 3.3%의 개선을 보였다.

ModelTVRActivityNet Captions
R@1R@5R@10R@100SumRR@1R@5R@10R@100SumR
VCMR methods without moment localization
XML (Lei et al. 2020)10.026.537.381.3155.15.319.430.673.1128.4
ReLoCLNet (Zhang et al. 2021)10.728.138.180.3157.15.718.930.072.0126.6
CONQUER (Hou, Ngo, and Chan 2021)11.028.939.681.3160.86.520.431.874.3133.1
PRVR models
MS-SL (Dong et al. 2022)13.532.143.483.4172.47.122.534.775.8140.1
DL-DKD (Dong et al. 2023) \dagger14.434.945.884.9179.98.025.037.477.1147.6
GMMFormer (Wang et al. 2024)13.933.344.584.9176.68.324.936.776.1146.0
Ours15.636.347.786.3185.98.324.637.478.0148.3

Table 1: Resnet, I3D, Roberta feature에 대한 성능 비교. \dagger는 추가적인 CLIP-B/32 모델 사용을 나타낸다.

ModelTVRActivityNet Captions
R@1R@5R@10R@100SumRR@1R@5R@10R@100SumR
MS-SL (Dong et al. 2022)31.957.667.793.8251.014.737.150.484.6186.7
GMMFormer (Wang et al. 2024)29.854.264.692.5241.115.237.750.583.7187.1
Ours34.660.470.794.4260.115.338.451.585.2190.4

Table 2: CLIP-L/14 feature에 대한 TVR 및 ActivityNet Captions 성능 비교.

MS-SLGMMFormerOurs
FLOPs (G)1.291.951.23
Params (M)4.8512.855.34

Table 3: 모델 복잡도 비교.

inference runtime (ms)
Video size1000150020002500
MS-SL0.3660.6060.7590.893
GMMFormer0.2640.2670.2700.293
Ours0.2940.3910.4270.612

Table 4: 추론 시간 비교.

복잡도 분석 (Complexity Analysis)
이 섹션에서는 Table 3과 4에 제시된 모델 복잡도 분석 결과를 설명한다. 우리는 FLOPs, 파라미터 수, 그리고 Nvidia RTX 3090 GPU에서 단일 텍스트 쿼리를 처리하는 데 필요한 런타임의 세 가지 측면을 분석했다.
우리의 방법은 PRVR 방법들 중에서 FLOPs와 파라미터 수 측면에서 높은 효율성을 보이지만, 런타임은 GMMFormer보다 상대적으로 느리다.
FLOPs와 파라미터 수의 효율성은 우리의 간소화된 Transformer 아키텍처 덕분이며, GMMFormer는 서로 다른 Gaussian kernel을 가진 여러 attention block을 병렬로 사용한다.
우리의 방법이 상대적으로 느린 런타임을 보이는 것은 GMMFormer에서 사용되는 aggregated frame-level feature가 없기 때문이다.
그러나 우리의 방법은 여전히 1ms 미만의 실시간 런타임을 달성하며, 이는 성능과 런타임 속도 사이의 균형 잡힌 trade-off를 나타낸다.

Ablation and Further Studies

구성 요소 분석 (Component Analysis)
각 구성 요소의 효과를 이해하기 위해, 우리는 Table 5에서 구성 요소 ablation을 수행한다. (a)행과 (b)행을 비교하면, 우리의 기본 모델과 text-video ambiguity를 표현 학습에 활용하여 학습된 모델 간에 SumR이 3.6포인트 증가하는 효과를 관찰할 수 있다. 이는 텍스트 쿼리와 비디오가 종종 문맥적 유사성에서 모호성을 나타내기 때문에, text-video 관계 학습의 유연성이 PRVR에 중요함을 보여준다. 더 나아가, (c)행과 (e)행의 증가는 각 비디오 내에서 text-frame 관계를 탐색하는 것의 잠재력을 부각시킨다. 이어서, (d)행과 (e)행에서 볼 수 있듯이, cross-model learning이 PRVR에 유익함이 확인되었다. 결론적으로, 우리 구성 요소들의 이점은 쌍으로 레이블링된 데이터셋에서 오직 쌍을 이룬 text-video 인스턴스만을 문맥적으로 유사하다고 간주하는 것이 text-video 인스턴스 간의 모호한 관계를 형성하는 데 취약함을 시사한다 (특히 PRVR의 경우).

T-VT-FC.LR@1R@5R@10R@100SumR
(a)---32.858.168.293.7252.8
(b)\checkmark--33.658.969.494.5256.4
(c)\checkmark\checkmark-34.359.970.194.4258.7
(d)\checkmark-\checkmark34.359.969.994.3258.4
(e)\checkmark\checkmark\checkmark34.660.470.794.4260.1

Table 5: TVR에서 다양한 구성 요소의 효과를 조사하기 위한 ablation study. T-V AmbiguityT-F Ambiguity는 각각 text-video 표현 학습 내에서 ambiguity-aware 표현 학습의 사용과 text-frame 표현 학습의 사용을 나타낸다.

A\mathcal{A}R@1\mathrm{R} @ 1R@5\mathrm{R} @ 5R@10\mathrm{R} @ 10R@100\mathrm{R} @ 100SumR
Positive34.059.770.194.5258.3
Ignore34.560.170.194.5259.2
Ours34.660.470.794.4260.1

Table 6: 모호한(ambiguous) 세트의 다른 사용법 간의 성능 비교.

모호한 세트 학습 전략 (Ambiguous Set Learning Strategy)
우리 연구에서는 모델이 모호한 관계를 학습하는 데 유연성을 부여했다. 그러나 주어진 앵커에 대해 모호한 세트 내의 모든 text-video 인스턴스를 긍정(positive)으로 처리하거나, 학습에서 제외하는 다른 옵션들도 존재한다. Table 6에서 우리는 다른 옵션들의 성능을 보고한다. 구체적으로, 우리는 모든 모호한 쌍 간의 유사성을 최대화하기 위해 supervised contrastive objective (Khosla et al. 2020)를 사용하거나, 마스킹(masking) 연산을 활용하여 무시했다. 두 시나리오 모두에서 성능이 감소했으므로, 우리는 모호한 세트 A\mathcal{A}가 앵커와 긍정 및 부정 관계에 있는 인스턴스들의 혼합이라고 믿는다. 결과적으로, 이러한 결과는 모호한 세트를 단순히 긍정 또는 부정으로 정의하는 것이 최적화되지 않은 결과로 이어질 수 있음을 나타낸다.

Figure 4: TVR에서 긍정적으로 쌍을 이룬(positively-paired) 및 쌍을 이루지 않은(unpaired) text-video 쌍에 대한 유사도 및 불확실성 분포. 유사도 분포는 (a)에 설명되어 있다. 긍정 세트의 분포는 일반적으로 부정 세트의 분포보다 높다. (b)에는 불확실성 분포가 표시되어 있다. 불확실성 값은 단일 쌍의 유사도(긍정 쌍의 경우)에 크게 영향을 받지 않으므로, 긍정 및 쌍을 이루지 않은 세트의 분포가 유사하게 형성됨을 보여준다.

Figure 5: TVR 데이터셋에 대한 모호성 감지 결과. 주어진 쿼리에 대해, 학습 과정 후 모호한 관계로 감지된 untrimmed 비디오를 시각화한다 (회색 상자). 이 비디오들은 쿼리의 긍정 인스턴스로 쌍을 이루지 않았음에도 불구하고 쿼리와 매우 관련성이 높은 것으로 나타났다.

불확실성 및 유사도 분포 (Uncertainty & Similarity Distributions)
우리는 모호성을 감지하는 데 사용된 두 가지 지표가 서로 다른 역할을 하며, 뚜렷한 분포를 나타낸다고 주장했다. Figure 4에서 우리는 TVR에 대한 각 지표의 분포를 제시한다. (ActivityNet Captions는 TVR과 유사하다.) 그림에서 볼 수 있듯이, 유사도(왼쪽)와 불확실성(오른쪽)의 분포는 서로 다른 형태를 보인다. 구체적으로, 긍정 및 부정 분포는 유사도 측면에서 구별 가능하며, 이는 긍정적으로 쌍을 이룬 쌍 간의 유사도가 일반적으로 쌍을 이루지 않은 text-video 쌍보다 높음을 나타낸다. 반대로, 긍정 및 쌍을 이루지 않은 세트에 대한 불확실성 값은 유사하게 분포되어 있음을 관찰할 수 있는데, 이는 데이터셋 전체의 의미론적 중첩 정도가 단일 쌍별 유사도에 의존하지 않기 때문이다. 모호한 쌍을 감지하는 데 쌍별 불확실성(Eq. 5)이 활용되므로, 플롯에는 text-video 평균 불확실성 값이 사용된다는 점에 유의하라. 이러한 결과는 유사도와 불확실성이 독립적인 의미를 가지며, 둘 다 동시에 고려하는 것이 바람직함을 시사한다.

Qualitative Results

우리는 감지된 텍스트-비디오 쌍이 실제로 앵커(anchor)에 대한 모호한 관계를 포함하는지를 확인하기 위해 분석을 수행했다. Figure 5에서, 우리는 두 개의 텍스트 쿼리와 그에 페어링된 비디오, 그리고 **모호한 관계에 있는 비디오들(회색 상자)**을 함께 보여준다.
예를 들어, 우리는 장면 속 인물들이 동일하고 전반적인 맥락도 매우 유사함을 관찰할 수 있다. 특히, 왼쪽 예시의 비디오는 주어진 쿼리로 표현될 수 있는 순간을 포함하고 있다. 이는 우리의 모호성 감지(ambiguity detection)가 모호한 관계를 효과적으로 포착하며, 모든 페어링되지 않은 텍스트-비디오 쌍을 negative set으로 처리할 때 발생하는 잘못된 supervision의 영향을 줄여준다는 것을 확인시켜준다.

Conclusion

결론 (Conclusion)
본 논문에서는 쌍으로 레이블링된 텍스트-비디오 데이터에서 텍스트-비디오 쌍 간의 모호한 관계(ambiguous relationships) 문제를 다루었다. 이 문제를 해결하기 위해 우리는 **Ambiguity-Restrained representation Learning (ARL)**을 제안했다. ARL은 텍스트와 비디오 간의 모호한 관계로부터 학습하는 영향을 완화하도록 설계되었다.
ARL은 먼저 불확실성(uncertainty)을 활용하여 각 텍스트 또는 비디오가 데이터셋 내에서 공통 컨텍스트를 포함할 가능성이 있는지 평가한다. 이어서, 각 mini-batch 내의 유사도를 계산하여 모호한 관계를 식별한다. 이러한 모호한 관계들은 Ambiguity-Aware Representation Learning 프레임워크에 통합되어, 모델이 이러한 관계를 학습하는 데 유연성을 가질 수 있도록 한다.
우리의 결과는 일대일 관계 학습(one-to-one relationship learning)이 텍스트와 비디오 간의 모호한 관계에 취약하다는 것을 보여준다.

Acknowledgments

본 연구는 MSIT/IITP (No. 2022-0-00680, 2020-0-01821, 2019-0-00421, RS-202400459618, RS-2024-00360227, RS-2024-00437102, RS-2024-00437633) 및 MSIT/NRF (No. RS-202400357729)의 지원을 받아 수행되었다.