Vid-Morp & ReCorrect: 레이블 없는 영상으로 Video Moment Retrieval 모델 사전학습하기

Video Moment Retrieval (VMR)은 대규모 수동 레이블링에 크게 의존하는 문제에 직면해 있습니다. 이 논문은 레이블이 없는 실제 비디오를 활용하는 새로운 사전학습 패러다임을 제안합니다. 이를 위해, 최소한의 인간 개입으로 수집된 대규모 데이터셋 Vid-Morp를 구축하고, 이 데이터셋의 불완전한 의사 레이블(pseudo-annotations)이 가진 노이즈 문제를 해결하기 위해 ReCorrect 알고리즘을 제시합니다. ReCorrect는 semantics-guided refinement를 통해 부정확한 데이터를 정제하고, memory-consensus correction을 통해 점진적으로 시간적 경계를 교정합니다. 이 방법을 통해 사전학습된 모델은 zero-shot 및 unsupervised 환경에서도 높은 성능을 보여주며, VMR의 레이블링 비용 문제를 효과적으로 해결할 수 있는 가능성을 제시합니다. 논문 제목: Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild

Bao, Peijun, et al. "Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild." arXiv preprint arXiv:2412.00811 (2024).

Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild

Peijun Bao, Chenqi Kong, Zihao Shao, Boon Poh Ng, Meng Hwa Er, Life Fellow, IEEE, Alex C. Kot, Life Fellow, IEEE

Abstract

자연어 쿼리가 주어졌을 때, video moment retrieval정제되지 않은(untrimmed) 비디오에서 설명된 시간적 순간(temporal moment)을 찾아내는 것을 목표로 한다. 이 task의 주요 과제는 학습을 위한 노동 집약적인 어노테이션에 크게 의존한다는 점이다. 수동으로 큐레이션된 데이터로 모델을 직접 학습시키는 기존 연구들과 달리, 우리는 어노테이션 비용을 줄이기 위한 새로운 패러다임을 제안한다: 레이블이 없는 실제 비디오로 모델을 사전학습(pretraining)하는 것이다.

이를 지원하기 위해 우리는 **최소한의 사람 개입으로 수집된 대규모 데이터셋인 Video Moment Retrieval Pretraining (Vid-Morp)**을 소개한다. 이 데이터셋은 야외에서 촬영된 5만 개 이상의 비디오와 20만 개의 pseudo annotation으로 구성된다. 그러나 이러한 불완전한 pseudo annotation으로 직접 사전학습하는 것은 상당한 도전 과제를 안고 있다. 여기에는 문장-비디오 쌍의 불일치(mismatched sentence-video pairs) 및 부정확한 시간적 경계(imprecise temporal boundaries) 등이 포함된다.

이러한 문제들을 해결하기 위해 우리는 ReCorrect 알고리즘을 제안한다. ReCorrect는 크게 두 가지 주요 단계로 구성된다:

  1. semantics-guided refinement
  2. memory-consensus correction

Semantics-guided refinement 단계에서는 비디오 프레임과의 의미론적 유사성(semantic similarity)을 활용하여 pseudo label을 개선한다. 이는 쌍이 맞지 않는 데이터를 제거하고 시간적 경계에 대한 초기 조정을 수행한다. 이어지는 memory-consensus correction 단계에서는 memory bank가 모델의 예측을 추적하며, 메모리 내의 합의(consensus)를 기반으로 시간적 경계를 점진적으로 수정한다.

포괄적인 실험을 통해 ReCorrect가 여러 다운스트림 설정에서 강력한 일반화 능력을 보여주었다. Zero-shot ReCorrect는 두 벤치마크에서 최고 fully-supervised 성능의 75% 이상 및 80% 이상을 달성했으며, unsupervised ReCorrect는 두 벤치마크 모두에서 약 85%에 도달했다.

코드, 데이터셋 및 사전학습된 모델은 https://github.com/baopj/Vid-Morp 에서 확인할 수 있다.

1 Introduction

자연어 쿼리와 untrimmed video가 주어졌을 때, Video Moment Retrieval (VMR) [1], [2] task는 언어 쿼리에 의해 설명되는 비디오 순간(moment)을 시간적으로 지역화(temporally localize)하는 것을 목표로 한다. VMR은 비디오 이해 분야에서 가장 기본적인 task 중 하나이며, 비디오 요약, 로봇 조작, 비디오 감시 분석 등 다양한 실제 응용 분야를 가지고 있다 [3]-[6].

최근 몇 년간 VMR의 성능은 딥러닝 기술 [7]-[18]과 수동으로 주석된 데이터 [1], [2]의 가용성 덕분에 향상되었다. 그러나 문장 쿼리 및 시간적 경계(temporal boundaries)를 포함한 이러한 주석을 수집하는 것은 여전히 비용이 많이 들고, 노동 집약적이며, 확장성이 떨어진다. 또한, 이러한 주석은 종종 언어적 및 시간적 편향 [19]-[21] (예: 쿼리 스타일 및 시간적 경계 분포의 편향)을 보여 실제 적용 가능성을 제한한다.

이러한 도전을 해결하기 위해 최근 연구들 [22]-[24]은 레이블이 없는 비디오에 초점을 맞춰 비지도 학습(unsupervised learning)을 탐구하고 있다. 그러나 이러한 방법들은 잘 주석된 데이터셋 [1], [2], [25]에서 가져온 레이블 없는 비디오에 의존한다는 공통적인 한계를 가지고 있다. 이러한 의존성은 주석자가 수동으로 비디오를 사전 정제해야 하므로 본질적으로 인적 노동을 수반하며, 이는 이러한 방법들의 확장성을 제한한다. 더욱이, 이러한 연구들의 학습 및 테스트 비디오는 종종 유사한 분포를 공유하는데, 이는 실제 환경에서는 거의 발생하지 않는 조건이다. 다양한 실제 환경에서 완전히 레이블이 없는 비디오를 활용할 잠재력은 아직 크게 탐구되지 않았다.

이를 위해, Fig. 1에서 보여주듯이, 우리는 Video Moment Retrieval Pretraining (Vid-Morp) 이라는 대규모 데이터셋을 소개한다. 이 데이터셋은 50K개 이상의 실제 환경에서 촬영된 untrimmed video로 구성된다. 우리는 **GPT-4o와 같은 멀티모달 대규모 언어 모델(LLM)**을 활용하여 맞춤형 prompt를 생성하고, 이를 통해 비디오 순간 검색을 위해 특별히 설계된 200K개 이상의 pseudo-annotation 학습 샘플을 생성한다. 그러나 이러한 샘플을 생성하는 데 인적 개입이 최소화되었기 때문에, 이를 직접 사전학습하는 것은 상당한 어려움을 야기한다. 이러한 샘플에서 흔히 발생하는 문제로는 의미 있는 활동이 거의 없는 비디오, 일치하지 않는 비디오-쿼리 쌍, 그리고 부정확한 시간적 경계 등이 있다.

이러한 문제들을 해결하기 위해 우리는 Refinement and Correction (ReCorrect) 알고리즘을 제안한다. 이 알고리즘은 **의미 기반 정제(semantics-guided refinement)**와 **메모리 합의 보정(memory-consensus correction)**의 두 가지 주요 단계로 구성된다. 의미 기반 정제 단계에서는 비디오 프레임과 pseudo label 간의 의미론적 유사성(semantic similarity)을 활용하여 유휴 비디오(idle videos) 및 불일치 비디오-쿼리 쌍과 같은 오류 발생 가능성이 있는 학습 샘플을 정제하고, 동시에 시간적 경계를 초기 조정함으로써 pseudo label을 개선한다. 이어지는 메모리 합의 보정 단계에서는 메모리 뱅크(memory bank)가 사전학습 동안 모델의 예측을 지속적으로 추적한다. 이 메모리 뱅크는 메모리 내의 합의(consensus)를 기반으로 pseudo label의 시간적 경계를 점진적으로 보정하는 참조 역할을 한다.

Fig. 1에 나타난 바와 같이, 사전학습된 ReCorrect 모델은 zero-shot inference, 비지도 학습(unsupervised learning), 완전 지도 학습(fully supervised learning) 및 out-of-distribution 시나리오를 포함한 VMR의 다양한 다운스트림 설정에 원활하게 적용될 수 있다. 실험 결과, 비지도 ReCorrect는 Charades-STA [1] 및 ActivityNet Captions [2] 벤치마크 모두에서 state-of-the-art 완전 지도 학습 성능의 약 85%를 달성한다. 그리고 zero-shot ReCorrect는 각각 75%와 80%를 초과한다. 이는 VMR에서 수동 주석에 대한 높은 의존성이라는 중요한 문제를 해결할 Vid-Morp의 잠재력을 강조한다. ReCorrect는 또한 주석 편향 문제 [20], [21]를 효과적으로 완화하며, zero-shot 버전은 두 개의 out-of-distribution 벤치마크에서 이 문제를 위해 맞춤화된 완전 지도 학습 방법들을 능가한다.

Fig. 1: 비디오 순간 검색(VMR)의 중요한 과제는 학습을 위한 광범위한 수동 주석에 대한 높은 의존성이다. 이를 극복하기 위해 우리는 최소한의 인적 개입으로 수집된 대규모 Video Moment Retrieval Pretraining (Vid-Morp) 데이터셋을 소개한다. Vid-Morp는 50K개 이상의 실제 환경 비디오와 200K개의 pseudo 학습 샘플로 구성된다. Vid-Morp로 사전학습된 모델은 주석 비용을 크게 줄이고 다양한 다운스트림 설정에서 강력한 일반화 능력을 보여준다.

우리의 주요 기여는 다음과 같이 요약될 수 있다:

  1. 우리는 Vid-Morp를 소개한다. Vid-Morp는 50K개 이상의 실제 환경 비디오와 비디오 순간 검색 사전학습을 위해 설계된 200K개의 pseudo 학습 샘플을 포함하는 대규모의 다양한 데이터셋이다.
  2. 오류 발생 가능성이 있는 pseudo 학습 샘플 문제를 해결하기 위해 ReCorrect 알고리즘을 제안한다. ReCorrect는 **pseudo label을 정제하고 조정하기 위한 의미 기반 정제(semantics-guided refinement)**와 **메모리 뱅크 내의 합의를 기반으로 시간적 경계를 보정하기 위한 메모리 합의 보정(memory consensus correction)**을 통합한다.
  3. 포괄적인 실험을 통해 ReCorrect가 zero-shot, 비지도 학습, 완전 지도 학습 및 out-of-distribution 시나리오를 포함한 다양한 설정에서 state-of-the-art 성능을 달성함을 입증한다.

완전 지도 학습 기반 비디오 모먼트 검색 (Fully-Supervised Video Moment Retrieval)
완전 지도 학습 기반 Video Moment Retrieval (VMR)의 성능은 딥러닝 기술의 발전 [7-10, 13, 14, 16]과 수동으로 주석된 데이터의 가용성 [1, 2]에 힘입어 향상되었다. 예를 들어, Liu et al. [7]은 시각적 feature의 중요한 부분을 강조하기 위해 attention mechanism을 적용할 것을 제안한다. Bao et al. [16]은 의미적으로 관련되고 시간적으로 조율된 비디오 모먼트를 검색하기 위해 event propagation network를 개발했다. 쿼리 문장의 **구성적 속성(compositional property)**은 [14, 27, 28]에서 시간적 추론(temporal reasoning)에 활용된다. 이러한 완전 지도 학습 방법들은 유망한 성능을 달성하지만, 수동 주석에 의존하며 이는 노동 집약적이고 주관적인 레이블링을 필요로 한다.

비지도 학습 기반 비디오 모먼트 검색 (Unsupervised Video Moment Retrieval)
높은 주석 비용을 없애기 위해, 비디오 이해의 다양한 task [19, 29-32]에서 비지도 학습이 최근 몇 년간 주목을 받고 있다. 일부 최근 연구들 [22-24]은 레이블이 없는 비디오만을 사용하여 비지도 VMR을 연구한다. 예를 들어, Kim et al. [24]은 언어 데이터 없이 VMR 모델을 학습시키기 위한 language-free training algorithm을 제안한다. 그러나 이러한 모델들의 주요 한계점은 기존의 수동으로 주석된 데이터셋에서 얻은 깨끗한 비디오에 의존하기 때문에 수동 큐레이션(manual curation)의 도입이 불가피하다는 점이다. 의미 있는 활동이 없는 유휴 비디오와 같은 노이즈가 많은 데이터를 포함하는 실제 비디오 시나리오를 처리하도록 이러한 모델을 확장하는 것은 여전히 도전 과제이다. 이와 대조적으로, 제안된 ReCorrect는 야생에서 캡처된 레이블 없는 비디오에만 의존하도록 특별히 설계되었다.

비디오 모먼트 검색 사전학습 (Video Moment Retrieval Pretraining)
우리의 연구와 가장 유사한 작업은 **VMR을 위한 feature extraction backbone을 사전학습하는 ProTeGe [33]**이다. 그러나 우리의 연구는 그들과 다르며 상호 보완적이다: 그들의 접근 방식이 feature extraction backbone의 사전학습에 초점을 맞추는 반면, 우리의 연구는 고정된 backbone을 가진 검색 모델의 사전학습을 목표로 한다. 이러한 차이점은 우리 모델이 추가 fine-tuning 없이 zero-shot 설정을 지원하는 반면, 그들의 모델은 그렇지 않다는 사실에 의해 더욱 강조된다.

UniTVG [34]는 다양한 비디오-언어 task를 위한 범용 사전학습 데이터셋을 소개한다. 그러나 그들의 VMR 성능은 VMR에 특화된 다른 zero-shot 접근 방식보다 현저히 낮으며, 측정 지표의 절반 수준에 불과하다 (Table 2 참조). 이는 VMR을 위한 사전학습 데이터셋을 특별히 설계할 필요성을 시사한다.

3 Vid-Morp Dataset

3.1 Overview

Video Moment Retrieval (VMR) [1], [2]은 정제되지 않은(untrimmed) 비디오에서 언어 쿼리에 의해 설명된 비디오 순간을 시간적으로 식별하는 것을 목표로 한다. fully-supervised 방식이 유망한 성능을 달성하고 있지만, 높은 어노테이션 비용은 여전히 VMR의 실제 적용을 제한한다. 최근 연구들 [22]-[24]이 unsupervised 설정을 탐구하고 있지만, 이들은 잘 어노테이션된 데이터셋에서 추출된 깨끗한(clean) 비디오에 계속 의존하고 있다. 이러한 의존성은 수동 개입을 필요로 하여 실제 시나리오에서는 비실용적이다. 다양한 in-the-wild 환경에서 순수하게 레이블이 없는 비디오를 활용할 잠재력은 아직 크게 탐구되지 않았다.

이를 위해, Fig 2에 제시된 바와 같이, 우리는 **최소한의 사람 개입으로 수집된 5만 개 이상의 in-the-wild 비디오와 20만 개 이상의 학습 어노테이션을 포함하는 대규모 데이터셋인 Video Moment Retrieval Pretraining (Vid-Morp)**을 소개한다. Table 1에 요약된 바와 같이, 우리 데이터셋은 이전 데이터셋인 ActivityNet Captions [2]에 비해 비디오 및 쿼리 수가 5배 더 많으며, 다양한 시각 도메인에 걸친 활동을 포함하여 풍부한 의미론적 콘텐츠를 담고 있다.

TABLE 1: Video moment retrieval 데이터셋의 통계. 학습 분할(training split)에서 우리 데이터셋과 다른 데이터셋을 비교하기 위한 관련 지표들이 보고되었다.

Fig. 2: Video Moment Retrieval Pretraining (Vid-Morp) 데이터셋의 비디오 샘플 및 pseudo-annotation(문장 쿼리 및 시간적 경계 포함) 예시. 진한 파란색 상자는 설명된 비디오 순간의 시간적 경계를 나타낸다.

3.2 Dataset Construction

비디오를 수집하기 위해, 우리는 목표 활동 목록을 정의하고 웹 크롤링을 사용하여 최대 tmaxt_{\text {max}} 길이의 비디오를 수집한다. 각 비디오는 nv2fn_{\mathrm{v} 2 \mathrm{f}} 프레임으로 균일하게 샘플링된 후, 단일 이미지로 연결된다. 우리는 **GPT-4o와 같은 multimodal language model (MLLM)**을 사용하여 pseudo label을 생성하는데, 이때 MLLM이 이미지 내용과 일치하는 프레임 인덱스와 함께 설명적인 문장을 생성하도록 지시하는 신중하게 설계된 prompt를 활용한다. 이 프레임 인덱스는 각 비디오 내의 시작 및 종료 타임스탬프에 매핑된다. 이 과정은 검색 키워드 정의 및 prompt 설계에 주로 제한되는 최소한의 수동 개입으로 높은 확장성을 갖도록 설계되었다.

4 ReCorrect Algorithm

야외에서 촬영된 비디오는 본질적으로 불완전하며, MLLM의 라벨링 정확도 한계로 인해 추가적인 노이즈가 발생한다. 이로 인해 Vid-Morp Dataset의 pseudo annotation에는 Fig. 4에서 보여지듯이 광범위한 오류가 존재한다. 이러한 오류는 크게 세 가지 범주로 나뉜다:

  1. 의미 있는 이벤트가 없는 Idle 비디오: 아무런 유효한 이벤트가 포함되지 않은 비디오.
  2. 일치하지 않는 video-query 쌍: pseudo query가 비디오 프레임과 전혀 일치하지 않는 경우.
  3. 부정확한 temporal boundary: query는 비디오와 일치하지만, 시간적 정렬(temporal alignment)이 정확하지 않은 경우.

이러한 오류들은 pseudo training sample에 대한 직접적인 사전학습에 상당한 어려움을 초래한다.

이러한 문제들을 해결하기 위해, Fig. 3에 나타난 바와 같이, 우리는 Refinement and Correction (ReCorrect) 알고리즘을 제안한다. 이 알고리즘은 다음 두 가지 단계로 구성된다:

  1. semantics-guided refinement: 오류가 있는 training sample을 제거하고 temporal boundary를 초기 조정한다.
  2. memory-consensus correction: memory bank가 예측을 추적하여 consensus 기반으로 boundary를 수정한다.

4.1 Pretraining on Vid-Morp

4.1.1 Semantics-Guided Refinement

pseudo query QQ가 untrimmed video의 비디오 모먼트와 정렬되도록 하기 위해, 우리는 **비디오와 문장의 불일치 쌍을 제거하고 pseudo temporal boundary를 조정하기 위한 의미론 기반 정제(semantics guided refinement)**를 제안한다.
먼저, 사전학습된 **CLIP 모델 [35]**을 사용하여 쿼리 feature qqtt-번째 프레임의 visual feature vtv_t를 추출하고, 이들 간의 **의미론적 유사도 sts_t**를 다음과 같이 계산한다:

st=qvtqvt,t=1Ts_{t}=\frac{q^{\top} v_{t}}{\|q\| \cdot\left\|v_{t}\right\|}, \quad t=1 \ldots T

여기서 TT는 비디오의 총 프레임 수이다.
쿼리에 대해 MLLM이 제공하는 pseudo-temporal boundary를 b=(τs,τe)b=(\tau_s, \tau_e)라고 하자. 여기서 τs\tau_sτe\tau_e는 각각 시작 및 종료 시점을 나타낸다.
그런 다음, 우리는 모먼트 contrastive 점수를 계산한다. 이 점수는 비디오 내용이 문장과 얼마나 대조적으로 의미론적 관련성을 가지는지 나타내며, pseudo-temporal 모먼트 내부의 내용과 외부의 내용을 비교한다. 이는 다음과 같이 공식화된다:

Fig. 3: in-the-wild 비디오로부터 비디오 모먼트 검색 사전학습을 위한 Refinement and Correction (ReCorrect) 알고리즘 개요. ReCorrect는 두 가지 핵심 단계로 구성된다:

  1. 의미론 기반 정제(semantics-guided refinement): 의미론적 유사도를 활용하여 의미 없는 비디오(idle videos) 및 불일치 비디오-쿼리 쌍과 같은 노이즈가 있는 pseudo 학습 샘플을 정제하고, 동시에 temporal boundary를 초기 조정한다.
  2. 메모리 합의 보정(memory-consensus correction): 메모리 뱅크가 모델 예측을 추적하고, 메모리 내의 합의(consensus)를 기반으로 temporal boundary를 점진적으로 보정한다.

Fig. 4: 확장 가능하고 수작업 없이 수집된 Vid-Morp 데이터셋은 pseudo 학습 샘플에서 세 가지 일반적인 오류를 보인다:

  1. 의미 있는 활동이 없는 의미 없는 비디오(idle videos),
  2. 쿼리 이벤트가 비디오에 나타나지 않는 불일치 비디오-쿼리 쌍(unmatched video-query pairs),
  3. 비디오-쿼리 매칭은 정확하지만 temporal boundary가 부정확한 정밀하지 않은 temporal boundary.
γ(τs,τe)=t=τsτestt=1τs1st+t=τt+1Tst\gamma\left(\tau_{s}, \tau_{e}\right)=\frac{\sum_{t=\tau_{s}}^{\tau_{e}} s_{t}}{\sum_{t=1}^{\tau_{s}-1} s_{t}+\sum_{t=\tau_{t}+1}^{T} s_{t}}

γ(τs,τe)\gamma(\tau_s, \tau_e) 값이 높다는 것은 pseudo query와 temporal boundary로 정의된 비디오 모먼트 간의 강한 관련성을 나타낸다. 우리는 각 데이터 샘플에 대한 모먼트 contrastive 점수 γ\gamma를 내림차순으로 정렬하고, 하위 RR 퍼센트를 제거하여 나머지 샘플만을 학습 샘플로 선택한다.

이후, 우리는 의미론적 유사도 sts_t를 기반으로 시작 시간 τs\tau_s를 축소하거나 확장하여 pseudo temporal boundary를 조정한다. 구체적으로, 만약 γ(τs,τe)<α1γ(τs,τs)\gamma(\tau_s, \tau_e) < \alpha_1 \cdot \gamma(\tau_s', \tau_s)이면, τs\tau_sδ\delta만큼 축소하여 τs=τsδ\tau_s' = \tau_s - \delta로 업데이트한다. 그렇지 않고 γ(τs,τe)<α2γ(τs,τs)\gamma(\tau_s, \tau_e) < \alpha_2 \cdot \gamma(\tau_s', \tau_s)이면, τs\tau_sδ\delta만큼 확장하여 τs=τs+δ\tau_s' = \tau_s + \delta로 할당한다. 여기서 α1\alpha_1α2\alpha_2는 미리 정의된 하이퍼파라미터이다. 이 과정은 다음과 같이 공식화될 수 있다:

τs={τsδ, if γ(τs,τe)<α1γ(τs,τs)τs+δ, elif γ(τs,τe)<α2γ(τs,τs)\tau_{s}^{\prime}= \begin{cases}\tau_{s}-\delta, & \text { if } \gamma\left(\tau_{s}, \tau_{e}\right)<\alpha_{1} \cdot \gamma\left(\tau_{s}^{\prime}, \tau_{s}\right) \\ \tau_{s}+\delta, & \text { elif } \gamma\left(\tau_{s}, \tau_{e}\right)<\alpha_{2} \cdot \gamma\left(\tau_{s}^{\prime}, \tau_{s}\right)\end{cases}

우리는 τs\tau_s에 더 이상 조정이 없을 때까지 이 과정을 반복한다. 동일한 접근 방식이 종료 시점 τe\tau_e를 정제하기 위해서도 적용된다. 최종적으로 조정된 pseudo-temporal boundary는 b^\hat{b}로 표기된다.

4.1.2 Memory Consensus Correction

비록 pseudo temporal boundary가 의미론적 가이드(semantics guided) 정제를 통해 초기적으로 개선되지만, 여전히 부정확하며 문장 쿼리와 완전히 일치하지 않을 수 있다. 이를 해결하기 위해, 우리는 coarse-to-fine 방식으로 boundary를 보정하는 memory consensus correction 방법을 도입한다. 우리는 memory bank M\mathcal{M}을 유지하여 pseudo temporal boundary의 잠재적 후보들을 저장한다. ii-번째 데이터 샘플의 경우, 해당 memory bank Mi\mathcal{M}_{i}{b^i}\left\{\hat{b}_{i}\right\}로 초기화되며, 여기서 b^i\hat{b}_{i}는 의미론적 가이드 정제에 의해 조정된 temporal boundary를 나타낸다.

우리는 사전학습을 위해 완전 지도 학습 VMR 모델인 SimBase [12]와 동일한 모델 아키텍처를 사용한다. 모델이 jj-번째 epoch에서 ii-번째 데이터 샘플의 문장 쿼리에 대해 UU개의 temporal boundary pijup_{i j}^{u}를 예측한다고 가정하자. 만약 jj-번째 epoch에서 memory bank Mi\mathcal{M}_{i}NjN_{j}개의 인스턴스를 포함하고 있다면, 우리는 rr-번째 memory 인스턴스 mrm_{r}에 대한 **consensus score crc_{r}**를 memory bank 내의 다른 Nj1N_{j}-1개 인스턴스와의 Intersection over Union (IoU)을 합산하여 계산한다:

cr=k=1,krNjσ(mr,mk)c_{r}=\sum_{k=1, k \neq r}^{N_{j}} \sigma\left(m_{r}, m_{k}\right)

여기서 σ\sigma는 IoU 연산자를 나타낸다. 여전히 오류가 발생하기 쉬운 temporal boundary b^i\hat{b}_{i}를 pseudo ground truth로 직접 사용하는 대신, 우리는 consensus score crc_{r}를 사용하여 memory bank에서 가장 신뢰할 수 있는 pseudo ground truth를 결정한다. **가장 높은 consensus를 가진 인스턴스 mrm_{r^{*}}**가 b^i\hat{b}_{i}를 보정하기 위한 pseudo ground truth로 선택되며, 이는 다음과 같다:

r=argmaxr(cr)r^{*}=\operatorname{argmax}_{r}\left(c_{r}\right)

다음으로, 우리는 어떤 예측 pijup_{i j}^{u}를 memory bank Mi\mathcal{M}_{i}에 삽입할지 결정한다. 구체적으로, 우리는 모델이 예측한 confidence score를 사용하고, 가장 높은 confidence score를 가진 uu^{*}를 선택하여 memory bank Mi\mathcal{M}_{i}에 삽입한다:

u=argmaxu(fu),u^{*}=\operatorname{argmax}_{u}\left(\mathrm{f}_{u}\right),

여기서 fu\mathrm{f}_{u}uu-번째 예측에 대한 confidence score이다. 마지막으로, consensus를 가진 memory 인스턴스 mrm_{r^{*}}를 사용하여, 사전학습 손실 함수는 다음과 같이 정의된다:

Lpretrain =λuLSimBase (piju,mr)+(1λ)uLSimBase (piju,b^i),\mathcal{L}_{\text {pretrain }}=\lambda \sum_{u} \mathcal{L}_{\text {SimBase }}\left(p_{i j}^{u}, m_{r^{*}}\right)+(1-\lambda) \sum_{u} \mathcal{L}_{\text {SimBase }}\left(p_{i j}^{u}, \hat{b}_{i}\right),

여기서 λ\lambda는 손실 항들의 균형을 맞추는 하이퍼파라미터이며, LSimBase \mathcal{L}_{\text {SimBase }}는 SimBase [12]에 정의된 손실 함수이다.

4.2 Finetuning on Various Settings

사전학습된 ReCorrect 모델은 zero-shot inference, unsupervised learning, fully-supervised learning과 같은 비디오 모멘트 검색을 위한 타겟 데이터셋의 다양한 다운스트림 설정에 원활하게 적용될 수 있다.

Zero-Shot Setting.
사전학습된 모델은 fine-tuning 없이 타겟 데이터셋에 직접 적용된다. 이는 모델이 타겟 데이터셋의 어떤 비디오나 어노테이션에도 접근하지 않고 동작함을 의미한다.

Unsupervised Setting.
타겟 데이터셋의 레이블 없는 비디오만을 사용하여 사전학습된 모델을 fine-tuning한다. 먼저, Vid-Morp를 따라 이 레이블 없는 비디오에 대한 pseudo annotation을 생성한 다음, ReCorrect 알고리즘을 사용하여 사전학습된 모델을 fine-tuning한다. unsupervised fine-tuning을 위한 손실 함수는 다음과 같이 정의된다:

Lunsup =Lpretrain (punsup ,b^unsup )\mathcal{L}_{\text {unsup }}=\mathcal{L}_{\text {pretrain }}\left(p^{\text {unsup }}, \hat{b}^{\text {unsup }}\right)

여기서 punsupp^{\text {unsup}}는 모델의 예측을 나타내고, b^unsup\hat{b}^{\text {unsup}}ReCorrect에 의해 점진적으로 개선되는 pseudo temporal boundary를 나타낸다.

Fully-Supervised Setting.
사전학습된 ReCorrect 모델을 전체 수동 어노테이션을 사용하여 타겟 데이터셋에 fine-tuning한다. 손실 함수는 fully-supervised 방법인 SimBase [12]에서 사용된 것과 동일하다:

Lfull =LSimBase (pfull ,bfull )\mathcal{L}_{\text {full }}=\mathcal{L}_{\text {SimBase }}\left(p^{\text {full }}, b^{\text {full }}\right)

여기서 pfullp^{\text {full}}는 모델의 예측을 나타내고, bfullb^{\text {full}}는 수동 어노테이션에 해당한다.

5 Experiment

5.1 Datasets and Evaluation Metrics

우리는 제안된 방법들의 성능을 두 가지 대규모 데이터셋인 **Charades-STA [1]**와 **ActivityNet Captions [2]**에서 평가한다. 성능 평가를 위해 **비디오 모먼트 검색(video moment retrieval)의 평가 지표인 'R@m'**을 사용한다. 구체적으로, 검색된 시간적 모먼트(temporal moment)와 ground truth 간의 **IoU(Intersection over Union)**를 계산한다. 이때, 'R@m'은 IoU가 mm보다 큰 경우를 올바른 모먼트 검색 결과로 간주했을 때, 올바른 모먼트 검색 결과를 가진 언어 쿼리의 비율로 정의된다.

5.2 Implementation Details

우리는 사전학습된 CLIP [35] 모델을 사용하여 시각 및 텍스트 feature를 추출한다. 사전학습된 모델의 네트워크 아키텍처는 SimBase [12]와 동일하다. 하이퍼파라미터 **cleaning ratio RR은 40%**로 설정된다. semantics-guided refinement를 위한 프레임 수 TT와 step size δ\delta는 각각 256과 5로 설정된다. 하이퍼파라미터 α1\alpha_1α2\alpha_2는 각각 0.22와 0.92로 구성된다. 우리는 **Adam optimizer [57]**를 사용하여 batch size 256, learning rate 0.0004로 모델을 학습시킨다. 사전학습 epoch 수는 15로 설정된다. loss weight λ\lambda는 0.7로 설정된다. 비디오 moment retrieval 모델의 경우, state-of-the-art fully-supervised 모델인 SimBase [12]와 동일한 네트워크 아키텍처를 채택한다. 네트워크 아키텍처에 대한 자세한 내용은 [12]를 참조하거나, 우리의 구현 코드(https://github.com/baopj/Vid-Morp)를 통해 확인할 수 있다.

5.3 Performance Comparisons

5.3.1 Zero-Shot Inference

이전의 zero-shot video moment retrieval (VMR) 방법들은 크게 세 가지 범주로 나눌 수 있다: i) 이미지-텍스트 코퍼스에서 사전학습된 CLIP 모델을 VMR task에 적용하는 방식 [36, 37]. ii) [38]-[40]과 같은 대규모 video-language model. iii) VTG-GPT [41]를 포함한 VMR을 위한 멀티모달 language model 앙상블.

Table 2의 첫 번째 부분에서 볼 수 있듯이, 우리의 ReCorrect 방법은 이전의 모든 zero-shot 접근 방식들을 명확한 차이로 능가한다. 예를 들어, 이전 최고 모델인 VTG-GPT보다 R@0.7에서 7점, mIoU에서 5점 이상 높은 성능을 두 데이터셋 모두에서 달성했다. Vid-Morp 데이터셋에서 GPT4o의 원본 pseudo label로 직접 사전학습한 GPT4o Pretraining은 두 데이터셋 모두에서 VTG-GPT 및 Lu et al. [37]과 유사한 결과를 얻는다. 그리고 ReCorrect는 GPT4o Pretraining의 성능을 두 데이터셋 모두에서 일관되게 향상시키는데, 이는 pseudo label의 다양한 유형의 오류를 해결하는 것이 매우 중요함을 강조한다.

5.3.2 Fully-Supervised Learning

Table 2의 두 번째 부분은 완전 supervised 설정에서 SimBase [12]에 GPT4o Pretraining과 ReCorrect를 모두 추가하면 성능이 향상됨을 보여준다. 두 방법 모두 SimBase 대비 Charades에서 R@0.5 기준 1.5점 이상, ActivityNet에서 R@0.3 기준 약 1점의 성능 향상을 보인다. GPT4o Pretraining과 비교했을 때, ReCorrect는 Charades에서 R@0.7 기준 약 2점, ActivityNet에서 R@0.3 기준 0.5점의 추가적인 성능 향상을 가져온다. fine-tuning 데이터셋이 각각 12.8K 및 37.4K의 수동 레이블을 제공하기 때문에, ReCorrect와 GPT4o Pretraining 간의 성능 향상 폭은 zero-shot 설정보다 좁다.

5.3.3 Unsupervised Learning

Table 2의 세 번째 부분은 unsupervised learning 설정에서의 성능 비교를 요약한다. "GPT4o Finetuning" 및 "ReCorrect Finetuning" 방법은 Vid-Morp 데이터셋으로 사전학습되지 않고 Charades 또는 ActivityNet 데이터셋으로만 fine-tuning된 모델을 나타낸다. 이들의 사전학습된 버전은 사전학습되지 않은 버전에 비해 약 3점 및 5점의 성능 향상을 보여준다. 주목할 만한 점은 unsupervised ReCorrect 방법이 mIoU 지표에서 fully-supervised SimBase의 전체 성능의 약 85%를 두 데이터셋 모두에서 달성한다는 것이다. unsupervised 방법과 fully-supervised 방법 간의 이러한 근접한 성능 차이는 VMR task에서 수동 어노테이션 요구 사항을 완화할 수 있는 VidMorp 데이터셋의 잠재력을 강조한다.

TABLE 2: zero-shot, fully-supervised, unsupervised 설정에서의 state-of-the-art 방법 성능 비교. 각각 ZS, Full, Unsup으로 표기한다. "Pretrain"은 모델이 video-language 데이터로 사전학습되었는지 여부를 나타낸다. 회색 행은 이전 최고 fully-supervised 방법인 SimBase 대비 ReCorrect의 성능 비율을 나타낸다.

SettingMethodPretrainCharades STAActivityNet Captions
R@0.3R@0.5R@0.7mIoUR@0.3R@0.5R@0.7mIoU
ZSLuo et al. [36]xx56.7742.9320.1337.9248.2827.9011.5732.37
Lu et al. [37]×\times47.7434.6220.1632.9749.2631.4515.2733.25
VideoChat-7B |38\checkmark9.003.301.306.508.803.701.507.20
VideoLLaMA-7B [39]\checkmark10.403.800.907.106.902.100.806.50
VideoChatGPT-7B [40]\checkmark20.007.701.7013.7026.4013.606.1018.90
VTG-GPT [41]\checkmark59.4843.6825.9439.8147.1328.2512.8430.49
UniVTG [34]\checkmark44.0925.2210.0327.12----
GPT4o Pretraining\checkmark61.7745.4623.1041.4349.1528.2813.5233.21
ReCorrect (Ours)\checkmark66.5451.1528.5445.6354.6833.3515.1535.96
Relative to SimBase85.6%76.9%64.8%81.3%85.5%67.6%49.7%76.4%
FullUnLoc |42xx-60.8038.40--48.0030.20-
MESM [43]xx-61.2438.04-----
BAM-DETR [44]×\times72.9359.9539.3852.33----
SimBase |12|×\times77.7766.4844.0156.1563.9849.3530.4847.07
SimBase + GPT4o Pretraining\checkmark78.7968.2044.0956.9664.7249.1830.6747.42
SimBase + ReCorrect (Ours)\checkmark78.5568.3945.7857.4265.1249.4530.7347.59
UnsupGao et al |45|×\times46.6920.148.27-46.1526.3811.64-
PSVL [22×\times46.4731.2914.1731.2444.7430.0814.7429.62
PZVMR |46|×\times46.8333.2118.5132.6245.7331.2617.8430.35
Kim et al. [24]xx52.9537.2419.3336.0547.6132.5915.4231.85
CoroNet |47×\times49.2134.6017.9332.7346.0528.1912.8431.11
SPL |23xx60.7340.7019.6240.4750.2427.2415.0335.44
GPT40 Finetuningxx61.2444.5122.1140.9149.3328.9413.2033.10
ReCorrect Finetuning×\times65.7547.3225.8344.4855.3035.6417.3837.89
ProTeGe [33]\checkmark46.7931.8417.5131.2545.0227.8514.8933.04
GPT4o Finetuning + Pretraining\checkmark65.7249.1025.2144.2250.5830.5614.1334.09
ReCorrect (Ours)\checkmark70.9654.4231.1048.6658.3137.8318.5739.74
Relative to SimBase91.2%81.9%70.7%86.7%91.1%76.7%60.9%84.4%

5.3.4 Comparisons to Existing Pretraining Paradigms

여기서 우리는 ReCorrect를 기존의 사전학습 패러다임인 UniTVG [34] 및 ProTeGe [33]와 비교한다.

UniTVG [34]는 비디오 모먼트 검색(video moment retrieval)을 포함한 여러 비디오-언어 시간 이해(temporal understanding) task를 위한 범용 사전학습 접근 방식을 제시한다. 그러나 Table 2의 첫 번째 부분에서 볼 수 있듯이, UniTVGzero-shot 성능은 Luo et al. [36]과 같은 VMR(Video Moment Retrieval) 특정 접근 방식뿐만 아니라 우리의 ReCorrect보다도 현저히 낮다. 예를 들어, UniTVGLuo et al. [36]의 R@0.7 점수의 절반, ReCorrect의 3분의 1 수준에 불과하며, 이는 VMR에 특화된 사전학습 데이터셋을 설계하는 것의 이점을 강조한다.

ProTeGe [33]는 비디오 모먼트 검색을 위한 feature extraction backbone에 대한 사전학습 패러다임을 소개한다. 이와 대조적으로, ReCorrect는 고정된 backbone을 사용하면서 VMR 모델 자체를 사전학습하는 데 중점을 둔다. 이는 ProTeGe가 지원하지 않는 zero-shot 추론을 우리 모델이 지원할 수 있게 한다. Table 2의 두 번째 부분에 제시된 unsupervised 설정에서 ReCorrect는 ProTeGe에 비해 상당한 이점을 보여준다. 예를 들어, ReCorrect는 Charades에서 R@0.7 점수 78%를 달성하며, 이는 feature extraction backbone만을 사전학습하는 대신 VMR 모델 자체를 사전학습하는 것의 중요성을 강조한다.

5.3.5 Out-of-Distribution Scenarios

Table 3과 4는 세 가지 유형의 out-of-distribution 데이터셋 [20, 21]에 대한 성능 비교를 제시한다: Novel Composition, Novel Word, 그리고 Changing Distribution of temporal boundary.
우리의 ReCorrect 방법은 Novel Composition 및 Novel Word 데이터셋에서 SSL [53]과 VISA [21]를 크게 능가한다.
Changing Distribution 데이터셋, 특히 Charades-CD에서는 ReCorrect가 MomentDETR [56]보다도 우수한 성능을 보인다.
ActivityNet CD에서는 ReCorrect가 MomentDETR와 비슷한 성능을 보이며, R@0.3에서는 5점 우위를 보이지만 R@0.7에서는 2점 열세를 나타낸다.

주목할 점은 DeCo, VISA, SSL과 같은 방법들은 (1) 완전한 supervised 방식이며 (2) 신중하게 설계된 알고리즘을 통해 out-of-distribution 시나리오에 적응하도록 특별히 맞춤화되었다는 것이다.
이와 대조적으로, zero-shot ReCorrect는 fine-tuning이 필요 없으며, 이러한 시나리오를 위한 특정 알고리즘 설계도 없다.
그럼에도 불구하고, zero-shot ReCorrect는 fine-tuning이나 out-of-distribution 시나리오에 대한 특정 알고리즘 수준의 설계 없이도 강력한 성능을 보여준다. 이러한 뛰어난 성능은 Vid-Morp 데이터셋의 규모와 다양성에 기인한다. Vid-Morp는 광범위한 비디오 콘텐츠, 어노테이션, 그리고 어휘를 포함하고 있어 (Table 1 참조), ReCorrect가 다양한 분포 시나리오를 효과적으로 처리할 수 있도록 한다.

TABLE 3: 두 가지 유형의 out-of-distribution 데이터셋 [21]인 Novel Composition과 Novel Words에 대한 성능 비교.

MethodSettingCharades-CGActivityNet-CG
Novel CompositionNovel WordNovel CompositionNovel Word
R@0.5R@0.7mIoUR@0.5R@0.7mIoUR@0.5R@0.7mIoUR@0.5R@0.7mIoU
WSSL [48]Weak3.611.218.262.790.737.922.890.767.653.091.137.10
TSP-PRL [49]16.302.0413.5214.832.6114.0314.741.4312.6118.053.1514.34
TMN [50]8.684.0710.149.434.9611.238.744.3910.089.935.1211.38
2D-TAN [13]30.9112.2329.7529.3613.2128.4722.809.9528.4923.8610.3728.88
LGI [8]29.4212.7330.0926.4812.4727.6223.219.0227.8623.109.0326.95
VLSNet [51]Full24.2511.5431.4325.6010.0730.2120.219.1829.0721.689.9429.58
DeCo [52]47.3921.0640.70---28.6912.9832.67---
VISA [21]45.4122.7142.0342.3520.8840.1831.5116.7335.8530.1415.9035.13
2D-TAN+SSL [53]35.4217.9533.0743.6025.3239.32------
MS-2D-TAN+SSL [53]46.5425.1040.0050.3628.7843.15------
Luo et al. [36]---45.0421.44----24.5710.54-
GPT4o PretrainingZS40.3518.9438.4048.0625.1843.1524.6710.3829.3424.4410.1829.41
ReCorrect (Ours)48.2025.1043.7953.9629.0646.6729.9013.1932.7630.3612.8132.63

TABLE 4: Changing Distribution (CD) of temporal boundaries [20] 데이터셋에 대한 성능 비교.

MethodSettingCharades CDActivityNet CD
R@0.3R@0.5R@0.7R@0.3R@0.5R@0.7
WSSL [48]Weak35.8623.678.2717.007.171.82
TSP-PRL [49]31.9319.376.2029.6116.637.43
ABLR [54]44.6231.5711.3833.4520.8810.03
2D-TAN [13]Full43.4530.7711.7530.8618.389.11
DRN [55]40.4530.4315.9136.8625.1514.33
MomentDETR [56]57.3441.1819.3139.9821.3010.58
GPT4o PretrainingZS60.6840.8414.1240.5723.459.81
ReCorrect (Ours)65.9846.8021.3845.3726.6812.06

Fig. 5: Pretraining 데이터셋 크기의 확장성(Scability).

5.3.6 Qualitative Comparisons

Fig. 7은 zero-shot video moment retrieval에서 GPT-4o 사전학습 모델과 우리의 ReCorrect 알고리즘 간의 정성적 성능 비교를 보여준다. 이 결과는 세 가지 도전적인 시나리오에서 우리의 zero-shot ReCorrect 접근 방식의 강점을 강조한다:

  1. 흑백 영화 장면 및 저조도 시나리오와 같은 다양한 시각적 조건 처리 능력.
  2. 동물 행동 및 수중 장면을 포함한 다양한 활동 유형에서 순간을 효과적으로 검색하는 능력.
  3. 여러 하위 이벤트가 포함되고 시간적 이해를 요구하는 복합적인 이벤트에 대해 정확하게 추론하는 능력.

5.4 Ablation Studies

제안된 ReCorrect 알고리즘의 효과를 평가하기 위해, 우리는 Charades-STA 데이터셋에 대해 ablation study를 수행한다.

Fig. 6: **클리닝 비율(cleaning ratio)**에 대한 ablation study.

5.4.1 Scability of Pretraining Dataset Size

Fig. 5는 사전학습 데이터 샘플 수에 따른 zero-shot 성능을 반대수(semi-logarithmic) 스케일로 보여준다. 우리는 R@m 값(여기서 m=0.3,0.5,0.7m=0.3, 0.5, 0.7)의 평균을 전체 성능으로 평가한다. 사전학습 데이터 크기가 6.3K에서 12.7K로 두 배 증가함에 따라 성능이 선형적으로 증가하는 것이 관찰된다. 이러한 추세는 데이터 크기가 25.3K에서 200.3K로 증가함에 따라 계속되지만, 더 높은 스케일에서는 증가 기울기가 완만해진다. 이러한 결과는 우리의 Vid-Morp 데이터셋이 확장 가능한 성능 향상을 보인다는 것을 입증한다.

5.4.2 Impact of Cleaning Ratio

Vid-Morp 데이터셋은 최소한의 사람 개입으로 수집되었기 때문에, Fig. 4에서 볼 수 있듯이 유휴 비디오(idle videos) 및 **불일치하는 비디오-쿼리 쌍(mismatched video-query pairs)**과 같은 오류를 필연적으로 포함한다. 이를 해결하기 위해 ReCorrect 알고리즘은 의미론 기반 정제(semantics-guided refinement) 단계에서 label-cleaning module을 통합한다. 여기서 cleaning ratio는 필터링되는 데이터 샘플의 비율을 결정한다. Fig. 6은 cleaning ratio가 zero-shot 성능에 미치는 영향을 보여준다. cleaning ratio가 0%에서 30%로 증가함에 따라 pseudo-label 오류가 있는 샘플이 제거되면서 성능이 향상된다. 그러나 cleaning ratio가 50%를 초과하면 성능이 저하된다. 이 곡선은 또한 20%에서 40% 사이의 cleaning ratio가 만족스러운 결과를 제공함을 나타낸다.

  1. 다양한 활동 유형 (Diverse Activity Types)

  2. 복합 이벤트 (Compositional Events)

군중이 나타난 후, 축구 경기가 계속되고 쿼리 팀이 골을 넣자, 팬들의 왼쪽 벽 전체가 열광하며 소란스럽게 위아래로 뛰기 시작한다.

여자가 당구대 위에 누워 있고 남자가 쿼리 공을 쳐서 여자의 팔과 다리에 튀었고, 그들은 공을 치면서 키스도 한다.

Fig. 7: GPT4o 사전학습과 우리의 ReCorrect 알고리즘 간의 zero-shot 추론 정성적 비교. 우리의 zero-shot ReCorrect는 다음을 포함한 비디오 모먼트 검색에서 강력한 능력을 보여준다:

  1. 다양한 시각적 조건: 흑백 영화 세그먼트 및 저조도 시나리오 등.
  2. 다양한 활동 유형: 동물 행동 및 수중 장면 등.
  3. 복합 이벤트: 여러 하위 이벤트로 구성되고 시간적 추론이 필요한 경우. 여기서 "GT"는 ground truth를 나타낸다. 더 어두운 노란색 직사각형은 ground-truth 시간 경계를 나타내고, 더 어두운 파란색 직사각형은 모델의 예측을 나타낸다.

TABLE 5: Zero-shot 추론에 대한 ablation study.

CleanAdjustCorrectR@0.3R@0.5R@0.7mIoU
x\boldsymbol{x}x\boldsymbol{x}x\boldsymbol{x}61.7745.4623.1041.43
\checkmarkx\boldsymbol{x}x\boldsymbol{x}64.9648.0023.8642.94
x\boldsymbol{x}\checkmarkx\boldsymbol{x}65.2748.2825.6344.17
\checkmark\checkmarkx\boldsymbol{x}65.8349.4626.8244.45
\checkmark\checkmark\checkmark66.54\mathbf{6 6 . 5 4}51.15\mathbf{5 1 . 1 5}28.54\mathbf{28 . 5 4}45.63\mathbf{4 5 . 6 3}

5.4.3 Effectiveness of the Proposed Modules

우리의 ReCorrect 알고리즘은 세 가지 주요 모듈로 구성된다:

  1. label cleaning,
  2. semantics-guided refinement 단계에서의 boundary adjustment,
  3. memory consensus correction.

이 모듈들은 pretraining과 unsupervised learning 모두에 활용된다. 이들의 효과를 평가하기 위해 우리는

TABLE 6: Unsupervised learning에 대한 ablation study.

PretrainFinetuneR@0.3R@0.7R@0.7mIoU
CleanAdjustCorrect
×\timesxxxxxx61.2444.5122.1140.91
\checkmark×\times×\times×\times67.5250.7026.2845.37
\checkmark\checkmark×\times×\times68.6251.8927.2746.35
\checkmark\checkmark\checkmark×\times69.5253.2130.1747.61
\checkmark\checkmark\checkmark\checkmark70.9654.4231.1048.66

zero-shot inference와 unsupervised learning 모두에 미치는 영향을 조사한다.

Table 5zero-shot inference 성능에 대한 각 모듈의 효과를 보여주며, 세 가지 주요 모듈은 각각 "Clean", "Adjust", "Correct"로 표기된다. Table 6unsupervised fine-tuning에 대한 이 모듈들의 효과를 추가적으로 연구한다. 이 결과들은 각 모듈이 pretraining과 unsupervised learning 모두에서 성능에 긍정적으로 기여하며, 어떤 모듈이라도 제거하면 성능이 현저하게 감소한다는 것을 일관되게 보여준다.

6 Conclusion

본 논문은 Video Moment Retrieval Pretraining을 위한 대규모 데이터셋인 Vid-Morp를 소개한다. 이 데이터셋은 최소한의 수동 개입으로 수집되었다. Vid-Morp의 pseudo label에 존재하는 세 가지 유형의 오류를 해결하기 위해, 우리는 Refinement and Correction (ReCorrect) 알고리즘을 제안한다. 이 알고리즘은 다음 두 가지로 구성된다:

  1. semantics-guided refinement: 쌍이 맞지 않는(unpaired) 데이터를 필터링하고 temporal boundary를 조정한다.
  2. memory-consensus correction: memory bank가 예측을 추적하여 consensus 기반으로 boundary를 수정한다. 우리의 실험은 다양한 학습 설정에서 ReCorrect의 효과를 입증하며, 강력한 일반화 능력을 보여준다.