AVIGATE: Audio-guided Video Representation Learning with Gated Attention for Video-Text Retrieval
AVIGATE는 비디오-텍스트 검색을 위한 새로운 프레임워크로, gated attention 메커니즘을 통해 오디오 신호의 유용성을 동적으로 판단하고 비디오 표현을 향상시킵니다. 이 접근 방식은 정보가 없는 오디오를 필터링하고 adaptive margin-based contrastive loss를 사용하여 비디오-텍스트 정렬을 개선합니다.
Jeong, Boseung, et al. "Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval." Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
Boseung Jeong Jicheol Park Sungyeon Kim Suha Kwak <br> Dept. of CSE, POSTECH Graduate School of AI, POSTECH<br>{boseung01, jicheol, sungyeon.kim, suha.kwak}@postech.ac.kr<br>http://cvlab.postech.ac.kr/research/AVIGATE
Abstract
텍스트 쿼리를 기반으로 비디오를 검색하거나 그 반대로 수행하는 Video-text retrieval은 비디오 이해 및 멀티모달 정보 검색에 있어 매우 중요합니다. 이 분야의 최신 방법들은 주로 시각적 및 텍스트적 특징에 의존하며, 비디오 콘텐츠의 전반적인 이해를 돕는 오디오를 종종 무시합니다. 더욱이, 오디오를 통합하는 기존 모델들은 오디오 입력이 유용한지 여부와 관계없이 맹목적으로 오디오를 활용하여 최적화되지 않은 비디오 표현을 초래합니다. 이러한 한계를 해결하기 위해, 저희는 정보가 부족한 오디오 신호를 선택적으로 필터링하는 gated attention 메커니즘을 통해 오디오 단서를 효과적으로 활용하는 새로운 Video-text retrieval 프레임워크인 Audio-guided VIdeo representation learning with GATEd attention (AVIGATE)을 제안합니다. 또한, 비디오와 텍스트 간의 본질적으로 불분명한 긍정-부정 관계를 다루기 위해 adaptive margin-based contrastive loss를 제안하며, 이는 더 나은 Video-text alignment 학습을 촉진합니다. 저희의 광범위한 실험은 AVIGATE가 모든 공개 벤치마크에서 SOTA 성능을 달성함을 보여줍니다.
1. Introduction
텍스트 쿼리에 해당하는 비디오를 찾거나 그 반대로 수행하는 Video-text retrieval은 비디오 이해 및 멀티모달 정보 검색의 다양한 응용 분야로 인해 상당한 관심을 얻고 있습니다. 이 분야의 대부분의 기존 방법들은 주로 비디오의 시각 정보와 동반 메타데이터 또는 캡션의 텍스트 정보 활용에 초점을 맞췄습니다 [6,9,10,14,21,24,25,26,34]. 이러한 방법들이 Video-text retrieval을 크게 발전시켰지만, 여전히 중요한 한계를 가지고 있습니다. 즉, 화자 식별, 배경 소음 또는 감정적 뉘앙스와 같이 포괄적인 비디오 이해에 필수적인 '보이지 않지만 들리는' 단서를 제공하는 비디오의 오디오 정보를 간과한다는 것입니다. 비디오 표현 학습에서 오디오 정보를 활용하는 것은 그림 1(a)에 나타난 바와 같이 비디오의 더 풍부한 멀티모달 표현을 제공함으로써 검색 성능을 크게 향상시킬 잠재력을 가집니다.
그림 1. 시각 전용, 오디오-비디오 융합 및 제안된 gated fusion 접근 방식 사용의 비교 그림. (a) 오디오 신호가 가치 있는 정보를 제공하는 경우, 오디오-비디오 융합 및 저희의 gated fusion은 높은 유사도 점수를 달성합니다. (b) 오디오 신호가 오도하는 경우, 전통적인 융합 방법은 성능을 저하시킵니다. 대조적으로, 저희의 gated fusion 메커니즘은 관련 없는 오디오 단서를 성공적으로 필터링하여 시각 전용 경우와 같이 높은 유사도 점수를 유지합니다.
그럼에도 불구하고, 최근 몇몇 연구 [15, 22]만이 Video-text retrieval 작업에서 오디오 정보 사용을 탐구했습니다. ECLIPSE [22]는 cross-modal attention 메커니즘을 사용하여 오디오와 시각적 양식을 융합하여 통합된 표현을 생성합니다. 반면에 TEFAL [15]은 오디오 및 텍스트 양식뿐만 아니라 시각 및 텍스트 양식에 대한 cross-attention 메커니즘을 기반으로 텍스트 조건부 특징 정렬을 제안합니다. 이러한 방법들은 일반적으로 오디오가 비디오 표현을 향상시키는 데 긍정적으로 기여한다고 가정하지만, 항상 그런 것은 아닙니다. 관련 없는 오디오가 시각 정보와 함께 처리될 때(예: 관련 없는 배경 음악 및 노이즈), 비디오 표현을 손상시키고 cross-modal alignment에 부정적인 영향을 미칠 수 있으며, 이는 그림 1(b)에 나타나 있습니다. ECLIPSE와 TEFAL은 이 문제를 다루지 않고 오디오 양식을 맹목적으로 활용합니다. 더욱이, TEFAL은 비디오(및 오디오)와 텍스트 설명이 함께 처리되어 비디오 프레임과 오디오의 표현을 생성해야 하므로 새로운 쿼리를 받을 때마다 전체 데이터베이스를 다시 처리해야 하므로 검색 시스템에 상당한 계산 요구 사항을 도입합니다.
이러한 문제들을 해결하기 위해, 저희는 오디오 입력이 유용한지 동적으로 판단하고 비디오(오디오 포함)와 텍스트 설명을 독립적으로 처리하여 효율적인 검색을 가능하게 하는 새로운 프레임워크인 Audio-guided VIdeo representation learning with GATEd attention (AVIGATE)을 소개합니다. AVIGATE의 전체 아키텍처는 그림 2에 나와 있습니다. AVIGATE는 각 양식에 대한 세 가지 인코더를 기반으로 구축됩니다: 오디오 입력용 Audio Spectrogram Transformer (AST) [13]와 시각 입력용 CLIP encoder [28], 그리고 텍스트 입력용 CLIP encoder [28]. 이 모델은 AST를 사용하여 오디오를 인코딩하여 밀집된 오디오 임베딩을 생성하는 것으로 시작합니다. 이 임베딩은 오디오 resampler에 의해 처리되어 풍부한 오디오 정보를 보존하면서 고정된 수의 임베딩으로 재샘플링하여 중복성을 줄입니다. 비디오는 CLIP image encoder에 의해 제공된 프레임 임베딩으로 표현되며, 텍스트는 CLIP text encoder에 의해 인코딩됩니다.
오디오 및 프레임 임베딩은 gated fusion Transformer에 의해 융합됩니다. 이 모듈은 각 양식의 영향을 조절하는 adaptive gating function을 사용하여 오디오 및 프레임 임베딩을 통합합니다. 구체적으로, gate function은 오디오 임베딩의 기여도를 동적으로 결정하여 Transformer가 관련성이 있을 때 보완적인 오디오 정보를 활용하고 잠재적으로 노이즈가 많은 오디오의 영향을 최소화하여 프레임 임베딩을 유지할 수 있도록 합니다. gated fusion Transformer의 출력, 즉 최종 비디오 표현은 텍스트 임베딩과 정렬됩니다.
Video-text alignment의 판별 능력을 향상시키기 위해, 저희는 각 negative pair에 대한 추가적인 margin을 통합하여 기존의 contrastive loss [27, 31]를 확장한 adaptive margin-based contrastive learning 접근 방식을 제안합니다. margin은 텍스트 및 시각 양식 내의 intra-modal dissimilarity를 기반으로 결정되어 의미론적으로 유사한 쌍들 간의 내재된 관계를 암묵적으로 탐색할 수 있도록 합니다. 제안된 loss에서 사용되는 비디오 표현과 텍스트 임베딩 간의 입력 유사도 점수는 전체적인 의미론적 맥락과 미세한 세부 사항을 모두 캡처할 수 있는 multi-grained alignment scheme [9, 21, 26, 34]을 통해 계산됩니다. 결과적으로, multi-grained alignment scheme과 함께 제안된 loss는 더 판별적이고 일반화 가능한 cross-modal embedding space 학습을 장려하여 더 나은 Video-text alignment를 유도합니다. 저희의 방법은 두 개의 공개 벤치마크 [33, 35]에서 평가되고 이전 작업과 비교되었으며, 모든 기존 방법보다 뛰어난 성능을 달성하면서 효율적인 검색을 가능하게 했습니다. 본 논문의 주요 기여는 세 가지입니다:
- 저희는 오디오 및 시각 정보를 융합하면서 오디오가 가치 있는지 동적으로 판단하는 효과적인 오디오-비디오 융합 프레임워크인 AVIGATE를 제안합니다.
- 저희는 의미론적으로 유사한 쌍들 간의 내재된 관계를 고려하여 cross-modal embedding space가 더 판별적이고 더 잘 일반화되도록 하는 새로운 adaptive margin-based contrastive loss를 제안합니다.
- 저희의 방법은 Video-text retrieval을 위한 세 가지 공개 벤치마크에서 최고의 성능을 달성하며 테스트 중 높은 검색 효율성을 보장합니다.
2. Related Work
2.1. Video-Text Retrieval
Video-text retrieval은 주어진 텍스트 쿼리에 가장 의미론적으로 관련 있는 비디오를 검색하는 것을 목표로 하는 vision-language 도메인의 근본적인 주제입니다. 이 분야의 초기 작업은 cross-modal alignment를 위해 주로 밀집된 융합 메커니즘을 사용하여 양식 간의 특징을 긴밀하게 통합하는 것을 목표로 했습니다 [36, 37]. 그러나 대규모 텍스트-비디오 데이터셋의 도입과 함께, 최근 접근 방식은 모델이 비디오 및 텍스트 특징을 공동으로 학습할 수 있도록 하는 end-to-end pre-training 전략으로 전환되었습니다.
이러한 발전을 더욱 촉진하기 위해, ClipBERT [20] 및 Frozen [2]과 같은 주목할만한 방법들은 희소 샘플링 및 curriculum learning과 같은 효율적인 훈련 기술을 제안하여 대규모 데이터셋 처리의 실현 가능성을 높였습니다. 또한, 최근 방법들은 CLIP [28]과 같이 대규모 이미지-텍스트 쌍으로 pre-trained된 모델을 활용하여 강력한 시각-텍스트 정렬 기능의 이점을 얻고 있습니다. CLIP4Clip [25]은 CLIP의 pre-trained 특징 공간 내에서 프레임 수준 정렬을 적용하여 비디오 검색 성능을 크게 향상시킵니다.
CLIP4Clip을 확장하여, 최근 연구들은 시각 및 텍스트 양식 간의 정밀한 정렬을 달성하는 데 중점을 둡니다. X-Pool [14]은 텍스트 조건부 비디오 표현을 추출하기 위해 텍스트와 비디오 프레임 간의 cross-attention 가중치를 계산하며, 여기서 비디오 인코딩 프로세스는 두 양식 데이터를 모두 포함해야 하므로 상당한 계산 비용이 발생합니다. 한편, 일련의 연구 [9, 21, 26, 34]는 더 정확한 검색을 달성하기 위해 multi-grained alignment scheme을 탐구하고 활용했습니다. UCOFiA [34]는 patch-word, frame-sentence 및 video-sentence 수준에서 계층적 정렬 전략을 사용합니다. tokenwise word-frame 매칭으로 시작하는 UATVR [9]은 양식별 분포를 모델링하는 분포 매칭 방법을 도입하여 Video-text pair의 의미론적 불확실성을 해결하여 더 강력하고 adaptive한 매칭을 가능하게 합니다. 이러한 정신에 따라, 저희의 방법은 CLIP4Clip의 원리를 기반으로 구축되었으며, multi-grained alignment scheme을 naive한 방식으로 활용합니다.
2.2. Audio-Enhanced Video-Text Retrieval
Video-text retrieval이 크게 발전했음에도 불구하고, 비디오 콘텐츠에서 쉽게 사용할 수 있지만 종종 간과되는 오디오를 통합함으로써 개선의 여지가 남아 있습니다. Liu et al., [23]의 초기 연구는 오디오 전문가의 pre-trained 표현을 다른 양식의 표현과 통합하여 Video-text retrieval에 오디오 정보를 사용합니다.
최근 연구들은 오디오를 다른 양식과 융합하는 표현 학습에 초점을 맞추고 있습니다. ECLIPSE [22]는 오디오-가이드 비디오 표현을 생성하기 위해 오디오와 비디오 간의 cross-attention을 사용하는 융합 방법을 도입합니다. 반면에 TEFAL [15]은 텍스트-가이드 오디오 및 비디오 표현을 생성하기 위해 텍스트와 오디오 간, 그리고 텍스트와 비디오 간에 cross-attention을 적용합니다. 이 과정은 큰 계산 비용 부담을 요구하여 효율적인 검색을 방해합니다.
더 나아가, 이전의 융합 방법들은 배경 소음과 같은 관련 없는 오디오를 처리하지 못하여 비디오 표현을 저하시키고 cross-modal alignment를 방해하는 한계를 가집니다. 이러한 문제들을 해결하기 위해, 저희는 오디오 입력의 관련성을 동적으로 평가하고 비디오 및 텍스트 설명을 독립적으로 처리하여 효율적인 검색 시스템을 가능하게 하는 새로운 융합 방법을 제시합니다.
3. Proposed Method
이 섹션에서는 저희의 Video-text retrieval 프레임워크인 AVIGATE에 대한 세부 정보를 제시합니다. AVIGATE의 전체 아키텍처는 그림 2에 나와 있습니다. 먼저 3.1절에서 각 양식에 대한 임베딩 추출 과정을 설명하고, 3.2절에서 gated fusion Transformer에 대해 자세히 설명합니다. 마지막으로, 3.3절에서 adaptive margin-based contrastive learning 전략을 소개합니다.
3.1. Embedding Extraction
AVIGATE는 각 양식을 처리하기 위해 세 가지 pre-trained encoder를 사용합니다: 비디오 프레임 및 텍스트 설명 각각에 대한 두 CLIP encoder [28]와 오디오 신호에 대한 Audio Spectrogram Transformer (AST) [13]. 프레임 임베딩: 저희는 pre-trained CLIP image encoder [28]를 활용하여 각 비디오의 프레임 임베딩을 추출합니다. 입력 비디오 가 주어지면, 개의 프레임이 먼저 균일하게 샘플링되어 으로 표시됩니다. 각 프레임은 겹치지 않는 patch로 나뉘고, 이 patch들은 선형 투영을 사용하여 변환됩니다. [CLS] token이 이 patch 시퀀스 앞에 붙여지고, 결합된 시퀀스는 CLIP image encoder로 공급됩니다. [CLS] token에 해당하는 출력이 프레임 임베딩으로 취해집니다. 마지막으로, 이러한 프레임 임베딩은 연결되어 프레임 임베딩 시퀀스 를 형성하며, 여기서 는 임베딩의 차원을 나타냅니다. 텍스트 임베딩: 텍스트 임베딩 추출은 프레임 임베딩 추출과 마찬가지로 CLIP text encoder [28]에 의해 수행됩니다. 텍스트 입력 가 주어지면, 텍스트의 모든 단어는 토큰화되어 문장의 시작과 끝을 나타내는 특수 토큰 [SOS] 및 [EOS]로 둘러싸입니다. 이 전체 시퀀스는 CLIP text encoder를 통과합니다. 그러면 [EOS] token에 해당하는 출력이 텍스트 임베딩 으로 간주되어 입력 텍스트의 전체 의미를 포착합니다. 오디오 임베딩: 저희는 이전 연구 [13, 15]를 따라 AST [13]를 오디오 인코더로 사용합니다. 비디오 에서 오는 오디오 입력 는 먼저 Melspectrogram으로 변환되어 시간 및 주파수 전반의 주요 오디오 특징을 포착합니다. AST는 Transformer layer를 사용하여 이 스펙트로그램을 개의 patch 시퀀스로 처리하여 상세한 오디오 임베딩 세트를 생성합니다. 그러나 오디오 신호는 비디오 프레임에 비해 훨씬 더 밀집하게 샘플링되므로, 모든 개의 오디오 임베딩을 프레임 임베딩과 직접 융합하는 것은 계산 비용이 많이 들 것입니다. 이를 해결하기 위해, 저희는 개의 학습 가능한 query embeddings와 cross-attention 메커니즘을 사용하는 추가적인 query-based Transformer (즉, 오디오 resampler) [1,4,16]를 사용합니다. 이 설계는 오디오 임베딩 수를 고정 길이 로 줄여 필수 오디오 정보를 유지하면서 시각 양식과의 후속 융합을 위한 계산 부하를 크게 줄입니다. 저희는 훈련 중에 pre-trained AST 매개변수를 고정하여 fine-tuning의 높은 계산 비용을 피합니다. 아키텍처 세부 정보는 보충 자료에 제공됩니다.
3.2. Gated Fusion Transformer
오디오 임베딩 와 프레임 임베딩 를 효과적으로 융합하기 위해, gated fusion Transformer는 오디오의 비디오 관련성을 기반으로 오디오의 기여도를 동적으로 조정하도록 설계되었습니다. 이 Transformer는 비디오 표현에 대한 오디오 특징의 영향을 조절하는 gating scores를 사용하여 adaptive fusion을 달성하며, 관련 없는 오디오 신호의 영향을 줄여 시각 콘텐츠의 무결성을 보존합니다.
gated fusion Transformer는 개의 레이어로 구성되며, 각 레이어는 융합 프로세스를 제어하기 위해 gating scores를 적용하는 gated fusion block을 포함합니다. 각 블록 내에서 Multi-Head Attention (MHA)과 Feed-Forward Network (FFN)가 오디오 및 프레임 임베딩을 혼합하며, adaptive gating function은 그 영향력을 조절하기 위한 점수( 및 )를 제공합니다. 이러한 gating scores는 오디오 임베딩의 기여도를 제어하여 Transformer가 관련성이 있을 때 보완적인 오디오 단서를 활용하고 잠재적으로 노이즈가 많은 오디오의 영향을 최소화할 수 있도록 합니다. 이어서 Multi-Head Self-Attention (MHSA)과 Feed-Forward가 적용됩니다.
그림 2. (왼쪽) AVIGATE의 전체 아키텍처. 오디오 입력은 Audio Spectrogram Transformer (AST)를 통해 처리되고 오디오 resampler에 의해 추가로 정제되어 고정 크기 오디오 임베딩을 생성합니다. 프레임 임베딩은 CLIP Image Encoder를 사용하여 비디오에서 파생되며, 텍스트 임베딩은 CLIP Text Encoder에 의해 추출됩니다. 이 오디오 및 프레임 임베딩은 gated fusion Transformer에 의해 융합되며, 이는 오디오의 기여도를 동적으로 결정합니다. 최종 비디오 표현은 multi-grained alignment scheme을 사용하여 텍스트 임베딩과 정렬되어 효과적인 Video-text retrieval 프로세스를 촉진합니다. (오른쪽) gated fusion Transformer는 gated fusion block과 gating function으로 구성됩니다.
표현을 정제하기 위한 네트워크(FFN). gating scores가 높으면 오디오 단서가 강조되어 보완적인 오디오 세부 정보를 캡처하여 표현을 향상시킵니다. 반대로, 낮은 gating scores는 관련 없는 오디오 간섭에 대한 시각 콘텐츠의 견고성을 우선시합니다. 이러한 선택적 융합은 보다 상황에 민감하고 판별적인 비디오 표현으로 이어지며, 이는 Video-text retrieval 성능을 향상시킵니다. 다음에서는 gated fusion Transformer의 두 가지 핵심 구성 요소인 gated fusion block과 gating function의 아키텍처 세부 정보를 제공합니다.
3.2.1 Gated Fusion Block
gated fusion block은 오디오 임베딩 와 프레임 임베딩 를 입력으로 받아 융합 프로세스 다음에 정제 프로세스를 거쳐 비디오 표현을 출력합니다. 특히, 개의 레이어 시리즈를 통해 프레임 임베딩 는 오디오 임베딩 와의 cross-modal 상호 작용을 캡처하여 정제된 로 진화하며, 여기서 CLIP image encoder에서 직접 나온 는 초기 입력 으로 간주됩니다. 정제된 은 최종 비디오 표현 으로 사용됩니다.
융합 과정에서, 은 residual connection을 가진 MHA에 의해 와 융합됩니다. 출력은 gating function (3.2.2절)에 의해 생성된 gating score 에 의해 조절되어 융합에서 오디오 임베딩의 기여도를 결정합니다. 그런 다음, 출력은 residual connection을 가진 FFN에 공급되며, 이 또한 gating score 에 의해 조절되어 gating 메커니즘을 기반으로 한 선택적 강화를 보장합니다. 융합 과정은 다음과 같이 공식화됩니다.
여기서 LN은 layer normalization을 나타냅니다. MHA는 -head attention 연산을 포함합니다. 이는 다음과 같이 공식화됩니다.
여기서 는 연결을 나타내고, 는 으로 설정됩니다. 및 는 선형 투영 행렬입니다.
융합된 표현 은 전체 비디오 표현을 향상시키기 위해 정제 과정을 거칩니다. 특히, 은 residual connection을 가진 Multi-Head Self-Attention (MHSA) 모듈에 공급됩니다. 그런 다음, 두 번째 FFN은 residual connection과 함께 MHSA의 출력에 적용되어 정제된 프레임 임베딩 을 생성합니다. 정제 과정은 다음과 같이 공식화됩니다.
MHA와 유사하게, MHSA는 -head self-attention 연산을 포함하며, 여기서 입니다.
3.2.2 Gating Function
각 레이어 에서 gating function 은 gated fusion block에서 MHA와 의 출력을 조절하는 두 가지 gating scores, 및 를 생성합니다. 이를 위해 오디오 임베딩 와 프레임 임베딩 은 먼저 평균 풀링을 사용하여 집계되어 각각 및 가 됩니다. 이러한 집계된 임베딩은 이어서 결합된 표현 을 형성하도록 연결됩니다. 결합된 임베딩 은 MHA 및 의 출력에 대한 gating scores를 계산하기 위해 비선형 함수가 뒤따르는 두 개의 개별 Multi-Layer Perceptron (MLP)을 통과합니다. gating function 은 다음과 같이 공식화됩니다.
여기서 는 비선형 함수(즉, )입니다.
3.3. Adaptive Margin-based Contrastive Learning
gated fusion Transformer의 출력인 비디오 표현 은 텍스트 임베딩 와 정렬됩니다. 이 Video-text alignment는 일반적으로 cross-modal contrastive learning [14, 25, 26, 28]에 의해 달성되며, 이는 positive pair의 유사도 점수(예: cosine similarity)를 최대화하고 negative pair의 유사도 점수를 최소화합니다.
contrastive learning의 판별 능력을 더욱 향상시키기 위해, 저희는 intra-modal semantic similarity에 따라 각 negative pair에 대한 margin을 동적으로 조정하는 adaptive margin-based contrastive loss를 도입합니다. 저희 방법의 핵심 아이디어는 각 시각 및 텍스트 양식 내의 의미론적 관계가 적절한 margin을 결정하기 위한 암묵적인 단서를 제공한다는 것입니다. 예를 들어, 두 비디오가 시각적으로 유사하거나 두 텍스트가 높은 텍스트 유사성을 갖는 경우, 그들의 cross-modal 대응물 또한 어느 정도의 의미론적 관련성을 가질 가능성이 높습니다. 모든 negative pair에 동일한 margin을 적용하는 fixed-margin contrastive loss [8, 17, 18]와 달리, 저희 방법은 negative pair 간의 다양한 의미론적 유사도 정도를 고려합니다. 이러한 적응성은 모델이 의미론적으로 유사한 쌍들 간의 내재된 관계를 고려하여 강력한 일반화를 유지하면서 판별적 특징을 학습할 수 있도록 합니다.
이러한 특성을 따라, 개의 비디오-텍스트 쌍 를 가진 배치에서, 저희는 각 negative pair ()에 대한 adaptive margin 를 시각 및 텍스트 양식 모두에서 intra-modal similarity의 평균에 따라 정의합니다. 우선, 프레임 임베딩 는 평균 풀링되어 시각 양식의 전체 임베딩인 를 얻습니다. 는 와 간의 cosine similarity를 나타내고, 는 와 간의 cosine similarity를 나타냅니다. adaptive margin은 다음과 같이 얻어집니다.
여기서 는 스케일링 인자이고, 는 과도하게 큰 margin을 방지하기 위한 최대 margin입니다. 연산은 margin이 를 초과하지 않도록 보장합니다. adaptive margin 는 contrastive loss 함수에서 negative pair의 유사도 점수에 다음과 같이 추가됩니다.
contrastive loss에 adaptive margin을 통합함으로써, 저희 방법은 내재된 intra-modality 관계를 고려하는 더 판별적이고 일반화 가능한 cross-modal embedding space를 촉진하여 검색 성능을 향상시킵니다.
유사도 점수를 계산하기 위해 단순히 cosine similarity를 활용하는 대신, 비디오 및 텍스트 표현 간의 전역적 및 지역적 관계를 모두 캡처하는 향상된 방법을 사용합니다. 이 조합은 보완적인 정보를 캡처하여 이전 연구 [9, 21, 26, 34]에서 관찰된 바와 같이 검색 성능을 향상시킵니다. 먼저, 전역적 정렬을 위해, 최종 비디오 임베딩 에 평균 풀링을 적용하여 포괄적인 비디오 표현을 도출합니다. 여기서 은 프레임 세그먼트의 수를 나타냅니다. 이 풀링된 표현 은 비디오의 전체 내용을 캡처합니다. 비디오의 전역 표현 와 텍스트 임베딩 간의 비디오-텍스트 유사도 점수 는 다음과 같이 계산됩니다.
다음으로, 지역적 정렬을 위해 각 프레임 세그먼트 임베딩 를 텍스트 임베딩 와 매칭하여 프레임-텍스트 유사도 를 계산합니다. 이러한 프레임-텍스트 유사도는 log-sum-exp (LSE) 함수를 사용하여 집계됩니다.
여기서 는 최대 연산의 부드러움을 제어하는 스케일링 매개변수입니다. 전역적 및 지역적 관점을 모두 결합한 최종 유사도 점수 는 와 을 평균하여 계산됩니다.
최종 유사도 점수 는 식 (6)의 adaptive margin-based contrastive loss에 활용됩니다. 이 multi-grained alignment scheme은 모델이 전체적인 세부 사항과 미세한 세부 사항을 모두 캡처할 수 있도록 하여 Video-text retrieval 정확도를 향상시킵니다.
Methods | Modality | Text-to-Video Retrieval | Video-to-Text Retrieval | RSum | ||||
---|---|---|---|---|---|---|---|---|
R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | |||
CLIP ViT-B/32 | ||||||||
CLIP4Clip [25] | V+T | 43.1 | 70.4 | 80.8 | 43.1 | 70.5 | 81.2 | 389.1 |
CLIP4Clip [25] | V+T | 44.5 | 71.4 | 81.6 | 42.7 | 70.9 | 80.6 | 391.7 |
ECLIPSE [22] | A+V+T | 44.9 | 71.3 | 81.6 | 44.7 | 71.9 | 82.8 | 397.2 |
X-Pool [14] | V+T | 46.9 | 72.8 | 82.2 | 44.4 | 73.3 | 84.0 | 403.6 |
TS2-Net [24] | V+T | 47.0 | 74.5 | 83.8 | 45.3 | 74.1 | 83.7 | 408.4 |
UATVR [9] | V+T | 47.5 | 73.9 | 83.5 | 46.9 | 73.8 | 83.8 | 409.4 |
ProST [21] | V+T | 48.2 | 74.6 | 83.4 | 46.3 | 74.2 | 83.2 | 409.9 |
[34] | V+T | 49.4 | 72.1 | 83.5 | 47.1 | 74.3 | 83.0 | 409.4 |
TEFAL [15] | A+V+T | 49.4 | 75.9 | 83.9 | 47.1 | 75.1 | 84.9 | 416.3 |
AVIGATE (Ours) | A+V+T | 50.2 | 74.3 | 83.2 | 49.7 | 75.3 | 83.7 | 416.4 |
CLIP ViT-B/16 | ||||||||
X-Pool [14] | V+T | 48.2 | 73.7 | 82.6 | 46.4 | 73.9 | 84.1 | 408.9 |
TS2-Net [24] | V+T | 49.4 | 75.6 | 85.3 | 46.6 | 75.9 | 84.9 | 417.7 |
ProST [21] | V+T | 49.5 | 75.0 | 84.0 | 48.0 | 75.9 | 85.2 | 417.6 |
[34] | V+T | 49.8 | 74.6 | 83.5 | 49.1 | 77.0 | 83.8 | 417.8 |
TEFAL [15] | A+V+T | 49.9 | 76.2 | 84.4 | - | - | - | - |
UATVR [9] | V+T | 50.8 | 76.3 | 85.5 | 48.1 | 76.3 | 85.4 | 422.4 |
AVIGATE (Ours) | A+V+T | 52.1 | 76.4 | 85.2 | 51.2 | 77.9 | 86.2 | 429.0 |
표 1. MSR-VTT 9k split에서의 Text-to-Video 및 Video-to-Text retrieval 결과. 는 후처리 기법 사용을 나타냅니다.
4. Experiments
이 섹션에서는 제안된 프레임워크인 AVIGATE에 대한 포괄적인 평가를 제시합니다. 먼저 4.1절에서 데이터셋, 평가 지표 및 구현 세부 사항을 포함한 실험 설정을 설명합니다. 그런 다음 4.2절에서 SOTA 방법과 비교하여 AVIGATE의 효율성을 보여주는 정량적 결과를 제공합니다. 다음으로 4.3절에서 AVIGATE의 정성적 결과를 포함합니다. 또한 4.4절에서 AVIGATE 구성 요소의 영향을 분석하기 위한 ablation study를 수행합니다. 마지막으로 4.5절에서 계산 비용 분석을 통해 이전 연구와 비교하여 AVIGATE의 효율성을 보여줍니다.
4.1. Experimental Setup
데이터셋: MSR-VTT [35], VATEX [33] 및 Charades [29]의 세 가지 공개 벤치마크에서 저희 방법의 성능을 이전 방법들과 비교 평가합니다. Video-text retrieval에 가장 일반적인 데이터셋인 MSR-VTT는 웹에서 수집된 10,000개의 비디오를 포함하며, 오디오 신호도 포함됩니다. 각 비디오는 10초에서 32초 길이이며 20개의 해당 텍스트 설명이 있습니다. [11, 25]의 데이터 분할에 따라, 저희는 9,000개의 비디오(180,000개의 Video-text pair)에서 AVIGATE를 훈련하고 1,000개의 선택된 Video-text pair에서 평가합니다. 10,000개의 비디오 중 9,582개는 오디오를 포함하며, 저희는 이를 저희 방법에서 활용합니다. VATEX는 각 비디오에 대한 여러 텍스트 설명을 포함하는 34,991개의 비디오를 포함합니다. 저희는 [5]의 분할 프로토콜을 따르며, 훈련에 25,991개의 비디오, 검증에 1,500개의 비디오, 테스트에 1,500개의 비디오를 각각 사용합니다. Charades는 9,848개의 비디오로 구성되며, 각 비디오는 단일 텍스트 설명과 쌍을 이룹니다. 저희는 [15, 22]의 분할 프로토콜을 따릅니다. 평가 지표: 저희는 Text-to-Video 및 Video-to-Text retrieval 작업 모두에 대한 검색 성능을 평가하기 위해 표준 recall at , with 지표를 사용합니다. 두 경우 모두, 샘플은 쿼리에 대한 유사성(식 (9) 참조)을 기반으로 순위가 매겨집니다. 또한 모든 지표의 합인 RSUM도 보고합니다. Top-K 위치 내에 적어도 하나의 관련 항목이 나타나면 검색이 성공한 것으로 간주됩니다. 구현 세부 사항: 저희는 OpenAI [28]의 pre-trained CLIP 모델을 두 가지 다른 크기의 image encoder, 즉 ViT-B/32 및 ViT-B/16과 함께 채택합니다. 또한, ImageNet [7] 및 AudioSet [12]에서 DeiT [32] backbone으로 pre-trained된 AST를 채택합니다. 오디오 신호를 포함하지 않는 비디오의 경우 오디오 입력을 zero vector로 설정합니다. 구현에 대한 자세한 내용은 보충 자료에 제시되어 있습니다. (섹션 B 참조)
4.2. Quantitative Results
MSR-VTT 9k split [35], VATEX [33] 및 Charades [29]에서 AVIGATE를 이전 Video-text retrieval 방법들과 비교한 결과는 각각 표 1, 표 2 및 표 3에 제시되어 있습니다. 각 표는 Video-text retrieval에 사용된 방법들의 양식(시각(V), 텍스트(T), 오디오(A)로 표시)을 보여주며, 각 CLIP ViT backbone 크기에 대해 결과가 별도로 보고됩니다.
이러한 표들은 AVIGATE가 모든 데이터셋 및 CLIP ViT backbone 크기에서 모든 이전 방법보다 R@1에서 뛰어난 성능을 보임을 보여줍니다. 특히, MSR-VTT에서 AVIGATE는 Text-to-Video retrieval에서 TEFAL [15] (오디오 SOTA 포함)보다 0.8%p, Video-to-Text retrieval에서 2.6%p 향상을 달성합니다. 저희는 VATEX에서 UATVR [9] (오디오 없음, 그러나 SOTA)보다 R@1에서 1.8%p의 큰 차이로 뛰어넘습니다. Charades에서도 AVIGATE는 TEFAL보다 R@1에서 0.8%p 뛰어난 성능을 보입니다.
그림 3. MSR-VTT에서 저희 방법의 Top-1 Text-to-Video retrieval 결과로, 참 일치를 나타냅니다. 및 은 gated fusion Transformer의 -번째 레이어에 대한 gating scores를 나타냅니다. 쿼리 텍스트의 "a man is talking"이 보이지 않는 경우 오디오가 정확한 검색에 유용한 단서를 제공합니다(a). 관련 없는 오디오는 gated fusion Transformer에 의해 필터링되어 정확한 검색 결과를 가져옵니다(b).
Methods | Modality | Text-to-Video Retrieval | ||
---|---|---|---|---|
R@1 | R@5 | R@10 | ||
CLIP ViT-B/32 | ||||
ECLIPSE [22] | A+V+T | 57.8 | 88.4 | 94.3 |
X-Pool [14] | V+T | 60.0 | 90.0 | 95.0 |
ProST [21] | V+T | 60.6 | 90.5 | 95.4 |
TEFAL [15] | A+V+T | 61.0 | 90.0 | 95.0 |
[34] | V+T | 61.1 | 90.5 | - |
UATVR [9] | V+T | 61.3 | 91.0 | 95.6 |
AVIGATE (Ours) | A+V+T | 63.1 | 90.7 | 95.5 |
CLIP ViT-B/16 | ||||
X-Pool [14] | V+T | 62.6 | 91.7 | 96.0 |
ProST [21] | V+T | 64.0 | 92.2 | 96.3 |
UATVR [9] | V+T | 64.5 | 92.6 | 96.8 |
AVIGATE (Ours) | A+V+T | 67.5 | 93.2 | 96.7 |
표 2. VATEX에서의 Text-to-Video retrieval 결과.
Methods | Modality | Text-to-Video Retrieval | ||
---|---|---|---|---|
R@1 | R@5 | R@10 | ||
CLIP ViT-B/32 | ||||
X-Pool [14] | V+T | 16.1 | 35.2 | 44.9 |
TEFAL [15] | A+V+T | 18.2 | 37.3 | 48.6 |
AVIGATE (Ours) | A+V+T | 18.8 | 40.0 | 51.8 |
CLIP ViT-B/16 | ||||
AVIGATE (Ours) | A+V+T | 24.1 | 48.5 | 61.3 |
표 3. Charades에서의 Text-to-Video retrieval 결과.
AVIGATE의 개선은 더 큰 backbone을 사용할 때 더욱 두드러집니다. 특히, MSR-VTT에서 AVIGATE는 Text-to-Video retrieval에서 1.3%p, Video-to-Text retrieval에서 3.1%p 향상을 달성했으며, VATEX에서 Text-to-Video retrieval에서 3.0%p 향상을 달성했습니다. 더욱이, 저희 방법은 RSUM에서 상당한 개선을 보였으며, MSR-VTT에서 6.6%p 향상을 달성했습니다. AVIGATE의 우수한 성능은 정보성 오디오 단서를 선택적으로 통합하고 비디오와 텍스트 간의 의미론적 정렬을 동적으로 조정하여 더 판별적이고 일반화 가능한 cross-modal 표현을 유도하는 능력에 기인합니다.
4.3. Qualitative Results
그림 3은 주어진 텍스트 쿼리에 대한 저희 방법의 Top-1 검색 비디오 결과와 함께 쌍을 이룬 오디오 신호 및 layer-wise gating scores를 보여줍니다. 그림 3(a)의 쿼리의 경우, 저희 모델은 쿼리 내용과 일치하는 정보성 오디오 단서에 힘입어 올바른 비디오를 검색합니다. 이 예시에서는 오디오가 가치 있는 정보를 제공하며, 이는 gating scores( 및 )가 을 제외하고 레이어 전반에 걸쳐 상대적으로 높게 나타나 융합에서 오디오의 기여도를 강조합니다. 반대로, 그림 3(b)의 쿼리의 경우, 성공적으로 검색된 비디오에는 관련 없는 배경 음악이 포함되어 있습니다. gating 메커니즘은 이에 따라 낮은 gating scores를 할당하여 관련 없는 오디오 신호의 영향을 억제합니다. 이러한 동작은 gated fusion Transformer가 비디오의 멀티모달 특성을 오디오가 긍정적으로 기여할 때만 사용하면서 관련 없는 오디오를 성공적으로 필터링한다는 것을 보여줍니다.
4.4. Ablation Studies
저희는 AVIGATE의 제안된 구성 요소들의 효과를 포괄적인 실험을 통해 평가합니다. ablation study를 위해, CLIP ViT-B/32 [28]를 사용하여 MSR-VTT 데이터셋 [35]에 대한 Text-to-Video retrieval 결과를 보고합니다. AVIGATE의 구성 요소: 표 4에서 저희 모델의 주요 구성 요소에 대한 ablation study 결과를 제시합니다. 먼저 비디오 및 텍스트 임베딩에 대한 CLIP encoder만 포함하고 기존의 cross-modal contrastive loss에 의해 학습되는 baseline을 구축합니다. 그런 다음, 이 baseline은 오디오 양식을 활용하기 위해 저희 gated fusion Transformer에서 gating 메커니즘이 없는 단순화된 fusion Transformer를 도입하여 확장됩니다 (Baseline + Audio). 확장된 baseline은 전반적인 성능, 특히 R@1에서 1.7%p의 주목할 만한 개선을 보여주며, 오디오가 Text-to-Video retrieval에 긍정적으로 기여한다는 것을 입증합니다. 이어서, gated fusion Transformer 및 adaptive margin을 포함한 주요 구성 요소를 개별적으로 적용했을 때 모든 지표에서 확장된 baseline을 일관되게 개선합니다. 이러한 관찰은 오디오 기여도를 동적으로 조정하는 gated fusion Transformer의 효율성과 adaptive margin을 사용한 contrastive learning의 이점을 강조합니다. 저희 방법의 전체 구성은 50.2%의 R@1에서 최고의 성능을 달성하며, gated fusion Transformer와 adaptive margin-based contrastive loss 간의 상호 보완적인 시너지를 강조하면서 일관된 개선을 보여줍니다. 주목할 점은 fixed margin (식 (5)의 가 0.1로 고정됨)을 gated fusion Transformer와 함께 사용하면 R@1에서 중간 정도의 성능 향상을 달성하지만, margin이 adaptive하게 사용될 때 가장 큰 개선이 나타난다는 것입니다.
Methods | Gate | Margin | Text-to-Video Retrieval | |||
---|---|---|---|---|---|---|
Fixed | Adaptive | R@1 | R@5 | R@10 | ||
Baseline | 45.4 | 72.2 | 81.6 | |||
+ Audio | 47.1 | 73.4 | 81.9 | |||
Adaptive Margin | 48.9 | 74.8 | 83.7 | |||
Gated Fusion | 48.0 | 75.1 | 83.4 | |||
+ Fixed Margin | 49.0 | 74.1 | 83.5 | |||
AVIGATE (Ours) | 50.2 | 74.3 | 83.2 |
표 4. 저희 방법의 주요 구성 요소에 대한 Ablation study.
Text-to-Video Retrieval | |||
---|---|---|---|
Ablated Setting | |||
Granularity of alignment scheme | |||
Global only | 46.1 | 73.4 | 82.4 |
Local only | 48.5 | 73.7 | 82.8 |
Global-Local | 50.2 | 74.3 | 83.2 |
표 5. Alignment scheme에 대한 Ablation study. Alignment Scheme의 granularity: 표 5에서 granularity 측면에서 alignment scheme을 분석하며, Global-Local multi-grained alignment scheme이 전체 의미론적 맥락과 미세한 세부 사항을 모두 캡처하는 능력으로 인해 모든 지표에서 성능을 향상시킨다는 것을 보여줍니다.
4.5. Computational Cost Analysis
, 를 각각 텍스트 쿼리 수, 비디오 수, 오디오 수라고 할 때, 각 오디오는 해당 비디오와 연관되지만 모든 비디오가 오디오를 포함하는 것은 아니므로 입니다. 표 6은 테스트 중 저희 모델의 효율성을 보여주기 위해 AVIGATE의 계산 복잡성과 지연 시간을 이전 방법 [14, 15, 25]과 비교합니다. AVIGATE는 의 시간 복잡성으로 효율적인 검색 프로세스를 달성하는 반면, TEFAL은 의 복잡성으로 추가적인 계산 부담을 도입합니다. 저희는 Text-to-Video retrieval을 위해 미리 추출된 대규모 비디오 표현 세트에 대한 단일 텍스트 쿼리 처리와 관련된 평균 지연 시간을 추가로 평가합니다. 특히, 저희는 1,000개의 Video-text pair로 구성된 MSR-VTT-9k 테스트 split [35]을 활용하며, 여기서 비디오 표현은 미리 추출되어 저장되므로 검색 프로세스 중에 즉각적인 계산이 필요하지 않습니다. 텍스트 쿼리가 도착하면 시스템은 텍스트 임베딩과 전체 비디오 표현 세트 간의 유사도 점수를 계산합니다. 총 지연 시간은 텍스트 임베딩 추출 및 모든 비디오 표현과 텍스트 임베딩 간의 유사도 점수 계산을 포함합니다. AVIGATE는 TEFAL보다 14배 이상 빠르고 X-Pool보다 6배 이상 빠르며, 이는 최종 표현을 생성하기 위해 각 텍스트 쿼리와 함께 모든 비디오에 대해 cross-modal 상호 작용 프로세스가 반복적으로 필요하여 상당한 지연 시간 오버헤드를 발생시키기 때문입니다. 한편, 저희 방법은 multi-grained alignment로 인해 CLIP4Clip에 비해 약간의 추가 비용만 발생합니다.
Methods | Time Complexity | Performance | Latency (ms) | |||
---|---|---|---|---|---|---|
R@1 | RSum | Total | ||||
Modality: Video and Text | ||||||
CLIP4Clip [25] | 44.5 | 391.7 | 0.02 | 9.74 | 9.76 | |
X-Pool [14] | 46.9 | 403.6 | 56.57 | 9.74 | 66.31 | |
Modality: Audio, Video and Text | ||||||
TEFAL [15] | 49.4 | 416.3 | 130.83 | 9.74 | 140.57 | |
AVIGATE | 50.2 | 416.4 | 0.16 | 9.74 | 9.90 |
표 6. 이전 연구와 비교한 저희 방법의 효율성 분석. 및 는 각각 유사도 계산 및 쿼리 임베딩 추출의 지연 시간을 나타냅니다. 모든 방법의 는 동일한 텍스트 인코더를 사용하므로 동일합니다. 지연 시간은 단일 RTX3090 카드에 의해 계산됩니다.
5. Conclusion
저희는 gated attention 메커니즘을 통해 오디오 단서를 효과적으로 활용하는 새로운 Video-text retrieval 프레임워크인 AVIGATE를 소개했습니다. 정보가 부족한 오디오 신호를 선택적으로 필터링함으로써 AVIGATE는 비디오 표현을 향상시켜 비디오 콘텐츠에 대한 보다 포괄적인 이해를 이끌어냅니다. 또한, 시각 및 텍스트 양식 간의 내재된 긍정-부정 관계를 해결하기 위해 adaptive margin-based contrastive loss를 제안했습니다. 이 loss function은 intra-modal semantic dissimilarities에 따라 margin을 동적으로 조정하여 더 판별적이고 일반화된 cross-modal embedding space를 촉진합니다. 공개 벤치마크에 대한 광범위한 실험은 AVIGATE가 SOTA 성능을 달성하고 효율적인 검색을 보장함을 보여줍니다. 감사의 글. 이 연구는 NRF 그랜트 (RS-2021-NR059830-30%) 및 한국 과학기술정보통신부의 IITP 그랜트 (RS-2022-II220290-30%, RS-2024-00509258-30%, RS-2019-II191906-10%)의 지원을 받았습니다.
References
[1] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Proc. Neural Information Processing Systems (NeurIPS), 2022. 3, 11 [2] Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman. Frozen in time: A joint video and image encoder for end-to-end retrieval. In Proc. IEEE International Conference on Computer Vision (ICCV), 2021. 2 [3] Simion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, Yang Liu, and Samuel Albanie. Cross modal retrieval with querybank normalisation. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022. 11, 12 [4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In Proc. European Conference on Computer Vision (ECCV), 2020. 3, 11 [5] Shizhe Chen, Yida Zhao, Qin Jin, and Qi Wu. Fine-grained video-text retrieval with hierarchical graph reasoning. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 6 [6] Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, and Dong Shen. Improving video-text retrieval by multi-stream corpus alignment and dual softmax loss. arXiv preprint arXiv:2109.04290, 2021. 1, 11, 12, 13 [7] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: a large-scale hierarchical image database. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009. 6 [8] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. 5 [9] Bo Fang, Wenhao Wu, Chang Liu, Yu Zhou, Yuxin Song, Weiping Wang, Xiangbo Shu, Xiangyang Ji, and Jingdong Wang. Uatvr: Uncertainty-adaptive text-video retrieval. In Proc. IEEE International Conference on Computer Vision (ICCV), 2023. 1, 2, 5, 6, 7, 11, 12 [10] Han Fang, Pengfei Xiong, Luhui Xu, and Yu Chen. Clip2video: Mastering video-text retrieval via image clip. arXiv preprint arXiv:2106.11097, 2021. 1 [11] Valentin Gabeur, Chen Sun, Karteek Alahari, and Cordelia Schmid. Multi-modal transformer for video retrieval. In Proc. European Conference on Computer Vision (ECCV), 2020. 6 [12] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal, and Marvin Ritter. Audio set: An ontology and humanlabeled dataset for audio events. In IEEE international conference on acoustics, speech and signal processing (ICASSP), 2017. 6 [13] Yuan Gong, Yu-An Chung, and James Glass. AST: Audio Spectrogram Transformer. In Proc. Interspeech, 2021. 2, 3, 11 [14] Satya Krishna Gorti, Noël Vouitsis, Junwei Ma, Keyvan Golestan, Maksims Volkovs, Animesh Garg, and Guangwei
Yu. X-pool: Cross-modal language-video attention for textvideo retrieval. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022. 1, 2, 5, 6, 7, 8 [15] Sarah Ibrahimi, Xiaohang Sun, Pichao Wang, Amanmeet Garg, Ashutosh Sanan, and Mohamed Omar. Audioenhanced text-to-video retrieval using text-conditioned feature alignment. In Proc. IEEE International Conference on Computer Vision (ICCV), 2023. 1, 3, 6, 7, 8, 11, 12 [16] Andrew Jaegle, Felix Gimeno, Andy Brock, Oriol Vinyals, Andrew Zisserman, and Joao Carreira. Perceiver: General perception with iterative attention. In Proc. International Conference on Machine Learning (ICML), 2021. 3, 11 [17] Sungyeon Kim, Dongwon Kim, Minsu Cho, and Suha Kwak. Proxy anchor loss for deep metric learning. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 5 [18] Sungyeon Kim, Boseung Jeong, Donghyun Kim, and Suha Kwak. Efficient and versatile robust fine-tuning of zero-shot models. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024. 5 [19] Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In Proc. International Conference on Learning Representations (ICLR), 2015. 12 [20] Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L Berg, Mohit Bansal, and Jingjing Liu. Less is more: Clipbert for video-and-language learning via sparse sampling. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021. 2 [21] Pandeng Li, Chen-Wei Xie, Liming Zhao, Hongtao Xie, Jiannan Ge, Yun Zheng, Deli Zhao, and Yongdong Zhang. Progressive spatio-temporal prototype matching for textvideo retrieval. In Proc. IEEE International Conference on Computer Vision (ICCV), 2023. 1, 2, 5, 6, 7 [22] Yan-Bo Lin, Jie Lei, Mohit Bansal, and Gedas Bertasius. Eclipse: Efficient long-range video retrieval using sight and sound. In Proc. European Conference on Computer Vision (ECCV), 2022. 1, 3, 6, 7, 11 [23] Yang Liu, Samuel Albanie, Arsha Nagrani, and Andrew Zisserman. Use what you have: Video retrieval using representations from collaborative experts. arXiv preprint arXiv:1907.13487, 2019. 3 [24] Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao, and Qin Jin. Ts2-net: Token shift and selection transformer for text-video retrieval. In Proc. European Conference on Computer Vision (ECCV), 2022. 1, 6, 11, 12 [25] Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, and Tianrui Li. Clip4clip: An empirical study of clip for end to end video clip retrieval and captioning. Neurocomputing, 508, 2022. 1, 2, 5, 6, 8, 11, 14 [26] Yiwei Ma, Guohai Xu, Xiaoshuai Sun, Ming Yan, Ji Zhang, and Rongrong Ji. X-clip: End-to-end multi-grained contrastive learning for video-text retrieval. In Proceedings of the 30th ACM International Conference on Multimedia, 2022. 1, 2, 5 [27] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018. 2 [28] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In Proc. International Conference on Machine Learning (ICML), 2021. 2, 3, 5, 6, 7 [29] Gunnar A Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, and Abhinav Gupta. Hollywood in homes: Crowdsourcing data collection for activity understanding. In Proc. European Conference on Computer Vision (ECCV), 2016. 6, 11, 12 [30] Samuel L. Smith, David H. P. Turban, Steven Hamblin, and Nils Y. Hammerla. Offline bilingual word vectors, orthogonal transformations and the inverted softmax. In Proc. International Conference on Learning Representations (ICLR), 2017. 11 [31] Kihyuk Sohn. Improved deep metric learning with multiclass n-pair loss objective. In Proc. Neural Information Processing Systems (NeurIPS), 2016. 2 [32] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training data-efficient image transformers & distillation through attention. In Proc. International Conference on Machine Learning (ICML), 2021. 6 [33] Xin Wang, Jiawei Wu, Junkun Chen, Lei Li, Yuan-Fang Wang, and William Yang Wang. Vatex: A large-scale, highquality multilingual dataset for video-and-language research. In Proc. IEEE International Conference on Computer Vision (ICCV), 2019. 2, 6, 11, 12 [34] Ziyang Wang, Yi-Lin Sung, Feng Cheng, Gedas Bertasius, and Mohit Bansal. Unified coarse-to-fine alignment for video-text retrieval. In Proc. IEEE International Conference on Computer Vision (ICCV), 2023. 1, 2, 5, 6, 7, 11, 12 [35] Jun Xu, Tao Mei, Ting Yao, and Yong Rui. Msr-vtt: A large video description dataset for bridging video and language. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. 2, 6, 7, 8, 12, 13 [36] Youngjae Yu, Hyungjin Ko, Jongwook Choi, and Gunhee Kim. End-to-end concept word detection for video captioning, retrieval, and question answering. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. 2 [37] Youngjae Yu, Jongseok Kim, and Gunhee Kim. A joint sequence fusion model for video question answering and retrieval. In Proc. European Conference on Computer Vision (ECCV), 2018. 2
A. Appendix
이 보충 자료는 본 논문에 포함할 수 없었던 오디오 resampler 및 실험 결과에 대한 추가 세부 정보를 제공합니다. 먼저 3.1절에서 query-based Transformer [1, 4, 16]를 사용하여 오디오 임베딩 수를 고정 길이로 줄이는 오디오 resampler의 세부 정보와 본 논문의 식 (4)의 MLP 세부 정보를 설명합니다. 또한 3.2절에서 저희 방법의 구현 세부 정보를 제공합니다. 그런 다음 3.3절에서 후처리 효과 및 VATEX [33] 및 Charades [29]의 전체 Video-text retrieval 결과를 포함한 추가 정량적 결과를 제시합니다. 더욱이 3.4절에서 gated fusion Transformer의 레이어 깊이, 스케일링 인자, 본 논문의 식 (5)의 최대 margin 및 gate 메커니즘 유형, modality encoder 고정 효과와 같은 하이퍼파라미터에 대한 추가 ablation study를 수행합니다. 마지막으로 3.5절에서 AVIGATE의 효율성을 추가로 설명하는 더 많은 정성적 결과를 제공합니다.
A.1. More Architectural Details
오디오 임베딩을 프레임 임베딩과 효율적으로 융합하면서 계산 오버헤드를 줄이기 위해, 저희는 개의 학습 가능한 query embeddings와 cross-attention 메커니즘을 활용하는 query-based Transformer 프레임워크 [1, 4, 16]를 사용하는 오디오 resampler를 도입합니다. 구체적으로, 오디오 입력은 Audio Spectrogram Transformer (AST) [13]에 공급되고, 출력은 오디오 resampler로 전달되어 필수 정보를 보존하면서 오디오 임베딩 수를 고정 길이 으로 줄입니다. 그림 4에 나타난 바와 같이, 오디오 resampler는 각각 multi-head self-attention (MHSA), multi-head cross-attention (MHA) 및 feedforward network (FFN)를 포함하는 개의 오디오 resampler block으로 구성됩니다. 저희는 기본적으로 를 4로 설정합니다.
MHSA는 먼저 학습 가능한 query embeddings가 상호 작용하여 자체적인 문맥적 관계를 캡처하도록 허용하고 초기 표현을 정제합니다. 이어서 MHA가 적용되며, 여기서 query embeddings는 AST의 출력에 attend하여 고정 길이 의 오디오 임베딩을 추출합니다. 그런 다음 FFN은 오디오 임베딩을 처리하여 정제합니다. 이러한 일련의 연산은 오디오 resampler가 필수 정보를 보존하면서 오디오 임베딩 수를 효율적으로 줄여 후속 단계에서 프레임 임베딩과의 원활한 융합을 촉진할 수 있도록 합니다.
식 (4)의 MLP는 차원이 및 인 두 개의 레이어로 구성되며, 그 사이에는 QuickGELU를 비선형 함수로 사용합니다.
A.2. More Implementation Details
다양한 데이터셋에 대한 저희 방법의 훈련 구성 세부 정보는 표 7에 제공됩니다. 저희는 image encoder, 훈련 epoch, optimizer, 배치 크기, 최대 프레임 수, 최대 단어 수, CLIP encoder 학습률 및 온도 와 같은 대부분의 구성에 대해 [22, 25]를 따릅니다.
그림 4. 오디오 resampler의 전체 아키텍처.
Source dataset | MSR-VTT [35] | VATEX [33] | Charades [29] |
---|---|---|---|
Image encoder | 2 CLIP-ViTs (B/32 and B/16) | ||
Total epochs | 5 | ||
Optimizer | Adam [19] | ||
Embedding dimension | 512 | ||
Batch size | 128 | 128 | 64 |
Max frames | 12 | 12 | 32 |
Max words | 32 | 32 | 64 |
Resampled audio length | 12 | ||
Depth of Gated Fusion Transformer | 4 | ||
Learning rate for Non-CLIP parameters | |||
Learning rate for CLIP encoders | |||
Temperature in Eq.(6) | Learnable (After training: 0.01) | ||
Maximum margin in Eq.(5) | 0.1 | 0.05 | 0.1 |
Scaling factor in Eq.(5) | 0.2 | ||
Scaling factor in Eq.(8) | 50 |
표 7. 다양한 데이터셋의 훈련 구성.
A.3. More Quantitative Results
후처리 효과: 후처리 기법은 유사도 점수 정제를 통해 성능을 향상시키기 위해 Video-text retrieval에 널리 채택되어 왔습니다. 이전 방법 [6, 9, 15, 24, 34]은 검색 정확도 추가 개선을 위해 Dual Softmax Loss (DSL) [6], Querybank Norm (QB-Norm) [3], Sinkhorn-Knopp algorithm (SK-Norm)을 포함한 후처리 기법을 채택합니다. 저희는 추론 중에 inverted softmax [30]를 적용하는 DSL을 채택하여 후처리 기법의 효과도 탐구합니다. 저희는 기존 방법과 비교하여 표 8에 후처리 적용 여부에 따른 AVIGATE의 검색 성능을 보고합니다. 저희 모델인 AVIGATE는 Text-to-Video 및 Video-to-Text retrieval 작업 모두에서 모든 평가 지표에 걸쳐 일관되게 우수한 성능을 달성하여 모든 이전 방법을 상당한 차이로 능가합니다. 특히, CLIP ViT-B/32 backbone의 경우, 후처리가 적용된 AVIGATE는 Text-to-Video retrieval에서 53.9%의 R@1을 달성합니다. 또한, Video-to-Text retrieval에서 DSL이 적용된 AVIGATE는 53.0%의 R@1을 달성합니다. 유사하게, CLIP ViT-B/16 backbone의 경우, AVIGATE는 기존 방법보다 상당한 이득을 달성합니다. 후처리를 사용할 때, 저희 방법은 Text-to-Video retrieval에서 56.3%의 R@1을 달성하며, 이는 TS2-Net [24]보다 2.3%p의 상당한 개선을 나타냅니다. Video-to-Text retrieval에서도 AVIGATE는 57.4%의 R@1로 다른 방법보다 뛰어난 성능을 보입니다. VATEX [33] 및 Charades [29]의 전체 성능: 표 9에 VATEX 및 Charades에 대한 전체 Video-text retrieval 결과를 Text-to-Video 및 Video-to-Text retrieval을 모두 포함하여 제시합니다. 결과는 다음을 사용하여 보고됩니다.
Methods | Modality | Text-to-Video Retrieval | Video-to-Text Retrieval | RSum | ||||
---|---|---|---|---|---|---|---|---|
R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | |||
CLIP ViT-B/32 | ||||||||
CAMoE [6] | V+T | 44.6 | 72.6 | 81.8 | 45.1 | 72.4 | 83.1 | 399.6 |
+DSL | V+T | 47.3 (+2.7) | 74.2 (+1.6) | 84.5 (+2.7) | 49.1 (+4.0) | 74.3 (+1.9) | 84.3 (+1.2) | 413.7 (+14.1) |
TS2-Net [24] | V+T | 47.0 | 74.5 | 83.8 | 45.3 | 74.1 | 83.7 | 408.4 |
+DSL | V+T | 51.1 (+4.1) | 76.9 (+2.4) | 85.6 (+1.8) | - | - | - | - |
UATVR [9] | V+T | 47.5 | 73.9 | 83.5 | 46.9 | 73.8 | 83.8 | 409.4 |
+DSL | V+T | 49.8 (+2.3) | 76.1 (+2.2) | 85.5 (+2.0) | 51.1 (+4.2) | 74.8 (+1.0) | 85.1 (+1.3) | 422.4 (+13.0) |
UCoFiA [34] | V+T | 48.2 | 73.3 | 82.3 | - | - | - | - |
+SK norm | V+T | 49.4 (+1.2) | 72.1 (-0.9) | 83.5 (+1.2) | 47.1 | 74.3 | 83.0 | 409.4 |
AVIGATE (Ours) | A+V+T | 50.2 | 74.3 | 83.2 | 49.7 | 75.3 | 83.7 | 416.4 |
+DSL | A+V+T | 53.9 (+3.7) | 77.0 (+2.7) | 86.0 (+2.8) | 53.0 (+3.3) | 78.2 (+2.9) | 85.4 (+1.7) | 433.5 (+16.9) |
CLIP ViT-B/16 | ||||||||
TS2-Net [24] | V+T | 49.4 | 75.6 | 85.3 | 46.6 | 75.9 | 84.9 | 417.7 |
+DSL | V+T | 54.0 (+4.6) | 79.3 (+3.7) | 87.4 (+2.1) | - | - | - | - |
TEFAL [15] | A+V+T | 49.9 | 76.2 | 84.4 | - | - | - | - |
+DSL+QB-Norm | A+V+T | 52.0 (+2.1) | 76.6 (+0.4) | 86.1 (+1.7) | - | - | - | - |
UATVR [9] | V+T | 50.8 | 76.3 | 85.5 | 48.1 | 76.3 | 85.4 | 422.4 |
+DSL | V+T | 53.5 (+2.7) | 79.5 (+3.2) | 88.1 (+2.7) | 54.5 (+6.4) | 79.1 (+2.8) | 87.9 (+2.5) | 442.6 (+20.2) |
AVIGATE (Ours) | A+V+T | 52.1 | 76.4 | 85.2 | 51.2 | 77.9 | 86.2 | 429.0 |
+DSL | A+V+T | 56.3 (+4.2) | 80.8 (+4.4) | 88.1 (+2.9) | 57.4 (+6.2) | 80.2 (+2.3) | 87.4 (+1.2) | 450.2 (+21.2) |
표 8. MSR-VTT 9k split에서의 Text-to-Video 및 Video-to-Text retrieval 결과. DSL [6], QB-Norm [3], SK norm과 같은 후처리 기법이 추가 성능 향상을 위해 사용됩니다.
CLIP ViT backbone의 두 가지 변형인 CLIP ViT-B/32 및 CLIP ViT-B/16입니다. 더욱이, 추가 성능 향상을 위한 후처리 기법인 DSL [6]의 효과를 평가합니다. VATEX에서 CLIP ViT-B/32 backbone을 사용하여, AVIGATE는 Text-to-Video retrieval에서 63.1%, Video-to-Text retrieval에서 76.6%의 주목할 만한 R@1 결과를 달성합니다. DSL을 적용하면 모든 지표에서 상당한 개선을 관찰할 수 있습니다. 구체적으로, Text-to-Video retrieval에서 7.6%p, Video-to-Text retrieval에서 8.7%p의 R@1에서 AVIGATE가 크게 향상됩니다. 더 큰 backbone인 CLIP ViT-B/16 backbone을 사용할 때, AVIGATE는 Text-to-Video retrieval에서 67.5%, Video-to-Text retrieval에서 80.7%의 R@1을 달성하며 다양한 backbone 크기에 걸쳐 확장성을 보여줍니다. 더욱이, DSL의 사용은 RSum에서 20.2%p 향상으로 전반적인 검색 정확도를 꾸준히 높입니다. Charades에서 CLIP ViT-B/32 backbone을 사용하여, AVIGATE는 Text-to-Video retrieval에서 18.8%, Video-to-Text retrieval에서 17.2%의 R@1을 달성하며, DSL을 적용하면 각각 21.3% 및 20.0%로 소폭 증가합니다. 더 큰 backbone인 CLIP ViT-B/16을 사용하면 AVIGATE는 Text-to-Video retrieval에서 24.1%, Video-to-Text retrieval에서 22.9%의 R@1을 달성하며, DSL은 이 수치를 27.5% 및 27.1%로 끌어올립니다.
A.4. More Ablation Studies
저희는 AVIGATE에서 다양한 하이퍼파라미터를 사용하여 추가 ablation study를 수행합니다. 본 논문과 유사하게, 저희는
Methods | Modality | Text-to-Video Retrieval | Video-to-Text Retrieval | RSum | ||||
---|---|---|---|---|---|---|---|---|
R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | |||
CLIP ViT-B/32 | ||||||||
AVIGATE (Ours) | A+V+T | 63.1 | 90.7 | 95.5 | 76.6 | 97.3 | 98.8 | 522.0 |
+DSL | A+V+T | 70.7 (+7.6) | 93.4 (+2.7) | 95.5 (+1.4) | 85.3 (+8.7) | 99.1 (+1.8) | 99.8 (+1.0) | 545.2 (+23.2) |
CLIP ViT-B/16 | ||||||||
AVIGATE (Ours) | A+V+T | 67.5 | 93.2 | 96.7 | 80.7 | 97.8 | 99.5 | 535.4 |
+DSL | A+V+T | 74.6 (+7.1) | 95.3 (+2.1) | 97.8 (+1.1) | 88.7 (+8.0) | 99.3 (+1.5) | 99.9 (+0.3) | 555.6 (+20.2) |
표 9. VATEX에서의 Text-to-Video 및 Video-to-Text retrieval 결과. 후처리 기법인 DSL [6]이 추가 성능 향상을 위해 사용됩니다.
Methods | Modality | Text-to-Video Retrieval | Video-to-Text Retrieval | RSum | ||||
---|---|---|---|---|---|---|---|---|
R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | |||
CLIP ViT-B/32 | ||||||||
AVIGATE (Ours) | A+V+T | 18.8 | 40.0 | 51.8 | 17.2 | 40.4 | 51.7 | 219.9 |
+DSL | A+V+T | 21.3 (+2.5) | 42.4 (+2.4) | 54.4 (+2.7) | 20.0 (+2.8) | 43.0 (+2.6) | 54.9 (+3.2) | 236.0 (+16.1) |
CLIP ViT-B/16 | ||||||||
AVIGATE (Ours) | A+V+T | 24.1 | 48.5 | 61.3 | 22.9 | 48.4 | 61.0 | 266.2 |
+DSL | A+V+T | 27.5 (+3.4) | 52.7 (+4.2) | 64.5 (+3.2) | 27.1 (+4.2) | 52.7 (+4.3) | 65.0 (+4.0) | 289.5 (+23.3) |
표 10. Charades에서의 Text-to-Video 및 Video-to-Text retrieval 결과. 후처리 기법인 DSL [6]이 추가 성능 향상을 위해 사용됩니다.
CLIP ViT-B/32를 사용하여 MSR-VTT 데이터셋 [35]에 대한 Text-to-Video retrieval 결과를 보고합니다. 표 11은 ablation study의 전체 결과를 제시합니다. Gated Fusion Transformer의 레이어 깊이: 표 11(a)에 gated fusion Transformer의 레이어 수 ()의 영향을 제시하며, 까지 성능이 점진적으로 향상되는 것을 관찰하며, 여기서 최고의 성능이 달성됩니다.
식 (5)의 하이퍼파라미터 및 : 원고의 식 (5)에서 스케일링 인자 및 최대 margin 의 영향을 조사합니다. 또는 가 0으로 설정되면 식 (5)의 adaptive margin이 0이 되어 식 (6)의 loss가 기존 contrastive loss로 이어진다는 점에 유의해야 합니다. 표 11(b)에 나타난 바와 같이, 가 0.2로 설정될 때 모델은 최고의 성능을 발휘합니다. 한편, 를 0.1로 설정하면 성능이 약간 감소하는데, 이는 더 작은 스케일링 인자가 충분한 margin 조정을 제공하지 못할 수 있음을 나타냅니다. 그러나 를 0.3으로 늘려도 추가 개선으로 이어지지는 않습니다. 유사하게, 표 11(c)는 최대 margin 를 변경하는 효과를 제시합니다. 까지 성능이 점진적으로 향상되는 것을 관찰합니다. 를 0.1 이상으로 늘리면 과도하게 큰 margin으로 인해 negative pair가 너무 멀리 떨어져 성능이 저하됩니다. Gate 메커니즘 유형: 저희 방법은 soft gate 메커니즘을 사용하며, 이는 융합 중 오디오 기여도의 연속적인 변조를 허용합니다. soft gate 메커니즘의 효율성을 평가하기 위해, 저희는 soft gate를 미리 정의된 임계값을 초과하면 1, 그렇지 않으면 0의 gating score를 할당하는 hard gate 메커니즘과 비교합니다. 표 11(d)에 나타난 바와 같이, hard gate를 사용하면 저희 방법보다 성능이 떨어집니다.
Text-to-Video Retrieval | |||
---|---|---|---|
Ablated Setting | R@1 | R@5 | R@10 |
(a) Layer depth of Gated Fusion Transformer: | |||
49.0 | 74.0 | 82.6 | |
49.8 | 74.0 | 83.0 | |
50.2 | 74.3 | 83.2 | |
49.5 | 74.2 | 82.6 | |
(b) Scaling factor in Eq.(5): | |||
48.0 | 75.1 | 83.4 | |
49.4 | 74.8 | 83.8 | |
50.2 | 74.3 | 83.2 | |
50.0 | 74.4 | 83.2 | |
(c) Maximum margin in Eq.(5): | |||
48.0 | 75.1 | 83.4 | |
49.4 | 75.1 | 83.6 | |
50.2 | 74.3 | 83.2 | |
49.3 | 74.8 | 83.8 | |
48.3 | 74.4 | 83.9 | |
(d) Gate mechanism type | |||
Hard Gate | 49.3 | 75.0 | 82.5 |
Soft Gate | 50.2 | 74.3 | 83.2 |
(e) Effect of freezing AST (Batch size:32) | |||
Freezing | 48.2 | 75.3 | 83.7 |
Fine-tuning | 48.0 | 73.5 | 83.4 |
(f) Effect of freezing CLIP encoders | |||
Freezing | 41.1 | 68.5 | 78.2 |
Fine-tuning | 50.2 | 74.3 | 83.2 |
표 11. 하이퍼파라미터에 대한 Ablation study. 회색은 저희의 기본 설정을 나타냅니다. hard gate 메커니즘을 사용하는 것과 달리, 저희 방법은 관련 없는 또는 노이즈가 많은 오디오 신호의 영향을 최소화하면서 관련 오디오 단서를 효과적으로 활용할 수 있도록 합니다. 이는 모델이 정보성 오디오를 더 정확하게 활용하여 검색 정확도를 향상시킬 수 있도록 합니다. AST 고정 효과: 훈련 비용을 줄이기 위해 AST를 고정합니다. AST를 fine-tuning하는 것은 비실용적입니다. 왜냐하면 AST는 입력 오디오당 1,214개의 토큰을 처리하며, 이는 ViT-B/32의 각 비디오 프레임당 50개 토큰보다 훨씬 많기 때문입니다. 해결책은 배치 크기를 크게 줄이는 것이지만, contrastive loss는 배치 크기에 크게 의존하므로 성능이 저하됩니다. 작은 입력 배치로 AST를 고정하고 fine-tuning한 결과는 표 11(e)에 보고되어 있으며, AST를 고정하는 것이 fine-tuning하는 것보다 뛰어난 성능을 보입니다. 이러한 결과는 오디오 분류 데이터셋으로 pre-trained된 AST의 특성으로 인해 오디오 입력에서 판별적 임베딩을 추출할 수 있다는 점에 기인합니다. 따라서 저희는 계산 및 메모리 비용 부담이 큰 fine-tuning 대신 AST를 고정하기로 결정했습니다. CLIP image 및 text encoder 모두 고정 효과: 표 11(f)에 나타난 바와 같이, CLIP image 및 text encoder를 고정하면 성능이 현저히 낮아지며, 이는 CLIP4Clip [25]과 같은 이전 연구에서도 입증되었듯이 두 encoder를 fine-tuning하는 것의 중요성을 강조합니다. fine-tuning은 task-specific 비디오 및 텍스트 정보를 캡처하고 그들 간의 정렬을 개선하는 데 필수적입니다.
A.5. More Qualitative Results
저희는 Text-to-Video retrieval을 위해 오디오 정보를 활용하는 AVIGATE의 효율성을 보여주는 추가 정성적 결과를 제시합니다. 그림 5는 저희 방법의 Top-1 검색 비디오 결과와 해당 오디오 신호를 포함하여 오디오 단서가 검색 결과에 어떻게 영향을 미치는지 강조합니다.
그림 5(a) 및 (b)에서는 오디오가 검색 성능 향상에 도움이 되는 가치 있는 정보를 제공하는 시나리오를 제시합니다. gated fusion Transformer를 통해 오디오를 통합하는 AVIGATE는 텍스트 쿼리에 해당하는 올바른 비디오를 성공적으로 검색합니다. 대조적으로, 오디오 정보가 없는 방법(즉, w/o Audio)은 참 일치를 검색하지 못합니다. 이 비교는 정보성 오디오 단서를 활용하는 이점을 강조합니다.
반대로, 그림 5(c) 및 (d)는 배경 소음과 같이 오디오 입력에 관련 없는 정보가 포함된 다른 시나리오를 제시합니다. AVIGATE는 gating 메커니즘을 통해 정보가 부족한 오디오 신호를 효과적으로 필터링합니다. gating function은 낮은 gating scores를 할당하여 모델이 시각 단서에만 집중할 수 있도록 합니다. 결과적으로 AVIGATE는 올바른 비디오를 성공적으로 검색합니다. 대조적으로, gating function이 없는 방법(즉, w/o Gate)은 노이즈가 많은 오디오의 영향을 받아 참 일치를 검색하지 못합니다.
이러한 정성적 결과는 gated fusion Transformer가 오디오가 긍정적으로 기여할 때 가치 있는 오디오 정보를 활용하면서 관련 없는 오디오를 성공적으로 필터링한다는 것을 보여줍니다.
그림 5. MSR-VTT에서 저희 방법의 Top-1 Text-to-Video retrieval 결과로, 참 일치를 나타냅니다. 쿼리 텍스트의 "a man is talking"이 보이지 않지만 들리는 경우(a) 및 "talk san diego"가 보이지 않지만 들리는 경우(b) 오디오가 정확한 검색에 유용한 단서를 제공합니다. 그러나 이러한 정보성 오디오 신호를 무시하면(즉, w/o Audio) 참 일치를 검색하지 못합니다. 한편, 관련 없는 오디오는 gated fusion Transformer에 의해 필터링되어 정확한 검색 결과를 가져옵니다(c) 및 (d). gating 메커니즘이 없으면(즉, w/o Gate) 관련 없는 오디오로 인해 잘못된 일치를 검색하게 됩니다.