Zhu, Bin, et al. "Languagebind: Extending video-language pretraining to n-modality by language-based semantic alignment." arXiv preprint arXiv:2310.01852 (2023). Accepted by ICLR 2024

LanguageBind: Extending Video-Language Pretraining to N-modality by Languagebased Semantic Alignment

Bin Zhu ${ }^{1,2, *}$ , Bin Lin ${ }^{1, *}$ , Munan Ning ${ }^{1,4}$ , Yang Yan ${ }^{1}$ , JiaXi Cui ${1}$ , Hongfa Wang ${2}$ , Yatian Pang ${3}$ , Wenhao Jiang ${6}$ , Junwu Zhang ${1}$ , Zongwei Li ${2}$ , Wancai Zhang ${5}$ , Zhifeng Li ${2}$ , Wei Liu ${2}$ , Li Yuan ${1,4, \dagger}$ <br> ${ }^{1}$ Peking University, ${ }^{2}$ Tencent Data Platform, ${ }^{3}$ National University of Singapore, ${4}$ Pengcheng Lab, ${5}$ Nari Technology Development Limited Company, ${6}$ Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ)

Abstract

Video-Language (VL) pretraining은 여러 다운스트림 task에서 놀라운 성능 향상을 이루었다. 그러나 현재의 VL pretraining 프레임워크는 비전과 언어를 넘어선 다중 모달리티(N개 모달리티, $N \geq 3$ )로 확장하기 어렵다.
이에 우리는 언어를 다양한 모달리티를 묶는(bind) 핵심 요소로 활용하는 LanguageBind를 제안한다. 이는 언어 모달리티가 잘 연구되어 있고 풍부한 의미론을 포함하고 있기 때문이다.
구체적으로, 우리는 **VL pretraining을 통해 얻은 language encoder를 고정(freeze)**하고, 다른 모달리티를 위한 encoder들을 contrastive learning 방식으로 학습한다. 그 결과, 모든 모달리티가 공유된 feature space로 매핑되어 멀티모달 의미 정렬(semantic alignment)이 구현된다.

LanguageBind는 VL 모달리티를 N개 모달리티로 확장할 수 있도록 보장하지만, 언어를 중심으로 하는 고품질의 정렬된 데이터 쌍으로 구성된 데이터셋 또한 필요하다.
따라서 우리는 비디오, 적외선, 깊이, 오디오 및 해당 언어 정보를 포함하는 1,000만 개의 데이터로 구성된 VIDAL-10M을 제안한다.
우리의 VIDAL-10M에서 모든 비디오는 긴 비디오에서 잘라낸 세그먼트가 아닌, 완전한 의미를 가진 짧은 비디오 플랫폼에서 가져온 것이며, 모든 비디오, 깊이, 적외선, 오디오 모달리티는 해당 텍스트 설명과 정렬되어 있다.
LanguageBind는 비디오, 오디오, 깊이, 적외선을 포함하는 15개의 광범위한 벤치마크에서 우수한 성능을 달성했다.
또한, 여러 실험을 통해 LanguageBind가 다양한 모달리티 간의 간접적인 정렬(indirect alignment)과 상호 보완성(complementarity)을 달성하는 데 효과적임을 입증하였다.
코드 주소: https://github.com/PKU-YuanGroup/LanguageBind

1 Introduction

인터넷과 스마트폰의 발전과 함께, 유튜브(Youtube)와 틱톡(TikTok)과 같은 비디오 웹사이트 및 앱이 급증하면서 비디오 콘텐츠의 수가 크게 증가했다 (Xue et al., 2022). 이에 따라 비디오 검색 (Smith & Chang, 1997), 비디오 추천 (Deldjoo et al., 2016), 비디오 편집 (Casares et al., 2002, Bonneel et al., 2014) 등 다양한 비디오 task가 등장했다. 비디오 이해 task를 해결하기 위해, 컴퓨터 비전 (He et al., 2016; Dosovitskiy et al., 2020)과 자연어 처리 (Vaswani et al., 2017)를 결합하여 foundation model을 학습시키는 video-language pretraining이 활용되어 왔다. 이러한 모델들은 비디오의 의미론을 파악하고 다운스트림 task를 해결할 수 있다 (Karpathy et al., 2014; Mithun et al., 2018).

그러나 현재의 VL pretraining framework는 종종 vision과 language modality에만 국한되어 있다. ImageBind (Girdhar et al., 2023)는 멀티모달 pretraining을 위한 간접 정렬(indirect alignment) 방법을 도입한다. 이 방법은 다른 modality들을 이미지에 정렬시켜, 적외선 (Jia et al., 2021), 깊이 (Kim et al., 2022), 오디오 (Piczak, 2015), IMU (Grauman et al., 2022)와 같은 다양한 modality에 대한 포괄적인 이해를 촉진한다. Figure 1에서 보여지듯이 zero-shot retrieval 및 classification과 같은 실제 task에서는 다양한 modality에 대해 language modality와의 정렬이 주로 요구된다. ImageBind의 간접 정렬은 성능 저하를 초래할 수 있지만,

Figure 1: ImageBind vs. LanguageBind. ImageBind 방법은 이미지를 중개자로 사용하지만, LanguageBind 방법은 이러한 요구 사항이 없다. LanguageBind는 모든 modality를 language space에 직접 정렬하여 다운스트림 task에 대한 적용 가능성을 향상시킨다. "X"는 language를 제외한 모든 modality를 나타내고, "c"는 category를 나타낸다.

LanguageBind 방법은 이미지를 중개자로 필요로 하지 않으며, 다운스트림 task에서 추가 modality로의 확장을 용이하게 한다.

본 논문에서는 video-language pretraining을 여러 (N) modality로 확장할 수 있는 language 기반 멀티모달 pretraining framework인 LanguageBind를 제안한다. language modality는 풍부한 semantic 정보를 포함하고 있으며 잘 연구되어 왔기 때문에 (Kenton & Toutanova, 2019, Dai et al. 2019), 우리는 이를 서로 다른 modality 간의 연결(bind) 역할로 삼는다. 이 과정은 모든 modality를 통합된 embedding space로 매핑하여 효과적인 semantic alignment를 가능하게 한다. 학습 효율성을 높이기 위해, 우리는 Low-Rank Adaptation (LoRA) (Hu et al., 2021)를 fine-tuning에 사용하여 최소한의 학습 반복으로 인상적인 학습 결과를 달성한다.

pretraining에서 modal integrity를 더욱 향상시키고 LanguageBind를 검증하기 위해, 우리는 5가지 modality를 포함하는 데이터셋인 VIDAL-10M을 소개한다. 이 데이터셋은 VL, IL (infrared-language), DL (depth-language), AL (audio-language) 데이터 쌍을 포함한다. 기존 데이터셋의 비디오는 항상 긴 비디오에서 잘라낸 세그먼트 (Miech et al., 2019; Xue et al., 2022)로, 단편적인 semantics를 초래했다. 이 문제를 피하기 위해, 우리는 완전한 스토리를 가진 짧은 비디오로부터 비디오-텍스트 쌍을 구성한다. 중심 language modality의 품질을 보장하기 위해, 우리는 VIDAL-10M에 대해 multi-view text generation 및 enhancement를 수행한다.

제안된 LanguageBind는 vision-language를 여러 (N) modality로 확장할 수 있도록 보장하며, 우리의 데이터셋 VIDAL-10M은 **비디오 검색 (Luo et al., 2022), 깊이 분류 (Cao et al., 2017), 적외선 분류 (Baffa & Lattari, 2018), 오디오 분류 (Palanisamy et al., 2020)**를 포함하여 VL task를 넘어 더 많은 다운스트림 task에 이점을 제공한다. Figure 2에서 보여지듯이, LanguageBind는 15개 task의 광범위한 범위에서 우수한 성능을 달성한다. zero-shot text to video retrieval에서 LanguageBind는 4개 데이터셋에서 우수한 성능을 달성하며, MSR-VTT (Xu et al., 2016)에서 InterVideo (Wang et al., 2022c)보다 1.9%, MSVD (Chen & Dolan, 2011)에서 8.8%, DiDeMo (Anne Hendricks et al., 2017)에서 6.3%, ActivityNet (Caba Heilbron et al., 2015)에서 4.4% 앞선다. 깊이 및 적외선 데이터에 대한 zero-shot classification에서 LanguageBind는 ImageBind에 비해 상당한 성능 우위를 달성한다. LanguageBind는 LLVIP 및 NYU-D에서 각각 87.2% 및 65.1%의 top-1 정확도를 달성하여 ImageBind보다 23.8% 및 11.1% 앞선다. zero-shot audio classification task에서 LanguageBind는 ESC50 데이터셋에서 ImageBind보다 23.8% 더 높은 top-1 정확도로 우수한 성능을 보인다.

Figure 2: LanguageBind는 비디오, 오디오, 깊이 및 적외선에 걸쳐 15개 벤치마크의 광범위한 범위에서 우수한 성능을 달성한다.

우리의 주요 기여는 다음과 같이 요약할 수 있다:

우리는 language 기반 멀티모달 pretraining 접근 방식인 LanguageBind를 제안한다. pretraining 과정에서 모든 modality는 contrastive learning을 통해 language modality와 점진적으로 정렬되며, 이러한 modality들은 공유된 embedding space 내에서 통합된다.
우리는 1000만 개의 VL, IL, DL, AL 정렬된 데이터 쌍을 포함하는 대규모 5-모달 비디오 데이터셋인 VIDAL-10M을 소개한다. 우리가 아는 한, VIDAL-10M은 깊이 및 적외선 modality를 포함하는 최초의 대규모 비디오 데이터셋이다.
광범위한 실험을 통해 우리 데이터셋과 접근 방식의 효과를 검증했으며, 비디오 및 기타 modality 이해 task에서 놀라운 성능을 달성했다.

멀티모달 사전학습 (Multi-modal Pretraining)
멀티모달 사전학습은 비전과 언어 분야의 사전학습으로 시작된다. **CLIP (Radford et al., 2021)**은 4억 개의 샘플로 구성된 대규모 데이터셋에서 이미지와 텍스트를 정렬하는 작업을 개척하여, 이미지와 텍스트 도메인 간의 효과적인 다리를 놓았다. 이러한 정렬은 zero-shot classification 및 image-text retrieval을 포함한 다양한 다운스트림 task에 이점을 제공한다. CLIP은 다른 모달리티에서의 정렬을 위한 기반으로도 사용될 수 있다. 예를 들어, **CLIP4Clip (Luo et al., 2022)**은 비디오와 텍스트를 정렬하고, **CLAP (Wu* et al., 2023)**은 오디오와 텍스트를 정렬하며, **PointCLIP (Zhang et al., 2022)**은 포인트 클라우드와 텍스트를 정렬한다.
최근 연구들은 사전학습을 통한 멀티모달 정렬에 대한 포괄적인 탐구를 수행해왔다. VALOR (Chen et al., 2023a) 및 **VAST (Chen et al., 2023b)**에서 관찰된 바와 같이, 추가 모달리티를 통해 정렬 프로세스를 강화하면 성능을 유지하면서 모델의 견고성을 향상시킬 수 있다. 그러나 모달리티의 수가 증가함에 따라, 이를 효과적으로 정렬하는 데 필요한 학습 패러다임은 크게 변화한다. **Meta-transformer (Zhang et al., 2023)**는 12개의 모달리티를 수용하며, 모달리티 간의 임베딩 공간을 조화시키기 위해 서로 다른 tokenizer를 활용한다. **ImageBind (Girdhar et al., 2023)**는 멀티모달 정렬 사전학습을 6개의 모달리티로 확장하지만, 간접적인 정렬로 인해 언어 관련 task에서는 성능이 떨어질 수 있다.
본 연구에서는 LanguageBind를 제안한다. 이는 가장 높은 정보 밀도를 가진 언어 모달리티와 다른 모달리티를 직접 정렬하도록 설계된 직접 정렬 메커니즘이다. 이 직접 정렬 메커니즘은 다운스트림 task 성능에서 뚜렷한 개선을 가져온다.

멀티모달 데이터셋 (Multi-modal Datasets)
멀티모달 데이터셋은 멀티모달 사전학습의 기반이 된다. 초기에는 Table 1에 나타난 바와 같이, 이러한 데이터셋은 비디오와 해당 카테고리로만 구성되었다. HMDB-51 (Kuehne et al., 2011) 및 **UCF-101 (Soomro et al., 2012)**이 그러한 데이터셋의 예시이며, 이들은 수동으로 주석된 긴 비디오의 잘린 세그먼트를 포함한다. 그러나 이러한 데이터셋을 생성하는 데는 상당한 인적 노력이 필요하여 확장성과 다양성이 제한되었다. 이 문제를 해결하기 위해 연구자들은 인터넷에서 풍부한 비디오-텍스트 자원에 주목했다. **이미지-텍스트 데이터셋 (Sharma et al., 2018; Changpinyo et al., 2021)**의 성공에 영감을 받아, 그들은 **스크립트 기반 프로그래밍 (Schuldt et al., 2004, Kong et al., 2019; Sigurdsson et al., 2018)**을 사용하여 수백만 개의 비디오-텍스트 데이터 쌍을 추출했다. 그러나 적외선 (Teledyne FLIR, 2015a b) 및 **깊이 (Silberman et al., 2012)**와 같이 특수 장비와 수동 주석이 필요한 모달리티에서 데이터를 획득하는 것은 어려웠다.

Table 1: 기존 멀티모달 데이터셋 비교. VIDAL-10M은 현재 최초로 접근 가능한 멀티모달 데이터셋으로, 정렬된 VL, IL, DL, AL 데이터 쌍을 포함한다.

Datasets	\|Samples	Modality	Year
HMDB-51	7 K	V	2011
UCF-101	13 K	V	2012
ActivityNet-200	20 K	VT	2015
WebVid-10M	10.7 M	VT	2021
HD-VILA-100M	100 M	VT	2022
HowTo-100M	136M	VT	2019
LLVIP	15 k	VI	2021
FLIR V1	10k	VI	2015
FLIR V2	12k	VI	2015
NYU-D	1.4 k	VD	2012
YouTube-8M	6.1 M	VAT	2016
AVA	58 K	VAT	2017
VIDAL-10M (Ours)\|	10M	VIDAL	2023

이는 데이터 규모와 다른 모달리티와의 정렬을 심각하게 제한했다. **ImageBind (Girdhar et al., 2023)**와 같은 기존 연구는 다양한 이미지 쌍 데이터셋을 묶고 서로 다른 모달리티 간의 간접적인 의미 정렬을 달성하려고 시도했지만, 이 접근 방식은 여전히 불완전하고 간접적인 데이터 정렬 문제를 안고 있다. 따라서, 직접적으로 의미가 정렬된 데이터 쌍을 포함하는 멀티모달 데이터셋, 특히 5가지 이상의 모달리티 유형을 가진 데이터셋에 대한 시급한 필요성이 있다.

Figure 3: LanguageBind 개요. language encoder 파라미터는 고정(frozen)되어 있으며, multimodal encoder 파라미터는 LoRA 기법을 사용하여 조정할 수 있다. LanguageBind는 언어와 다른 모달리티 간의 contrastive learning을 통해 멀티모달 공동 학습을 성공적으로 달성하여, 서로 다른 모달리티 간의 의미 정렬을 촉진한다.

3 Method

이 섹션에서는 다양한 모달리티의 의미를 정렬하고 cross-modal retrieval 및 zero-shot classification 성능을 향상시키기 위해 설계된 멀티모달 사전학습 접근 방식인 LanguageBind를 소개한다. Figure 3에서 볼 수 있듯이, LanguageBind는 세 가지 부분으로 구성된다: (a) multi-modal encoder, (b) language encoder, (c) multi-modal joint learning.

언어 외의 다른 modality에 대해서는 패치 크기 14를 가진 24-layer, 1024-dimensional vision Transformer를 사용한다. Encoder는 OpenCLIP-large (Ilharco et al., 2021)로 초기화된다. Depth와 infrared는 RGB 이미지와 동일하게 처리되며, RGB 이미지와 정렬하기 위해 채널 차원에서 3번 복제된다. ImageBind를 따라, 오디오 데이터는 10초 길이의 spectrogram (128 mel-bins)으로 변환되며, 우리는 이 spectrogram을 반복하고 패딩한다. 예를 들어, 4초 길이의 spectrogram은 두 번 반복된 후 추가 2초 동안 0으로 패딩된다. 유사하게, 채널 차원에서도 3번 복제한다. 만약 길이가 10초를 초과하면, 원본 오디오의 앞 1/3, 중간 1/3, 뒤 1/3에서 각각 세 개의 10초 오디오 세그먼트를 무작위로 샘플링한 후, 최종적으로 이들을 함께 쌓는다.

Patch masking
Encoder 내의 모든 token을 처리하는 비효율성을 해결하기 위해, 우리는 MAE (He et al., 2022)를 따라 이미지를 패치로 나누고 encoder mask $\mathbb{M}_{e}$ 를 통해 패치의 작은 부분만 선택한다. modality $\boldsymbol{m} \in \mathbb{R}^{H \times W \times C}$ 가 주어졌을 때, $(H, W)$ 는 원본 데이터의 해상도를 나타내고 $C$ 는 채널 수를 나타낸다. 우리는 먼저 겹치지 않는 필터를 가진 patch embedding layer를 사용하여 이를 패치로 변환한다. 이 연산은 $\boldsymbol{m}^{\prime} \in \mathbb{R}^{N \times C}$ 로 표시되는 패치를 생성하며, $N=\frac{H \times W}{S^{2}}$ 는 결과 시퀀스 길이를 나타내고, $S$ 는 각 패치의 크기를 나타낸다. 이어서, encoder mask에 의해 분할된 visible token에 positional embedding이 적용된다. 결합된 시퀀스 $\boldsymbol{x}$ 는 다음과 같이 정의된다:

\boldsymbol{x}=\left\{\boldsymbol{m}_{i}^{\prime}+\boldsymbol{P}_{i}\right\}_{i \in \mathbb{M}_{e}}

여기서 $\boldsymbol{P}$ 는 학습 가능한 position token의 시퀀스이며, $i$ 는 패치에서의 위치 인덱스를 나타낸다.

LoRA fine-tuning
우리는 fine-tuning을 가속화하기 위해 LoRA 기술 (Hu et al., 2021)을 사용한다. 가중치 행렬 $W_{0} \in \mathbb{R}^{d \times k}$ 를 가진 modality-agnostic encoder의 경우, 우리는 가중치 행렬 $W_{0}$ 를 고정(frozen)한 채 새로운 가중치 행렬 $B A$ 를 학습한다. 예를 들어, modality-agnostic encoder $h(\cdot)$ 와 $\boldsymbol{x}$ 의 경우, forward 과정은 다음과 같이 표현될 수 있다:

h(\boldsymbol{x})=W_{0} \boldsymbol{x}+B A \boldsymbol{x}

여기서 $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ 이며, $r$ 은 $d$ 와 $k$ 중 작은 값이다. $W_{0}$ 와 $B A$ 모두 동일한 입력 및 출력 차원을 가지므로, 이들의 합산을 통해 최종 출력을 생성할 수 있다는 점을 강조하는 것이 중요하다.

Modality 확장 (Modality extending)
LanguageBind 방법을 여러 ( $N$ ) modality로 확장하기 위한 첫 번째 단계는 데이터를 token 시퀀스로 처리하는 것이다. 이어서, 파라미터는 OpenCLIP으로 초기화된다. 그런 다음, 언어 encoder를 고정(frozen)한 채 token masking과 LoRA fine-tuning을 통해 다른 modality를 위한 encoder를 학습한다. 마지막으로, 이 modality는 언어 feature space와 정렬된다.

Language Encoder
language encoder로는 768차원의 12-layer Transformer 모델을 사용하며, OpenCLIP으로 초기화한다. 주어진 텍스트에 대해, 먼저 BPE tokenizer를 사용하여 단어를 비교적 흔한 subword로 분할한다. 각 subword는 고유한 token에 해당하며, 이 token들은 word embedding layer에 임베딩된다. 최종적으로, 이 token들은 language encoder에 의해 인코딩되어 **텍스트 logit $\boldsymbol{y} \in \mathbb{R}^{L \times C}$ **를 얻는다. 여기서 $L$ 은 시퀀스의 길이를 나타낸다.
서로 다른 modality 간의 정렬(alignment)을 보장하기 위해, 우리는 contrastive learning 원리를 구현한다 (Radford et al., 2021). 이 접근 방식의 목표는 쌍을 이루는 데이터의 유사도를 높여 동일한 semantic space에 가깝게 만들고, 쌍을 이루지 않는 데이터의 유사도는 최소화하는 것이다. 우리는 contrastive learning을 활용하여 **개별 modality를 언어에 연결(bind)**한다.

L_{M 2 T}=-\frac{1}{K} \sum_{i=1}^{K} \log \frac{\exp \left(x_{i}^{\top} y_{i} / \tau\right)}{\sum_{j=1}^{K} \exp \left(x_{i}^{\top} y_{j} / \tau\right)}, L_{T 2 M}=-\frac{1}{K} \sum_{i=1}^{K} \log \frac{\exp \left(y_{i}^{\top} x_{i} / \tau\right)}{\sum_{j=1}^{K} \exp \left(y_{i}^{\top} x_{j} / \tau\right)}

여기서 $x_i$ 는 $i$ -번째 modality 데이터이고 $y_j$ 는 $j$ -번째 텍스트이며, 이들의 feature는 정규화된다. $K$ 는 batch size이고 $\tau$ 는 temperature이다. 각 modality $\mathbf{M}$ 을 언어 $\mathbf{T}$ 와 직접적으로 정렬함으로써, 우리는 zero-shot 분류 및 검색(retrieval) task의 성능을 크게 향상시킬 수 있다.

4 The VIDAL-10M dataset

이 섹션에서는 300만 쌍의 비디오-언어 데이터, 300만 쌍의 적외선-언어 데이터, 300만 쌍의 깊이-언어 데이터, 그리고 100만 쌍의 오디오-언어 데이터를 포함하는 VIDAL-10M 데이터셋을 구축하는 방법을 설명한다. Figure 4에 나타난 바와 같이, 데이터 수집 과정은 크게 세 가지 주요 단계로 구성된다:

시각 검색어 데이터베이스 구축 (Section 4.1)
비디오 및 오디오 수집 및 필터링 (Section 4.2)
모달리티 생성 및 강화 (Section 4.3)

4.1 Visual search term database construction

풍부한 시각적 개념과 다양성을 가진 비디오 데이터셋을 구축하기 위해, 우리는 독특한 검색어 획득 전략을 설계했다. 우리는 다양한 시각 task 데이터셋(YouTube-8M (Abu-El-Haija et al., 2016), MSR-VTT (Xu et al., 2016), COCO (Lin et al., 2014), AVA (Gu et al., 2018), HMDB-51 (Kuehne et al., 2011), ImageNet (Deng et al., 2009))의 레이블과 캡션을 포함한 텍스트 데이터를 활용하여, 다양성과 광범위한 적용 가능성을 가진 대규모 검색어 데이터베이스를 생성한다. 그 다음, 이 검색어들을 빈도에 따라 필터링하고, NLTK 툴킷을 사용하여 품사 태깅을 수행한 후, 키워드(명사 및 동사)의 출현 횟수를 집계한다. 이러한 키워드에 해당하는 100,000개의 균형 잡힌 검색 항목 서브셋을 최종 검색어 데이터베이스로 추출한다.

4.2 Video and Audio collection and filtering

데이터 수집 과정에서 우리는 앞서 언급된 검색어를 활용하여 YouTube Shorts, Freesound와 같은 관련 플랫폼에서 **비디오-텍스트 쌍(video-text pairs)과 오디오-텍스트 쌍(audio-text pairs)**을 검색한다.
비디오 수집과 관련하여, 고품질 텍스트 설명이 포함된 짧은 비디오를 얻기 위해 제목과 해시태그에 대한 필터링 메커니즘을 구현했다. 제목에 2단어 미만이 포함되거나 비디오 해시태그 라벨이 없는 비디오 샘플은 데이터셋에서 제외된다.

Figure 4: VIDAL-10M 구축 과정. (a) 먼저, 시각적으로 관련된 데이터셋을 활용하여 검색어 데이터베이스를 생성한다. (b) 이어서, 인터넷에서 관련 비디오와 오디오를 수집하고 일련의 필터링 과정을 거친다. (c) 마지막으로, 적외선 및 깊이(depth) 모달리티 생성과 다중 뷰 텍스트 생성 및 개선을 수행한다.

또한, "youtube", "fyp", "shorts" 등과 같은 관련 없는 단어와 해시태그를 제거했다.
나아가, 단일 전체 비디오 내에서 이벤트의 완전하고 일관되며 정확한 묘사를 보장하기 위해 20초의 길이 제한을 두기로 결정했다. 짧은 비디오는 **더 나은 장면 일관성(scene coherence)과 이벤트 무결성(event integrity)**을 보이는 경향이 있으며, 해당 해시태그 및 제목 설명과 더 밀접하게 일치한다. 궁극적으로 우리는 추상적인 내용보다는 더 구체적인 내용을 포함하는 짧은 비디오 데이터셋을 얻는다.
오디오 수집과 관련하여, 우리는 다양한 오디오 플랫폼에서 오디오 목록을 검색어와의 유사성을 기반으로 순위를 매긴다. 추가적으로, 오디오 평점, 다운로드 수, 사용자 댓글, 태그, 길이 등의 요소를 고려하여 비디오와 유사한 필터링 작업을 수행한다. 이러한 포괄적인 접근 방식을 통해 오디오 및 비디오 콘텐츠를 더욱 효과적으로 선별하고 정제할 수 있다.

4.3 Modality generation and enhancement

Figure 5: Multi-view text generation and enhancement pipeline. 우리는 OFA 모델을 사용하여 keyframe caption을 생성하고, 입력 비디오, 제목, 해시태그를 mPLUG-owl 모델에 입력하여 비디오 caption을 얻는다. 이 비디오 caption은 ChatGPT를 사용하여 추가적으로 정제되어 ChatGPTmPLUG caption이 된다. 최종 multi-view 텍스트 설명은 이러한 구성 요소들로 이루어진다.

Multi-view 텍스트 생성 및 개선
VIDAL-10M의 언어 modality는 **제목(title), 해시태그(hashtags), keyframe caption, 비디오 caption, 그리고 개선된 caption(enhanced captions)**을 포함하는 multi-view 텍스트로 구성된다. 상세한 텍스트 생성 및 개선 파이프라인은 Figure 7에 설명되어 있다.
VIDAL-10M의 해시태그는 비디오에 묘사된 주요 주제와 행동을 강조하도록 특별히 설계되었다. 이 해시태그는 비디오의 초점과 동적인 요소들을 강조하는 핵심 지표 역할을 한다. 그러나 해시태그만으로는 비디오 프레임이 전달하는 공간 정보(spatial information)를 완전히 포착하지 못할 수 있다. 이러한 한계를 해결하기 위해, 우리는 **이미지 캡셔닝 모델 OFA (Wang et al., 2022b)**를 활용하여 keyframe 수준에서 공간 정보를 풍부하게 하는 보조 keyframe caption을 생성한다. 이 caption들은 또한 **비디오 콘텐츠와 관련된 지역적인 시간 정보(local temporal information)**를 포함하며, 이는 visual-text pretraining에 유용하다.
공간 정보 외에도, **비디오 내에 숨겨진 시간 정보(temporal information)**는 비디오 내 이벤트의 진행과 순서에 대한 중요한 통찰력을 제공하므로 동등하게 중요하다. 비디오의 전반적인 주제 및 시간 정보를 더욱 보완하기 위해, 우리는 **mPLUG-owl 모델 (Ye et al., 2023)**을 사용하여 비디오, 제목, 해시태그의 조합을 기반으로 비디오 caption을 생성한다. 제목과 해시태그를 정확한 비디오 레이블로 활용함으로써, 우리는 mPLUG-owl 모델이 비디오 주제와 일치하는 caption을 생성하도록 유도하여, 잠재적인 모델 편향을 어느 정도 줄인다.
나아가, 생성된 비디오 caption에서 가치 있는 정보를 추출하기 위해, 우리는 ChatGPT 모델을 활용하여 텍스트 설명을 정제하고 개선함으로써 텍스트의 품질을 크게 향상시킨다. 위에서 언급된 텍스트 구성 요소들을 통합함으로써, multi-view 텍스트 설명은 비디오 콘텐츠에 대한 포괄적이고 상세한 표현을 제공한다.

적외선 및 깊이 modality 생성
깊이(depth) 및 적외선(infrared) 분야에서, 모달 데이터셋을 생성하는 것은 일반적으로 특수 장비와 인적 노력을 필요로 하므로 데이터가 제한적이다. NLP 및 CV 분야에서 *대규모 사전학습 모델 (Radford et al., 2021; Wu et al., 2023, Luo et al., 2022; Chen et al., 2023b)의 성공에도 불구하고, 이 분야에서는 여전히 대규모 데이터가 부족**하다. 이러한 문제를 해결하기 위해, 우리는 고급 생성 모델을 사용하여 대규모 깊이 및 적외선 데이터셋을 구축할 것을 제안한다. **적외선 modality 생성에는 sRGB-TIR 모델 (Lee et al., 2023)**이 사용되고, **깊이 modality 생성에는 GLPN 모델 (Kim et al., 2022)**이 사용되어, 우리 비디오의 keyframe으로부터 깊이 및 적외선 데이터를 생성한다. 일부 한계가 존재할 수 있지만, 수백만 개의 비디오 프레임과 그에 상응하는 매우 다양한 의미를 가진 텍스트 컬렉션은 모델 편향의 존재를 크게 줄일 수 있다.

5 Experiments and Results

이 섹션에서는 다양한 실험을 통해 여러 다운스트림 task에서 LanguageBind의 효과를 평가한다. 첫째, zero-shot video-text retrieval을 사용하여 LanguageBind의 비디오-텍스트 정렬(align) 능력을 평가한다. 또한, LanguageBind를 사용하여 깊이(depth), 적외선(infrared) 이미지, 오디오를 포함하는 다운스트림 task의 성능을 향상시킨다. 마지막으로, LanguageBind 성능에 대한 다양한 파라미터 구성 및 텍스트 설명의 영향을 분석하기 위해 ablation 실험을 수행한다.

5.1 Zero-shot retrieval in Video-Language

기존 방법들과의 비교
zero-shot video-text retrieval 벤치마크에서는 공정한 비교를 위해 ViT-L/14를 video encoder로 활용하고 temporal attention layer를 추가했으며, 이는 Appendix B에서 확인할 수 있다. Table 2에 제시된 결과에 따르면, LanguageBind의 성능은 MSR-VTT에서 VideoCoCa (Yan et al., 2022) 및 OmniVL (Wang et al., 2022a)보다 각각 8.3% 및 8.0% 더 우수하다. Vit-Huge 아키텍처를 활용하는 ImageBind 모델과 비교했을 때, Vit-Large 모델을 사용하는 LanguageBind 모델이 더 뛰어난 실험 결과를 보여준다.
또한, CLIP-Large 기반이지만 더 많은 학습 데이터를 사용하는 모델들과 비교했을 때, LanguageBind는 4개의 데이터셋에서 state-of-the-art (SOTA) 성능을 달성한다. 구체적으로 MSR-VTT에서 InternVideo (Wang et al., 2022c)보다 1.9%, MSVD에서 8.8%, DiDeMo에서 6.3%, ActivityNet에서 4.4% 더 우수한 성능을 보인다. 우리는 또한 MSR-VTT와 DiDeMo에서 TVTSv2 (Zeng et al., 2023)보다 각각 4.4% 및 3.2% 더 높은 성능을 달성했다. 나아가, 모든 데이터셋에서 UMT-L Li et al. (2023a)을 능가한다.
데이터셋 유효성에 대한 공정한 비교를 위해, 우리는 CLIP4CLIP의 Vit-B/32 모델을 사용하여 VIDAL-10M의 100K 서브셋과 HowTo100M의 380K 서브셋으로 검증 실험을 수행했다. Table 3에서 볼 수 있듯이, VIDAL-100k는 MSRVTT 및 MSVD 데이터셋 모두에서 HT100M-380k보다 우수한 성능을 보여주며, 이는 우리가 제안하는 데이터셋의 효과를 입증한다.

Zero-shot X-Language 분류
Table 4에서는 최신 state-of-the-art 멀티모달 사전학습 모델인 OpenCLIP (Ilharco et al., 2021) 및 ImageBind (Girdhar et al., 2023)과 우리의 모델을 멀티모달 이해 능력 task에서 비교한다.
비디오 zero-shot 분류의 경우, 우리는 더 작은 모델로 Kinetics-400 (Kay et al., 2017)에서 ImageBind보다 14.0% 더 우수한 성능을 보인다. 또한 추가 비교를 위해 OpenCLIP에 대한 multi-view/crop (Simonyan & Zisserman, 2014) 결과도 보고한다.
적외선(infrared) 이미지의 경우, LanguageBind는 LLVIP에서 ImageBind보다 23.8%라는 주목할 만한 성능 우위를 보이며, 세 가지 데이터셋(LLVIP, FLIR V1, V2) 모두에서 OpenCLIP을 능가한다.
깊이(depth) 이미지의 경우, NYU-D에 대한 우리의 zero-shot 결과는 ImageBind를 11.1%라는 상당한 차이로 능가하며, OpenCLIP보다 19.7% 더 우수하다.
오디오의 경우, 우리는 Audioset 데이터셋에서 ImageBind보다 10.1%, VGGSound 데이터셋에서 1.1% 더 우수한 성능을 보인다. 특히 ESC-50 데이터셋에서는 ImageBind를 23.9%라는 큰 차이로 능가한다.

Table 2: LanguageBind의 4개 데이터셋에 대한 Zero-shot Video-Text retrieval 성능.
*는 full tuning 결과를 나타낸다. ${ }^{\dagger}$ 는 Huge 모델로 학습된 결과를 나타낸다. 10M은 10M 개의 video-text 쌍으로 학습되었음을 나타낸다.

Method	Dataset	MSR-VTT			MSVD			DiDeMo			ActivityNet
		R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10
Non-CLIP models
OmniVL	14M	34.6	58.4	66.6	-	-	-	33.3	58.7	68.5	-	-	-
VideoCoCa	100 M	34.3	57.8	67.0	-	-	-	-	-	-	34.5	63.2	76.6
CLIP-H/14
ImageBind	-	36.8	61.8	70.0	-	-	-	-	-	-	-	-	-
CLIP-L/14
UMT	5M	33.3	58.1	66.7	44.4	73.3	82.4	34.0	60.4	68.7	31.9	69.2	72.0
TVTSv2	8.5 M	38.2	62.4	73.2	-	-	-	34.6	61.9	71.5	-	-	-
InternVideo	12.8 M	40.7	-	-	43.4	-	-	31.5	-	-	30.7	-	-
LanguageBind	3 M	42.6	65.4	75.5	52.2	79.4	87.3	37.8	63.2	73.4	35.1	63.4	76.6
LanguageBind*	3M	42.7	67.1	77.0	53.5	80.5	87.5	38.1	65.0	73.6	36.9	65.1	77.2
LanguageBind*	10 M	42.8	67.5	76.0	54.1	81.1	88.1	39.7	65.5	73.8	38.4	66.6	77.9
CLIP-H/14
LanguageBind* $\dagger$	10M	44.8	70.0	78.7	53.9	80.4	87.8	39.9	66.1	74.6	41.0	68.4	80.0

Table 3: VIDAL-10M의 효과를 검증하기 위한 CLIP4Clip의 Zero-shot Video-Text retrieval 성능.

Dataset	Method	Parameter	Source	R@1 $\uparrow$	R@5 $\uparrow$	R@10 $\uparrow$	MR $\downarrow$
MSR-VTT	CLIP4Clip	86M	WIT400M, HT100M-380k	32.0	57.0	66.9	4.0
	CLIP4Clip	86M	WIT400M, VIDAL-100k	$\mathbf{3 5 . 7}$	$\mathbf{6 0 . 8}$	$\mathbf{7 1 . 5}$	$\mathbf{3 . 0}$
MSVD	CLIP4Clip	86 M	WIT400M, HT100M-380k	38.5	66.9	76.8	2.0
	CLIP4Clip	$\mathbf{8 6 M}$	WIT400M, VIDAL-100k	$\mathbf{4 2 . 0}$	$\mathbf{7 0 . 0}$	$\mathbf{7 9 . 2}$	$\mathbf{2 . 0}$

A) (Gemmeke et al., 2017) 및 기타 데이터셋에 대한 top-1 정확도 결과. *는 full tuning 결과를 나타낸다.

Table 4: Zero-shot X-Language 분류.
Audioset Audio-only (AS-A)에 대한 mAP를 보고하며, 나머지는 top-1 정확도 결과이다.

Method	Size	Video		Infrared			Depth	Audio
		K400	K600	LLVIP	FLIR V1	FLIR V2	NYU-D	AS-A	ESC-50	VGGS
ImageBind	Huge	50.0	-	63.4	-	-	54.0	17.6	66.9	27.8
OpenCLIP	Large	60.7	59.0	82.2	81.2	42.6	45.4	-	-	-
LanguageBind	Large	$\mathbf{6 4 . 0}$	$\mathbf{6 1 . 9}$	$\mathbf{8 7 . 2}$	$\mathbf{8 2 . 9}$	$\mathbf{4 8 . 0}$	$\mathbf{6 5 . 1}$	$\mathbf{27 . 7}$	$\mathbf{9 1 . 8}$	$\mathbf{28 . 9}$
LanguageBind*	Large	-	-	-	-	-	-	$\mathbf{3 0 . 0}$	$\mathbf{9 4 . 0}$	$\mathbf{3 8 . 6}$

5.2 Zero-SHOT IN MULTIPLE MODALITIES

Zero-shot Audio-Language retrieval
우리는 Clotho (Font et al., 2013) 데이터셋과 Audiocaps (Kim et al., 2019) 데이터셋에서 zero-shot text-to-audio retrieval 성능을 Table 5에서 비교한다. Clotho 데이터셋의 경우, LanguageBind는 AVFIC (Nagrani et al., 2022) 및 ImageBind를 각각 9.1%와 6.1% 크게 능가하는 성능을 보인다. 또한, 우리의 LanguageBind 모델은 강력한 baseline인 VALOR (Chen et al., 2023a)도 3.7% 앞선다. 동일한 경향은 Audiocaps 데이터셋에서도 관찰된다. LanguageBind는 AVFIC와 ImageBind를 각각 2.9%와 5.5% 능가한다. 전반적으로, LanguageBind는 두 벤치마크에서 기존 연구들을 크게 능가하며, 이는 오디오와 언어 모달리티를 정렬하는 효율적인 방법임을 입증한다.

Table 5: Zero-shot Audio-Language retrieval. *는 full tuning 결과를 나타낸다.

Method	Clotho		Audiocaps
	R@1	R@10	R@1	R@10
AVFIC	3.0	17.5	8.7	37.7
ImageBind	6.0	28.4	9.3	42.3
VALOR	8.4	-	-	-
LanguageBind	$\mathbf{1 2 . 1}$	$\mathbf{44 . 0}$	$\mathbf{1 2 . 2}$	$\mathbf{53 . 2}$
LanguageBind $^{*}$	$\mathbf{16 . 7}$	$\mathbf{52 . 0}$	$\mathbf{19 . 7}$	$\mathbf{67 . 6}$

Zero-shot language-based multi-modal joint retrieval
Table 6에서 우리는 joint space의 상호 보완성(complementarity)을 탐구하기 위해 multi-modal joint retrieval을 수행한다. MSR-VTT 및 Place 데이터셋에서는 R@1 점수를 보고하고, 다른 데이터셋에서는 정확도(accuracy)를 보고한다. MSR-VTT의 경우, 오디오를 포함하는 비디오만을 사용하여 평가한다. 비디오-언어 retrieval에 오디오 embedding을 통합하면 성능이 41.4에서 42.0으로 향상된다. 유사한 경향은 다른 모달리티에서도 관찰되었는데, 각 모달리티가 다른 모달리티와 결합될 때 성능을 향상시킬 잠재력이 있음을 보여준다. 이러한 결과는 LanguageBind가 더 일관된 feature space를 학습할 수 있음을 입증한다.

Emergent zero-shot retrieval
Table 7에서 우리는 RGB 이미지, 오디오, 적외선(infrared), 깊이(depth)를 포함한 4가지 데이터셋에서 emergent coverage의 zero-shot 성능을 탐구한다. 우리의 접근 방식은 새로운(novel) 것이므로, 비교할 만한 "공정한" baseline 모델이 없다. 그럼에도 불구하고, 우리는 이미지와 직접 정렬되는 ImageBind와 결과를 비교한다. 예를 들어, 우리는 AVE (Tian et al., 2018)와 VGGS에서 각각 10.6과 10.0의 R@1 점수를 달성했다. 각 벤치마크에서 emergent zero-shot retrieval의 성능은 상당한 이득을 얻었으며, 텍스트 feature를 통합하여 얻은 결과에 근접하기도 한다. 이러한 결과는 LanguageBind가 다양한 모달리티를 정렬하고 특정 모달리티 및 task와 관련된 텍스트 supervision을 암묵적으로 전이(transfer)함을 시사한다.

Table 7: Emergent zero-shot retrieval 비교. ${ }^{\dagger}$ 는 10%의 데이터를 무작위로 선택하여 테스트했음을 나타낸다.

Table 6: Multi-modal language based retrieval 비교. *는 오디오가 포함된 비디오만 포함되었는지 불분명함을 나타낸다. ${ }^{\dagger}$ 는 어두운 밤 이미지임을 나타낸다.

				Dataset	Method	Task	Emergent	R@1
Dataset	Method	Task	Top-1	AVE ${ }^{\dagger}$	Ours ImageBind	$\mathrm{RGB} \rightarrow \mathrm{A}$	$\checkmark$	10.6
MSR	ImageBind	$\mathrm{V} \rightarrow \mathrm{T}$	36.1*				$\times$	36.9
		$\mathrm{A}+\mathrm{V} \rightarrow \mathrm{T}$	$36.8(+0.7)$	VGGS ${ }^{\dagger}$	Ours ImageBind	$\mathrm{RGB} \rightarrow \mathrm{A}$	$\checkmark$	10.0
		$\mathrm{V} \rightarrow \mathrm{T}$	41.4				$\times$	28.7
		$\mathrm{A}+\mathrm{V} \rightarrow \mathrm{T}$	42.0 (+0.6)	LLVIP ${ }^{\dagger}$	Ours	$\mathrm{RGB} \rightarrow \mathrm{I}$	$\checkmark$	7.5
NYU	ImageBind	$\mathrm{D} \rightarrow \mathrm{T}$	54.0			$\mathrm{RGB}+\mathrm{T} \rightarrow \mathrm{I}$	$\times$	9.1
	Ours	$\mathrm{D} \rightarrow \mathrm{T}$	65.1			I $\rightarrow$ RGB	$\checkmark$	9.3
		$\mathrm{RGB} \rightarrow \mathrm{T}$	76.0			$\mathrm{D}+\mathrm{I} \rightarrow \mathrm{RGB}$	$\times$	10.6
		$\mathrm{D}+\mathrm{RGB} \rightarrow \mathrm{T}$	77.4 (+1.4)	NYU	Ours	RGB $\rightarrow$ D	$\checkmark$	17.9
LLVIP	Ours	$\mathrm{RGB}^{\dagger} \rightarrow \mathrm{T}$	62.4			RGB+T $\rightarrow$ D	$\times$	18.3
		$\mathrm{I}+\mathrm{RGB}^{\dagger} \rightarrow \mathrm{T}$	79.3 (+16.9)			D $\rightarrow$ RGB	$\checkmark$	24.5
						D+T $\rightarrow$ RGB	$\times$	25.7

5.3 Training Loss and Architecture

ImageBind에 따라, 우리는 주로 시각 및 공간 양식인 깊이(depth)와 적외선(infrared) 에 중점을 둔다. 우리는 Clotho 및 Audiocaps 데이터셋에 대해서는 R@1 점수를, 다른 데이터셋에 대해서는 top-1 정확도를 보고한다. 더 많은 ablation 결과는 Appendix E에 제공된다.

학습 epoch 수 (Training epochs)
Table 8a에서 학습 epoch 수의 영향을 연구하는 실험을 수행했으며, 이는 LoRA fine-tuning이 매우 효과적임을 보여준다. 3 epoch 학습 방식이 더 높은 정확도를 보이지만, 우리는 성능과 학습 비용 사이의 균형을 위해 1 epoch로 최적화하는 것을 선택했다.

학습 batch size (Training batch size)
Table 8b에서는 batch size가 표현 학습에 미치는 영향을 평가한다. 실험 결과, 더 큰 batch size가 반드시 더 좋은 것은 아님을 보여주었다. 실제로 1,024의 batch size가 가장 최적이다.

학습 전략 (Training strategy)
Table 8c에 나타난 바와 같이, 우리는 세 가지 다른 전략을 비교한다. Scratch부터 학습하는 방식은 가장 낮은 성능을 보였는데, 이는 CLIP 사전학습으로부터 얻은 사전 지식(prior knowledge)의 부족 때문일 가능성이 높다. 반면, full tuning은 scratch부터 학습하는 방식에 비해 상당한 개선을 보여준다. 이는 사전학습된 가중치 형태의 사전 지식을 활용하는 긍정적인 영향을 강조한다.

Table 8: 학습 손실 및 아키텍처 설계 결정과 zero-shot 분류에 미치는 영향. Section 5.2의 결과 설정은 회색으로 강조 표시됨.

(a) 학습 epoch 수

Dataset	1	5
NYU-D	$\mathbf{6 5 . 1}$	64.5
LLVIP	$\mathbf{8 3 . 9}$	81.1
FLIR V1	82.9	$\mathbf{8 5 . 0}$
FLIR V2	$\mathbf{4 8 . 0}$	44.7

Dataset	512	1 k	2 k
NYU-D	63.9	$\mathbf{6 5 . 1}$	64.5
LLVIP	80.0	$\mathbf{8 3 . 9}$	78.6
FLIR V1	81.6	82.9	$\mathbf{8 5 . 2}$
FLIR V2	45.1	$\mathbf{48 . 0}$	47.9

	Scratch	Full tuning	LoRA
Time	1.4 h	1.4 h	$\mathbf{0 . 8 h}$
Mems	278 M	278 M	$\mathbf{1 3 2 M}$
LLVIP	57.1	$\mathbf{8 5 . 1}$	84.8
FLIR V1	74.7	81.3	$\mathbf{8 1 . 6}$
FLIR V2	54.4	41.9	$\mathbf{4 6 . 6}$
ESC-50	86.8	$\mathbf{8 8 . 9}$	87.4
Clotho	8.8	9.8	$\mathbf{1 0 . 1}$

Dataset	2	4	8
NYU-D	$\mathbf{6 5 . 1}$	64.4	64.7
LLVIP	$\mathbf{8 3 . 9}$	78.0	-
FLIR V1	$\mathbf{8 2 . 9}$	74.4	-
FLIR V2	$\mathbf{4 8 . 0}$	45.8	-

Dataset	Learn	0.05	0.1
NYU-D	$\mathbf{6 5 . 1}$	63.0	62.7
LLVIP	$\mathbf{8 3 . 9}$	81.8	83.1
FLIR V1	82.9	$\mathbf{8 3 . 3}$	80.3
FLIR V2	$\mathbf{4 8 . 0}$	45.0	43.2

Dataset	0.0	0.3	0.5	0.7
NYU-D	-	64.8	$\mathbf{6 5 . 1}$	62.7
LLVIP	80.3	79.9	$\mathbf{8 3 . 9}$	81.5
FLIR V1	83.5	$\mathbf{8 4 . 2}$	82.9	81.9
FLIR V2	43.2	44.0	$\mathbf{4 8 . 0}$	42.5

사전학습된 가중치. 한편, LoRA 방식은 시간 및 메모리 비용 측면에서 장점이 두드러진다. 이는 full tuning에 비해 더 적은 시간과 메모리 자원을 요구한다. 또한, LoRA는 LLVIP, FLIRv1, Clotho와 같은 여러 데이터셋에서 full tuning보다 뛰어난 성능을 보인다. 이는 LoRA가 효율적일 뿐만 아니라, 사전학습된 OpenCLIP 모델로부터 이전에 습득한 지식을 더 잘 유지하면서도 다양한 도메인에 특화된 새로운 지식을 학습하는 데 효과적임을 나타낸다.

LoRA의 rank (Rank of LoRA)
우리의 연구에서는 Table 8d에 자세히 설명된 LoRA의 일반적인 rank 구성을 조사했다. 우리는 더 작은 rank 값이 더 큰 성능 향상으로 이어지는 반면, 더 큰 rank는 성능을 저하시키는 경향이 있음을 관찰했다. 이러한 경향은 모델의 잠재적인 과적합(overfitting) 에 기인할 수 있다.

손실 함수를 위한 temperature (Temperature for loss)
Table 8e에서 다양한 temperature의 영향을 면밀히 조사했다. 우리는 0.07에서 초기화된 학습 가능한 temperature가 가장 좋은 성능을 보이며, ImageBind가 제안한 고정 temperature 전략보다 우수함을 발견했다.

Masked ratio (Masked ratio)
Table 8f에서 다양한 mask ratio의 영향을 탐구했다. 결과는 0.5의 mask ratio가 가장 높은 성능을 보이며, 계산 자원의 1/4만 필요하다는 것을 보여주는데, 이는 FLIP (Li et al., 2023b)의 결과와 일치한다.

6 Conclusion

본 연구에서는 멀티모달 사전학습(pretraining)을 위한 언어 기반의 의미 정렬(semantic alignment) 방법인 LanguageBind를 제안한다. 우리는 contrastive learning을 활용하여 언어(language) modality와 다른 모든 modality 간의 의미 정렬을 확립한다.
모달리티의 무결성(modal integrity)을 향상시키기 위해, 우리는 또한 언어 modality에 직접 정렬된 최초의 대규모 멀티모달 데이터셋인 VIDAL-10M을 구축하였다. 이 데이터셋은 1,000만 개의 정렬된 VL, IL, DL, AL 쌍으로 구성된다.
zero-shot X-language 이해 및 **서로 다른 modality 간의 간접 정렬(indirect alignment)**을 포함한 광범위한 실험 결과는 LanguageBind의 멀티모달 정렬 및 보완 능력의 효과성과 VIDAL-10M의 효과성을 입증한다.

Reproducibility Statement

LanguageBind 접근 방식 세부 정보. (a) Section 3.1에서 멀티모달 encoder에 대한 포괄적인 개요를 제공하며, 그 아키텍처와 기능을 상세히 설명한다. (b) Section 3.2에서 language encoder를 설명한다. (c) Section 3.2에서 멀티모달 joint learning에 사용된 방법론을 상세히 설명한다.
VIDAL-10M 데이터셋 구축 세부 정보. (a) Section 4.1에서 검색어 데이터베이스를 구축하는 데 사용된 절차를 설명한다. (b) Section 4.2에서 VIDAL-10M 내에서 비디오 및 오디오 데이터를 수집하고 필터링하는 데 사용된 전략에 대한 통찰력을 제공한다. (c) Section 4.3에서 적외선 및 깊이 데이터 생성, 그리고 다중 뷰 텍스트 생성 및 향상에 관련된 프로세스를 자세히 설명한다. (d) VIDAL-10M 데이터셋은 출판 시 공개될 예정이다.
설정 세부 정보. (a) Appendix B에서 학습 하이퍼파라미터를 자세히 설명한다. (b) Appendix C에서 다운스트림 task 데이터셋의 설정을 설명한다.

Appendix

A Statistics of VIDAL-10M Dataset

Figure 6: VIDAL-10M 내 비디오-오디오-텍스트-깊이-적외선 쌍의 예시로, 텍스트 구성 요소는 해시태그, 제목, 키프레임 캡션, 비디오 캡션을 포함한다. 예시는 스포츠, 반려동물 및 동물, 뉴스 및 정치, 교육에 해당하는 4개의 서로 다른 클러스터에서 가져왔다.

풍부한 시각적 개념과 다양성을 가진 비디오 데이터셋을 구축하기 위해, 우리는 독특하면서도 간단한 검색어 획득 전략을 개발했다. 이 전략은 다양한 시각 데이터셋(Table 9 참조)으로부터 검색어를 얻는 것을 포함한다. 이어서, 우리는 이러한 검색어를 사용하여 YouTube Shorts 플랫폼에서 비디오를 수집한다. YouTube Shorts는 풍부하고 다양한 콘텐츠 덕분에 비디오 데이터의 인기 있는 소스가 되었다. 우리는 스포츠, 동물, 자연 등 다양한 카테고리의 비디오를 수집하여 크고 다양한 데이터셋을 구축했다. VIDAL-10M 데이터셋 내 비디오-오디오-텍스트-깊이-적외선 쌍의 예시는 Figure 6에 나와 있다. 또한, 데이터 품질을 보장하기 위해, 우리는 데이터셋에서 필터링할 불용어(stop words) 목록을 수동으로 설계했다. 이 단어들에는 "bts", "bmw", "nfl" 등 우리의 연구와 관련 없는 용어들이 포함된다.

비디오 카테고리 및 길이
더 나아가, 우리는 Figure 8에 나타난 바와 같이 데이터셋 내에서 다양한 길이를 가진 비디오 카테고리의 분포를 분석한다. 이 분석에서 관찰된 정규 분포 패턴은 우리 데이터셋이 광범위한 개념을 포괄하고 있음을 나타낸다. 또한, Figure 9에서는 VIDAL-10M 데이터셋에서 다양한 길이 등급에 걸친 각 카테고리의 비율을 보여준다.

Table 9: 다양한 데이터셋에서 검색어로 사용된 텍스트 설명의 예시.

Dataset	Search terms
YouTube-8M	How to make a delicious chocolate cake. <br> Learn to dance salsa in 10 easy steps. <br> ......
Howto100M	How to play chess. <br> How to make pizza. <br> ......
ImageNet	lesser panda, red panda, panda, bear cat, cat bear, Ailurus fulgens, coon bear <br> killer whale, killer, grampus, sea wolf, Orcinus orca, giant panda, panda, panda bear ......
COCO	......
Others

Table 10: 우리 데이터셋의 불용어(Stop words).

viral	funny	love	fashion	subscribe	nature
asmr	motivation	fitness	art	satisfying	foryou
music	india	fun	bts	amazing	edit
life	roblox	vlog	minecraft	design	marvel
explore	dubai	foryoupage	comedy	outfit	ootd
share	indian	lol	creative	relaxing	tattoo
random	instagram	quotes	workout	sad	ideas
views	bgmi	yummy	respect	easy	usa
ronaldo	jawellery	memes	happy	nfl	song
mlb	reel	support	nba	wow	status
gree	meme	gameplay	top	blackpink	whatsappstatus
follow	homedecor	history	tutorial	bodybuilding	japan
interiordesign	freefire	stunt	foodie	animation	recipe
skills	tips	crazy	pov	editing	aesthetic
style	view	london	reaction	story	pubg
construction	challenge	healthy	bmw	uk	free
hairstyle	enjoy	motivational	messi	capcut	nailart
entertainment	fifa	attitude	europe	health	geography
gta	unboxing	adventure	whatsapp	fail	btsarny
god	inspiration	relatable	comment	tattoos	fy
highlights	amazon	illustration	fortnite	ntb	avaiation
interior	decor	travelvlog	canada	btsarmy	tranding
time	mtb	luxury	vlogs	picsart	reels
photoshoot	business	photography	$\ldots$	$\ldots$	$\ldots$

Figure 7: 다중 뷰 텍스트 생성 및 개선 파이프라인. 우리는 OFA 모델을 사용하여 키프레임 캡션을 생성하고, 비디오, 제목, 해시태그를 mPLUG-owl 모델에 입력하여 비디오 캡션을 얻는다. 비디오 캡션은 ChatGPT를 사용하여 추가로 정제되어 ChatGPTmPLUG 캡션이 된다. 최종 다중 뷰 텍스트 설명은 이러한 구성 요소들로 이루어진다.

Figure 8: VIDAL-10M 데이터셋 내 15개 카테고리의 비디오 길이에 따른 개수. 광범위한

Figure 9: VIDAL-10M 데이터셋 내 세 가지 길이 등급에 걸친 카테고리별 통계적 분포. 초록색, 파란색, 노란색은 각각 1-7초, 8-14초, 15-20초의 비디오 길이를 나타낸다.

FPS, 종횡비(Aspect ratio) 및 해상도(Resolution)
데이터셋에서 첫 번째로 조사된 측면은 비디오의 FPS (Frames Per Second) 이다. FPS는 비디오에서 초당 표시되는 프레임 또는 이미지의 수를 의미한다. 비디오의 종횡비(aspect ratio) 는 너비와 높이 치수 간의 비례 관계를 나타낸다. 이는 비디오의 시각적 표현과 시청 경험을 결정하는 중요한 요소이다. Figure 10의 FPS 및 종횡비 분포는 기록된 콘텐츠의 부드러움과 유동성에 대한 통찰력을 제공하고 사용된 다양한 형식과 방향을 보여준다. 비디오 해상도(resolution) 는 비디오가 포함하는 각 차원의 픽셀 수를 의미한다. 이는 시각적 콘텐츠의 선명도, 또렷함 및 세부 수준에 직접적인 영향을 미친다. 데이터셋의 해상도 분포(Figure 11)를 조사하면 사용 가능한 비디오 품질과 기록된 자료의 기술적 역량을 이해할 수 있다.

Figure 10: VIDAL-10M 데이터셋 비디오의 FPS (Frames Per Second) 및 종횡비 분포.

Figure 11: VIDAL-10M 데이터셋 비디오의 높이 및 너비 분포.

B Pretraining details

이 섹션에서는 우리의 학습 설정(training configuration)을 소개한다.

Video-Language.
video-text retrieval 기반의 CLIP4Clip의 경우, VIDAL-10M 데이터셋이 높은 정렬도(highly aligned)를 가짐을 확인하였다. 우리는 CLIP4Clip의 학습 프레임워크를 채택했으며, 모델은 ViT-B/32로 초기화되었다. 나머지 파라미터는 1 epoch, batch size 512를 제외하고는 기본 설정과 동일하다.
video-text retrieval 기반의 LanguageBind의 경우, Aim (Yang et al., 2023)을 따라 각 spatial attention 앞에 temporal attention을 추가하였다. temporal attention은 spatial attention으로부터 초기화되며, LoRA는 temporal attention에만 적용된다. 우리는 각 temporal attention 앞에 temporal position embedding을 추가한다. 자세한 결과는 Table 13, Table 14, Table 15에 제시되어 있다.
zero-shot video classification을 위해, 텍스트 템플릿은 OpenCLIP에서 가져왔으며, 모든 템플릿에서 "photo"를 "video"로 대체하는 수정을 가했다.

Depth-Language.
모델은 frozen language encoder를 가진 OpenCLIP으로 초기화된다. 각 개별 샘플에 대해, 우리는 비디오 시퀀스에서 depth 이미지를 무작위로 선택하여 추출한다.

Table 11: 학습 설정.

	CLIP4Clip	LanguageBind
Config	Video	Video	Infrared	Depth	Audio
Vision encoder	ViT-Base/32	ViT-Large/14
Optimizer	BertAdam	AdamW
Optimizer Momentum	$\beta_{1}, \beta_{2}=0.9,0.98$	$\beta_{1}, \beta_{2}=0.9,0.98$
Epochs	1	16	1	1	8
Learning rate	$1 \mathrm{e}-4$	$1 \mathrm{e}-4$	$1 \mathrm{e}-4$	5e-4	5e-4
Coefficient learning rate	$1 \mathrm{e}-3$	1	$1 \mathrm{e}-3$	$1 \mathrm{e}-3$	$1 \mathrm{e}-3$
Weight decay	0.2	0.2
Batch size	512	640	1024	1024	512
Warmup steps	0	2000	200	200	2000
Temperature	learnable	learnable
Learning rate schedule	cosine decay	cosine decay
Max words	32	77
Max frames	12	8	-	-	-
Mask ratio	-	0.3	0.5	0.5	0.3
LoRA rank	-	16	2	2	16
LoRA alpha	-	16
LoRA dropout	-	0.0	0.1	0.1	0.1

이후, 이 프레임들을 짧은 변의 길이가 256 단위가 되도록 크기를 조절하고, 이어서 중앙 크롭(central cropping) 과정을 통해 $224 \times 224$ 의 크기를 얻는다. 추가적으로, depth 이미지의 채널 수를 3배로 늘렸다.
zero-shot classification에 사용된 텍스트 템플릿은 OpenCLIP에서 가져왔으며, 모든 템플릿에서 "photo"를 "depth photo"로 대체하는 수정을 가했다. 이러한 변경으로 약 1%의 성능 향상이 있었다.

Infrared-Language.
depth-language와 마찬가지로, 적외선 이미지에 해당하는 텍스트 템플릿은 "photo" 지정을 유지한다. 이는 해당 수정에서 뚜렷한 성능 개선이 관찰되지 않았기 때문이다.

Audio-Language.
데이터는 3.1에서와 같이 전처리된다. depth 및 infrared와 달리, 스펙트로그램은 기존 시각 이미지의 도메인과 크게 다르다. 따라서 학습 중에 과적합(overfit)되기 쉽지 않으므로, 학습 epoch와 LoRA의 rank를 증가시켰다. 또한, audio zero-shot classification을 위해 모든 템플릿에서 "the/a photo of"를 "the/a sound of"로 대체하였다.

Table 12: LanguageBind (LoRA) 및 3M video-text 쌍 기반 Zero-shot Video-Text Retrieval 성능. 대형 모델로 학습하였다. 자세한 결과를 보여준다.

	Text-to-Video				Video-to-Text
Dataset	$\mathbf{R @ 1} \uparrow$	$\mathbf{R @ 5} \uparrow$	$\mathbf{R @ 1 0} \uparrow$	$\mathbf{M R} \downarrow$	$\mathbf{R @ 1} \uparrow$	$\mathbf{R @ 5} \uparrow$	$\mathbf{R @ 1 0} \uparrow$	$\mathbf{M R} \downarrow$
MSR-VTT	42.6	65.4	75.5	2.0	37.9	63.1	73.3	3.0
MSVD	52.2	79.4	87.3	1.0	68.4	91.7	96.4	1.0
ActivityNet	35.1	63.4	76.6	3.0	32.3	62.2	74.5	3.0
DiDeMo	37.8	63.2	73.4	3.0	37.6	63.7	73.3	3.0

Table 13: LanguageBind (full tuning) 및 3M video-text 쌍 기반 Zero-shot Video-Text Retrieval 성능. 대형 모델로 학습하였다. 자세한 결과를 보여준다.

	Text-to-Video				Video-to-Text
Dataset	$\mathbf{R @ 1} \uparrow$	$\mathbf{R @ 5} \uparrow$	$\mathbf{R @ 1 0} \uparrow$	$\mathbf{M R} \downarrow$	$\mathbf{R @ 1} \uparrow$	$\mathbf{R @ 5} \uparrow$	$\mathbf{R @ 1 0} \uparrow$	$\mathbf{M R} \downarrow$
MSR-VTT	42.7	67.1	77.0	2.0	39.7	63.9	73.8	3.0
MSVD	53.5	80.5	87.5	1.0	68.1	89.5	96.0	1.0
ActivityNet	36.9	65.1	77.2	3.0	33.8	64.0	76.1	3.0
DiDeMo	38.1	65.0	73.6	2.0	38.4	63.0	72.6	3.0

Table 14: LanguageBind (full tuning) 및 10M video-text 쌍 기반 Zero-shot Video-Text Retrieval 성능. 대형 모델로 학습하였다. 자세한 결과를 보여준다.

	Text-to-Video				Video-to-Text
Dataset	$\mathbf{R @ 1} \uparrow$	$\mathbf{R @ 5} \uparrow$	$\mathbf{R @ 1 0} \uparrow$	$\mathbf{M R} \downarrow$	$\mathbf{R @ 1} \uparrow$	$\mathbf{R @ 5} \uparrow$	$\mathbf{R @ 1 0} \uparrow$	$\mathbf{M R} \downarrow$
MSR-VTT	42.8	67.5	76.0	2.0	38.3	64.0	74.1	3.0
MSVD	54.1	81.1	88.1	1.0	69.7	91.8	97.9	1.0
ActivityNet	38.4	66.6	77.9	2.0	35.7	65.8	77.8	3.0
DiDeMo	39.7	65.5	73.8	2.0	38.6	65.6	74.3	2.0

Table 15: LanguageBind (full tuning) 및 10M video-text 쌍 기반 Zero-shot Video-Text Retrieval 성능. 초대형 모델로 학습하였다. 자세한 결과를 보여준다.

	Text-to-Video				Video-to-Text
Dataset	$\mathbf{R @ 1} \uparrow$	$\mathbf{R @ 5} \uparrow$	$\mathbf{R @ 1 0} \uparrow$	$\mathbf{M R} \downarrow$	$\mathbf{R @ 1} \uparrow$	$\mathbf{R @ 5} \uparrow$	$\mathbf{R @ 1 0} \uparrow$	$\mathbf{M R} \downarrow$
MSR-VTT	44.8	70.0	78.7	2.0	40.9	66.4	75.7	2.0
MSVD	53.9	80.4	87.8	1.0	72.0	91.4	96.3	1.0
ActivityNet	41.0	68.4	80.0	2.0	39.1	69.8	81.1	2.0
DiDeMo	39.9	66.1	74.6	2.0	39.8	67.8	76.2	2.0

C Downstream datasets

비디오-언어 (Video-language)
우리는 두 가지 데이터셋에 대해 비디오-텍스트 검색(video-text retrieval) 실험을 수행한다.
(a) MSR-VTT (Xu et al., 2016)는 1만 개의 YouTube 비디오로 구성되며, 각 비디오에는 20만 개의 캡션이 쌍으로 연결되어 있다. 본 분석에서는 1K-A 테스트 서브셋을 기반으로 결과를 제시한다.
(b) MSVD (Chen & Dolan, 2011)는 약 12만 개의 문장으로 구성되며, **테스트 데이터(670개 샘플)**에 대한 결과를 보고한다.

적외선-언어 (Infrared-language)
(a) LLVIP (Jia et al., 2021)는 적외선 스펙트럼 내 보행자 객체 감지를 위한 데이터셋이다. ImageBind를 따라, 우리는 이미지에서 모든 사람 객체를 추출하고, 나머지 모든 객체를 배경 요소로 지정하였다. 이 과정을 통해 7,622개의 '배경' 클래스와 7,954개의 '사람' 클래스로 구성된 데이터셋이 생성되었으며, 이는 이후 이진 분류 테스트에 사용되었다.
(b) FLIR v1 (Teledyne FLIR, 2015a)은 열화상 및 가시광선 스펙트럼 프레임 모두에 대한 포괄적인 주석을 제공한다. 테스트 데이터에서 바운딩 박스를 추출하여 11,696개의 이미지로 구성된 데이터셋을 만들었다. 이 데이터셋은 ['bicycle', 'car', 'dog', 'person']의 4가지 카테고리를 포함한다.
(c) FLIR v2 (Teledyne FLIR, 2015b)는 유사한 처리 과정을 거쳐 16,696개의 이미지를 포함하며, 이들은 ['bike', 'bus', 'car', 'hydrant', 'light', 'motor', 'other vehicle', 'person', 'sign', 'skateboard', 'stroller', 'truck']의 12가지 클래스로 분류되었다.

깊이-언어 (Depth-language)
우리는 NYU-v2 Depth-only (NYU-D) (Silberman et al., 2012)를 사용하여 654개의 테스트 샘플로 검증한다. 전처리 과정을 통해 깊이 이미지의 최대 깊이를 10미터로 제한하였다. ImageBind를 따라, 우리는 카테고리 재구성 프로세스를 수행하여 총 10개의 장면 카테고리를 도출하였다.

오디오-언어 (Audio-language)
우리는 ESC-50 (Piczak 2015) 데이터셋을 사용하여 zero-shot 분류 능력을 검증한다. 이 데이터셋은 2000개의 테스트 오디오를 포함하며, 각 오디오는 고유하게 레이블링되어 있다. zero-shot 검색을 위해서는 Clotho (Font et al., 2013) 데이터셋을 사용한다. 각 오디오에는 5개의 해당 캡션이 있으므로, **텍스트-오디오 검색(text-to-audio retrieval)**을 사용하여 모델 성능을 검증한다. 테스트 데이터는 ImageBind를 따라 준비한다.

D License

명시적으로 달리 언급되지 않는 한, 우리가 공개하는 데이터셋은 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License ("CC BY-NC-SA 4.0") 조건과 본 문서에 명시된 추가 약관에 따라 사용자에게 제공된다. CC BY-NC-SA 4.0 라이선스는 https://creativecommons.org/licenses/by-nc-sa/4.0/legalcode에서 확인할 수 있다. 우리의 웹사이트 또는 다른 출처에서 데이터셋을 다운로드하거나 활용함으로써, 귀하는 CC BY-NC-SA 4.0의 조건과 우리의 데이터셋 약관에 명시된 조건을 준수하는 데 동의한다.

CC BY-NC-SA 4.0의 조건과 우리의 데이터셋 약관 사이에 충돌이 발생하는 경우, 후자의 약관이 우선한다. 우리는 이 데이터셋이 학술 연구, 교육 또는 과학 출판물과 같은 비상업적 목적으로만 사용될 수 있음을 다시 한번 강조한다. 데이터셋 또는 그로부터 파생된 모든 작업의 상업적 사용, 예를 들어 데이터 판매 또는 상업적 이득을 위한 데이터 활용은 엄격히 금지된다.

E Additional Ablation Study

이 섹션에서는 여러 요인의 영향을 조사하기 위해 광범위한 실험을 수행한다. 먼저, 다양한 강화된 텍스트 입력이 다운스트림 task에 미치는 영향을 살펴본다. 또한, 사전학습(pretraining) 시 데이터 볼륨의 영향을 평가한다. 이어서 zero-shot 분류를 향상시키기 위한 다양한 학습 전략을 탐구한다. 마지막으로, 강력한 전이성(transferability)을 보장하기 위해 모델 학습 구성에 대한 면밀한 분석을 수행한다.

E. 1 Impact of different text sources

Table 16에서 우리는 다양한 텍스트 소스가 언어 modality에 미치는 영향을 탐구하기 위한 여러 실험을 수행한다. 우리는 다중 소스 텍스트로 학습된 LanguageBind의 다양한 modality 전반에 걸친 효과를 검증한다. 일부 텍스트 소스는 좋은 결과를 산출하지만, 단일 텍스트 소스가 모든 다운스트림 task 및 데이터셋에 보편적으로 적합하지 않을 수 있음을 발견한다.

비디오 및 depth modality 측면에서는 ChatGPT로 향상된 caption이 유리한 것으로 나타났다. 적외선 이미지의 경우, LLVIP 데이터셋에서는 OFA가 가장 좋은 성능을 보인 반면, FLIR v1 및 v2에서는 raw caption이 가장 높은 정확도를 달성했다. 이것이 바로 우리의 VIDAL-10M이 다중 뷰 텍스트 설명을 제공하여, 다양한 task 요구 사항에 맞는 적절한 텍스트 소스를 유연하게 선택할 수 있도록 하는 이유이다.

Table 16: 다양한 텍스트 소스의 영향. text-to-video R@1은 zero-shot retrieval에 대해 보고하며, 다른 데이터셋은 top-1 정확도를 보고한다. MSR-VTT 결과는 VIDAL-10M의 500K subset에서 테스트되었다. "Raw caption"은 제목 및 해시태그를 의미한다.

Modality	Dataset	Raw caption	OFA caption	mPLUG caption	ChatGPT-mPLUG caption
Video	MSR-VTT	33.5	34.5	35.8	36.4
Infrared	LLVIP	83.9	87.2	84.6	84.8
	FLIR V1	82.9	80.6	81.4	81.6
	FLIR V2	48.0	45.7	46.8	46.6
Depth	NYU-D	61.5	62.1	63.9	65.1

E. 2 Scaling the size of dataset

우리는 MSRVTT 데이터셋에서 다양한 데이터 양이 미치는 영향을 분석하고, Figure 12에 제시된 바와 같이 zero-shot retrieval의 R@1 점수를 보고한다. 우리의 연구 결과는 데이터 양의 증가가 인식 성능의 상당한 향상으로 이어진다는 것을 보여준다. 특히, 3M 규모의 ChatGPT-enhanced 텍스트 데이터의 성능은 500k 및 100k 데이터보다 각각 0.9% 및 1.6% 더 높았다.

더 나아가, video-to-text retrieval과 text-to-video retrieval 모두에서 관찰된 경향은 모달리티 간의 상호작용이 학습 과정을 향상시키는 데 핵심적인 역할을 한다는 것을 일관되게 보여준다. 결과적으로,

Figure 12: 사전학습 데이터 크기 확장.