
LanguageBind: 언어 기반 의미 정렬을 통한 N-모달리티 사전학습 확장
LanguageBind는 기존의 Video-Language 사전학습을 비디오, 적외선, 깊이, 오디오 등 N개의 다중 모달리티로 확장하는 프레임워크입니다. 이 모델은 풍부한 의미 정보를 가진 언어를 중심으로 다른 모든 모달리티를 정렬시키는 language-based semantic alignment 방식을 제안합니다. 사전 학습된 언어 인코더를 고정한 채, 다른 모달리티 인코더들을 contrastive learning으로 학습시켜 모든 모달리티를 공유된 특징 공간(shared feature space)에 매핑합니다. 또한, 이 연구는 1,000만 개의 Video, Infrared, Depth, Audio 데이터와 그에 상응하는 언어 데이터로 구성된 고품질 데이터셋 VIDAL-10M을 함께 제안합니다. 이를 통해 LanguageBind는 15개의 다양한 벤치마크에서 뛰어난 성능을 보이며, 여러 모달리티 간의 간접적인 정렬과 상호 보완성을 효과적으로 달성했음을 입증합니다. 논문 제목: LanguageBind: Extending Video-Language Pretraining to N-modality by Languagebased Semantic Alignment