논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Language-based Alignment

1개의 포스트

2025. 9. 1.
Multi-modal LearningLanguage-based Alignment

LanguageBind: 언어 기반 의미 정렬을 통한 N-모달리티 사전학습 확장

LanguageBind는 기존의 Video-Language 사전학습을 비디오, 적외선, 깊이, 오디오 등 N개의 다중 모달리티로 확장하는 프레임워크입니다. 이 모델은 풍부한 의미 정보를 가진 언어를 중심으로 다른 모든 모달리티를 정렬시키는 language-based semantic alignment 방식을 제안합니다. 사전 학습된 언어 인코더를 고정한 채, 다른 모달리티 인코더들을 contrastive learning으로 학습시켜 모든 모달리티를 공유된 특징 공간(shared feature space)에 매핑합니다. 또한, 이 연구는 1,000만 개의 Video, Infrared, Depth, Audio 데이터와 그에 상응하는 언어 데이터로 구성된 고품질 데이터셋 VIDAL-10M을 함께 제안합니다. 이를 통해 LanguageBind는 15개의 다양한 벤치마크에서 뛰어난 성능을 보이며, 여러 모달리티 간의 간접적인 정렬과 상호 보완성을 효과적으로 달성했음을 입증합니다. 논문 제목: LanguageBind: Extending Video-Language Pretraining to N-modality by Languagebased Semantic Alignment

모든 태그 보기

© 2025 junhan.blog