Multimodal Learning
5개의 포스트
AVIGATE: Gated Attention으로 오디오를 효과적으로 활용하는 Video-Text Retrieval
Video-text retrieval에서 기존 방법들은 오디오 정보를 무시하거나, 관련 없는 오디오 신호가 오히려 성능을 저하시키는 문제가 있었습니다. AVIGATE는 gated attention 메커니즘을 통해 유용한 오디오 정보는 선택적으로 활용하고 불필요한 노이즈는 필터링하여 비디오 표현을 효과적으로 학습하는 새로운 프레임워크입니다. 또한, adaptive margin-based contrastive loss를 도입하여 비디오와 텍스트 간의 정렬을 개선합니다. 이를 통해 AVIGATE는 주요 벤치마크에서 최고 수준의 검색 성능을 달성하며 오디오를 활용한 검색의 새로운 가능성을 제시합니다. 논문 제목: Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
Audio Does Matter: 중요도 인식 다중 세분성 융합을 통한 비디오 순간 검색
본 논문은 Video Moment Retrieval (VMR) 작업에서 기존 모델들이 간과했던 오디오 정보의 중요성을 강조합니다. 이를 위해, 제안하는 IMG (Importance-aware Multi-Granularity fusion) 모델은 오디오의 유용성을 동적으로 판단하는 Audio Importance Predictor를 도입하여 노이즈의 영향을 줄이고, Multi-Granularity Fusion 모듈을 통해 다양한 수준(local, event, global)에서 시청각 정보를 효과적으로 융합합니다. 또한, 추론 시 오디오가 없는 상황에서도 성능을 유지하기 위해 Cross-modal knowledge distillation 전략을 사용합니다. 이 모델은 주어진 텍스트 쿼리와 의미적으로 가장 관련 있는 비디오의 특정 순간을 정확하게 찾아내는 것을 목표로 합니다. 논문 제목: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
VisCPM: 다국어 모델을 활용한 제로샷 멀티모달 학습
이 논문은 비영어권 국가에서 대규모 멀티모달 모델을 효과적으로 훈련하기 위한 새로운 패러다임인 MpM (Multilingual models can Pivot Multimodal learning)을 제안합니다. MpM은 강력한 다국어 LLM (Large Language Model)을 기반으로, 영어 이미지-텍스트 데이터만으로 훈련된 멀티모달 모델이 다른 언어에서도 뛰어난 (준)zero-shot 성능을 보이도록 합니다. 중국어를 예시로 개발된 VisCPM 모델은 image-to-text 및 text-to-image 생성 작업에서 기존 중국어 모델들을 능가하는 SOTA 성능을 달성했으며, 이는 비영어권 멀티모달 데이터 부족 문제를 해결할 새로운 가능성을 제시합니다. 논문 제목: Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
Self-Supervised Multimodal Learning (SSML) 핵심 개념 정리
이 글은 Self-Supervised Multimodal Learning (SSML) 분야의 최신 연구 동향을 종합적으로 리뷰합니다. SSML은 라벨이 없는 멀티모달 데이터로부터 표현을 학습하는 방법으로, (1) 라벨 없는 데이터에서의 표현 학습, (2) 다양한 modality의 Fusion, (3) 정렬되지 않은 데이터 학습이라는 세 가지 주요 과제를 다룹니다. 본문에서는 이러한 과제들을 해결하기 위한 다양한 self-supervised 목적 함수, 모델 아키텍처, 그리고 정렬 학습 전략에 대해 자세히 설명합니다. 논문 제목: Self-Supervised Multimodal Learning: A Survey
InternVideo2: 멀티모달 비디오 이해를 위한 파운데이션 모델 스케일링
새로운 비디오 파운데이션 모델(ViFM) 제품군인 InternVideo2를 소개합니다. 이 모델은 Masked video modeling, Cross-modal contrastive learning, Next token prediction을 통합하는 점진적 학습 접근 방식을 통해 비디오, 비디오-텍스트, 비디오 중심 대화 작업에서 최고의 성능을 달성합니다. 6B 파라미터까지 확장된 이 모델은 의미적으로 분할된 비디오와 비디오-오디오-음성 캡션을 사용하여 시공간적 일관성을 우선시하고 비디오와 텍스트 간의 정렬을 개선합니다. 논문 제목: InternVideo2: Scaling Foundation Models for Multimodal Video Understanding