Multimodal Learning
4개의 포스트
Audio Does Matter: 중요도 인식 다중 세분성 융합을 통한 비디오 순간 검색
본 논문은 Video Moment Retrieval (VMR) 작업에서 기존 모델들이 간과했던 오디오 정보의 중요성을 강조합니다. 이를 위해, 제안하는 IMG (Importance-aware Multi-Granularity fusion) 모델은 오디오의 유용성을 동적으로 판단하는 Audio Importance Predictor를 도입하여 노이즈의 영향을 줄이고, Multi-Granularity Fusion 모듈을 통해 다양한 수준(local, event, global)에서 시청각 정보를 효과적으로 융합합니다. 또한, 추론 시 오디오가 없는 상황에서도 성능을 유지하기 위해 Cross-modal knowledge distillation 전략을 사용합니다. 이 모델은 주어진 텍스트 쿼리와 의미적으로 가장 관련 있는 비디오의 특정 순간을 정확하게 찾아내는 것을 목표로 합니다. 논문 제목: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
VisCPM: 다국어 모델을 활용한 제로샷 멀티모달 학습
이 논문은 비영어권 국가에서 대규모 멀티모달 모델을 효과적으로 훈련하기 위한 새로운 패러다임인 MpM (Multilingual models can Pivot Multimodal learning)을 제안합니다. MpM은 강력한 다국어 LLM (Large Language Model)을 기반으로, 영어 이미지-텍스트 데이터만으로 훈련된 멀티모달 모델이 다른 언어에서도 뛰어난 (준)zero-shot 성능을 보이도록 합니다. 중국어를 예시로 개발된 VisCPM 모델은 image-to-text 및 text-to-image 생성 작업에서 기존 중국어 모델들을 능가하는 SOTA 성능을 달성했으며, 이는 비영어권 멀티모달 데이터 부족 문제를 해결할 새로운 가능성을 제시합니다. 논문 제목: Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
Self-Supervised Multimodal Learning (SSML) 핵심 개념 정리
이 글은 Self-Supervised Multimodal Learning (SSML) 분야의 최신 연구 동향을 종합적으로 리뷰합니다. SSML은 라벨이 없는 멀티모달 데이터로부터 표현을 학습하는 방법으로, (1) 라벨 없는 데이터에서의 표현 학습, (2) 다양한 modality의 Fusion, (3) 정렬되지 않은 데이터 학습이라는 세 가지 주요 과제를 다룹니다. 본문에서는 이러한 과제들을 해결하기 위한 다양한 self-supervised 목적 함수, 모델 아키텍처, 그리고 정렬 학습 전략에 대해 자세히 설명합니다. 논문 제목: Self-Supervised Multimodal Learning: A Survey
InternVideo2: 멀티모달 비디오 이해를 위한 파운데이션 모델 스케일링
새로운 비디오 파운데이션 모델(ViFM) 제품군인 InternVideo2를 소개합니다. 이 모델은 Masked video modeling, Cross-modal contrastive learning, Next token prediction을 통합하는 점진적 학습 접근 방식을 통해 비디오, 비디오-텍스트, 비디오 중심 대화 작업에서 최고의 성능을 달성합니다. 6B 파라미터까지 확장된 이 모델은 의미적으로 분할된 비디오와 비디오-오디오-음성 캡션을 사용하여 시공간적 일관성을 우선시하고 비디오와 텍스트 간의 정렬을 개선합니다. 논문 제목: InternVideo2: Scaling Foundation Models for Multimodal Video Understanding