전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (25개의 글)

MMAudio: 고품질 비디오-오디오 합성을 위한 멀티모달 공동 학습
·
#video-to-audio#multimodal

MMAudio: 고품질 비디오-오디오 합성을 위한 멀티모달 공동 학습

비디오 및 선택적 텍스트 조건이 주어졌을 때, 새로운 멀티모달 공동 학습 프레임워크(MMAudio)를 사용하여 고품질의 동기화된 오디오를 합성하는 방법을 제안합니다. MMAudio는 대규모 텍스트-오디오 데이터와 공동으로 학습하여 의미적으로 정렬된 고품질 오디오 샘플 생성을 학습하며, 조건부 동기화 모듈을 통해 오디오-비디오 동기화를 개선합니다. 논문 제목: MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

MM-Diffusion: 오디오와 비디오를 함께 생성하는 새로운 Multi-Modal Diffusion 모델
·
#Diffusion Model#Multi-Modal Generation

MM-Diffusion: 오디오와 비디오를 함께 생성하는 새로운 Multi-Modal Diffusion 모델

본 논문은 고품질의 현실적인 비디오를 목표로, 시청과 청취 경험을 동시에 제공하는 최초의 공동 오디오-비디오 생성 프레임워크인 MM-Diffusion을 제안합니다. 이 모델은 두 개의 결합된 Denoising Autoencoder를 가진 새로운 Multi-Modal Diffusion 모델로, 오디오와 비디오 서브넷이 정렬된 오디오-비디오 쌍을 점진적으로 생성하도록 학습합니다. 모달리티 간의 의미적 일관성을 보장하기 위해 Random-shift 기반의 Cross-modal attention 블록을 도입하여 효율적인 교차 모달 정렬을 가능하게 합니다. 논문 제목: MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

멀티모달 대규모 언어 모델(MLLM)의 모든 것: 최신 연구 동향 총정리
·
#MLLM#LLM

멀티모달 대규모 언어 모델(MLLM)의 모든 것: 최신 연구 동향 총정리

최근 GPT-4V와 같은 Multimodal Large Language Model(MLLM)의 최신 연구 동향을 종합적으로 살펴봅니다. 본 논문은 MLLM의 기본 개념, 아키텍처, 학습 전략, 평가 방법을 다루고, Multimodal ICL (M-ICL), Multimodal CoT (M-CoT)와 같은 확장 기술과 멀티모달 환각 현상 및 해결 과제를 논의합니다. 논문 제목: A Survey on Multimodal Large Language Models

InternVideo2: 멀티모달 비디오 이해를 위한 파운데이션 모델 스케일링
·
#Video Foundation Model#Multimodal Learning

InternVideo2: 멀티모달 비디오 이해를 위한 파운데이션 모델 스케일링

새로운 비디오 파운데이션 모델(ViFM) 제품군인 InternVideo2를 소개합니다. 이 모델은 Masked video modeling, Cross-modal contrastive learning, Next token prediction을 통합하는 점진적 학습 접근 방식을 통해 비디오, 비디오-텍스트, 비디오 중심 대화 작업에서 최고의 성능을 달성합니다. 6B 파라미터까지 확장된 이 모델은 의미적으로 분할된 비디오와 비디오-오디오-음성 캡션을 사용하여 시공간적 일관성을 우선시하고 비디오와 텍스트 간의 정렬을 개선합니다. 논문 제목: InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

InternVideo2.5: 긴밀하고 풍부한 컨텍스트 모델링으로 비디오 MLLM 역량 강화
·
#Video MLLM#Long Context

InternVideo2.5: 긴밀하고 풍부한 컨텍스트 모델링으로 비디오 MLLM 역량 강화

본 논문은 길고 풍부한 컨텍스트(Long and Rich Context, LRC) 모델링을 통해 비디오 멀티모달 대형 언어 모델(MLLM)의 성능을 향상시키는 InternVideo2.5를 소개합니다. 이 모델은 Direct Preference Optimization을 사용하여 밀도 높은 비전 과제 주석을 통합하고, 적응형 계층적 토큰 압축을 통해 시공간 표현을 최적화하여 비디오의 미세한 디테일 인식 및 장기적인 시간 구조 포착 능력을 강화합니다. 이를 통해 기존 모델보다 6배 더 긴 비디오 입력을 처리하고 객체 추적과 같은 전문적인 비전 기능을 수행할 수 있습니다. 논문 제목: InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

InternVideo: 생성 및 판별 학습을 통한 일반 비디오 파운데이션 모델
·
#video foundation model#self-supervised learning

InternVideo: 생성 및 판별 학습을 통한 일반 비디오 파운데이션 모델

InternVideo는 생성적(generative) 및 판별적(discriminative) 자기지도 비디오 학습을 활용하여 범용 비디오 파운데이션 모델을 제시합니다. 이 모델은 masked video modeling과 video-language contrastive learning을 사전 학습 목표로 삼아 두 프레임워크의 비디오 표현을 학습 가능한 방식으로 조정하여 다양한 비디오 애플리케이션의 성능을 향상시킵니다. InternVideo는 비디오 액션 인식, 비디오-언어 정렬 등 39개의 비디오 데이터셋에서 최고의 성능을 달성하여 비디오 이해를 위한 일반성을 입증했습니다. 논문 제목: InternVideo: General Video Foundation Models via Generative and Discriminative Learning