MM-Diffusion: 오디오와 비디오를 함께 생성하는 새로운 Multi-Modal Diffusion 모델
본 논문은 고품질의 현실적인 비디오를 목표로, 시청과 청취 경험을 동시에 제공하는 최초의 공동 오디오-비디오 생성 프레임워크인 MM-Diffusion을 제안합니다. 이 모델은 두 개의 결합된 Denoising Autoencoder를 가진 새로운 Multi-Modal Diffusion 모델로, 오디오와 비디오 서브넷이 정렬된 오디오-비디오 쌍을 점진적으로 생성하도록 학습합니다. 모달리티 간의 의미적 일관성을 보장하기 위해 Random-shift 기반의 Cross-modal attention 블록을 도입하여 효율적인 교차 모달 정렬을 가능하게 합니다. 논문 제목: MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
- Date