#multimodal

"multimodal" 태그가 있는 글들 (1개)

MMAudio: 고품질 비디오-오디오 합성을 위한 멀티모달 공동 학습

비디오 및 선택적 텍스트 조건이 주어졌을 때, 새로운 멀티모달 공동 학습 프레임워크(MMAudio)를 사용하여 고품질의 동기화된 오디오를 합성하는 방법을 제안합니다. MMAudio는 대규모 텍스트-오디오 데이터와 공동으로 학습하여 의미적으로 정렬된 고품질 오디오 샘플 생성을 학습하며, 조건부 동기화 모듈을 통해 오디오-비디오 동기화를 개선합니다. 논문 제목: MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

Date