논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

video-to-audio

1개의 포스트

2025. 7. 14.
video-to-audiomultimodal

MMAudio: 고품질 비디오-오디오 합성을 위한 멀티모달 공동 학습

비디오 및 선택적 텍스트 조건이 주어졌을 때, 새로운 멀티모달 공동 학습 프레임워크(MMAudio)를 사용하여 고품질의 동기화된 오디오를 합성하는 방법을 제안합니다. MMAudio는 대규모 텍스트-오디오 데이터와 공동으로 학습하여 의미적으로 정렬된 고품질 오디오 샘플 생성을 학습하며, 조건부 동기화 모듈을 통해 오디오-비디오 동기화를 개선합니다. 논문 제목: MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

모든 태그 보기

© 2025 junhan.blog