Multimodal Model

1개의 포스트

2025. 9. 6.

Mirasol3B: 시간 동기화 및 컨텍스트 모달리티를 위한 멀티모달 Autoregressive 모델

Mirasol3B는 비디오, 오디오, 텍스트와 같은 이종 모달리티를 효과적으로 결합하는 멀티모달 autoregressive 모델입니다. 이 모델의 핵심은 autoregressive 모델링을 시간적으로 동기화된 비디오/오디오와, 시간적으로 비동기화된 컨텍스트(텍스트) 모달리티로 분리한 것입니다. 긴 시퀀스를 효율적으로 처리하기 위해 미디어 입력을 연속적인 스니펫으로 분할하고, Combiner 메커니즘을 통해 오디오-비디오 정보를 공동으로 모델링하여 압축적이면서도 표현력 있는 representation을 생성합니다. 이 접근법을 통해 모델 파라미터 증가 없이 512 프레임의 긴 비디오까지 확장할 수 있으며, 여러 멀티모달 벤치마크에서 SOTA 성능을 달성합니다. 논문 제목: Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities

모든 태그 보기