
Audio Does Matter: 중요도 인식 다중 세분성 융합을 통한 비디오 순간 검색
본 논문은 Video Moment Retrieval (VMR) 작업에서 기존 모델들이 간과했던 오디오 정보의 중요성을 강조합니다. 이를 위해, 제안하는 IMG (Importance-aware Multi-Granularity fusion) 모델은 오디오의 유용성을 동적으로 판단하는 Audio Importance Predictor를 도입하여 노이즈의 영향을 줄이고, Multi-Granularity Fusion 모듈을 통해 다양한 수준(local, event, global)에서 시청각 정보를 효과적으로 융합합니다. 또한, 추론 시 오디오가 없는 상황에서도 성능을 유지하기 위해 Cross-modal knowledge distillation 전략을 사용합니다. 이 모델은 주어진 텍스트 쿼리와 의미적으로 가장 관련 있는 비디오의 특정 순간을 정확하게 찾아내는 것을 목표로 합니다. 논문 제목: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval








