AM-DETR: 언어 쿼리를 사용한 오디오 순간 검색
본 논문에서는 텍스트 쿼리를 기반으로 긴 오디오에서 특정 순간을 예측하는 새로운 태스크인 오디오 순간 검색(AMR)을 제안합니다. 이를 위해 Clotho-Moment 데이터셋을 구축하고, 비디오 순간 검색에서 영감을 받아 오디오 특성 내의 시간적 의존성을 포착하는 DETR 기반 모델인 Audio Moment DETR (AM-DETR)을 제안하여 기존 클립 레벨 검색 방법을 능가하는 성능을 보입니다. 논문 제목: Language-based Audio Moment Retrieval
- Date