Sound Source LocalizationSlot Attention
이미지와 오디오의 Joint Slot Attention을 활용한 음원 위치 특정(SSL) 성능 개선
본 논문은 이미지 내에서 소리의 출처를 찾는 Sound Source Localization (SSL) 태스크의 성능을 개선하는 새로운 방법을 제안합니다. 기존 방법들은 노이즈를 포함한 전체 오디오 특징을 사용해 정확도에 한계가 있었으나, 이 연구는 joint slot attention을 이미지와 오디오에 동시에 적용하여 특징을 소리와 관련된 target과 관련 없는 off-target으로 분해합니다. 오직 target slot만을 contrastive learning에 사용하여 소음의 영향을 줄이고, cross-modal attention matching을 통해 두 modality 간의 정렬을 강화하여 더 정확한 음원 위치 특정을 가능하게 합니다. 그 결과, 여러 SSL 벤치마크에서 최고 성능을 달성했습니다. 논문 제목: Improving Sound Source Localization with Joint Slot Attention on Image and Audio