논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Sound Source Localization

1개의 포스트

2025. 10. 20.
Sound Source LocalizationSlot Attention

이미지와 오디오의 Joint Slot Attention을 활용한 음원 위치 특정(SSL) 성능 개선

본 논문은 이미지 내에서 소리의 출처를 찾는 Sound Source Localization (SSL) 태스크의 성능을 개선하는 새로운 방법을 제안합니다. 기존 방법들은 노이즈를 포함한 전체 오디오 특징을 사용해 정확도에 한계가 있었으나, 이 연구는 joint slot attention을 이미지와 오디오에 동시에 적용하여 특징을 소리와 관련된 target과 관련 없는 off-target으로 분해합니다. 오직 target slot만을 contrastive learning에 사용하여 소음의 영향을 줄이고, cross-modal attention matching을 통해 두 modality 간의 정렬을 강화하여 더 정확한 음원 위치 특정을 가능하게 합니다. 그 결과, 여러 SSL 벤치마크에서 최고 성능을 달성했습니다. 논문 제목: Improving Sound Source Localization with Joint Slot Attention on Image and Audio

모든 태그 보기

© 2025 junhan.blog