Slot Attention
3개의 포스트
PLOT: Slot Attention을 활용한 텍스트 기반 인물 검색
PLOT은 텍스트 쿼리를 사용하여 특정 인물을 검색하는 텍스트 기반 인물 검색(Text-based person search)을 위한 새로운 프레임워크입니다. 이 방법은 slot attention 기반의 part discovery module을 활용하여 별도의 파트 수준 감독(supervision) 없이 이미지와 텍스트에서 신체 부위를 자율적으로 식별하고 정렬합니다. 또한, 텍스트 기반 동적 파트 어텐션(text-based dynamic part attention, TDPA)을 통해 각 파트의 중요도를 조절하여 검색 정확도를 높이며, 기존 방법들보다 뛰어난 성능과 해석 가능한 검색 결과를 제공합니다. 논문 제목: PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery
이미지와 오디오의 Joint Slot Attention을 활용한 음원 위치 특정(SSL) 성능 개선
본 논문은 이미지 내에서 소리의 출처를 찾는 Sound Source Localization (SSL) 태스크의 성능을 개선하는 새로운 방법을 제안합니다. 기존 방법들은 노이즈를 포함한 전체 오디오 특징을 사용해 정확도에 한계가 있었으나, 이 연구는 joint slot attention을 이미지와 오디오에 동시에 적용하여 특징을 소리와 관련된 target과 관련 없는 off-target으로 분해합니다. 오직 target slot만을 contrastive learning에 사용하여 소음의 영향을 줄이고, cross-modal attention matching을 통해 두 modality 간의 정렬을 강화하여 더 정확한 음원 위치 특정을 가능하게 합니다. 그 결과, 여러 SSL 벤치마크에서 최고 성능을 달성했습니다. 논문 제목: Improving Sound Source Localization with Joint Slot Attention on Image and Audio
Slot Attention: 경쟁적 Attention 메커니즘을 통한 객체 중심 표현 학습
Slot Attention은 CNN과 같은 perceptual representation을 입력받아, slots이라 불리는 task-dependent한 추상적 표현 집합을 생성하는 모듈입니다. 이 slots들은 여러 라운드에 걸친 경쟁적인 attention 절차를 통해 입력 내의 객체에 바인딩됩니다. 이를 통해 비지도 객체 발견 및 지도 속성 예측과 같은 task에서 보지 못한 구성에 대한 일반화가 가능한 객체 중심 표현을 추출할 수 있습니다. 논문 제목: Object-Centric Learning with Slot Attention