Audio-Visual Action RecognitionTime Interval Query
TIM: 오디오-비주얼 행동 인식을 위한 시간 간격 머신
이 논문은 긴 비디오에서 오디오와 시각적 신호를 모두 활용하여 행동을 인식하는 새로운 모델, Time Interval Machine (TIM)을 제안합니다. TIM은 특정 모달리티(오디오 또는 비디오)의 시간 간격(time interval)을 쿼리로 사용하여 transformer encoder가 긴 비디오 입력을 처리하도록 합니다. 이 방식은 지정된 시간 간격뿐만 아니라 주변의 문맥 정보까지 양쪽 모달리티에서 모두 고려하여 진행 중인 행동을 정확하게 인식할 수 있게 합니다. TIM은 EPIC-KITCHENS, Perception Test, AVE와 같은 여러 데이터셋에서 최첨단(SOTA) 성능을 달성했으며, 행동 탐지(action detection) 작업에도 적용될 수 있음을 보여줍니다. 논문 제목: TIM: A Time Interval Machine for Audio-Visual Action Recognition