논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Transformer#Video Moment Retrieval#DETR#Multimodal#LLM
    모든 태그 보기 →

Time Interval Query

1개의 포스트

2025. 9. 5.
Audio-Visual Action RecognitionTime Interval Query

TIM: 오디오-비주얼 행동 인식을 위한 시간 간격 머신

이 논문은 긴 비디오에서 오디오와 시각적 신호를 모두 활용하여 행동을 인식하는 새로운 모델, Time Interval Machine (TIM)을 제안합니다. TIM은 특정 모달리티(오디오 또는 비디오)의 시간 간격(time interval)을 쿼리로 사용하여 transformer encoder가 긴 비디오 입력을 처리하도록 합니다. 이 방식은 지정된 시간 간격뿐만 아니라 주변의 문맥 정보까지 양쪽 모달리티에서 모두 고려하여 진행 중인 행동을 정확하게 인식할 수 있게 합니다. TIM은 EPIC-KITCHENS, Perception Test, AVE와 같은 여러 데이터셋에서 최첨단(SOTA) 성능을 달성했으며, 행동 탐지(action detection) 작업에도 적용될 수 있음을 보여줍니다. 논문 제목: TIM: A Time Interval Machine for Audio-Visual Action Recognition

모든 태그 보기

© 2025 junhan.blog