
Memory-Augmented Transformer (MATR)를 이용한 온라인 시간적 행동 탐지
MATR은 스트리밍 비디오에서 실시간으로 행동 구간을 탐지하는 Online Temporal Action Localization (On-TAL)을 위한 새로운 모델입니다. 기존 방법들은 고정된 크기의 비디오 세그먼트만 입력으로 받아 장기적인 맥락을 파악하는 데 한계가 있었습니다. MATR은 과거의 주요 비디오 특징을 선택적으로 저장하는 memory queue를 도입하여 이 문제를 해결하며, 이를 통해 장기적인 맥락을 활용합니다. 현재 시점에서 행동의 끝(end)을 먼저 감지한 뒤, 메모리에 저장된 과거 정보를 탐색해 행동의 시작(start)을 정확히 찾아내는 새로운 방식을 제안합니다. 이 과정은 Transformer 기반의 end decoder와 start decoder를 분리하여 수행됩니다. 논문 제목: Online Temporal Action Localization with Memory-Augmented Transformer







