Temporal Action Localization

2개의 포스트

Temporal Action LocalizationTransformer

Memory-Augmented Transformer (MATR)를 이용한 온라인 시간적 행동 탐지

MATR은 스트리밍 비디오에서 실시간으로 행동 구간을 탐지하는 Online Temporal Action Localization (On-TAL)을 위한 새로운 모델입니다. 기존 방법들은 고정된 크기의 비디오 세그먼트만 입력으로 받아 장기적인 맥락을 파악하는 데 한계가 있었습니다. MATR은 과거의 주요 비디오 특징을 선택적으로 저장하는 memory queue를 도입하여 이 문제를 해결하며, 이를 통해 장기적인 맥락을 활용합니다. 현재 시점에서 행동의 끝(end)을 먼저 감지한 뒤, 메모리에 저장된 과거 정보를 탐색해 행동의 시작(start)을 정확히 찾아내는 새로운 방식을 제안합니다. 이 과정은 Transformer 기반의 end decoder와 start decoder를 분리하여 수행됩니다. 논문 제목: Online Temporal Action Localization with Memory-Augmented Transformer

Temporal Action LocalizationSemi-Supervised Learning

비타겟 클래스 학습을 통한 Semi-Supervised Temporal Action Localization 성능 향상

Semi-Supervised Temporal Action Localization (SS-TAL)의 기존 연구들은 신뢰도가 가장 높은 타겟 클래스에만 집중하여 비타겟 클래스에 포함된 유용한 정보를 간과하는 한계가 있었습니다. 이 논문은 비타겟 클래스로부터 학습하는 새로운 관점을 제시합니다. 제안된 방법은 예측된 클래스 확률 분포의 레이블 공간을 타겟 클래스, positive 클래스, negative 클래스, 그리고 모호한 클래스로 분할합니다. 이를 통해 타겟 클래스에는 없는 긍정적, 부정적 의미 정보를 모두 활용하고, 모호한 클래스는 학습에서 제외합니다. 모델의 신뢰도와 순위를 기반으로 고품질의 positive 및 negative 클래스를 적응적으로 선택하는 전략과, 예측을 positive 클래스에 가깝게, negative 클래스에서 멀어지게 하는 새로운 positive 및 negative loss를 도입합니다. 이 hybrid positive-negative learning 프레임워크는 레이블이 있거나 없는 비디오 모두에서 비타겟 클래스를 효과적으로 활용하여 SS-TAL 성능을 크게 향상시킵니다. 논문 제목: Boosting Semi-Supervised Temporal Action Localization by Learning from Non-Target Classes