Video Temporal Grounding

1개의 포스트

2025. 9. 9.

Sparse-Dense Side-Tuner: 효율적인 Video Temporal Grounding을 위한 모델

SDST(Sparse-Dense Side-Tuner)는 텍스트 쿼리를 기반으로 비디오 내 특정 구간을 찾는 Video Temporal Grounding (VTG) 작업을 효율적으로 수행하기 위한 새로운 anchor-free side-tuning 아키텍처입니다. 이 모델은 Moment Retrieval (MR)의 희소한(sparse) 특성과 Highlight Detection (HD)의 조밀한(dense) 특성을 동시에 처리하기 위해 이중 스트림(dual-stream) 구조를 사용합니다. 또한, 기존 anchor-free 방식의 한계인 deformable attention의 context 부족 문제를 해결하기 위해 새로운 Reference-based Deformable Self-Attention (RDSA) 메커니즘을 제안합니다. InternVideo2 백본을 side-tuning 프레임워크에 효과적으로 통합하여 기존 SOTA 모델 대비 파라미터 수를 크게 줄이면서도 높은 성능을 달성했습니다. 논문 제목: Sparse-Dense Side-Tuner for efficient Video Temporal Grounding

모든 태그 보기