Video Moment RetrievalPoint Supervision
ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval
ADTC는 단일 프레임만 주석으로 사용하는 point-supervised Video Moment Retrieval (VMR) 작업을 위한 새로운 프레임워크입니다. 기존 방법들이 cross-modal 의미 정렬과 영상의 전역적 구조를 제대로 활용하지 못하는 문제를 해결하기 위해, ADTC는 지역적(local) 트리와 전역적(global) 트리를 통합하는 이중 단계 트리 아키텍처를 제안합니다. 이 모델은 프레임 클러스터링과 장면 분할을 통해 영상의 구조적 특성을 파악하고, 이를 기반으로 적응형 병합 및 가지치기(pruning) 전략을 사용하여 트리를 최적화합니다. 그 결과, Charades-STA 및 ActivityNet Captions 데이터셋에서 기존 point-supervised 방식들을 뛰어넘는 최고 수준의 성능을 달성했으며, 주석 비용을 크게 줄이면서도 일부 완전 지도 학습(fully supervised) 방법보다 우수한 성능을 보입니다. 논문 제목: ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval