Temporal Sentence GroundingAudio-visual Learning
Curriculum-Listener: 일관성과 상보성을 고려한 오디오 강화 Temporal Sentence Grounding
본 논문은 자연어 쿼리를 통해 비디오의 특정 순간을 찾는 Temporal Sentence Grounding (TSG) 작업을 위해 오디오 정보를 효과적으로 활용하는 Adaptive Dual-branch Promoted Network (ADPN)를 제안합니다. ADPN은 visual-only 브랜치와 audio-visual 브랜치를 함께 학습하여 모달리티 간 간섭을 줄이고, 텍스트 의미를 가이드로 오디오와 비전의 일관성 및 상보성을 탐색하는 Text-Guided Clues Miner (TGCM)을 도입합니다. 또한, 자체 인식 방식으로 샘플의 난이도를 평가하여 노이즈를 줄이는 curriculum learning 기반 최적화 전략을 사용하여 오디오 정보 활용 성능을 극대화합니다. 논문 제목: Curriculum-Listener: Consistency- and Complementarity-Aware Audio-Enhanced Temporal Sentence Grounding