Temporal Sentence Grounding

3개의 포스트

Temporal Sentence GroundingAudio-visual Learning

Curriculum-Listener: 일관성과 상보성을 고려한 오디오 강화 Temporal Sentence Grounding

본 논문은 자연어 쿼리를 통해 비디오의 특정 순간을 찾는 Temporal Sentence Grounding (TSG) 작업을 위해 오디오 정보를 효과적으로 활용하는 Adaptive Dual-branch Promoted Network (ADPN)를 제안합니다. ADPN은 visual-only 브랜치와 audio-visual 브랜치를 함께 학습하여 모달리티 간 간섭을 줄이고, 텍스트 의미를 가이드로 오디오와 비전의 일관성 및 상보성을 탐색하는 Text-Guided Clues Miner (TGCM)을 도입합니다. 또한, 자체 인식 방식으로 샘플의 난이도를 평가하여 노이즈를 줄이는 curriculum learning 기반 최적화 전략을 사용하여 오디오 정보 활용 성능을 극대화합니다. 논문 제목: Curriculum-Listener: Consistency- and Complementarity-Aware Audio-Enhanced Temporal Sentence Grounding

Temporal Sentence GroundingTransformer

RGTR: 쿼리 다양화를 통한 Temporal Sentence Grounding Transformer

기존 DETR 기반의 Temporal Sentence Grounding 모델들은 중복되고 불필요한 proposal을 생성하는 문제를 겪습니다. 이를 해결하기 위해 제안된 Region-Guided Transformer (RGTR)는 학습 가능한 쿼리 대신 명시적인 지역적 가이드를 제공하는 anchor pair를 moment query로 사용하여 쿼리 다양성을 높이고 중복 proposal을 제거합니다. 각 moment query는 특정 시간 영역의 예측을 담당하여 최적화의 어려움을 줄이고 proposal의 다양성을 보장합니다. 또한, IoU-aware scoring head를 도입하여 proposal의 품질을 향상시킵니다. 논문 제목: Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding

Temporal Sentence GroundingLength-Aware Transformer

LATR: 길이를 인지하는 Transformer를 이용한 Temporal Sentence Grounding

Temporal Sentence Grounding (TSG)은 비디오에서 주어진 문장에 해당하는 시간적 구간을 찾는 task입니다. 기존 DETR 기반 모델들은 학습 가능한 query들의 역할이 겹쳐 중복된 예측을 생성하는 문제가 있었습니다. LATR (Length-Aware Transformer)은 각 query가 특정 시간 길이에 전문화되도록 하여 이 문제를 해결합니다. 모델은 query들을 짧은, 중간, 긴 길이를 담당하는 세 그룹으로 나누고, 학습 과정에서 길이 분류 task를 추가하여 각 query가 지정된 역할을 학습하도록 유도합니다. 길이가 맞지 않는 query의 예측은 억제함으로써, 각 query는 특정 길이 범위에 집중하게 되어 모델의 전반적인 성능과 예측 정확도를 향상시킵니다. 논문 제목: Length Matters: Length-Aware Transformer for Temporal Sentence Grounding