Modality InteractionTemporal Sentence Localization
PMI: 비디오의 Temporal Sentence Localization 및 Event Captioning을 위한 Modality Interaction 학습
본 논문은 비디오 내 여러 modality (visual, motion, audio 등) 간의 상호작용을 학습하여 상보적인 정보를 효과적으로 활용하는 새로운 방법인 Pairwise Modality Interaction (PMI)을 제안합니다. PMI는 modality 쌍 간의 sequence-level 및 channel-level 상호작용을 명시적으로 모델링하여 Temporal Sentence Localization 및 Event Captioning 두 가지 태스크의 성능을 크게 향상시킵니다. 이 모델은 각 modality 쌍의 상호작용 결과를 중요도에 따라 가중합하여 최종 비디오 representation을 생성하며, 이는 예측에 대한 설명 가능성도 제공합니다. 논문 제목: Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos