Partially Relevant Video RetrievalKnowledge Distillation
Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval
본 논문은 Partially Relevant Video Retrieval (PRVR) 문제를 해결하기 위해 Knowledge Distillation을 활용한 Multi-Grained Alignment framework (MGAKD)를 제안합니다. 이 모델은 CLIP 모델을 teacher로 사용하여 cross-modal alignment 지식을 student 모델에 정제하고, student 모델은 inheritance branch와 exploration branch로 구성됩니다. Inheritance branch는 CLIP의 지식을 받아들이고, exploration branch는 frame-level, clip-level, video-level의 세 가지 granularity에서 시각적 특징을 탐색합니다. 특히, clip-level에서는 Gaussian mask를 사용하여 이벤트의 맥락 정보를 모델링하고, video-level에서는 clip-guided attention을 통해 쿼리와 관련된 동영상 특징을 생성하여 관련 없는 순간의 영향을 줄입니다. 논문 제목: Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval