논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Partially Relevant Video Retrieval

1개의 포스트

2025. 9. 17.
Partially Relevant Video RetrievalKnowledge Distillation

Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval

본 논문은 Partially Relevant Video Retrieval (PRVR) 문제를 해결하기 위해 Knowledge Distillation을 활용한 Multi-Grained Alignment framework (MGAKD)를 제안합니다. 이 모델은 CLIP 모델을 teacher로 사용하여 cross-modal alignment 지식을 student 모델에 정제하고, student 모델은 inheritance branch와 exploration branch로 구성됩니다. Inheritance branch는 CLIP의 지식을 받아들이고, exploration branch는 frame-level, clip-level, video-level의 세 가지 granularity에서 시각적 특징을 탐색합니다. 특히, clip-level에서는 Gaussian mask를 사용하여 이벤트의 맥락 정보를 모델링하고, video-level에서는 clip-guided attention을 통해 쿼리와 관련된 동영상 특징을 생성하여 관련 없는 순간의 영향을 줄입니다. 논문 제목: Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval

모든 태그 보기

© 2025 junhan.blog