ProPy: CLIP 기반의 상호작용적 Prompt Pyramid를 이용한 부분 관련 영상 검색
ProPy는 텍스트 쿼리가 비디오의 특정 부분에만 관련된 경우에 해당 비디오를 검색하는 Partially Relevant Video Retrieval(PRVR) 작업을 위해 제안된 모델입니다. 강력한 pretrained vision-language model인 CLIP의 구조를 PRVR에 맞게 체계적으로 적용한 ProPy는 두 가지 핵심 아이디어를 제시합니다. 첫째, 다중 세분성(multi-granularity) 수준에서 이벤트 의미를 포착하는 Prompt Pyramid 구조를 도입합니다. 둘째, 피라미드 위에서 이벤트 간의 동적인 의미 상호작용을 가능하게 하는 Ancestor-Descendant Interaction Mechanism을 설계합니다. 이 접근법을 통해 ProPy는 비디오 내 이벤트들의 복잡한 관계(intra-segment 및 inter-segment)를 효과적으로 모델링하여 여러 공개 데이터셋에서 SOTA 성능을 달성했습니다. 논문 제목: ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval