논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Transformer#Video Moment Retrieval#DETR#Multimodal#LLM
    모든 태그 보기 →

Video Retrieval

1개의 포스트

2025. 9. 3.
Video RetrievalPrototypical Learning

프로토타입: 효율성과 정확성을 모두 잡는 부분 관련 영상 검색(PRVR) 기법

영상 검색 시스템에서 정확성과 효율성을 동시에 달성하는 것은 어려운 과제입니다. 특히, 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)에서는 다양한 시간적 스케일의 컨텍스트를 표현할수록 정확도는 높아지지만 계산 및 메모리 비용이 증가합니다. 이 논문은 영상 내의 다양한 컨텍스트를 고정된 수의 프로토타입(prototypes)으로 인코딩하는 새로운 프레임워크를 제안하여 이 문제를 해결합니다. 텍스트 연관성과 영상 이해도를 높이기 위해 cross-modal 및 uni-modal 재구성 작업을 도입하고, 프로토타입의 다양성을 확보하기 위한 직교 목적 함수를 사용합니다. 이 접근법을 통해 효율성을 희생하지 않으면서도 TVR, ActivityNet-Captions 등 주요 벤치마크에서 최고의 성능을 달성합니다. 논문 제목: Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval

모든 태그 보기

© 2025 junhan.blog