Image RetrievalVisual-Language Model
ELIP: 이미지 검색 성능을 향상시키는 시각-언어 기반 모델
ELIP (Enhanced Language-Image Pre-training)은 대규모 사전 학습 시각-언어 모델의 텍스트-이미지 검색 성능을 향상시키기 위한 새로운 프레임워크입니다. 이 접근법은 텍스트 쿼리를 사용하여 ViT 이미지 인코딩을 조건화하는 시각적 프롬프트 세트를 예측하며, 기존의 CLIP, SigLIP, BLIP-2와 같은 모델에 쉽게 적용할 수 있는 경량 아키텍처를 특징으로 합니다. ELIP은 제한된 컴퓨팅 자원으로 효율적인 학습이 가능하도록 데이터 큐레이션 전략을 제안하며, 텍스트-이미지 재순위화(re-ranking) 단계에서 성능을 크게 향상시켜 기존 모델들을 능가하는 결과를 보여줍니다. 논문 제목: ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval