논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Probabilistic Embedding

1개의 포스트

2025. 9. 17.
Probabilistic EmbeddingCross-modal Retrieval

PCME: Cross-Modal Retrieval을 위한 확률적 임베딩

본 논문은 이미지-캡션과 같은 cross-modal retrieval task에서 발생하는 일대다(one-to-many) 대응 관계의 한계를 지적합니다. 기존의 deterministic 함수 기반 임베딩 방식은 이러한 복잡한 관계를 포착하기 어렵습니다. 이를 해결하기 위해, 저자들은 각 데이터를 단일 벡터가 아닌 확률 분포로 표현하는 Probabilistic Cross-Modal Embedding (PCME)을 제안합니다. PCME는 이미지와 텍스트를 공통 임베딩 공간 내의 정규 분포(normal distribution)로 모델링하여, soft cross-modal contrastive loss를 통해 학습됩니다. 이 접근법은 불확실성을 모델링하여 검색 성능을 향상시킬 뿐만 아니라, 임베딩의 해석 가능성을 높여주는 장점을 가집니다. 또한, COCO와 같은 기존 벤치마크의 한계를 지적하며 CUB 데이터셋을 활용한 새로운 평가 방식을 제안합니다. 논문 제목: Probabilistic Embeddings for Cross-Modal Retrieval

모든 태그 보기

© 2025 junhan.blog