논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Multimodal Search

1개의 포스트

2025. 10. 20.
Generative RetrievalMultimodal Search

GENIUS: 쿼리 하나로 모든 종류의 데이터를 검색하는 범용 멀티모달 검색 프레임워크

GENIUS는 다양한 모달리티와 도메인에 걸쳐 여러 검색 작업을 지원하는 범용 생성형 검색 프레임워크입니다. 기존의 embedding 기반 검색 방식과 달리, GENIUS는 쿼리를 기반으로 타겟 데이터의 식별자(ID)를 직접 생성합니다. 이 프레임워크의 핵심은 modality-decoupled semantic quantization 기술로, 멀티모달 데이터를 모달리티와 시맨틱 정보를 모두 담은 이산 ID로 변환합니다. 또한, 쿼리와 타겟을 보간하는 query augmentation을 통해 모델의 일반화 성능을 향상시킵니다. GENIUS는 기존 생성형 검색 모델보다 월등한 성능을 보이며, 데이터베이스 크기에 관계없이 빠른 검색 속도를 유지합니다. 임베딩 기반 re-ranking을 추가하면 효율성을 유지하면서도 embedding 기반 모델에 근접한 성능을 달성합니다. 논문 제목: GENIUS: A Generative Framework for Universal Multimodal Search

모든 태그 보기

© 2025 junhan.blog