Hyperbolic Learning

1개의 포스트

2025. 9. 17.

HLFormer: 쌍곡 학습(Hyperbolic Learning)을 통한 부분 관련 비디오 검색 성능 향상

HLFormer는 텍스트 쿼리가 일부 내용만 설명하는 미편집 비디오를 매칭하는 PRVR(Partially Relevant Video Retrieval) 문제를 해결하기 위해 제안된 최초의 쌍곡 학습(Hyperbolic Learning) 프레임워크입니다. 기존 방법들이 사용하는 Euclidean 공간은 비디오의 본질적인 계층 구조를 왜곡할 수 있는 반면, HLFormer는 쌍곡 공간을 활용하여 이러한 계층적 의미 모델링을 보완합니다. 이 모델은 Lorentz Attention Block과 Euclidean Attention Block을 결합하여 하이브리드 공간에서 비디오 임베딩을 인코딩하고, Mean-Guided Adaptive Interaction Module을 통해 동적으로 특징을 융합합니다. 또한, Partial Order Preservation Loss를 도입하여 "text ≺ video"라는 계층 구조를 기하학적으로 강제함으로써 텍스트와 비디오 간의 부분적 관련성 매칭을 강화합니다. 논문 제목: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

모든 태그 보기