Uncertainty Modeling

2개의 포스트

Video RetrievalUncertainty Modeling

RAL: 견고한 정렬 학습을 통한 부분 관련 비디오 검색 성능 향상

이 논문은 주어진 쿼리와 부분적으로만 관련된 긴 비디오를 검색하는 Partially Relevant Video Retrieval (PRVR) 문제를 다룹니다. PRVR의 핵심 과제는 데이터 불확실성(모호한 쿼리, 비디오의 부분적 관련성)에서 발생하는 잘못된 의미적 상관관계를 극복하고 견고한 쿼리-비디오 정렬을 학습하는 것입니다. 이를 해결하기 위해 본 논문에서는 데이터의 불확실성을 명시적으로 모델링하는 Robust Alignment Learning (RAL) 프레임워크를 제안합니다. RAL의 핵심은 비디오와 쿼리를 다변량 Gaussian 분포로 인코딩하여 데이터 불확실성을 정량화하고, 다양한 cross-modal 관계를 포착하는 것입니다. 또한, 쿼리 단어의 중요도가 다른 점을 고려하여 동적으로 유사도 가중치를 부여하는 confidence-aware alignment 메커니즘을 도입하여 무의미한 단어의 노이즈를 줄입니다. RAL은 기존 아키텍처에 쉽게 통합 가능한 plug-and-play 방식으로, 다양한 벤치마크에서 기존 방법들의 성능을 크게 향상시켰습니다. 논문 제목: Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning

Video RetrievalUncertainty Modeling

GMMFormer v2: 불확실성을 고려한 부분 관련 영상 검색 프레임워크

GMMFormer v2는 텍스트 쿼리를 기반으로 관련 순간을 포함하는 미편집 비디오를 검색하는 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)을 위한 불확실성 인식 프레임워크입니다. 이 모델은 모멘트 어노테이션 부재로 인한 클립 모델링 및 텍스트-클립 대응의 불확실성 문제를 해결합니다. GMMFormer v2는 가변 길이의 비디오 모멘트를 더 잘 포착하기 위해 `temporal consolidation module`을 도입했으며, `semantic collapse` 문제를 완화하고 정교한 텍스트-클립 정렬을 위해 개선된 `query diverse loss`와 새로운 `optimal matching loss`를 제안합니다. 논문 제목: GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval