전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (25개의 글)

AVIGATE: Audio-guided Video Representation Learning with Gated Attention for Video-Text Retrieval
·
#Video-Text Retrieval#Gated Attention

AVIGATE: Audio-guided Video Representation Learning with Gated Attention for Video-Text Retrieval

AVIGATE는 비디오-텍스트 검색을 위한 새로운 프레임워크로, gated attention 메커니즘을 통해 오디오 신호의 유용성을 동적으로 판단하고 비디오 표현을 향상시킵니다. 이 접근 방식은 정보가 없는 오디오를 필터링하고 adaptive margin-based contrastive loss를 사용하여 비디오-텍스트 정렬을 개선합니다.