Representation Learning
3개의 포스트
ARL: 부분 관련 비디오 검색을 위한 모호성 억제 텍스트-비디오 표현 학습
Partially Relevant Video Retrieval (PRVR)은 텍스트 쿼리와 부분적으로만 관련된 비디오를 찾는 기술입니다. 기존 모델들은 텍스트-비디오 쌍이 1:1 관계라고 가정하여, 라벨링되지 않은 관련성 높은 비디오들을 부정적(negative) 샘플로 잘못 학습하는 모호성(ambiguity) 문제를 가집니다. 본 논문은 이러한 모호성을 억제하는 표현 학습 프레임워크인 ARL (Ambiguity-Restrained representation Learning)을 제안합니다. ARL은 uncertainty와 similarity라는 두 가지 기준을 사용하여 모호한 텍스트-비디오 쌍을 탐지하고, multi-positive contrastive learning 및 dual triplet margin loss를 통해 이들을 유연하게 학습합니다. 또한, 텍스트-프레임 레벨까지 학습을 확장하고, 단일 모델의 오류 전파를 막기 위해 cross-model ambiguity detection을 도입하여 PRVR 성능을 크게 향상시켰습니다. 논문 제목: Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval
Pixel-BERT: Deep Multi-Modal Transformer를 이용한 이미지 픽셀과 텍스트 정렬
Pixel-BERT는 기존의 객체 탐지 기반의 region-based visual feature의 한계를 극복하기 위해, 이미지 픽셀과 텍스트를 직접적으로 정렬하는 end-to-end multi-modal Transformer 모델입니다. 이 모델은 CNN 기반 visual encoder를 사용하여 이미지 픽셀에서 직접 시각적 임베딩을 학습하고, 이를 텍스트 임베딩과 결합하여 심층적인 상호작용을 학습합니다. Pre-training 단계에서는 Masked Language Model (MLM)과 Image-Text Matching (ITM) task를 사용하며, 시각적 표현의 강인함을 높이기 위해 random pixel sampling 메커니즘을 제안합니다. 이를 통해 VQA, image-text retrieval 등 다양한 downstream task에서 뛰어난 성능을 보여줍니다. 논문 제목: Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers
UNITER: 범용 이미지-텍스트 표현 학습(UNiversal Image-TExt Representation Learning)
UNITER는 다양한 Vision-and-Language (V+L) 태스크에 범용적으로 적용 가능한 UNiversal Image-TExt Representation 모델입니다. 대규모 이미지-텍스트 데이터셋을 기반으로 사전 학습되며, 4가지 태스크(Masked Language Modeling, Masked Region Modeling, Image-Text Matching, Word-Region Alignment)를 통해 이미지와 텍스트의 joint multimodal embedding을 학습합니다. 특히 이 모델은 한 modality의 전체 정보를 조건으로 다른 modality를 예측하는 Conditional Masking과, Optimal Transport (OT)를 이용해 단어와 이미지 영역 간의 정렬을 명시적으로 학습하는 Word-Region Alignment (WRA)를 제안하여 기존 모델들과 차별점을 두었습니다. 이를 통해 UNITER는 6개의 V+L 벤치마크에서 최고 성능을 달성했습니다. 논문 제목: UNITER: UNiversal Image-TExt Representation Learning