Representation Learning

2개의 포스트

Vision and LanguageRepresentation Learning

Pixel-BERT: Deep Multi-Modal Transformer를 이용한 이미지 픽셀과 텍스트 정렬

Pixel-BERT는 기존의 객체 탐지 기반의 region-based visual feature의 한계를 극복하기 위해, 이미지 픽셀과 텍스트를 직접적으로 정렬하는 end-to-end multi-modal Transformer 모델입니다. 이 모델은 CNN 기반 visual encoder를 사용하여 이미지 픽셀에서 직접 시각적 임베딩을 학습하고, 이를 텍스트 임베딩과 결합하여 심층적인 상호작용을 학습합니다. Pre-training 단계에서는 Masked Language Model (MLM)과 Image-Text Matching (ITM) task를 사용하며, 시각적 표현의 강인함을 높이기 위해 random pixel sampling 메커니즘을 제안합니다. 이를 통해 VQA, image-text retrieval 등 다양한 downstream task에서 뛰어난 성능을 보여줍니다. 논문 제목: Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

Vision-and-LanguageRepresentation Learning

UNITER: 범용 이미지-텍스트 표현 학습(UNiversal Image-TExt Representation Learning)

UNITER는 다양한 Vision-and-Language (V+L) 태스크에 범용적으로 적용 가능한 UNiversal Image-TExt Representation 모델입니다. 대규모 이미지-텍스트 데이터셋을 기반으로 사전 학습되며, 4가지 태스크(Masked Language Modeling, Masked Region Modeling, Image-Text Matching, Word-Region Alignment)를 통해 이미지와 텍스트의 joint multimodal embedding을 학습합니다. 특히 이 모델은 한 modality의 전체 정보를 조건으로 다른 modality를 예측하는 Conditional Masking과, Optimal Transport (OT)를 이용해 단어와 이미지 영역 간의 정렬을 명시적으로 학습하는 Word-Region Alignment (WRA)를 제안하여 기존 모델들과 차별점을 두었습니다. 이를 통해 UNITER는 6개의 V+L 벤치마크에서 최고 성능을 달성했습니다. 논문 제목: UNITER: UNiversal Image-TExt Representation Learning