Vision-and-Language

2개의 포스트

Vision-and-LanguageRepresentation Learning

UNITER: 범용 이미지-텍스트 표현 학습(UNiversal Image-TExt Representation Learning)

UNITER는 다양한 Vision-and-Language (V+L) 태스크에 범용적으로 적용 가능한 UNiversal Image-TExt Representation 모델입니다. 대규모 이미지-텍스트 데이터셋을 기반으로 사전 학습되며, 4가지 태스크(Masked Language Modeling, Masked Region Modeling, Image-Text Matching, Word-Region Alignment)를 통해 이미지와 텍스트의 joint multimodal embedding을 학습합니다. 특히 이 모델은 한 modality의 전체 정보를 조건으로 다른 modality를 예측하는 Conditional Masking과, Optimal Transport (OT)를 이용해 단어와 이미지 영역 간의 정렬을 명시적으로 학습하는 Word-Region Alignment (WRA)를 제안하여 기존 모델들과 차별점을 두었습니다. 이를 통해 UNITER는 6개의 V+L 벤치마크에서 최고 성능을 달성했습니다. 논문 제목: UNITER: UNiversal Image-TExt Representation Learning

Vision-and-LanguageTransformer

ViLT: 합성곱이나 영역 감독 없이 구현된 Vision-and-Language Transformer

ViLT(Vision-and-Language Transformer)는 기존 Vision-and-Language Pre-training(VLP) 모델들이 의존했던 복잡한 이미지 특징 추출 과정(예: object detection, ResNet)을 제거한 혁신적인 모델입니다. ViLT는 텍스트를 처리하는 방식과 동일하게, 간단한 patch projection을 통해 시각적 입력을 처리하여 모델을 단순화했습니다. 이러한 설계 덕분에 기존 VLP 모델보다 수십 배 빠르면서도, 다양한 vision-and-language downstream task에서 경쟁력 있거나 더 나은 성능을 보여줍니다. 논문 제목: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision