Multimodal Foundation ModelMasked Data Modeling
BEIT-3: 이미지를 외국어로 간주하여 Vision과 Language 작업을 통합한 범용 모델
BEIT-3는 언어, 비전, 멀티모달 사전학습의 통합을 목표로 하는 범용 멀티모달 foundation model이다. 이 모델의 핵심 아이디어는 이미지를 '외국어(Imglish)'로 간주하여, 이미지(Imglish), 텍스트(English), 그리고 이미지-텍스트 쌍("병렬 문장")에 대해 통합된 masked "language" modeling을 수행하는 것이다. Multiway Transformer라는 공유된 backbone 아키텍처를 기반으로, modality-specific 인코딩과 deep fusion을 모두 지원한다. 이 접근법을 통해 BEIT-3는 object detection, semantic segmentation과 같은 vision task부터 visual question answering, image captioning 등 vision-language task에 이르기까지 광범위한 벤치마크에서 최고 수준의 성능을 달성했다. 논문 제목: Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks