Vision-Language Pre-training

2개의 포스트

Vision-Language Pre-trainingMomentum Distillation

ALBEF: Align before Fuse, 모멘텀 증류를 통한 Vision-Language 표현 학습

ALBEF는 이미지와 텍스트 표현을 융합(Fuse)하기 전에, 먼저 contrastive loss를 사용하여 두 표현을 정렬(Align)하는 새로운 Vision-Language Pre-training 프레임워크입니다. 이 ‘Align before Fuse’ 접근법은 cross-modal attention을 통한 이미지-텍스트 상호작용 학습을 더 효과적으로 만듭니다. 또한 ALBEF는 별도의 object detector를 요구하지 않으며, 노이즈가 많은 웹 데이터로부터의 학습 성능을 향상시키기 위해 모멘텀 모델의 pseudo-target을 활용하는 Momentum Distillation (MoD) 기법을 제안합니다. 이를 통해 이미지-텍스트 검색, VQA, NLVR² 등 다양한 downstream task에서 SOTA 성능을 달성했습니다. 논문 제목: Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

Vision-Language Pre-trainingData Bootstrapping

BLIP: 통합 Vision-Language 이해 및 생성을 위한 언어-이미지 부트스트래핑 사전학습

BLIP은 Vision-Language 이해(understanding) 및 생성(generation) Task 모두에 유연하게 적용 가능한 새로운 Vision-Language Pre-training(VLP) 프레임워크입니다. BLIP은 Multimodal mixture of Encoder-Decoder(MED)라는 통합 아키텍처를 통해 다양한 Task를 지원하며, Captioning and Filtering(CapFilt)이라는 데이터 부트스트래핑(bootstrapping) 기법을 도입하여 노이즈가 많은 웹 데이터를 효과적으로 활용합니다. CapFilt는 Captioner를 통해 합성 캡션을 생성하고 Filter를 통해 노이즈 캡션을 제거하여 데이터 품질을 향상시킵니다. 그 결과, BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, VQA 등 광범위한 vision-language Task에서 SOTA를 달성했습니다. 논문 제목: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation