Vision-Language Pre-trainingData Bootstrapping
BLIP: 통합 Vision-Language 이해 및 생성을 위한 언어-이미지 부트스트래핑 사전학습
BLIP은 Vision-Language 이해(understanding) 및 생성(generation) Task 모두에 유연하게 적용 가능한 새로운 Vision-Language Pre-training(VLP) 프레임워크입니다. BLIP은 Multimodal mixture of Encoder-Decoder(MED)라는 통합 아키텍처를 통해 다양한 Task를 지원하며, Captioning and Filtering(CapFilt)이라는 데이터 부트스트래핑(bootstrapping) 기법을 도입하여 노이즈가 많은 웹 데이터를 효과적으로 활용합니다. CapFilt는 Captioner를 통해 합성 캡션을 생성하고 Filter를 통해 노이즈 캡션을 제거하여 데이터 품질을 향상시킵니다. 그 결과, BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, VQA 등 광범위한 vision-language Task에서 SOTA를 달성했습니다. 논문 제목: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation