
SynthVLM: Vision-Language 모델을 위한 고품질 이미지-캡션 데이터셋의 효율적인 합성
SynthVLM은 Vision-Language Models (VLMs) 학습에 필요한 대규모 고품질 데이터셋의 문제를 해결하기 위한 새로운 데이터 합성 및 큐레이션 방법론을 제안합니다. 기존 방식과 달리, 고품질 캡션을 먼저 선별하고 고급 diffusion model을 사용하여 텍스트 캡션으로부터 이미지를 생성함으로써, 텍스트와 이미지가 정밀하게 정렬된 데이터 쌍을 만듭니다. 이 방법을 통해 생성된 SynthVLM-100K 데이터셋은 기존의 실제 데이터셋보다 우수한 성능을 보이며, 이 데이터셋으로 학습된 SynthVLM-7B 및 SynthVLM-13B 모델은 단 18%의 데이터만으로도 다양한 Vision Question-Answering (VQA) 작업에서 SOTA 성능을 달성합니다. 논문 제목: SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models








