Liu, Zheng, et al. "SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models." Proceedings of the 33rd ACM International Conference on Multimedia. 2025.

SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models

Abstract

**Vision-Language Model (VLM)**은 최근 등장하여 뛰어난 시각 이해 능력을 보여주고 있다. 그러나 이러한 모델을 학습시키려면 대규모 데이터셋이 필요하며, 이는 웹 데이터의 효율성, 효과성, 품질과 관련된 도전 과제를 야기한다. 본 논문에서는 이미지-캡션 쌍을 생성하기 위한 새로운 데이터 합성 및 큐레이션 방법인 SynthVLM을 소개한다.

기존 방법들이 이미지로부터 캡션을 생성하는 것과 달리, SynthVLM은 고급 diffusion model과 고품질 캡션을 활용하여 텍스트 캡션으로부터 이미지를 합성하고 선택함으로써, 정확하게 정렬된 이미지-텍스트 쌍을 생성한다. 우리는 또한 10만 개의 큐레이션 및 합성된 이미지-캡션 쌍으로 구성된 고품질 데이터셋인 SynthVLM-100K를 소개한다.

모델 및 인간 평가 모두에서 SynthVLM-100K는 기존의 실제 데이터셋보다 우수한 성능을 보인다. 이 데이터셋을 활용하여 우리는 새로운 멀티모달 대규모 언어 모델(MLLM) 계열인 SynthVLM-7B와 SynthVLM-13B를 개발했으며, 이 모델들은 다양한 VQA(Vision Question-Answering) task에서 SOTA(State-Of-The-Art) 성능을 달성한다. 특히, 우리 모델들은 LLaVA보다 대부분의 지표에서 우수한 성능을 보이며, 이는 단 18%의 사전학습 데이터만으로 달성되었다.

나아가, SynthVLM-7B와 SynthVLM-13B는 MMLU 벤치마크에서 SOTA 성능을 기록하여, 고품질 SynthVLM-100K 데이터셋이 언어 능력을 보존하고 있음을 입증한다.

우리의 데이터셋과 완전한 데이터 생성 및 큐레이션 방법은 https://github.com/starriver030515/SynthVLM 에서 확인할 수 있다.

1 Introduction

최근 몇 년간 대규모 언어 모델(LLMs) [45, 54] 및 멀티모달 대규모 언어 모델(MLLMs) [60, 64]의 급속한 발전과 함께, 데이터 관리는 이러한 기술의 핵심적인 측면이 되었다 [5, 12, 21, 41, 44, 55]. 동시에 [2, 65, 66, 68]는 데이터 처리, 선택 및 관리가 MLLMs의 성능에 상당한 영향을 미칠 수 있음을 보여준다.

MLLMs의 하위 집합인 **Vision Language Models (VLMs)**는 이미지 분류, 이해, 캡셔닝과 같은 task에서 뛰어난 성능을 보인다 [1, 6, 26, 27]. 대부분의 VLMs가 멀티모달 데이터를 통합하기 위한 모델 아키텍처 개선에 초점을 맞추고 있지만 [1, 6, 26, 27, 34, 35], 웹에서 수집된 데이터에 대한 의존성은 병목 현상을 야기한다: 고품질의 정확하게 정렬된 이미지-텍스트 쌍이 부족하다는 것이다. [29, 58]에서 보여주듯이, 노이즈가 많거나 정렬이 잘못된 데이터는 성능을 직접적으로 제한하며, 이들은 신중하게 선별된 데이터셋이 VLM의 효과를 향상시킨다고 주장한다. 결정적으로, 모달리티 간의 정확한 정렬은 데이터 품질의 핵심이며, 이는 아키텍처 개선만으로는 해결하기 어려운, 더 큰 집중을 요구하는 도전 과제이다.

Figure 1: SynthVLM-100K와 LLaVA-558K를 비교하였다. (a)에서 생성된 이미지는 워터마크나 광고와 같은 콘텐츠를 피할 수 있다. (b)에서 생성된 이미지는 캡션의 내용을 더 잘 반영한다. 또한, 생성된 이미지의 해상도는 실제 이미지보다 높다.

고품질 웹 데이터의 부족 문제를 해결하기 위해 데이터 합성(data synthesis) 전략이 점점 더 많이 활용되고 있다 [3, 15, 42]. 예를 들어, [42]는 BLIP2를 활용하여 수많은 이미지 캡션을 생성하고 DataComp에서 SOTA 결과를 달성했다. VLM 분야에서는 [3]이 GPT-4 Vision을 사용하여 매우 상세한 이미지 캡션을 생성함으로써 LLaVA의 성능을 크게 향상시켰다. 이러한 생성 모델의 통합은 데이터 품질 및 정렬을 향상시키고 VLM 성능을 더욱 높이는 새로운 길을 열었다.

VLMs의 이러한 주목할 만한 발전에도 불구하고, 멀티모달 데이터, 특히 이미지와 텍스트 쌍이 필요한 경우의 문제는 여전히 남아있다. 이미지를 위한 합성 캡션이 생성되었음에도 불구하고, 생성된 이미지의 부재는 고품질 웹 이미지의 제한 문제가 해결되지 않았음을 의미한다. 이러한 한계는 여전히 해결해야 할 세 가지 주요 과제를 야기한다:

C1. 낮은 데이터 품질 (Low Data Quality). 웹에서 수집된 이미지는 종종 흐릿함이나 워터마크와 같은 아티팩트를 포함하여 품질을 저하시킨다. 또한, BLIP2를 활용한 캡션 생성 접근 방식 [42]은 텍스트에 논리적 불일치와 문법적 오류를 도입하는 경향이 있으며, 이는 VLM 학습 파이프라인을 통해 전파되어 궁극적으로 언어적 추론 능력(linguistic reasoning capabilities)을 약화시킨다.

C2. 낮은 효과성 (Poor Effectiveness). 기존 데이터셋은 VLMs를 효과적으로 학습시키는 데 필요한 다양성과 깊이가 부족한 경우가 많다. 많은 웹 스크래핑 데이터셋은 자연어와 시각 정보의 복잡성을 포착하지 못하는 저품질 또는 관련 없는 콘텐츠로 구성되어 있다. 또한, 현재 데이터셋의 제한된 범위는 종종 다양한 맥락에서 일반화하기 어려운 모델을 초래한다.

C3. 낮은 효율성 (Low Efficiency). 수동 캡셔닝에 의존하는 방법은 노동 집약적이고 자원 집약적이다. GPT-4를 라벨링에 활용하는 ShareGPT4V [3]와 같은 자동화된 솔루션은 비용이 많이 들고 확장하기 어렵다. 또한, 많은 전략은 대규모 데이터셋 생성을 요구하여 상당한 데이터 중복을 초래한다.

이러한 과제를 해결하기 위해 우리는 새로운 데이터 생성 파이프라인인 SynthVLM을 도입했다. 먼저, 고품질 캡션 데이터를 필터링하기 위한 품질 선택 프로세스를 구현했다. 다음으로, 이러한 캡션을 기반으로 확산 모델(diffusion models)을 사용하여 이미지를 생성했다. 품질 보증을 위해, 우리는 CLIPScore [19]와 SSIM [59]을 결합하여 이미지-텍스트 정렬과 이미지 품질 모두에 초점을 맞춘 이미지-캡션 쌍 평가 및 선택을 위한 새로운 방법을 제안했다. 우리의 데이터 생성 접근 방식은 기존 방법과 비교하여 이미지와 캡션 간에 우수한 정렬을 달성했다. 100K개의 선별된 합성 데이터를 사용하여, 우리는 공식 LLaVA-558K 데이터셋 크기의 18%만을 활용하고도 여러 벤치마크에서 SOTA 결과를 달성했다. 전반적으로, 우리의 기여는 다음과 같다:

혁신적인 데이터 합성 프레임워크 (Innovative Data Synthesis Framework). 우리는 합성 이미지-캡션 쌍 생성을 위한 새로운 2단계 파이프라인인 SynthVLM을 소개하고, 이 프레임워크를 통해 생성된 대규모 고품질 데이터셋인 SynthVLM-100K를 구축한다. 기존 접근 방식과 비교하여 SynthVLM은 품질 저하 없이 우수한 효율성을 달성한다.
우수한 합성 데이터 품질 (Superior Synthetic Data Quality). SynthVLM-100K는 모델 및 인간 평가 모두에서 baseline 데이터셋을 능가한다. 이는 우수한 CLIPScore 및 SSIMScore를 달성하며, 더 높은 인간 평가 점수를 얻는다. GPT-4 및 Intern-VL2 평가를 통한 추가 검증은 vision-language 모델 학습을 위한 향상된 품질을 입증한다.
State-of-the-Art Vision-Language Modeling. SynthVLM-100K로만 사전학습되었을 때, 우리의 모델은 LLaVA-558K에 의존하는 baseline 방법들을 능가하며, vision-language 이해 벤치마크에서 최고 수준의 성능을 달성한다. SynthVLM-13B는 MMLU 벤치마크에서도 뛰어난 성능을 보여 멀티모달 다재다능함을 강조한다.

2.1 Data Quality and Selection

고품질 데이터는 모델의 성능을 크게 향상시킬 수 있다 [40]. 데이터 정제, 선택 및 어노테이션에 더 많은 자원이 필요하기 때문에 높은 데이터 품질을 보장하는 것은 더욱 어려워진다 [2]. LLM 기반 방법은 데이터 선택에 일반적으로 사용되었다 [2]. 예를 들어, [10]은 DeBERTa [17]를 활용하여 데이터에 점수를 매기고 고품질 데이터를 유지하며, 이를 k-center greedy 알고리즘과 결합하여 다양한 데이터를 선택한다. [4]는 ChatGPT를 사용하여 데이터의 정확도를 평가하여 고품질 데이터를 선별한다. [61]은 GPT-4를 사용하여 데이터의 복잡성을 높이기 위해 데이터를 다시 작성한 다음, 다양성을 줄이고 품질을 향상시켜 데이터를 간소화한다.

2.2 Data Generation

최근 합성 데이터 생성 및 LLM 성능 향상에 대한 발전은 다양한 분야에서 유망한 결과를 보여주었다. 고품질 합성 데이터셋을 생성하는 데 있어 핵심 요소는 **정확한 정렬(alignment)**이다. [11]은 REALIGN이라는 방법을 소개하는데, 이는 사전 설정된 기준 및 증거에 더 잘 부합하도록 응답 형식을 재구성하여 instruction 데이터의 품질을 향상시키고, 이를 통해 인간의 어노테이션 및 모델의 환각(hallucination)을 최소화하면서 LLM이 인간의 가치에 더 잘 정렬되도록 개선한다. [31]은 사람이 작성한 텍스트에 해당 instruction을 자동으로 레이블링하여 고품질의 instruction-following language model을 구축하고, 매우 효과적인 self-alignment를 시연한다.

Figure 2: SynthVLM 데이터 합성 방법의 파이프라인은 다음과 같다: 첫째, 고품질 이미지-캡션 쌍을 필터링한다. 다음으로, 고품질 데이터를 합성하고, 이들을 CLIPScore를 기반으로 다시 필터링한다.

Table 1: LCS는 LAION, CC, SBU 데이터셋을 약칭한다. SynthVLM은 캡션을 사용하여 이미지를 생성하는 반면, 다른 방법들은 이미지를 사용하여 캡션을 생성하거나 수동으로 레이블링한다.

Name	Image Source	Caption Source	Sample
COCO-Caption [33]	COCO	Human	118 K
BLIP-LCS [34]	LCS	BLIP	558 K
ShareGPT4V [3]	LCS, COCO, etc	GPT4-Vision	100 K
ShareGPT4V-PT [3]	LCS, COCO, etc	Share-Captioner	1246 K
SynthVLM	Diffusion	LCS, COCO, BLIP2-DataComp, etc	1000 K

3 Method

3.1 Step1: Synthetic Dataset Construction

이 섹션에서는 이미지 생성 파이프라인을 소개한다. 먼저, **대규모 캡션 풀(pool)**을 구축한다. 그런 다음, 이미지-텍스트 생성에 가장 적합한 캡션을 풀에서 선택한다. 이러한 고품질 캡션을 활용하여 diffusion model을 이용해 이미지를 생성한다.

데이터 소스 (Data Source)
캡션의 다양성을 확보하기 위해 사람이 생성한 캡션과 모델이 생성한 캡션을 결합하였다. Table 1에 나타난 바와 같이, 사람이 생성한 캡션은 주로 LAION, CC, SBU에서 가져왔으며, 모델이 생성한 캡션은 DataComp 데이터셋 [14]의 이미지에 대해 BLIP2를 활용하여 캡션을 재구성하는 [42]의 방법을 사용하여 생성되었다.

캡션 큐레이션 (Caption Curation)
데이터셋 품질을 유지하기 위해, 먼저 광고, 지나치게 반복적인 설명, 심각한 문법 오류가 포함된 캡션과 같은 저품질 캡션을 제거하였다. 필터링 과정은 ChatGPT와 N-gram, Perplexity와 같은 통계적 지표를 결합하여 수행되었으며, 이를 통해 고품질의 유익한 캡션만이 학습에 사용되도록 보장하였다.
남은 캡션들에 대해서는 CLIPScore [19]를 계산하였다. CLIPScore는 이미지와 해당 캡션 간의 코사인 유사도를 측정하는 지표이다. CLIPScore 계산 공식은 다음과 같다:

\operatorname{CLIPScore}(I, C)=\frac{\operatorname{CLIP}(I) \cdot \operatorname{CLIP}(C)}{\|\operatorname{CLIP}(I)\| \cdot\|\operatorname{CLIP}(C)\|}

여기서 $I$ 는 이미지, $C$ 는 캡션, 그리고 $CLIP(I)$ 와 $CLIP(C)$ 는 CLIP 모델에 의해 추출된 이미지 및 텍스트 feature vector를 나타낸다. $\cdot$ 은 벡터의 내적을, $\|\cdot\|$ 은 벡터의 norm을 의미한다.

우리는 가장 높은 CLIPScore를 가진 이미지-캡션 쌍 중 상위 40%를 선택하였다. 이렇게 선택된 캡션들은 후보 캡션 세트에 포함되었다. 최종적으로, 데이터 생성을 위해 1M개의 캡션으로 구성된 데이터셋을 큐레이션하였다. 우리의 방법은 캡션만을 사용함으로써 저장 공간 오버헤드와 처리 시간을 크게 줄인다. 캡션 큐레이션 파이프라인은 Figure 2(a)에 요약되어 있다.

이미지 생성 (Image Generation)
1M개의 고품질 캡션을 필터링한 후, 고품질의 고해상도 이미지를 효율적으로 생성할 수 있는 SOTA 모델인 Stable Diffusion XL (SDXL) [47]을 사용하였다. SynthVLM은 1024x1024 해상도의 이미지를 생성하여, 기존 데이터셋에 존재하는 저해상도 문제를 효과적으로 해결한다. 이러한 개선은 다양한 이미지 생성 및 인식 task에서 학습 데이터의 품질과 유용성을 크게 향상시킨다.

3.2 Step2: Synthetic Data Selection

이 섹션에서는 생성된 데이터셋의 품질 관리를 위한 새로운 알고리즘을 소개한다. 이미지와 해당 텍스트 설명 간의 정렬(alignment)을 더 잘 보장하기 위해 우리는 CLIPScore를 계속 사용한다. 주어진 이미지 $I$ 와 해당 텍스트 $C$ 에 대해, 먼저 **CLIPScore(I,C)**를 계산하여 둘 사이의 정렬을 평가한다. 또한, 생성된 이미지의 해상도는 $1024 \times 1024$ 이며, 이는 CLIP [48]과의 호환성을 위해 $336 \times 336$ 으로 크기가 조정된다. 이러한 크기 조정 과정에서 발생할 수 있는 품질 손실을 고려하기 위해, 우리는 **이미지 품질 관리를 위한 지표인 Structural Similarity Index Measure (SSIM)**을 도입한다. 이는 크기 조정 후에도 이미지 품질이 유지되도록 더 잘 보장하는 데 도움이 될 것이다. SSIM 공식은 다음과 같이 정의된다:

\operatorname{SSIM}(x, y)=\frac{\left(2 \mu_{x} \mu_{y}+C_{1}\right)\left(2 \sigma_{x y}+C_{2}\right)}{\left(\mu_{x}^{2}+\mu_{y}^{2}+C_{1}\right)\left(\sigma_{x}^{2}+\sigma_{y}^{2}+C_{2}\right)}

여기서

$x$ 와 $y$ 는 비교되는 두 이미지,
$\mu_{x}$ 와 $\mu_{y}$ 는 이미지의 평균 픽셀 강도,
$\sigma_{x}^{2}$ 와 $\sigma_{y}^{2}$ 는 이미지의 분산,
$\sigma_{x y}$ 는 이미지의 공분산,
$C_{1}$ 과 $C_{2}$ 는 분모 값이 약할 때 나눗셈을 안정화하기 위한 상수이다.

Table 2: 동일한 모델 구조를 사용한 SynthVLM과 LLaVA의 비교. SynthVLM이 모든 평가 벤치마크에서 LLaVA를 능가함을 확인할 수 있다.

Models	LLM	SQA	SQA ${ }^{I}$	MMVet	VizWiz	VQAv2	GQA	MMB	MME ${ }^{P}$	MME ${ }^{C}$	PoPE	MMLU
LLaVA-7B	Vicuna-1.5-7B	69.3	67.3	30.5	49.9	78.7	62.5	65.3	1484.8	315.6	86.0	36.3
SynthVLM-7B	Vicuna-1.5-7B	70.4	68.9	32.2	49.3	79.4	63.1	66.8	1518.5	345.7	87.0	41.2
LLaVA-13B	Vicuna-1.5-13B	74.2	71.0	35.0	53.6	80.0	63.0	67.7	1531.3	294.5	86.9	52.4
SynthVLM-13B	Vicuna-1.5-13B	74.9	72.5	35.0	55.9	80.0	63.5	68.3	1573.0	316.1	88.4	54.6

Table 3: MMLU 결과 비교는 100k 합성 데이터를 사용한 SynthVLM이 순수 언어 task에서 LLaVA를 능가함을 보여준다. 이는 양식 정렬(modality alignment)에서 합성 데이터의 효과를 입증한다.

Models	LLM	SQA	MMLU
			Avg	STEM	Humanities	Social Sciences	Other
LLaVA-7B	Vicuna-1.5-7B	69.3	36.3	28.6	33.4	39.5	44.5
SynthVLM-7B	Vicuna-1.5-7B	70.4	41.2	31.7	37.4	47.0	50.2
LLaVA-13B	Vicuna-1.5-13B	74.2	52.4	41.9	45.8	62.9	61.8
SynthVLM-13B	Vicuna-1.5-13B	74.9	54.6	45.0	49.3	64.0	62.2

Table 4: 합성 데이터셋, ShareGPT4V, COCO-Caption, BLIP-LCS에 걸쳐 평균 CLIPScore, SSIMScore 및 가중 점수를 비교했다. 결과는 SynthVLM이 가장 높은 정렬 및 이미지 품질을 달성함을 보여준다.

Datasets	# Samples	CLIPScore	SSIMScore	Weighted_Score
COCO-Caption	118 K	0.31	0.73	0.67
BLIP-LCS	558 K	0.32	0.75	0.70
ShareGPT4V	100 K	0.32	0.79	0.71
Synth Dataset	1000 K	0.34	0.78	0.73
Curated-Synth Dataset	100 K	0.36	0.86	0.79

주어진 $1024 \times 1024$ 해상도의 이미지 $I$ 에 대해, 먼저 $336 \times 336$ 으로 크기를 조정한 다음, 다시 $1024 \times 1024$ 로 보간하여 복원한다. 그런 다음, 크기가 조정된 이미지와 원본 이미지 사이의 SSIM 값을 계산하여 크기 조정 과정에서 발생하는 손실을 정량화한다. $I_{\text {resized }}$ 를 크기가 조정된 이미지라고 하면, 다음과 같다:

I_{\text {resized }}=\operatorname{resize}(\operatorname{resize}(I,(336,336)),(1024,1024))

SSIMScore는 다음과 같이 계산된다:

\text { SSIMScore }=\text { SSIM }\left(I, I_{\text {resized }}\right)

Caption: 멀리 가파른 눈 덮인 경사면에 스키어가 있고, 그 뒤로 해가 비치고 있다.

GPT4-Vision: 이미지 품질과 각 이미지가 캡션과 얼마나 일치하는지를 바탕으로, 첫 번째 이미지(왼쪽)가 캡션과 가장 잘 일치한다. 이 이미지는 가파른 눈 덮인 경사면에 스키어가 있고 그 뒤로 해가 밝게 비치는 모습을 명확하게 보여준다. 이미지의 품질은 우수하며, 더 나은 선명도와 색상 채도를 가지고 있고, 구성은 캡션에 제공된 설명과 완벽하게 일치한다.

Figure 3: GPT4V를 사용한 매치 평가를 위한 우리의 프로세스 및 프롬프트 디자인. 우리는 이미지 품질과 이미지-캡션 간의 일치도를 포함한 다양한 측면을 고려한다. 이 프로세스를 기반으로, 우리는 모델 관점에서 SynthVLM을 기존 데이터셋과 비교한다.

마지막으로, CLIPScore와 SSIMScore를 결합하기 위해, SSIMScore에 $\lambda$ 가중치를 적용한 가중합을 사용한다. 전체 점수 $S$ 는 다음과 같다:

\text { Weighted_Score }=\text { CLIPScore }(I, C)+\lambda \cdot \text { SSIMScore }\left(I, I_{\text {resized }}\right)

실제로 우리는 최종 점수에서 CLIPScore와 SSIMScore의 기여도를 균형 있게 맞추기 위해 $\lambda=0.5$ 로 설정한다.

Figure 2(b)에서 보듯이, 우리는 처음에 1M개의 합성 이미지-캡션 쌍에 대해 CLIPScore와 SSIMScore를 계산했다. 그런 다음, 이미지와 캡션 간의 가장 정확하고 의미 있는 일치를 나타내는 가장 높은 점수를 보인 상위 100K 쌍을 선택했다. 이 하위 집합을 큐레이션함으로써, 우리는 고품질의 높은 정렬도를 가진 합성 데이터셋을 구축했다.

Table 5: MME 벤치마크 결과는 생성된 데이터를 사용하는 것이 실제 문제에서 여전히 선도적인 성능을 유지할 수 있음을 보여주며, SynthVLM의 적용 범위를 더욱 확장한다.

Models	LLM	MME Cognition			MME Perception
		Reasoning	Translation	Code	Posters	Celebrity	Scene	Landmark	Artwork	OCR
LLaVA1.5-7B	Vicuna-1.5-7B	126.4	57.5	62.5	148.3	132.1	143.0	141.8	123.8	100.0
SynthVLM-7B	Vicuna-1.5-7B	143.6	70.0	57.5	157.1	124.2	157.8	156.5	136.2	102.5
LLaVA-13B	Vicuna-1.5-13B	119.3	50.0	62.5	155.4	127.4	158.5	165.2	129.3	110.0
SynthVLM-13B	Vicuna-1.5-13B	130.0	65.0	62.5	160.4	138.2	162.0	158.8	140.3	104.5

Table 6: 우리는 GPT4-Vision과 InternVL을 사용하여 각 캡션과 해당 생성 이미지 및 원본 이미지 간의 일치도에 대해 투표를 진행했다. 결과는 생성된 이미지가 캡션과 더 밀접하게 일치함을 보여준다.

Sample	Model	Sythetic Image win	Web Image win
1K	GPT4-Vision	633	367
1K	InternVL2	692	308
1K	Human	758	242

3.3 High Quality Synthetic Dataset

이 섹션에서는 일반적으로 사용되는 이미지-캡션 데이터셋과 SynthVLM-100K 데이터셋을 비교한다. 합성 데이터는 높은 이미지 품질, 뛰어난 이미지-텍스트 정렬, 그리고 우수한 모델 평가 점수를 제공한다.

높은 이미지 품질 (High Image Quality)
Figure 1에서 볼 수 있듯이, SynthVLM은 $1024 \times 1024$ 픽셀 해상도로 이미지를 생성하여 이미지 품질을 현저히 향상시킨다. 이러한 고해상도는 기존 데이터셋에서 흔히 발생하는 최적화되지 않은 이미지 품질 문제를 해결하며, VLM 학습에 매우 유용한 고품질 이미지-캡션 쌍을 제공한다. 또한, SynthVLM-100K는 워터마크나 광고와 같은 아티팩트를 효과적으로 제거한다.

뛰어난 이미지-텍스트 정렬 (Excellent Image-Text Alignment)
Table 4에서 보듯이, SynthVLM-100K 데이터셋은 기존의 고품질 웹 데이터셋에 비해 더 높은 CLIPScore와 SSIMScore를 보여준다. 엄선된 고품질 이미지-텍스트 쌍을 선택함으로써, SynthVLM-100K는 COCO-Caption, BLIP-LCS, ShareGPT4V와 같은 데이터셋을 능가한다. 이는 우리 데이터셋의 뛰어난 정렬(alignment) 능력을 입증한다.

우수한 모델 평가 (Excellent Model Rating)
우리의 데이터는 VLM 학습에 사용될 것이므로, VLM을 사용하여 데이터 품질을 평가한다. 우리는 1,000개의 이미지-캡션 쌍을 선택하고, 캡션과 함께 합성 이미지 및 원본 이미지를 제출했다. 인간 평가자, GPT-4 Vision [46], Intern-VL2 [56]를 심사 모델로 활용하여, 더 높은 정렬을 보이는 쌍을 선택하도록 요청했다. 이 평가에 사용된 구체적인 prompt는 Figure 3에 제시되어 있다. Table 6에 제시된 결과는 생성된 이미지가 캡션과 더 나은 정렬을 보인다는 것을 입증한다.

이 두 단계를 통해 우리는 SynthVLM-100K 데이터를 성공적으로 개발했다. 우리의 방법은 100K의 사전학습 데이터만을 활용하여 효율적이다. 또한, SynthVLM은 순수 합성 데이터를 사용하여 Vision Language Model에서 모달리티 간의 효과적인 정렬을 위한 새로운 패러다임을 제공한다.

Table 7: 이미지-캡션 쌍 생성을 위한 데이터 활용 비교. 이는 우리의 SynthVLM이 다른 방법들에 비해 뛰어난 효율성을 가지고 있음을 나타낸다.

Methods	SynthVLM	LLaVA	w/o selection
Dataset Number (k)	100	558	1000
Data Usage	33 MB	27 GB	310 MB

4 Experiments

이 섹션에서는 다양한 task에 이미지 데이터 합성 시스템을 활용한다. 그런 다음, 제안하는 SynthVLM의 효과와 효율성을 검증하기 위해 다음 질문들에 답하고자 한다:

Q1: 우리의 SynthVLM-7B 및 SynthVLM-13B가 이전 SOTA 방법들과 비교하여 SOTA 성능을 달성할 수 있는가?
Q2: 우리의 SynthVLM의 효율성은 이전 방법들과 비교하여 어떠한가?
Q3: 생성된 데이터를 전체적으로 사용하는 것이 실제 시나리오에서 모델의 적용에 영향을 미칠까?
Q4: 모델 성능 향상을 위해 생성 모듈(generate module)과 품질 선택 모듈(quality selection module)이 필요한가?

4.1 Experimental Settings

모델 (Models)
우리는 데이터셋의 효과를 검증하기 위해 LLaVA 1.5 [34] 모델을 사용한다. Vision Encoder로는 CLIP 336px를 선택했으며, LLM으로는 **Vicuna 7B와 Vicuna 13B [7]**를 사용한다. 우리의 학습 파라미터는 LLaVA와 일치하며, 두 단계 학습(two-stage training) 접근 방식을 채택한다. 사전학습(pre-training) 단계에서는 이미지와 텍스트 모달리티를 정렬(align)하기 위해 projector를 학습시킨다. 이를 위해 Section 3.3에서 설명된 SynthVLM-100K 데이터셋을 사용한다. SFT(Supervised Fine-Tuning) 단계에서는 시각 이해 능력 향상을 위해 LLM과 함께 projector를 추가로 학습시킨다.

데이터셋 (Datasets)
LLaVA-BaseLine의 경우, 사전학습에는 LLaVA 558k 데이터셋을, SFT에는 LLaVA 665k 데이터셋을 사용한다. SynthVLM-7B 및 SynthVLM-13B의 경우, 사전학습에는 SynthVLM-100K 데이터셋을, SFT에는 LLaVA 665k 데이터셋을 사용한다.

벤치마크 (Benchmarks)
우리는 시각 이해(visual understanding)와 언어 이해(language understanding) 모두를 위한 벤치마크를 선정한다. 시각 이해를 위해서는 **SQA $^I$ [38], MMVet [62], VizWiz [16], VQAv2 [50], GQA [22], MME [13], PoPE [32]**를 선택하여 포괄적인 평가를 수행한다. 언어 이해 능력을 평가하기 위한 언어 벤치마크로는 **MMLU [18]와 SQA [38]**를 선정한다.

설정 (Settings)
우리는 주로 LLaVA 모델 평가를 위한 공식 저장소에 명시된 하이퍼파라미터를 따랐다. 모든 실험은 8x NVIDIA A100 GPU, 120-core CPU, 960GB 메모리를 갖춘 머신에서 수행되었다.

Table 8: 시각 이해 능력 및 순수 언어 능력에 대한 Ablation study.
결과는 데이터 생성 또는 데이터 선택 모듈 중 하나라도 제거하면 성능이 하락함을 보여준다.

Models	LLM	SQA	SQA ${ }^{I}$	MMVet	VizWiz	VQAv2	GQA	MMB	MME ${ }^{P}$	MME ${ }^{C}$	PoPE	MMLU
SynthVLM-7B	Vicuna-1.5-7B	70.4	68.9	32.2	49.3	79.4	63.1	66.8	1518.5	345.7	87.0	41.2
w/o generation	Vicuna-1.5-7B	$69.3 \downarrow$	$67.0 \downarrow$	$31.2 \downarrow$	$46.8 \downarrow$	$79.3 \downarrow$	$62.9 \downarrow$	$66.2 \downarrow$	$1488.8 \downarrow$	$327.5 \downarrow$	$86.2 \downarrow$	$39.1 \downarrow$
w/o selection	Vicuna-1.5-7B	$69.9 \downarrow$	$67.7 \downarrow$	$30.2 \downarrow$	50.2	$79.1 \downarrow$	$62.2 \downarrow$	$63.5 \downarrow$	$1421.7 \downarrow$	$301.8 \downarrow$	87.3	$40.6 \downarrow$
SynthVLM-13B	Vicuna-1.5-13B	74.9	72.5	35.0	55.9	80.0	63.5	68.3	1573.0	316.1	88.4	54.6
w/o generation	Vicuna-1.5-13B	$73.6 \downarrow$	$71.4 \downarrow$	$33.0 \downarrow$	$53.6 \downarrow$	80.0	$63.4 \downarrow$	$67.5 \downarrow$	$1514.3 \downarrow$	$295.7 \downarrow$	$88.2 \downarrow$	$53.6 \downarrow$
w/o selection	Vicuna-1.5-13B	$74.1 \downarrow$	$70.5 \downarrow$	35.6	$53.2 \downarrow$	$79.7 \downarrow$	$63.1 \downarrow$	$67.5 \downarrow$	$1512.7 \downarrow$	$303.2 \downarrow$	$86.9 \downarrow$	$53.0 \downarrow$

Table 9: 모달리티 정렬(modality alignment)에 대한 Ablation study.
결과는 데이터 생성 또는 데이터 선택 모듈 중 하나라도 제거하면 성능이 하락함을 보여준다.

Models	SQA	MMLU
		Avg	STEM	Humanities	Social Sciences	Other
SynthVLM-7B	70.4	41.2	31.7	37.4	47.0	50.2
w/o generation	$69.3 \downarrow$	$39.1 \downarrow$	$30.0 \downarrow$	$36.6 \downarrow$	$43.1 \downarrow$	$47.3 \downarrow$
w/o selection	$69.9 \downarrow$	$40.6 \downarrow$	$30.8 \downarrow$	$37.2 \downarrow$	$45.3 \downarrow$	$48.9 \downarrow$
SynthVLM-13B	74.9	54.6	45.0	49.3	64.0	62.2
w/o generation	$74.1 \downarrow$	$53.6 \downarrow$	$43.5 \downarrow$	$48.2 \downarrow$	$63.1 \downarrow$	$61.8 \downarrow$
w/o selection	$73.6 \downarrow$	$53.0 \downarrow$	$42.9 \downarrow$	$46.8 \downarrow$	$63.8 \downarrow$	$61.3 \downarrow$

4.2 Synthetic Data Achieves SOTA Performance

Q1에 대한 답변으로, 우리는 실험 설정에 설명된 모델을 학습시켰다. Table 2에서 SynthVLM 모델이 7B와 13B 모두에서 모든 평가 벤치마크에서 Baseline을 능가하는 것이 분명하게 나타난다. SynthVLM 모델은 또한 언어 벤치마크에서도 뛰어난 성능을 보여주며, SQA와 MMLU에서 우수한 결과를 달성하여 비전 및 언어 task 모두에서 포괄적인 능력을 입증한다.

이러한 결과는 우리의 합성 데이터가 강력한 정렬(alignment) 능력을 가지고 있음을 보여준다. 또한, 이는 생성된 데이터를 활용하여 시각 이해 모델의 modality alignment를 효과적으로 수행하는 새로운 패러다임을 제시한다. 사전학습(pre-training) 시에는 데이터 선택의 불확실성 때문에 사용 가능한 모든 데이터를 학습에 사용하는 것이 일반적이다. 본 연구에서는 10만 개의 고품질 합성 데이터를 제공하여, 정렬된 생성 데이터를 효율적으로 선택하기 위한 벤치마크 역할을 하도록 제안한다.

4.3 Efficient Vision Language Alignment

Q2에 답하기 위해, 우리는 학습 중의 계산 자원 사용량을 조사하고, 이미지-캡션 쌍 생성에 대한 데이터 활용 효율성을 평가한다.

Figure 7에서 볼 수 있듯이, 데이터 선택 모듈을 통합함으로써 우리의 접근 방식은 LLAVA 데이터의 19%와 원본 합성 데이터의 10%만을 활용하면서도 SOTA 성능을 달성한다. 이는 우리의 데이터 선택 방법이 계산 자원 사용량을 80% 이상 줄일 수 있음을 보여준다.

4.4 Capability to Solve Real-World Problems

생성된 데이터를 사용할 때 중요한 문제는 모델이 실제 문제 해결 능력을 잃는지 여부이다. Q3에 답하기 위해 우리는 MME Benchmark를 활용하여 예술 작품, 유명인, 코드 추론, 랜드마크, 포스터와 같은 다양한 실제 시나리오에서 모델의 성능을 평가했다. 구체적인 결과는 Table 5에 제시되어 있다. SynthVLM-100K를 사용한 우리 모델은 대부분의 실제 task에서 baseline과 동등하거나 심지어 능가하는 일관적으로 우수한 성능을 보여준다. 이러한 성공은 캡션의 다양성과 Diffusion model의 일반화 능력 덕분이라고 생각한다.

4.5 Ablation Study

Q4에 답하기 위해, 우리는 데이터 생성 파이프라인의 효과에 대한 각 모듈의 개별적인 기여도를 평가하고자 데이터 생성 모듈과 데이터 선택 모듈을 각각 제거하는 ablation study를 수행했다. 이 섹션에서는 각 실험 그룹의 샘플 수를 100K로 통제하였다.

데이터 생성 모듈 제외 (Excluding Data Generation Module)
데이터 생성 모듈을 제외하면 모델 성능에 상당한 영향을 미치며, 이는 Tables 8과 9에서 "w/o generation"으로 표시된 결과에서 확인할 수 있다. 이 모듈이 없는 변형 모델은 더 낮은 정확도를 보여주는데, 이는 SynthVLM 모델의 높은 성능을 유지하는 데 데이터 생성 프로세스가 결정적인 역할을 함을 강조한다. 또한 이는 고도로 정렬된(highly aligned) 데이터셋을 구축하는 데 있어 SynthVLM의 잠재력을 뒷받침한다.

데이터 선택 모듈 제외 (Excluding Data Selection Module)
데이터 선택 모듈이 없을 경우에도 유사하게 성능이 눈에 띄게 하락하며, 이는 Tables 8과 9에서 "w/o selection"으로 표시되어 있다. 확산 모델(diffusion model)의 본질적인 무작위성으로 인해 필연적으로 일부 저품질 이미지가 생성되므로, 데이터 선택 모듈은 이러한 불량 요소를 제거하는 데 매우 중요하다.

전반적으로, 이번 ablation study는 SynthVLM에서 데이터 생성과 데이터 선택의 핵심적인 역할을 강조하며, 각 모듈의 기여도에 대한 가치 있는 통찰력을 제공한다.

5 Conclusion

우리는 VLM(Visual Language Model)을 위한 고품질 사전학습 데이터 생성 파이프라인인 SynthVLM을 제안한다. 기존 데이터셋과 달리, 우리의 합성 이미지(synthetic images)는 워터마크와 광고가 없어 더 깨끗한 시각적 입력을 제공한다. 생성된 데이터는 **우수한 alignment와 시각적 충실도(visual fidelity)**를 보여준다. 특히, 단 18%의 합성 데이터만으로 학습된 SynthVLM 모델은 전체 데이터셋으로 학습된 LLaVA baseline을 능가한다. 이는 state-of-the-art alignment 성능을 달성할 뿐만 아니라, VLM의 언어 이해 능력도 보존한다. ablation study는 이미지 생성 모듈과 데이터 선택 모듈 모두의 효과를 추가적으로 확인시켜주며, 우리의 데이터 합성 접근 방식의 실용적 가치를 강조한다.

Acknowledgments

본 연구는 중국 국가 핵심 R&D 프로그램 (2024YFA1014003), 중국 국가 자연 과학 기금 (92470121, 62402016), 그리고 베이징 대학교 고성능 컴퓨팅 플랫폼의 지원을 받았다.

SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models

Appendix

A Preliminary

A. 1 Diffusion Model

Denoising Diffusion Probabilistic Models (DDPMs) [20, 47, 49]는 매우 높은 품질의 이미지를 생성하는 능력으로 유명한 생성 모델(generative model)의 한 종류이다. DDPM의 핵심 아이디어는 forward process 동안 입력 이미지에 Gaussian noise를 점진적으로 추가하여 데이터 분포를 모델링하고, backward process 동안 이 noise를 예측하고 제거하여 이미지를 재구성하는 것이다.

소스 이미지 데이터 분포 $x_{0} \sim q\left(x_{0}\right)$ 가 주어졌을 때, $T$ 단계에 걸쳐 Gaussian noise가 추가되어 $x_{T}$ 를 얻는다. forward process는 다음과 같이 정의된다:

\begin{gathered} q\left(x_{1}, \ldots, x_{T} \mid x_{0}\right):=\prod_{t=1}^{T} q\left(x_{t} \mid x_{t-1}\right), \\ q\left(x_{t} \mid x_{t-1}\right)=\mathcal{N}\left(x_{t} ; \sqrt{1-\beta_{t}} x_{t-1}, \beta_{t} I\right), \end{gathered}

여기서 $\beta_{t}$ 는 각 단계에서 추가되는 noise의 분산을 제어한다. $t$ 단계 후의 분포는 다음과 같이 쓸 수 있다:

q\left(x_{t} \mid x_{0}\right)=\mathcal{N}\left(x_{t} ; \sqrt{\bar{\alpha}_{t}} x_{0},\left(1-\bar{\alpha}_{t}\right) I\right),

여기서 $\bar{\alpha}_{t}=\prod_{i=1}^{t}\left(1-\beta_{i}\right)$ 이다. backward process는 forward process를 근사하는 일련의 Gaussian 분포를 학습하여 데이터를 재구성하는 것을 목표로 한다:

p_{\theta}\left(x_{t-1} \mid x_{t}\right)=\mathcal{N}\left(x_{t-1} ; \mu_{\theta}\left(x_{t}, t\right), \Sigma_{\theta}\left(x_{t}, t\right)\right)

여기서 $\mu_{\theta}$ 와 $\Sigma_{\theta}$ 는 $\theta$ 로 parameterize된 neural network이다. DDPM은 유망한 결과를 보여주었지만, 효율성 [52, 67] 및 샘플 품질 [9, 43]을 향상시키기 위한 여러 개선 사항이 제안되었다. diffusion model의 우수한 성능은 **이미지 생성, 이미지 변환, inpainting [39, 53]**을 포함한 다양한 하위 task에서 활용되었다.

A. 2 Vision Language Models

대규모 언어 모델(LLM)의 급속한 발전으로 인해, 시각적 지식(visual knowledge)을 LLM에 통합하는 것이 연구의 핵심 분야가 되었다. VLM은 vision encoder로부터 얻은 시각 정보와 LLM을 결합하여, 모델이 다양한 시각 task에 대해 시각 입력을 처리하고 해석할 수 있도록 하며, 이를 통해 정확도와 효율성을 향상시킨다 [30, 36, 63].

**CLIP [48]**과 같은 선구적인 프레임워크는 대규모 이미지-캡션 데이터셋에 대한 contrastive learning을 활용하여 모달리티를 정렬하고, cross-modal 이해의 기반을 마련한다. 다양한 adapter들 [23, 26, 28, 34, 35, 37]이 도입되어 서로 다른 모달리티를 더욱 효과적으로 통합한다. 예를 들어, LLaVA [34, 35]는 간단한 MLP를 사용하여 시각 정보를 LLM에 주입한다. 반면, BLIP [26, 28]의 Q-Former와 같이 더 복잡한 구현은 cross-attention을 활용하여 모달리티 통합을 강화한다.

최근 연구들 [3, 24, 34, 35, 57]은 사전학습(pre-training) 및 fine-tuning 데이터셋의 품질에 중점을 두어 VLM 성능을 향상시키는 것을 목표로 한다. **LLaVA [34, 35] 및 ShareGPT4V [3]**와 같은 모델들은 instruction tuning을 통해 복잡한 지시를 이해하고 따르는 능력에서 놀라운 발전을 보여주었다. 이러한 개선은 vision 모달리티를 정렬하고 cross-modal 이해를 위한 견고한 기반을 구축하는 데 도움이 되지만, 학습을 위해 방대한 데이터셋을 필요로 하며 모델의 언어 능력을 잠재적으로 저해할 수 있다.

B Implementation Details

B. 1 Data Generation

이 섹션에서는 데이터 생성에 사용된 하이퍼파라미터와 절차를 자세히 설명한다.

우리는 이미지 합성을 위해 Stable Diffusion XL (SDXL) 모델을 사용했으며, 원저자들 [47]이 제시한 프레임워크를 따랐다. 우리의 사용 사례에 대한 최적의 파라미터 구성을 찾기 위해, 생성된 이미지와 해당 텍스트 설명 간의 **의미론적 정렬(semantic alignment)**을 평가하는 CLIPScore를 최대화하는 것을 목표로 grid search 전략을 수행했다.

구체적으로, 우리는 caption pool에서 1천 개의 caption을 무작위로 샘플링하고, 이 샘플들을 사용하여 다양한 생성 파라미터 조합을 체계적으로 평가했다. Grid search를 통해 고품질의 의미론적으로 관련성 높은 합성 이미지를 생성하기 위한 가장 효과적인 구성을 경험적으로 결정할 수 있었다.

이러한 최적화 과정을 바탕으로, 우리는 SDXL을 60 sampling step으로 구성했다. 모든 이미지는 $1024 \times 1024$ 픽셀 해상도로 생성되었다. 이러한 구성은 일관되게 우수한 품질을 제공했다.

B. 2 Data Selection

이 섹션에서는 데이터 선택에 사용된 전략과 prompt에 대해 설명한다. 우리의 목표는 생성 목표와 밀접하게 일치하는 고품질 데이터셋을 큐레이션하는 것이었다.

이를 달성하기 위해, 우리는 휴리스틱 규칙과 대규모 언어 모델(LLM) 기반 평가를 결합한 2단계 필터링 프로세스를 사용했다. 구체적인 필터링 규칙과 prompt 템플릿은 Table 10에 자세히 설명되어 있다.

휴리스틱 필터링을 위해 우리는 규칙 기반 데이터 전처리를 위한 모듈식 및 확장 가능한 파이프라인을 제공하는 Data-Juicer 프레임워크를 활용했다. 이를 통해 최소 캡션 길이, 구문적 완전성, 어휘 다양성과 같은 기준을 목표로 하는 필터를 구현할 수 있었다. 또한, 데이터셋의 전반적인 품질을 향상시키기 위해 정보량이 적고 반복적인 항목들을 제거했다.

이어서, 우리는 강력한 instruction-tuned language model인 LLaMA3-70B-Instruct를 사용하여 LLM 기반 필터링을 수행했다. 이 모델은 각 캡션의 의미론적 명확성, 묘사력, 관련성을 평가하여 이미지 생성 목표와의 일치 여부를 확인하는 데 사용되었다. 특정성, 시각적 풍부함, 정보성에 대한 사전 정의된 기준을 충족하는 캡션만 유지되었다.

Table 10: 캡션 필터링에 사용된 Metric 및 Prompt

캡션 필터링
## 규칙 기반 Metric

Alphanumeric Filter: Tokenization: false, Min ratio: 0.60
Character Repetition Filter: Rep length: 10, Max ratio: 0.09373663
Flagged Words Filter: Language: en, Tokenization: false, Max ratio: 0.0
Perplexity Filter: Language: en, Max perplexity: 5500.0
Special Characters Filter: Min ratio: 0.16534802 , Max ratio: 0.42023757
Word Repetition Filter: Language: en, Tokenization: false, Rep length: 10, Max ratio: 0.03085751
Image-Text Matching Filter: HF BLIP: Salesforce/blip-itm-base-coco, Min score: 0.8 , Max score: 1.0 , Horizontal flip: false, Vertical flip: false, Reduce mode: avg, Any or all: any, Mem required: 1500 MB
Image-Text Similarity Filter: HF CLIP: openai/clip-vit-base-patch32, Min score: 0.28

## Prompt
당신이 AI 이미지 생성 분야의 전문가라고 가정해 주세요. 당신의 목표는 이미지의 성공적인 생성을 가능하게 할 높은 묘사력을 가진 prompt를 선택하는 것입니다. 제가 특정 묘사적 prompt를 제공할 것이며, 당신의 임무는 이를 철저히 평가하는 것입니다. prompt의 세부 수준, 논리적 일관성, 그리고 원하는 이미지를 얼마나 명확하게 묘사하는지를 고려하십시오. prompt가 diffusion model을 효과적으로 안내하여 기대에 부응하는 이미지를 생성할 수 있도록 충분한 정보를 포함하고 있는지 평가하는 것이 중요합니다. 당신은 Yes 또는 No로만 응답해야 합니다.

Figure 4: (a)에서 합성 이미지는 실제 차량 번호판과 티켓 정보를 표시하지 않을 수 있음이 분명하다. 이와 대조적으로 (b)는 실제 차량 번호판과 티켓 정보를 포함하고 있어, 잠재적으로 개인 정보 문제를 야기할 수 있다.

C Another Advantage: Addressing Data Privacy

웹에서 수집된 데이터를 활용하는 것은 수많은 보안 및 개인 정보 보호 문제를 야기한다 [8, 25]. 이러한 데이터는 개인 정보나 저작권이 있는 자료를 포함할 수 있으며, 이는 잠재적인 법적 및 윤리적 문제를 초래한다. 더욱이, 학습 데이터셋에 민감하거나 부적절한 콘텐츠가 포함될 경우 윤리적 문제를 야기하여, 모델의 무결성과 공정성을 훼손할 수 있다.

우리의 합성 데이터 접근 방식은 실제 개인 데이터(예: 사용자 사진)에 대한 의존성을 제거하여, 데이터 생성 과정 전반에 걸쳐 사용자 개인 정보를 보호하면서도 모델의 성능을 유지한다. Figure 4에서는 합성 이미지와 원본 이미지를 비교한다. 합성 데이터는 데이터 개인 정보 보호에 상당한 이점을 제공한다. Figure 4의 (a)에 있는 합성 이미지는 실제 번호판과 티켓 정보를 노출하지 않고 차량과 티켓을 보여주어 개인 정보 보호를 보장한다. 반면, (b)에 있는 원본 이미지는 실제 번호판과 티켓 정보를 표시하여 잠재적인 개인 정보 문제를 야기할 수 있다.

D T-SNE visualize of our dataset

이 섹션에서는 **t-distributed Stochastic Neighbor Embedding (t-SNE)**을 사용하여 합성 데이터셋의 분포를 여러 실제 데이터셋과 비교한다. 이 비교는 의미적(semantic) 및 시각적(visual) 공간에서의 유사성을 평가하여, 생성된 데이터의 현실성(realism)과 유용성에 대한 통찰력을 제공하는 것을 목표로 한다.

실제 데이터셋으로는 **vision-language 학습에 널리 사용되는 LLaVA-558K [34], ShareCaptioner [3], CC12M [51]**을 선정하였다. 합성 데이터셋으로는 이전 섹션에서 설명한 방법으로 생성된 SynthVLM-100K를 사용하였다. 각 데이터셋에서 1,000개의 이미지-캡션 쌍을 무작위로 샘플링하여 분석에 활용했다.

우리는 이미지 feature와 캡션 embedding에 대해 t-SNE 시각화를 별도로 수행했다. Feature 표현은 사전학습된 vision-language model을 사용하여 추출되었으며, 이는 데이터셋 간의 일관성과 비교 가능성을 보장하기 위함이다.

Figure 5에서 볼 수 있듯이, 합성 데이터셋의 이미지 및 캡션 분포는 실제 데이터셋의 분포와 밀접하게 일치한다. 이러한 시각적 중첩은 생성된 데이터가 실제 데이터와 유사한 의미적 및 시각적 특성을 포착하고 있음을 나타내며, 이는 우리의 생성 파이프라인의 진정성(authenticity)과 높은 품질을 뒷받침한다.

더 나아가, 관찰된 **분포 유사성(distributional similarity)**은 합성 데이터로 학습된 모델이 실제 task에서 강력한 일반화(generalization) 및 성능을 보일 가능성이 있음을 시사한다. 이는 다양한 vision-language 애플리케이션에서 합성 데이터를 실제 데이터를 보완하거나 대체하는 데 사용할 수 있다는 가능성을 지지한다.

Figure 5: 텍스트 및 이미지 양식에 대한 합성 및 실제 데이터셋의 TSNE 시각화.

E More examples of our dataset

이 섹션에서는 합성 데이터셋인 SynthVLM-100K에서 얻은 추가적인 정성적 예시들을 제시하여, 생성된 이미지-캡션 쌍의 높은 품질과 다양성을 추가적으로 입증한다.

Figure 1부터 4까지의 예시에서 볼 수 있듯이, 샘플들은 광범위한 시각적 개념을 포괄하며 **이미지와 캡션 간의 강력한 의미론적 정렬(semantic alignment)**을 보여준다. 이러한 예시들은 다양한 도메인에 걸쳐 시각적으로 일관되고 의미적으로 풍부한 콘텐츠를 생성하는 우리 데이터 생성 파이프라인의 능력을 강조한다.

Figure 6: 우리 SynthVLM의 예시

Figure 7: 우리 SynthVLM의 예시

Figure 8: 우리 SynthVLM의 예시

Figure 9: 우리 SynthVLM의 예시

SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models

Abstract

1 Introduction

2 Related Work

2.1 Data Quality and Selection

2.2 Data Generation

3 Method

3.1 Step1: Synthetic Dataset Construction

3.2 Step2: Synthetic Data Selection

3.3 High Quality Synthetic Dataset

4 Experiments

4.1 Experimental Settings

4.2 Synthetic Data Achieves SOTA Performance

4.3 Efficient Vision Language Alignment

4.4 Capability to Solve Real-World Problems

4.5 Ablation Study

5 Conclusion

Acknowledgments

SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models

A Preliminary

A. 1 Diffusion Model

A. 2 Vision Language Models

B Implementation Details

B. 1 Data Generation

B. 2 Data Selection

C Another Advantage: Addressing Data Privacy

D T-SNE visualize of our dataset

E More examples of our dataset