Wang, Yiping, et al. "Cliploss and norm-based data selection methods for multimodal contrastive learning." Advances in Neural Information Processing Systems 37 (2024): 15028-15069.

CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning

Abstract

대규모 visual-language model 사전학습(예: CLIP)에서 데이터 선택은 특히 노이즈가 많은 웹 기반 데이터셋과 관련하여 핵심적인 문제로 부상했다. 주요 데이터 선택 접근 방식은 세 가지이다: (1) 외부 non-CLIP 모델을 활용하여 데이터 선택을 돕는 방법, (2) 원래 OpenAI CLIP 모델보다 고품질 데이터 선택에 더 효과적인 새로운 CLIP-style embedding 모델을 학습시키는 방법, (3) 특정 모델 속성을 요구하지 않고 어떤 CLIP embedding에도 보편적으로 적용 가능한 더 나은 metric 또는 전략을 설계하는 방법 (예: CLIPScore는 인기 있는 metric 중 하나).

첫 번째와 두 번째 접근 방식은 광범위하게 연구되었지만, 세 번째 접근 방식은 아직 충분히 탐구되지 않았다. 본 논문에서는 두 가지 새로운 방법을 제안하여 세 번째 접근 방식을 발전시킨다. 첫째, 단일 샘플에서 두 modality 간의 정렬(alignment)만을 고려하는 고전적인 CLIP score 대신, 우리는 surrogate-CLIPLoss를 소개한다. 이 방법은 CLIP 학습 loss에서 영감을 받아, 하나의 샘플과 그 contrastive 쌍 간의 정렬을 CLIPScore에 추가적인 정규화 항으로 더하여 품질 측정의 정확도를 높인다. 둘째, downstream task가 알려진 경우, 우리는 사전학습 데이터와 target 데이터 간의 유사성을 측정하기 위한 새로운 norm-based metric인 NormSim을 제안한다.

우리는 데이터 선택 벤치마크인 DataComp [1]에서 우리의 방법들을 테스트한다. OpenAI의 CLIP-L/14만을 사용하는 최고의 baseline과 비교했을 때, 우리의 방법들은 ImageNet-1k에서 5.3%의 성능 향상을, 38개 downstream 평가 task에서 2.8%의 성능 향상을 달성한다. 더욱이, sCLIPLoss와 NormSim 모두 기존 기술과 호환된다. 우리의 방법들을 현재 최고의 방법인 DFN [2] 및 HYPE [3]와 결합함으로써, downstream task의 평균 성능을 0.9% 향상시킬 수 있으며, DataComp-medium 벤치마크에서 새로운 state-of-the-art를 달성한다.

1 Introduction

웹에서 수집된 데이터로부터 대규모 visual-language 데이터셋을 큐레이션하는 것은 멀티모달 모델의 사전학습을 위해 일반적인 방법이 되었다. 그러나 이러한 웹 큐레이션 데이터 쌍의 품질은 여전히 중요한 병목 현상으로 남아있다. 연구에 따르면, 데이터셋의 선택은 모델과 학습 기술에 관계없이 모델 성능에 상당한 영향을 미친다 [4-11]. 이는 다양한 데이터 선택 전략 개발의 동기가 된다. 본 논문은 고정된 데이터 풀에서 subset을 최적화하여 zero-shot 다운스트림 task에서 우수한 성능을 달성하는 CLIP 모델 [4]을 학습하는 데 중점을 둔다.

고전적인 방법들은 오직 OpenAI(OAI)의 사전학습된 CLIP 모델(즉, teacher model)에만 의존하며 임베딩을 더 잘 활용하는 데 초점을 맞춘다. 가장 일반적으로 사용되는 방법은 CLIPScore를 계산하는 것으로, 이는 동일한 샘플에 대한 CLIP 모델의 시각 및 언어 임베딩 간의 코사인 유사도를 측정하여 텍스트와 이미지 간의 불일치가 있는 저품질 데이터를 제거한다. 다른 연구들은 이미지 기반 필터링 [1]과 같은 휴리스틱 분포 정렬 기술을 활용하여 다운스트림 task와 관련된 샘플을 선택하기도 한다. 이러한 접근 방식들은 일반적으로 제한적인 개선만을 제공하는 것으로 간주된다. 그러나 우리는 이러한 임베딩의 잠재력이 심각하게 저평가되었다고 주장한다. 본 연구는 OAI CLIP뿐만 아니라 다른 CLIP-스타일 모델에서도 주어진 임베딩을 더 잘 활용할 수 있는 보편적인 방법을 모색한다.

반면에, 최근의 선도적인 데이터 필터링 방법들은 임베딩 활용 전략 자체를 개선하는 데 초점을 맞추기보다는, 주로 외부 리소스를 활용하는 두 가지 다른 방향을 따른다. 이들은 (1) 데이터 선택을 돕는 외부 비-CLIP 모델을 사용하거나, (2) 외부 고품질 멀티모달 데이터를 사용하여 원래 OAI CLIP보다 더 나은 CLIP-스타일 임베딩 모델을 학습시켜 저품질 데이터를 필터링한다. 구체적으로, 첫 번째 연구 방향에서는 HYPE [3]가 고전적인 유클리드 기반 CLIP 대신 쌍곡선 모델의 임베딩을 활용하여 각 데이터 포인트가 다른 데이터 포인트와 얼마나 의미론적으로 겹치는지 측정하고 특이성이 낮은 데이터를 필터링한다. T-MARS [12]는 FAST [13]라는 상용 OCR 텍스트 감지 모델을 사용하여 캡션과 상관관계가 있는 유일한 feature가 텍스트인 이미지를 제거한다. Devil [14]은 fasttext [15]를 적용하여 비영어 텍스트를 제거하고 BLIP-2 [16] 모델을 사용하여 숫자 인식을 통해 숫자가 포함된 유용한 이미지를 유지한다. 두 번째 방향은 Data Filtering Network (DFN) [2]으로 대표되며, HQITP-350M과 같은 고품질 데이터셋을 사용하는 새로운 CLIP-스타일 teacher model을 학습시키는 것을 포함한다. 이 모델에서 추출된 임베딩은 다운스트림 task에서 OAI CLIP보다 성능이 떨어지지만, 저품질 데이터를 필터링하는 데 특히 우수하다. 주목할 점은 이러한 방법들 중 일부는 결합될 수 있으며, 실제로 DFN과 HYPE에서 선택된 데이터를 병합하면 HYPE [3]에서 보여주듯이 현재 state-of-the-art를 달성한다.

이전 연구들은 주로 CLIP 임베딩 품질을 개선하거나 외부 모델을 활용하여 필터링을 수행하는 데 중점을 두었지만, CLIPScore와 같은 고전적인 방법만을 사용하여 CLIP 임베딩을 최적화되지 않은 방식으로 활용했다. 이와 대조적으로, 본 연구에서는 주어진 CLIP 임베딩에 대한 필터링 방법 자체를 개선하는 데 초점을 맞춘다. 우리는 CLIP teacher model의 아키텍처(예: B/32 또는 L/14)나 학습된 데이터셋(예: OpenAI-WIT-400M 또는 DFN의 고품질 데이터셋)에 관계없이, 어떤 CLIP teacher model이든 활용할 수 있는 보편적이고 더 효과적인 전략이 있음을 보여준다. 이러한 전략은 DFN과 같은 새로 학습된 CLIP-스타일 모델의 사용과 항상 직교해야 하며, FAST 및 BLIP-2와 같은 외부 모델을 사용하는 방법과도 호환될 수 있다.

우리의 기여 (Our Contributions)
우리는 데이터 품질을 더 정확하게 특성화하는 surrogate-CLIPLoss라고 부르는 CLIPScore의 대안을 제안한다. 또한, 다운스트림 task에 대한 지식이 있을 때 **p-Norm Similarity Score (NormSim)**라고 부르는 새로운 분포 측정 지표를 도입한다. 두 가지 주요 관찰이 우리의 제안에 직접적인 영향을 미친다:

첫째, 우리는 고전적인 방법들이 시각 및 언어 임베딩 간의 코사인 유사도를 계산하여 멀티모달 샘플의 품질을 측정하며, 유사도가 낮을수록 텍스트가 이미지 부분과 잘 일치하지 않는다고 믿는다는 것을 관찰했다. 그러나 우리는 일부 정보가 적은 샘플들이 체계적인 편향을 가질 수 있으며, 이는 더 높은 CLIPScore로 이어진다는 것을 발견했다. 예를 들어, "image"라는 단어를 포함하는 언어 부분은 텍스트가 이미지 내용을 정확하게 설명하지 않더라도 어떤 시각 부분과도 더 높은 유사도를 보일 수 있다. 우리가 제안하는 s-CLIPLoss 방법은 표준 CLIP 학습 손실에서 영감을 받아, 샘플과 그 contrastive 쌍 간의 유사도로 원래 CLIPScore를 정규화한다. 예를 들어, "image"라는 단어로 인해 발생하는 높은 점수는 일반적으로 contrastive 쌍 전반에 걸쳐 일관되므로, 우리의 조정은 이러한 편향을 줄인다. 우리가 강조했듯이, 이러한 대체는 다양한 임베딩 모델에 보편적으로 적용될 수 있다. 그림 2에서 설명을 참조하라.
둘째, 대상 task와 동일한 분포에서 추출된 예시에 접근할 수 있다면, 이 추가 지식을 데이터 필터링 프로세스에 활용할 수 있다고 가정하는 것이 자연스럽다. 우리는 학습 샘플 $x$ 와 대상 task 데이터셋 $X_{\text {target }}^{v} \in \mathbb{R}^{n \times D}$ 간의 시각 유사도를 측정하는 NormSim 지표를 제안한다. 이는 $\left\|f_{v}\left(X_{\text {target }}^{v}\right) f_{v}\left(x^{v}\right)\right\|_{p}$ 로 정의되며, 여기서 $f_{v}: \mathbb{R}^{D} \rightarrow \mathbb{R}^{d}$ 는 teacher model의 vision encoder이므로 $f_{v}\left(X_{\text {target }}^{v}\right) \in \mathbb{R}^{n \times d}, f_{v}\left(x^{v}\right) \in \mathbb{R}^{d}$ , 그리고 $f_{v}\left(X_{\text {target }}^{v}\right) f_{v}\left(x^{v}\right) \in \mathbb{R}^{n}$ 이고, $\|\cdot\|_{p}$ 는 $p$ norm이다. 효과적인 선택은 $p=2$ 또는 $\infty$ 이다. 특히, 학습 세트를 클러스터링하고 모든 대상 샘플에 대한 가장 가까운 이웃 그룹을 찾아 다운스트림 task만큼 학습 세트를 다양하게 유지하려는 이전의 ImageNet 기반 필터링 [1]과 달리, 우리의 방법은 다양성을 명시적으로 고려하지 않지만, 어떤 대상 샘플과도 가까운 예시를 선택한다(즉, 높은 NormSim 점수를 선택). 주목할 점은 s-CLIPLoss와 NormSim이 데이터 선택에서 상호 보완적인 효과를 누린다는 것이다. 그림 3을 참조하라.

우리의 방법의 효과를 설명하기 위해, 우리는 널리 사용되는 벤치마크 DataComp [1]을 데이터 필터링 방법으로 생성된 데이터셋을 평가하는 주요 방법으로 사용한다. 우리는 CLIPScore를 s-CLIPLoss로 단순히 대체하고 NormSim을 활용함으로써 ImageNet-1k에서 5.3%, 38개 다운스트림 task에서 평균 2.8%의 성능 향상을 달성할 수 있음을 보여준다. 이는 많은 외부 리소스 기반 방법들이 달성한 성능과 유사하거나 심지어 더 우수하다. 특히, 대상 다운스트림 task를 사용할 수 없는 경우에도, 학습 세트에서 구성된 프록시 다운스트림 task인 NormSim ${ }_{2}-\mathbf{D}$ 를 s-CLIPLoss와 결합하여 사용하면 38개 다운스트림 평가에서 1.9%의 개선을 얻을 수 있다.

더욱이, 우리 방법으로 달성된 개선은 OAI CLIP 기반 방법에만 국한되지 않고, 외부 리소스를 필요로 하는 고급 모델과 결합하여도 얻을 수 있다. s-CLIPLoss와 NormSim으로 선택된 subset을 현재 state-of-the-art 방법인 "HYPE $\cup$ DFN"으로 선택된 subset과 병합함으로써, ImageNet-1k와 평균 38개 다운스트림 task 모두에서 0.9% 추가 개선을 달성할 수 있다. 또한, DFN과 우리의 전략으로 선택된 데이터만을 사용하여 "HYPE $\cup$ DFN"보다 평균 38개 task에서 0.8% 개선을 달성할 수 있다. 더 중요한 것은, CLIPScore의 대체품으로서 s-CLIPLoss가 OAI-L/14, OAI-B/32, DFN-B/32와 같은 다른 임베딩 모델에도 적용될 수 있으며, 평균 38개 task에서 0.4%에서 3.0%까지 보편적으로 성능을 향상시킨다는 것을 보여준다. 이 결과는 임베딩에서 사용 가능한 정보를 이해하는 데 기술적으로 통찰력을 제공할 뿐만 아니라 실질적으로도 중요하다. 기존 방법과 비교하여, 우리의 접근 방식은 Table 5에서 보여주듯이 재처리 및 새로운 임베딩 재학습 모두에서 상당한 양의 계산 시간을 절약한다.

2 Problem Setup

멀티모달 데이터셋의 데이터 필터링 (Data Filtering on Multimodal Dataset)
우리는 학습 데이터셋 $D_{\text {train }}=\left\{x^{v}, x^{l}\right\}$ 이 주어졌다고 가정한다. 여기서 $\left(x^{v}, x^{l}\right) \in \mathbb{R}^{D}$ 는 이미지-텍스트 (vision-language) 학습 쌍이다. 편의상, 우리는 상첨자 $vl$ 을 두 가지 양식(modality) 중 하나를 나타내는 데 사용할 것이며, 예를 들어 $x^{v l} \in x^{v}, x^{l}$ 와 같이 표현한다. 우리의 목표는 CLIP 모델을 학습시키는 데 사용될 때, 특정 다운스트림 task에서 CLIP 모델의 zero-shot 정확도를 최대화하는 $D_{\text {train }}$ 의 부분집합 $S \subset D_{\text {train }}$ 을 식별하는 것이다.

CLIP score 및 embedding
LAION [5] 및 DataComp [1]과 같은 최근 연구들은 OpenAI의 CLIP ViT-L/14 모델 [4]을 teacher model로 사용하여 품질 점수를 얻는다. 여기서 우리는 이 vanilla CLIP 모델을 $\bar{f}_{v l}$ 로 표기한다. 어떤 쌍 $x^{v l}$ 에 대해, 모델은 정규화된 단위 벡터 $\bar{f}_{v l}\left(x^{v l}\right)$ 를 출력한다. 만약 $X^{v l}:=\left\{x_{1}^{v l}, \ldots, x_{m}^{v l}\right\}$ 이 $m$ 개의 샘플을 포함하는 데이터셋을 나타낸다면, 우리는 $\bar{f}_{v l}\left(X^{v l}\right)=\left[\bar{f}_{v l}\left(x_{1}^{v l}\right), \ldots, \bar{f}_{v l}\left(x_{m}^{v l}\right)\right]^{\top} \in \mathbb{R}^{m \times d}$ 를 embedding matrix로 정의한다. 널리 사용되는 필터링 지표인 "CLIPScore"는 $\left\langle\bar{f}_{v}\left(x^{v}\right), \bar{f}_{l}\left(x^{l}\right)\right\rangle \in[-1,1]$ 로 정의된다.

데이터셋 및 모델 (Dataset and model)
여기서 우리는 DataComp [1]의 파이프라인을 따라 학습 및 평가 프로세스를 표준화한다. 이는 vanilla CLIP 모델을 오픈 소스화하고 더욱 개선하기 위한 데이터셋 실험의 테스트베드이며, 이전 데이터 선택 논문들 [17, 18, 12, 2, 19, 7]에서 널리 채택되었다. 자세한 내용은 Sec. 4에서 다룰 것이다.

3 Data Filtering Strategy

3.1 s-CLIPLoss: A Better Metric than CLIPScore

이 섹션에서는 기존의 일반적인 지표인 CLIPScore를 직접 대체하는, 더 우수하고 통계적으로 해석 가능한 품질 지표인 s-CLIPLoss를 소개한다. Figure 1은 s-CLIPLoss가 어떻게 작동하는지 보여준다. 이 새로운 지표는 무시할 수 있을 정도의 추가적인 계산 비용만 필요하며, 추가적인 외부 데이터 수집 비용은 전혀 들지 않는다. 이름에서 알 수 있듯이, 이 지표는 teacher CLIP 모델의 실제 학습 과정에서 사용되는 표준 CLIP loss에서 영감을 받았다. 이 loss는 다음과 같이 정의된다:

\ell_{B^{*}}\left(x_{i}^{v l}\right)=-\frac{1}{2}\left[\log \frac{\exp \left(\bar{f}_{v}\left(x_{i}^{v}\right)^{\top} \bar{f}_{l}\left(x_{i}^{l}\right) / \tau\right)}{\sum_{j \in B^{*}} \exp \left(\bar{f}_{v}\left(x_{i}^{v}\right)^{\top} \bar{f}_{l}\left(x_{j}^{l}\right) / \tau\right)}+\log \frac{\exp \left(\bar{f}_{v}\left(x_{j}^{v}\right)^{\top} \bar{f}_{l}\left(x_{i}^{l}\right)\right) / \tau}{\sum_{j \in B^{*}} \exp \left(\bar{f}_{v}\left(x_{j}^{v}\right)^{\top} \bar{f}_{l}\left(x_{i}^{l}\right) / \tau\right)}\right]

여기서 $B^{*}$ 는 특정 학습 단계에서 $i$ -번째 샘플이 속하는 랜덤 배치이며, $\tau$ 는 학습 가능한 온도(temperature) 파라미터이다. 특히, teacher loss는 주로 **정규화 항 $\mathcal{R}^{*}$ **에 의해 CLIPScore와 차이가 나며, 이는 다음과 같다:

Figure 1: s-CLIPLoss의 설명. CLIPScore는 이미지-텍스트 쌍의 품질을 **과소평가(하단 왼쪽, 데이터 품질은 높지만 CLIPScore가 낮음(음수 CLIPScore는 높음))하거나 과대평가(하단 오른쪽, 데이터 품질은 낮지만 CLIPScore가 높음(음수 CLIPScore는 낮음))**할 수 있다. 그러나 이 문제는 단순히 정규화 항 $\mathcal{R}$ 을 포함함으로써 완화될 수 있다. s-CLIPLoss는 teacher 모델을 사용하여 학습 데이터에 대한 surrogate CLIP loss를 계산하고, 더 정확한 지표 역할을 한다. 여기서 "Bottom X%"는 **전체 데이터셋 내에서 하위 X%의 낮은 값(즉, 모든 값 중 X% 백분위수)**을 나타낸다. 예를 들어, " $\mathcal{R}$ : Bottom $0\%$ "는 이 데이터가 전체 데이터셋 중에서 거의 가장 작은 $\mathcal{R}$ 값을 가지며, 이는 이미지와 텍스트 모두에서 매우 구체적인 요소들을 포함하고 있음을 의미한다. s-CLIPLoss에서 X 값이 낮을수록 데이터 품질이 높아야 한다.

\tau \cdot \ell_{B^{*}}\left(x_{i}^{v l}\right)=-\underbrace{\bar{f}_{v}\left(x_{i}^{v}\right)^{\top} \bar{f}_{l}\left(x_{i}^{l}\right)}_{\text {CLIPScore }\left(x_{i}^{v l}\right)}+\underbrace{\frac{\tau}{2}\left[\log \left(\sum_{j \in B^{*}} \exp \left(\frac{\bar{f}_{v}\left(x_{i}^{v}\right)^{\top} \bar{f}_{l}\left(x_{j}^{l}\right)}{\tau}\right)\right)+\log \left(\sum_{j \in B^{*}} \exp \left(\frac{\bar{f}_{v}\left(x_{j}^{v}\right)^{\top} \bar{f}_{l}\left(x_{i}^{l}\right)}{\tau}\right)\right)\right]}_{\text {normalization term } \mathcal{R}^{*}}

실제로, OAI-WIT400M [4]과 같은 teacher CLIP 모델의 학습 데이터셋과 실제 배치 분할 $B^{*}$ 는 접근할 수 없으므로, 우리는 student 모델의 학습 데이터에서 $K$ 개의 배치를 무작위로 선택하고, $\left\{B_{k}\right\}_{i=1}^{K}$ 의 평균 결과를 사용하여 $B^{*}$ 에 대한 정규화 항 $\mathcal{R}^{*}$ 를 추정한다:

\text { s-CLIPLoss }\left(x_{i}^{v l}\right):=\frac{\tau}{K} \sum_{k=1}^{K} \ell_{B_{k}}\left(x_{i}^{v l}\right) \approx \tau \cdot \ell_{B^{*}}\left(x_{i}^{v l}\right)=- \text { CLIPScore }\left(x_{i}^{v l}\right)+\mathcal{R}^{*}

여기서 $\left\{B_{k}\right\}_{i=1}^{K}$ 는 student 모델의 학습 데이터에서 무작위로 선택된 배치들이며, $x_{i} \in B_{k}, \forall k$ 이다. 우리는 실험에서 $K=10$ 을 선택했지만, 5보다 큰 어떤 샘플 크기라도 원래 CLIPLoss를 추정하는 데 충분히 안정적이다 (자세한 내용은 Appendix D.1 참조). 또한, $\mathcal{R}$ 에 의해 발생하는 계산 비용이 다른 baseline에 비해 무시할 수 있을 정도임을 보여준다 (Appendix C.1). 온도 $\tau$ 와 배치 크기 $\left|B^{*}\right|$ 는 사전학습된 teacher CLIP 모델의 파라미터에서 직접 얻을 수 있으므로, s-CLIPLoss는 CLIPScore에 비해 추가적인 파라미터를 도입하지 않는다. $\mathcal{R}$ 의 집중 분석 (Appendix A.1), 의사 코드 (Algorithm 1), $\tau$ 및 $|B|$ 의 ablation study (Appendix C.2)를 포함한 더 자세한 내용은 Appendix에 있다.

s-CLIPLoss의 동기
다른 기존 연구들도 NLP의 LESS [20], CV의 CoDis [21], 일반적인 데이터 스케줄링 시나리오의 RHO [22]와 같이 loss-guided 데이터 선택을 사용한다. 그러나 teacher loss 기반 선택이 멀티모달 contrastive learning에 적합한지는 여전히 불분명하다. Figure 2에서 볼 수 있듯이, s-CLIPLoss가 CLIPScore보다 일관되게 더 좋거나 동등한 성능을 보여주므로, 우리는 이에 대해 긍정적인 답변을 제시한다. teacher loss가 우리의 선택에 어떻게 도움이 되는지 설명하기 위해, s-CLIPLoss가 제공하는 정규화 항이 CLIPScore에 내재된 과대평가 또는 과소평가를 수정하는 데 중요하다는 것을 보여준다. 높은 정규화 항은 이미지 임베딩, 텍스트 임베딩 또는 둘 다가 해당 대응 쌍을 넘어 여러 contrastive 쌍과 쉽게 일치할 수 있음을 의미한다. 예를 들어, Figure 1의 오른쪽 하단에서 "Image" 또는 "Photo"를 포함하는 텍스트는 어떤 시각적 콘텐츠와도 쉽게 일치할 수 있다. 유사하게, "verloopring" 이미지는 매우 단순한 feature만 포함하고 있어 "white", "empty", "circle" 등과 같은 많은 단어와 일치할 수 있다. 결과적으로, 더 낮은 음수 CLIPScore(높은 절대 CLIPScore)에도 불구하고, 배치 내의 상대적인 s-CLIPLoss는 더 높을 수 있다. 반대로, 왼쪽 하단은 "Islands Harbor", "American football", "sheep at green"과 같이 텍스트와 이미지 모두에서 매우 구체적인 요소들을 특징으로 한다. 이러한 요소들은 구체적이며 contrastive 쌍과 일치할 가능성이 적어, 상대적으로 낮은 s-CLIPLoss를 초래한다.

Figure 2: DataComp-medium에서 s-CLIPLoss가 다양한 다운샘플링 비율에 걸쳐 CLIPScore보다 일관되게 우수한 성능을 보인다.

Figure 3: NormSim의 설명. $X_{\text {target }}$ 은 대상 사전 데이터이다. "Top X%"는 전체 데이터셋 내에서 상위 X%의 높은 값을 나타낸다. (a) 서로 다른 NormSim과 s-CLIPLoss를 가진 데이터의 시각화. 여기서는 $\mathrm{NormSim}_{2}$ (ImageNet-1k)를 예시로 사용한다. Type 2와 Type 4 데이터 모두 높은 s-CLIPLoss를 가지므로 품질이 높지만, 낮은 NormSim ${ }_{2}$ 를 가진 데이터(Type 4)는 ImageNet, VTAB, MSCOCO와 같은 다운스트림 task와 관련성이 더 낮다. 예를 들어, 이들은 OCR 콘텐츠가 지배적인 이미지를 많이 포함하고 있어 다운스트림 성능 향상에 거의 기여하지 않는다. (b) 다양한 필터링 방법에 대한 샘플링 데이터의 대략적인 비교 시각화. "s-CLIPLoss $\cap$ NormSim" 필터링을 사용하면 품질과 다운스트림 task 관련성 사이의 균형을 맞출 수 있어, Type 2 데이터의 비율을 높일 수 있다. (더 많은 시각화는 Appendix E를 참조하라.)

3.2 NormSim: A New Training-Target Similarity Metric

우리가 제안하는 s-CLIPLoss는 품질을 더 잘 추정하여 필터링 성능을 향상시키는 보편적인 접근 방식이며, 어떠한 다운스트림 task에도 의존하지 않는다.
이제, 만약 우리가 다운스트림 task에 대한 일부 지식에 접근할 수 있다면, vision-only $p$ -norm 유사도를 사용하여 각 학습 샘플과 다운스트림 타겟 데이터 간의 관계를 측정하는 타겟 데이터 metric을 통해 성능을 더욱 향상시킬 수 있다.
이 섹션 후반부에서 vision-only embedding을 사용하는 이유를 논의할 것이다.
구체적으로, 우리는 다운스트림 task의 타겟 세트에 접근할 수 있다고 가정하고 이를 $X_{\text {target }}= \left\{x_{\text {target },(1)}, \ldots, x_{\text {target },(m)}\right\}$ 으로 표기한다. 여기서 각 $x_{\text {target },(i)} \in \mathbb{R}^{d}$ 는 타겟 다운스트림 분포 $\mathcal{P}_{\text {targe }}{ }^{3}$ 에서 i.i.d. 샘플링되었지만, 테스트 세트와는 겹치지 않는다.
그러면, 각 학습 샘플 $x^{v l}$ 과 해당 타겟 세트 $X_{\text {target }}$ 에 대해 NormSim은 다음과 같이 정의된다:

\operatorname{NormSim}_{p}\left(X_{\text {target }}, x\right):=\left\|\bar{f}_{v}\left(X_{\text {target }}^{v}\right) \bar{f}_{v}\left(x^{v}\right)\right\|_{p}=\left(\sum_{x_{t} \in X_{\text {target }}}\left|\left\langle\bar{f}_{v}\left(x_{t}^{v}\right), \bar{f}_{v}\left(x^{v}\right)\right\rangle\right|^{p}\right)^{1 / p}

우리는 가장 높은 NormSim 점수를 가진 상위 $N$ 개의 샘플을 선택하여 부분집합 $S$ 를 구성한다. norm 유형 $p$ 의 선택은 데이터 분포 및 학습 과정에 기반할 수 있다. 본 논문에서는 $p$ 의 두 가지 인스턴스를 고려한다:

$p=2$ 일 때, 우리의 데이터 선택 방법은 다음 방정식으로 간주될 수 있다. 이는 타겟 세트 분산의 주성분과 일치하는 부분집합을 선택하는 것과 동일하다 (Appendix C.6.1).

S=\arg \max _{|S|=N} \sum_{i \in S} \operatorname{NormSim}_{2}\left(x_{t}, x_{i}\right), \quad \operatorname{NormSim}_{2}\left(x_{t}, x_{i}\right)=\left(\sum_{x_{t} \in X_{\text {target }}}\left|\bar{f}_{v}\left(x_{t}^{v}\right)^{\top} \bar{f}_{v}\left(x^{v}\right)\right|^{2}\right)^{1 / 2}

$p=\infty$ 일 때, 거리 측정은 어떤 타겟 샘플과 높은 유사도를 가지면 학습 샘플이 선택되는, 더욱 낙관적인 측정으로 간주될 수 있다. 이는 이미지 기반 필터링 [1]에서 사용되는 nearest-neighbor 기반 방법과는 다르다. 해당 방법은 모든 타겟 샘플의 가장 가까운 학습 샘플을 찾으려고 시도한다. 이 경우, 다음과 같이 간주될 수 있다:

S=\arg \max _{|S|=N} \sum_{i \in S} \operatorname{NormSim}_{\infty}\left(x_{t}, x_{i}\right), \quad \operatorname{NormSim}_{\infty}\left(x_{t}, x_{i}\right)=\max _{x_{t} \in X_{\text {target }}} \bar{f}_{v}\left(x_{t}^{v}\right)^{\top} \bar{f}_{v}\left(x_{i}^{v}\right)

Appendix D.3에서는 우리의 NormSim $_{\infty}$ 가 다운스트림 타겟 task에서 nearest neighbor 선택보다 우수할 수 있음을 보여준다. 여기서는 Fig. 3에서 NormSim $_{2}$ (ImageNet-1k)를 통해 선택된 예시를 보여주며, 이 vision-target-aware 방법이 품질 기반 방법과 상호 보완적임을 나타낸다.
타겟 데이터 선택 (Choice of Target Data). 실험 부분에서는 두 가지 종류의 타겟 데이터를 시도한다: ImageNet-1k (1.3M)의 학습 데이터 또는 접근 가능한 24개 다운스트림 task의 모든 학습 데이터 (2.1M). 우리는 이들을 각각 NormSim $_{p}$ (IN-1k) 및 **NormSim $_{p}$ (Target)**으로 표기한다.
Vision-only 정보 사용의 필요성 (Necessity of using vision-only information). 우리는 유사도를 측정하기 위해 멀티모달 정보 $x^{v l}$ 대신 시각 정보 $x^{v}$ 만을 사용한다. 이는 일반적으로 크롤링된 텍스트가 간략한 캡션을 가지는 경우가 많아 OAI CLIP language embedding이 visual embedding 모델보다 약하기 때문이다 [1, 23-25]. 결과적으로, 언어 부분은 시각 부분만큼 사전학습 및 다운스트림 task 분포를 잘 특성화하지 못한다. 이러한 현상은 Gadre et al. [1]에서도 관찰되었는데, 이미지 기반 필터링(ImageNet-1k의 이미지 embedding과 유사한 데이터를 선택)이 텍스트 기반 필터링(ImageNet-21k의 단어를 포함하는 캡션을 가진 데이터를 선택)보다 우수한 성능을 보였다. 더 많은 ablation study는 Appendix D.4에 제공된다.
Teacher 모델 선택에서 NormSim의 일반성 (Generality of NormSim in choosing teacher model). 특히, 우리는 NormSim metric에서 이미지 embedding만을 사용하기 때문에, NormSim을 얻기 위해 CLIP 모델을 사용할 필요는 없다고 생각한다. NormSim은 사전학습된 ResNet-50에서 얻은 표현과 같이 좋은 이미지 표현이 주어진다면, 타겟 관련 이미지/이미지-텍스트 데이터를 선택하기 위한 일반적인 metric이 될 수 있다.
이론적 정당화 (Theoretical justification). 각 $x_{\text {target }}$ 주변의 학습 샘플을 선택하여 다양성을 강제하는 기존의 많은 방법들과 달리, 우리의 전략은 데이터 다양성을 직접적으로 고려하지 않고 유사도를 최대화한다. $p=2$ 의 경우, NormSim $_{2}$ 를 최대화하는 것이 선형 모델 $\bar{f}_{v}$ 하에서 최적임을 Appendix A.2에서 보여준다. 우리의 정리는 또한 노이즈가 있는 embedding에 대한 오류 보장을 제공하며, vision-only embedding이 결합된 vision 및 language embedding보다 우수한 성능을 보이는 경우를 설명한다. Joshi et al. [26]의 최근 연구는 유사한 분석을 제공하지만, 고품질 데이터와 이미지 및 텍스트 간의 교차 분산에 중점을 둔다. 이 접근 방식은 위에서 논의한 바와 같이 노이즈가 있는 데이터셋을 필터링하는 데 이미지 전용 방법보다 덜 효과적이다.
다운스트림 $X_{\text {target }}$ 에 접근할 수 없을 때 프록시 사용 (Using proxy when downstream $X_{\text {target }}$ is inaccessible). 놀랍게도, 우리는 사전학습 세트만 사용 가능할 때 2-norm도 사용될 수 있음을 보여준다. 이 경우, 우리는 사전학습 세트 자체에서 프록시 "타겟" 세트를 구성한다. 구체적으로, $S_{i}$ 를 $i$ 단계에서 선택된 부분집합이라고 하면, 우리는 현재 $S_{i}$ 를 프록시 "타겟" 세트로 간주한다. 다음으로 더 작은 세트를 구성하기 위해, $N$ 크기의 부분집합에 도달할 때까지 arg $\max _{S_{i+1} \subset S_{i}} \sum_{x \in S} \operatorname{NormSim}_{2}\left(S_{i}, x\right)$ 를 만족하는 다음 데이터 배치 $S_{i+1}$ 을 선택한다. 우리는 이 접근 방식을 **NormSim $_{2}$ -D (Dynamic)**라고 부르며, 알고리즘 세부 사항은 Appendix C.3에서 설명할 것이다.

4 Experimental Results

이 섹션에서는 s-CLIPLoss와 NormSim의 성능을 평가하며, 다음 질문들에 답하고자 한다: Q1: 고정된 CLIP teacher 모델이 주어졌을 때, 우리의 방법이 CLIP embedding을 데이터 필터링에 더 효과적으로 활용할 수 있는가? Q2: 우리의 방법이 다양한 아키텍처나 다른 사전학습 데이터셋을 가진 CLIP teacher 모델에도 적용 가능한가? Q3: 우리의 방법이 외부 모델이나 멀티모달 데이터셋을 활용하는 다른 주요 접근 방식들과 비교했을 때 어떤가? 또한, 우리의 방법이 이러한 방법들과 호환되어 그 효과를 향상시킬 수 있는가?

4.1 Setup

우리는 DataComp 벤치마크 [1]의 표준화된 학습 및 평가 프로토콜을 따른다. 학습 설정 (Training configuration)
우리는 DataComp의 **중간 규모 학습 설정(DataComp-medium)**을 사용한다. 이 설정은 1억 2,800만 개의 저품질 웹 수집 이미지-텍스트 쌍으로 구성된 상당한 양의 데이터셋을 제공하며, 이 데이터는 필터링 과정을 거치게 된다.
특정 데이터 필터링 전략을 통해 데이터 subset이 얻어지면, 이 subset은 고정된 CLIP-B/32 모델을 학습시키는 데 사용된다. 학습 예산은 모델이 한 epoch당 1억 2,800만 개의 데이터 포인트를 처리할 수 있도록 설정되어 있다. 따라서, 더 작은 subset은 더 자주 반복되어 공정한 비교를 보장한다.
DataComp 데이터셋의 일부 이미지 URL이 유효하지 않게 되면서 시간이 지남에 따라 데이터셋의 크기가 작아진다는 점을 언급한다. 우리는 약 1억 1천만 개의 데이터만 성공적으로 다운로드했다. 따라서, 리더보드의 baseline 결과는 우리의 데이터셋에 직접 적용되지 않으므로, 우리는 리더보드의 모든 상위 baseline을 그들의 공개된 UID(선택된 데이터의 고유 식별자)를 사용하여 재현하였다.

평가 (Evaluation)
우리는 DataComp에서 제시한 대로 이미지 분류 및 검색 task를 포함한 38개의 다운스트림 데이터셋에서 모델 성능을 측정했다. 이미지 분류 task에는 ImageNet-1k [27], ImageNet distribution shifts [28-31], Visual Task Adaptation Benchmark (VTAB) [32]의 11개 데이터셋, 그리고 WILDS [33, 34]의 3개 데이터셋이 포함된다. 검색 데이터셋에는 **Flickr30k [35], MSCOCO [36], WinoGAViL [37]**이 포함된다.

Teacher model 아키텍처 (Teacher model architecture)
우리의 실험에서는 OpenAI의 CLIP teacher model로 ViT-L/14와 ViT-B/32 두 가지 아키텍처를 활용한다. 또한, Fang et al. [2]이 제안한 DFN (DFN-P)의 공개 버전을 teacher model로 사용하며, 이 모델의 아키텍처 역시 ViT-B/32이다.

4.2 Baselines

우리는 외부 자원 활용 정도에 따라 이전에 언급된 세 가지 현재 연구 방향을 다시 정의한다: (D1) OAI CLIP만을 사용하면서 embedding 활용 전략을 최적화하는 방향, (D2) 외부 데이터를 기반으로 더 발전된 CLIP embedding 모델을 훈련하고 사용하는 방향, (D3) CLIP이 아닌 외부 모델을 활용하여 데이터 선택을 돕는 방향. D2와 D3는 D1의 전략을 포함할 수도 있다는 점이 중요하다. 예를 들어, CLIPScore (D1)는 거의 모든 상위 방법에서 사용되었다. 따라서 우리는 가장 큰 범주를 포괄하는 기준으로 baseline을 분류한다. 위 분류에 따라, 실험에서 사용된 baseline들을 다음과 같이 요약한다. 자세한 내용은 Fig. 4와 Appendix C.4를 참조하라.

D1: OAI CLIP embedding만 사용. 학습자는 사전학습 데이터셋(예: DataComp-medium), embedding 추출에 사용되는 원본 OAI CLIP teacher model, 그리고 사전학습 데이터셋보다 훨씬 작은 다운스트림 task의 타겟 데이터(예: ImageNet-1k)에만 접근할 수 있다. 이 범주에서는 기존의 외부 non-CLIP 모델이나 외부 멀티모달 데이터셋을 기반으로 새로 훈련된 CLIP 모델을 사용하지 않는다. 구체적으로 이 범주에는 다음이 포함된다: (1) CLIPScore [38]: 이전에 언급했듯이, CLIPScore만을 필터링에 사용한다. (2) Image-based filtering [1]: ImageNet-1K 훈련 데이터를 데이터 필터링을 위한 다운스트림 타겟 데이터로 사용한다. 훈련 데이터의 이미지 embedding에 k-means clustering을 적용하고, ImageNet-1K embedding에 가장 가까운 클러스터를 선택한다. Gadre et al. [1]은 image-based filtering과 CLIPScore를 결합하는 시도도 한다. (3) $\mathbb{D}^{2}$ Pruning [18]: 데이터셋을 무방향 그래프로 표현하고, 난이도(difficulty)와 다양성(diversity)을 결합하여 데이터를 선택한다. 이들은 CLIP score를 사용하여 그래프를 초기화한다.

D2, D3: 접근 가능한 외부 모델 및 멀티모달 데이터. 현재 모든 상위 baseline들은 학습자가 외부 자원을 활용할 수 있도록 한다. 이는 더 나은 CLIP teacher model을 훈련하거나, 기존 모델의 속성을 사용하여 필터링을 돕는 방식이다. 구체적으로 다음이 포함된다: (1) DFN [2]: 외부 고품질 데이터를 통해 또 다른 CLIP 데이터 필터링 네트워크를 훈련한다. 현재 공개된 모델(DFN-P)은 CC12M [39] + CC3M [40] + SS15M [41]으로 훈련되었으며, 최고의 DFN은 비공개 HQITP-350M [2]으로 훈련되었는데, 이는 DataComp-medium보다도 크다. (2) HYPE [3]: hyperbolic embedding (CLIP embedding과 다름)과 entailment cone 개념을 활용하여 의미 없거나 불충분하게 명시된 샘플을 필터링하고, 각 샘플의 특이성(specificity)을 향상시킨다. (3) HYPE $\cup$ DFN: [3]에서 제안된 방법으로, 각 방법에 대해 부분집합을 개별적으로 샘플링한 후 병합한다. 이는 DataComp 벤치마크의 medium 사이즈에서 state-of-the-art 방법이다. (4) **T-MARS [12], Devils [14], MLM [42]**를 포함한 다른 방법들: 텍스트 감지 모델 FAST [13], BLIP-2 [16], LLaVA-1.5 [43, 44]와 같은 외부 모델을 활용하여 데이터를 휴리스틱하게 선택한다. 자세한 내용은 Appendix C.4를 참조하라.

교차 설정 비교 (Cross-setting comparison). 우리는 공정한 비교를 위해 이러한 구분을 한다. 직관적으로 성능은 D2, D3 > D1 순으로 순위가 매겨져야 한다. 그러나 우리의 결과는 교차 설정 비교가 가능하며, 우리의 D1 방법들이 대부분의 D3 방법들과 유사하거나 심지어 더 나은 성능을 보일 수 있음을 보여준다.

Table 1: OpenAI의 CLIP-L/14 모델만 사용하는 방법들(D1 범주)의 DataComp-medium 결과. "dataset size"는 다양한 접근 방식으로부터 얻은 부분집합의 크기를 나타낸다. NormSim(IN-1k)는 ImageNet-1k의 훈련 데이터를 타겟으로 사용하는 것을 의미하며, NormSim(Target)은 사용 가능한 24개 다운스트림 task 전체의 훈련 데이터를 타겟으로 사용하는 것을 나타낸다. NormSim-D는 훈련 세트에서 반복적으로 선택된 부분집합을 타겟 프록시로 사용하는 방법들을 의미한다. 모호성을 피하기 위해, CLIPScore는 더 높은 값을 가진 데이터를 선택하는 반면, s-CLIPLoss는 더 낮은 값을 가진 데이터를 선택한다고 명시한다.

Filtering Strategy	Dataset Size	IN-1k (1 task)	IN Dist. Shift (5)	VTAB (11)	Retrieval (3)	Avg. (38)
No filtering [1]	110M	17.3	15.0	25.2	21.3	25.6
CLIPScore (20%) [38]	22 M	25.4	22.7	31.8	22.0	31.0
CLIPScore (30%) [38]	33M	26.4	23.6	32.6	24.5	32.2
Image-based [1]	24 M	25.5	21.9	30.4	24.6	29.9
CLIPScore (30%) $\cap$ Image-based [1]	11M	27.4	23.9	31.9	21.4	30.8
$\mathbb{D}^{2}$ Pruning [18]	22 M	23.2	20.4	31.4	18.7	29.5
s-CLIPLoss (20%)	22 M	27.4	23.8	33.7	23.7	32.5
s-CLIPLoss (30%)	33 M	27.9	24.6	33.2	25.1	32.9
CLIPScore (30%) $\cap$ NormSim $_{2}$ -D	22 M	28.3	25.0	34.5	22.7	32.9
s-CLIPLoss (30%) $\cap \operatorname{NormSim}_{2}$ -D	22 M	29.8	26.1	34.8	24.6	34.1
CLIPScore (30%) $\cap \operatorname{NormSim}_{2}$ (IN-1k)	22 M	29.1	25.4	$\underline{35.8}$	24.1	33.4
CLIPScore (30%) $\cap \operatorname{NormSim}_{2}$ (Target)	22 M	28.9	25.1	32.7	23.6	32.5
CLIPScore (30%) $\cap$ NormSim $_{\infty}$ (IN-1k)	22 M	29.7	25.9	33.7	24.1	33.7
CLIPScore (30%) $\cap$ NormSim ${ }_{\infty}$ (Target)	22 M	30.2	26.2	35.0	23.4	33.9
s-CLIPLoss (30%) $\cap \operatorname{NormSim}_{2}$ (IN-1k)	22 M	30.4	26.4	35.4	$\underline{25.6}$	34.3
s-CLIPLoss (30%) $\cap \operatorname{NormSim}_{2}$ (Target)	22M	30.6	26.2	35.2	25.5	33.9
s-CLIPLoss $(30 \%) \cap \operatorname{NormSim}_{\infty}($ IN-1k $)$	22 M	31.9	27.3	34.8	25.0	$\underline{34.4}$
s-CLIPLoss (30%) $\cap \operatorname{NormSim}_{\infty}($ Target $)$	22 M	31.7	27.2	36.0	26.0	35.0

4.3 Main Results and Discussions

4.3.1 Comparision on D1 Category (Q1)

Table 1에서 우리는 OAI CLIP 모델만 사용이 허용된 D1 방법들을 비교한다. 우리의 방법들은 OAI CLIP-L/14를 더 잘 활용한다. 첫째, s-CLIPLoss는 단독으로 사용되든 다른 방법들과 결합되든 모든 metric에서 CLIPScore를 능가한다. 이러한 결과는 s-CLIPLoss가 데이터 품질을 더 정확하게 추정할 수 있다는 우리의 주장을 뒷받침한다. 둘째, target knowledge를 사용할 수 없는 경우에도, NormSim ${ }_{2}$ -D를 s-CLIPLoss와 함께 사용하면 38개 다운스트림 task에서 평균 1.9%의 필터링 성능 향상을 가져올 수 있다. 셋째, target knowledge를 사용할 수 있는 경우, NormSim ${ }_{2}$ 와 NormSim ${ }_{\infty}$ 는 NormSim ${ }_{2}$ -D에 비해 필터링 성능을 더 크게 향상시키며, 일반적으로 NormSim ${ }_{\infty}$ 가 최적의 선택이다. 특히, 최고 baseline인 'CLIPScore (30%)'와 비교했을 때, 우리의 최고 조합인 's-CLIPLoss $\cap$ NormSim ${ }_{\infty}$ (Target)'는 ImageNet-1k에서 5.3%, 38개 다운스트림 task에서 평균 2.8%의 성능 향상을 보인다. Table 3에서 우리는 이 결과가 DFN $\cup$ HYPE를 제외한 모든 D3 baseline을 능가함을 확인할 것이다. 반면, ImageNet-1k를 target data로 사용할 때는 norm의 선택이 미치는 영향이 매우 적다.

Table 2: s-CLIPLoss는 다양한 CLIP teacher 모델에 적용될 수 있다. 우리는 OpenAI의 CLIP-B/32 모델 또는 DFN의 공개 버전(DFN-P)만을 사용한 DataComp-medium 결과를 보여준다. "NormSim ${ }_{\infty}^{\mathrm{B} / 32}$ "는 OAI CLIP-B/32를 사용하여 NormSim ${ }_{\infty}$ 를 계산하는 것을 나타낸다.

Strategy	Size	IN-1k	VTAB	Avg.
OAI CLIP-B/32
CLIPScore (30%)	33M	27.6	33.6	33.2
CLIPScore (20%)	22 M	27.0	33.0	32.2
s-CLIPLoss (30%)	33M	28.8	33.7	33.6
s-CLIPLoss (20%)	22 M	28.9	34.3	33.0
s-CLIPLoss (30%) $\cap$ NormSim ${ }_{\infty}$ (Target)	22 M	32.4	35.9	35.2
DFN-P
CLIPScore (30%)	33M	28.4	33.2	32.7
CLIPScore (20%)	22 M	29.7	33.0	33.1
CLIPScore (17.5%)	19 M	30.2	34.1	33.8
CLIPScore (15%)	16M	25.9	32.9	31.6
s-CLIPLoss (30%)	33M	28.9	33.4	33.2
s-CLIPLoss (20%)	22 M	30.7	33.6	33.8
s-CLIPLoss (17.5%)	19M	31.2	35.7	$\underline{34.7}$
s-CLIPLoss (15%)	16M	31.3	$\underline{35.8}$	34.6
s-CLIPLoss (30%) $\cap$ NormSim ${ }_{\infty}$ (Target)	22 M	29.4	33.5	32.5
s-CLIPLoss (17.5%) $\cap$ NormSim ${ }_{\infty}$ (Target)	16M	31.5	34.6	34.4
s-CLIPLoss (17.5%) $\cap$ NormSim ${ }_{\infty}^{\mathrm{B} / 32}$ (Target)	16M	31.6	37.2	35.7

Table 3: DataComp-medium에서 모든 D1&D2&D3 최고 방법들의 결과. MLM [42]의 결과는 해당 논문에서 가져왔으며, 다른 모든 baseline은 공식 UID를 사용하여 다운로드한 데이터셋에서 재현되었다. "Ours (20%)"는 "s-CLIPLoss (30%) $\cap$ NormSim ${ }_{\infty}$ (Target)"을 사용하여 원본 데이터의 20%를 얻는 것을 의미하며, "Ours (10%)"는 "s-CLIPLoss (20%) $\cap$ NormSim ${ }_{\infty}$ (Target)"을 적용하여 10%를 얻는 것을 나타낸다. 그리고 우리는 "*"를 사용하여 OAI CLIP-B/32와 OAI CLIP-L/14를 각각 사용하여 선택된 데이터의 교집합을 선택한 경우를 나타내며, 이로 인해 "Ours (20%)"의 경우 약 15M 데이터, "Ours (10%)"의 경우 7.4M 데이터가 생성된다.

Type	Filtering Strategy	Dataset Size	IN-1k (1)	IN Dist. Shift (5)	VTAB (11)	Retrieval (3)	Avg. (38)
D3	T-MARS [12]	22 M	30.8	26.3	34.8	25.4	34.1
D3	Devil [14]	20M	31.0	26.7	35.9	24.7	34.5
D3	MLM [42]	38M	30.3	25.6	36.0	29.0	34.5
D3	HYPE [3]	10 M	30.3	25.8	34.3	22.2	31.9
D2	DFN [2]	16M	36.0	30.1	36.2	27.0	35.4
D3	DFN $\cup$ HYPE [3]	20 M	$\underline{36.4}$	30.8	38.5	28.0	36.8
D1	Ours (20%)	22 M	32.4	27.4	35.9	26.3	35.2
D3	DFN $\cup$ Ours (20%)*	23 M	$\underline{36.4}$	$\underline{30.9}$	38.6	$\underline{28.1}$	$\underline{37.6}$
D3	DFN $\cup$ HYPE $\cup$ Ours (10%)*	22 M	37.3	31.4	$\underline{38.5}$	27.6	37.7

4.3.2 Try Other Teacher Models (Q2)

우리의 방법이 다른 CLIP teacher model에도 적용되는지 평가하기 위해, 우리는 OAI CLIP-L/14를 OAI CLIP-B/32 및 DFN-P로 대체하여 embedding model로 사용했다. 우리는 최고 baseline인 "CLIPScore"와 우리의 "s-CLIPLoss" 및 최고 전략인 "s-CLIPLoss $\cap$ NormSim $_{\infty}$ (Target)"을 비교했으며, 이는 Table 2와 Appendix D.2에 제시되어 있다.
원래 DFN 논문은 1,920만 개의 데이터 포인트로 구성된 subset을 선택했는데, 이는 우리 데이터셋의 약 17.5%이자 그들 데이터셋의 15%에 해당한다. 우리는 이러한 샘플링 비율을 비교에 반영했다.
s-CLIPLoss는 다양한 CLIP embedding model에 적용될 수 있다. 우리가 제안한 s-CLIPLoss는 CLIPScore를 대체하는 것으로, Table 1에서 보듯이 OAI CLIP-L/14를 사용한 다른 모든 baseline보다 더 나은 성능을 보일 뿐만 아니라, Table 2에서 보듯이 다른 두 CLIP embedding model인 OAI CLIP-B/32 및 DFN-P에서도 보편적인 성능 향상을 달성한다. 우리의 방법은 다양한 필터링 비율과 모델에 대해 모든 다운스트림 task에서 일관되게 우수한 성능을 보이며, 예를 들어 ImageNet-1k에서는 0.5%~5.4%의 성능 향상을 가져온다.

NormSim에 필요한 embedding은 좋은 다운스트림 성능을 가져야 한다. s-CLIPLoss와 NormSim ${ }_{\infty}$ 를 결합할 때, OAI CLIP-B/32와 DFN-P는 완전히 다른 행동을 보인다. 전자는 Table 1에서 OAI CLIP-L/14를 teacher model로 사용했을 때보다 더 좋은 결과를 얻는 반면, 후자는 s-CLIPLoss만 사용했을 때보다도 더 나쁜 결과를 얻는다. 그 이유는 DFN-P가 OAI CLIP-B/32와 달리, 저자들이 주장했듯이 다운스트림 task 성능을 희생하면서 데이터 필터링을 위해 특별히 설계되었기 때문이다. 예를 들어, DFN-P, OAI CLIP-B/32, OAI CLIP-L/14의 ImageNet-1k 정확도는 각각 45%, 63%, 75%이다. 이는 DFN에서 얻은 target 데이터의 embedding이 매우 신뢰할 수 없어서, 학습 데이터와 target 데이터 간의 유사도 계산이 부정확할 수 있음을 나타낸다. 이를 뒷받침하기 위해, "s-CLIPLoss (17.5%) $\cap$ NormSim ${ }_{\infty}^{\mathrm{B} / 32}$ (Target)"에서 보듯이, DFN-P를 사용하여 s-CLIPLoss를 평가하되, NormSim 계산에는 OAI CLIP-B/32를 활용하면, s-CLIPLoss만 사용했을 때보다 결과를 더욱 향상시킬 수 있다. Table 3에서 보듯이, 38개 task에 대한 평균 성능은 CLIPScore와 함께 최고의 DFN(HQITP-350M으로 학습)을 활용하는 것보다도 높다.

4.3.3 Comparison with D2 & D3 Categories (Q3)

이 부분에서는 Sec. 4.2에서 언급된 모든 D2 및 D3 baseline과 우리의 최적 전략을 Table 3에서 함께 비교한다. 공식 UID가 사용 가능한 모든 baseline은 여기서 재현하였다. Table 3에서 언급된 "A $\cup$ B"의 경우, Kim et al. [3]의 "HYPE $\cup$ DFN" 방식을 따라 데이터를 병합하였다. 이 방식은 각 방법에 대해 샘플링 subset을 개별적으로 생성한 후 이를 병합하는 것으로, 공유되는 데이터가 중복 샘플링될 수 있으며, 이는 직관적으로 더 중요하다고 판단된다. 우리는 또한 Table 4에서 DataComp-medium 전체 데이터셋에 대해 우리의 방법을 DFN [2] 및 HYPE [3]와 결합하여 얻은 최상의 결과를 보여준다. 여기서 baseline은 DataComp 벤치마크에서 가져온 것이다.

우리의 방법은 대부분의 D3 방법을 능가할 수 있다. Table 3에서 우리는 어떠한 외부 모델이나 데이터도 사용하지 않고, 우리의 최적 조합인 "s-CLIPLoss $(30 \%) \cap$ NormSim ${ }_{\infty}$ (Target)" (Ours (20%))이 DFN과 "DFN $\cup$ HYPE"를 제외한 모든 방법을 여전히 능가함을 보여준다. 이는 Q3의 첫 번째 부분에 대한 답변이며, CLIP embedding이 이미 필요한 정보를 포함하고 있으므로 일부 외부 모델이 불필요할 수 있음을 추가로 시사한다.

우리는 SOTA 방법을 더욱 개선할 수 있다. Table 3에서 우리는 우리의 모델이 현재 SOTA 방법인 "HYPE $\cup$ DFN"의 성능을 ImageNet-1k에서 0.9%, 평균 38개 다운스트림 task에서 0.9% 향상시킬 수 있음을 보여준다. 외부 embedding 모델 MERU [45]를 활용하는 HYPE를 결합하지 않고도 유사한 결과를 얻을 수 있다. 그리고 Table 4에서 보여주듯이 DataComp-medium (전체 데이터셋) 벤치마크의 SOTA 성능을 업데이트하였다. 여기서 우리는 OAI CLIP-B/32와 L/14 모두에 의해 선택된 데이터를 사용했는데, 이는 둘 중 하나만 사용하는 것보다 더 견고하다는 것을 발견했다. 우리의 더 나은 결과는 Q3의 두 번째 부분, 즉 우리의 방법이 다른 D2 및 D3 방법과 호환될 수 있다는 질문에 답한다.

Table 4: 우리의 방법을 전체 DataComp-medium 데이터셋 (128M 데이터)에 적용한 후, 새로운 state-of-the-art 결과를 달성하였다. 더 자세한 내용은 DataComp 벤치마크에 있다.

Strategy	IN-1k	Avg.
No filtering	17.6	25.8
CLIPScore [38]	27.3	32.8
T-MARS [12]	33.0	36.1
Devils [14]	32.0	37.1
DFN [2]	37.1	37.3
DFN $\cup$ HYPE [3]	$\mathbf{3 8 . 2}$	37.9
DFN $\cup$ Ours $(\mathbf{2 0 \%})$	$\mathbf{3 7 . 5}$	$\mathbf{3 8 . 6}$
DFN $\cup$ HYPE $\cup$ Ours $(\mathbf{1 0 \%})$	$\mathbf{3 8 . 2}$	$\mathbf{3 8 . 8}$

5 Conclusion and Limitation

본 논문에서는 외부 리소스에 의존하지 않고 멀티모달 contrastive learning에서 데이터 선택을 향상시키기 위해 두 가지 metric인 s-CLIPLoss와 NormSim을 소개한다. s-CLIPLoss는 일반적으로 사용되는 CLIPScore에 비해 더 정확한 품질 metric을 제공하며, NormSim은 사전학습 데이터와 알려진 다운스트림 task를 위한 타겟 데이터 간의 유사성을 측정한다. 실험 결과, 우리의 방법은 외부 모델이나 데이터셋을 사용하는 접근 방식과 비교하여 경쟁력 있거나 심지어 더 나은 결과를 달성한다. 또한, s-CLIPLoss와 NormSim은 기존의 최고 기술들과 호환되어, 이들을 결합함으로써 새로운 state-of-the-art를 달성할 수 있다.

본 연구의 주목할 만한 한계점은 DataComp의 large 및 xlarge 스케일과 같은 더 큰 사전학습 데이터셋을 제외했다는 점이다. 그러나 DataComp-medium은 CLIP 사전학습에서 데이터 선택을 위한 가장 일반적으로 사용되는 벤치마크이며, 우리의 방법은 이 벤치마크에서 효과성(Table 1, 3)과 효율성(Table 5)을 모두 입증했다. 향후 연구 방향으로는 서로 다른 방법으로 선택된 데이터를 병합하는 더 나은 방법을 탐색하고, 데이터 스케줄링 시나리오에 우리의 방법을 통합하는 것을 포함한다.

6 Acknowledgement

Tong Chen, Pang Wei Koh, Xiaochuang Han, Rui Xin, Luyao Ma, Lei Chen 및 UW ML Group의 다른 구성원들에게 통찰력 있는 토론과 유익한 피드백에 감사드린다. Kevin Jamieson과 Yifang Chen의 연구는 University of Washington Materials Research Science and Engineering Center, DMR-2308979 및 CCF 2007036을 통해 NSF의 부분적인 지원을 받았다. SSD는 NSF IIS 2110170, NSF DMS 2134106, NSF CCF 2212261, NSF IIS 2143493, NSF CCF 2019844 및 NSF IIS 2229881의 지원에 감사드린다.

A Theoretical Interpretation

A. 1 Concentration of Normalization Term in s-CLIPLoss

이 섹션에서는 concentration inequality를 사용하여 batch size가 충분히 클 때, 실제 batch $B_k$ 에서 얻은 정규화 항(normalization term) $R^{B_k}$ 가 ground truth batch $B^*$ 를 사용하여 계산된 $R^{B^*}$ 를 상당히 잘 근사할 수 있음을 보여주는 정리를 구성한다. 자세한 내용은 다음과 같다:

우리는 사전학습 데이터셋 $\mathcal{D}$ 가 특정 분포 $\mathcal{P}$ 에서 독립적이고 동일하게 분포된(i.i.d.) 방식으로 샘플링되었다고 가정한다. 또한, 사전학습 데이터 batch를 ground truth batch를 근사하는 데 사용하려면, 두 batch의 분포가 유사해야 한다는 필수 조건이 있다. 여기서는 단순화를 위해 이들 또한 i.i.d.라고 가정한다.

가정 A.1. 우리는 teacher model이 사용하는 ground-truth 데이터 batch $B^*$ 가 필터링이 필요한 사전학습 데이터셋 $\mathcal{D}$ 와 i.i.d. 관계에 있다고 가정한다.

단순화를 위해, batch $B$ 내의 cross-image-text 유사도를 $s_{ij} = \bar{f}_v(x_i^v)^\top \bar{f}_l(x_j^l)$ , $i, j \in B$ 로 표기한다. 그러면 정규화 항은 다음과 같이 쓸 수 있다:

\mathcal{R}_{i}^{B}=\frac{\tau}{2}\left[\log \left(\sum_{j \in B} \exp \left(s_{i j} / \tau\right)\right)+\log \left(\sum_{j \in B} \exp \left(s_{j i} / \tau\right)\right)\right]

여기서 $s_{ij} \in [-1, 1]$ 이다. 우리는 $|B|$ 가 충분히 클 때 모든 $i$ 에 대해 $\mathcal{R}_i^B = (1+o(1)) \cdot \mathcal{R}_i^{B^*}$ 임을 보일 것이다. 이는 랜덤 batch를 사용하여 ground-truth batch를 근사할 수 있음을 의미한다.

정리 A.1. 가정 A.1이 성립하고 batch size가 $|B| = |B^*|$ 를 만족하면, 임의의 $i \in B \cap B^*$ 에 대해 $\mathcal{R}_i^B = \Theta(\log(|B|))$ 이고 $|\mathcal{R}_i^B - \mathcal{R}_i^{B^*}| = O\left(\frac{1}{\sqrt{|B|}}\right)$ 이다.

증명. $s_{ij} \in [-1, 1]$ 이므로, $\mathcal{R}_i^B = \Theta(\log(|B|))$ 임은 자명하다. $\alpha_{ij} := \exp(s_{ij}/\tau) - \mathbb{E}_j[\exp(s_{ij}/\tau)]$ 라고 두면, $\alpha_{ij}$ 는 평균이 0이다. 데이터가 i.i.d.이므로 $\alpha_{ij}$ 도 i.i.d.이며, $\gamma := \mathbb{E}_j[\alpha_{ij}^2]$ 로 표기한다. $|\alpha_{ij}| \leq e^{1/\tau} =: M$ 임을 주목하면, Bernstein inequality에 의해 다음이 성립한다:

\mathbb{P}\left(\left|\sum_{j \in B} \alpha_{i j}\right| \geq t\right) \leq 2 \exp \left(-\frac{\frac{1}{2} t^{2}}{|B| \gamma+\frac{1}{3} M t}\right)

$B^*$ 에 대해서도 유사한 결론이 성립한다. 이 결과들을 통해 적어도 $1-\eta$ 의 확률로 다음을 얻는다:

\left|\sum_{j \in B} \alpha_{i j}\right| \leq \max \left\{2 \sqrt{|B| \gamma \ln \left(\frac{2}{\eta}\right)}, \frac{4}{3} M \ln \left(\frac{2}{\eta}\right)\right\}=: t(|B|, \gamma, \eta, M)

따라서 우리는 $\left|\sum_{j \in B} \exp\left(\frac{s_{ij}}{\tau}\right) - \sum_{j \in B^*} \exp\left(\frac{s_{ij}}{\tau}\right)\right| \leq 2t(|B|, \gamma, \eta)$ 를 얻는다. 더 나아가, 임의의 $x_1, x_2 > 1$ 에 대해 $|\log(x_1) - \log(x_2)| \leq \frac{|x_1 - x_2|}{\min(x_1, x_2)}$ 임을 쉽게 증명할 수 있다. 그러므로 우리는 $\left\lvert\, \log \left(\sum_{j \in B} \exp \left(\frac{s_{i j}}{\tau}\right)\right)-\right. \left.\log \left(\sum_{j \in B^{*}} \exp \left(\frac{s_{i j}}{\tau}\right)\right) \right\rvert\, \lesssim O\left(\frac{1}{\sqrt{|B|}}\right)$ 를 얻는다. $|\mathcal{R}_i^B - \mathcal{R}_i^{B^*}|$ 에 대해서도 유사한 주장이 성립한다.

A. 2 Optimality of NormSim ${ }_{2}$ Under Linear Assumption

이 섹션에서는 저품질 이미지와 불일치하는 텍스트가 이미 제거된 선형 모델 가정 하에서 $p=2$ 일 때 NormSim metric에 대한 이론적 정당성을 제시한다. 즉, 우리는 주로 다음 전략에 초점을 맞춘다.

S=\arg \max _{|S|=N} \sum_{i \in S} \bar{f}_{v}\left(x_{i}^{v}\right)^{\top} \underbrace{\left(\frac{1}{\left|X_{\text {target }}\right|} \sum_{x_{t} \in X_{\text {target }}} \bar{f}_{v}\left(x_{t}^{v}\right) \bar{f}_{v}\left(x_{t}^{v}\right)^{\top}\right)}_{\bar{\Sigma}_{\text {target_proxy }}} \bar{f}_{v}\left(x_{i}^{v}\right)

A.2.1 Theoretical Setup

학습 데이터 (Training data)
관측 가능한 이미지-텍스트 학습 쌍 $\boldsymbol{x}^{v}, \boldsymbol{x}^{l} \in \mathbb{R}^{d}$ 에 대해, 우리는 관심 task에 대한 모든 의미론적으로 관련된 정보를 포함하는 해당 잠재 벡터(latent vector)를 $\boldsymbol{z}^{v}, \boldsymbol{z}^{l}$ 로 정의한다. 이전 이론 연구 [46]와 유사하게, 우리는 각 i.i.d. 쌍 $\boldsymbol{z}^{v l}$ 이 교차 공분산(cross-covariance)을 만족하는 zero-mean sub-gaussian 분포를 따른다고 가정한다:

\operatorname{Cov}\left(\boldsymbol{z}^{v}, \boldsymbol{z}^{l}\right)=\Sigma_{\text {train }}=\operatorname{diag}\left(\sigma_{1}, \sigma_{2}, \ldots\right), \quad\left\|\boldsymbol{z}^{v l}\right\|=1

그리고 각 $\boldsymbol{x}^{v l}$ 은 선형 모델(linear model)에 기반하여 다음과 같이 생성된다:

\boldsymbol{x}^{v l}=G_{v l}^{*} z^{v l}+\boldsymbol{\xi}^{v l} .

여기서 $G_{v l}^{*} \in O_{d \times r}$ 는 잠재 벡터 공간에서 입력 공간으로의 orthonormal ground truth representation mapping이며, $\xi^{v l} \sim \mathcal{N}\left(0, I_{d}\right)$ 는 i.i.d. 랜덤 노이즈이다. 또한, 우리는 임의의 유한 데이터셋 $S^{\prime}$ (예: 주어진 학습 세트 $D_{\text {train}}$ )의 교차 공분산을 $\Sigma_{S^{\prime}}$ 로 표기한다.

테스트 데이터 (Test data)
임의의 zero-shot 다운스트림 task에 대해, 우리는 해당 task가 학습 세트와 거의 동일한 데이터 생성 프로세스를 공유한다고 가정한다. 단, 교차 공분산 $\Sigma_{\text {target}}$ 은 반드시 $\Sigma_{\text {train}}$ 과 같을 필요는 없으며, 이는 $\bar{\Sigma}_{\text {target_proxy}}$ 의 선택을 필요로 한다.

교사 모델로서의 CLIP embedding model (CLIP embedding model as teacher)
선형 모델 가정 하에, 우리는 교사 모델(teacher model) $\bar{f}_{v l}=\bar{G}_{v l}$ 을 가지며, 이 모델이 생성한 CLIP embedding은 ground truth hidden vector $\boldsymbol{z}^{v l}$ 을 오차를 포함하여 부분적으로 복구할 수 있다.

정식으로, 우리는 교사가 모든 가능한 $n$ 개의 예산 부분집합 $S \subset D_{\text {train}}$ 에 대해 $\epsilon_{v}^{n}$ 오차를 가진다고 말한다:

\frac{1}{|S|}\left\|\sum_{\boldsymbol{x}^{v l} \in S} \bar{G}_{v}^{\top} \boldsymbol{x}^{v}\left(\boldsymbol{x}^{v}\right)^{\top} \bar{G}_{v}-\sum_{\boldsymbol{x}^{v l} \in S} \boldsymbol{z}^{v}\left(\boldsymbol{z}^{v}\right)^{\top}\right\|_{*} \leq \epsilon_{v}^{n}

여기서 동일한 표기법이 언어 모달리티에도 적용된다. ground truth 행렬 $G_{v l}^{*}$ 에 대한 orthonormal 가정에 따라, $\bar{G}_{v}^{\top}$ 는 매핑을 역전시키려는 목표를 가진다. 또한, 우리는 교사가 $\epsilon_{v * l}^{n}$ 교차 모달 오차(cross modal error)를 가진다고 말한다:

\frac{1}{|S|}\left\|\sum_{\boldsymbol{x}^{v l} \in S} \bar{G}_{v}^{\top} \boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top} \bar{G}_{l}-\sum_{\boldsymbol{x}^{v l} \in S} \boldsymbol{z}^{v}\left(\boldsymbol{z}^{l}\right)^{\top}\right\|_{*} \leq \epsilon_{v * l}^{n}

모든 $\epsilon_{v}^{n}, \epsilon_{l}^{n}, \epsilon_{v * l}^{n}$ 이 $n \rightarrow \infty$ 일 때 0으로 수렴하면, 우리는 교사가 두 모달리티 모두에 대해 강하다고 말한다. 그러나 시각 모달리티와 같이 하나의 모달리티만 강할 수도 있다. 즉, $\epsilon_{v}^{n} \rightarrow 0$ 이지만 $\epsilon_{l}^{n}, \epsilon_{v * l}^{n} \gg \epsilon_{v}^{n}$ 일 수 있다.

모델 및 학습 (Model and training)
[46]의 Lemma 4.1에 따르면, CLIP loss를 사용하여 선형 모델을 최적화하는 것은 정규화된 선형 loss를 사용하는 것과 거의 동일한 학습 역학을 가진다. 따라서 여기서는 contrastive 쌍 간의 CLIP score 차이를 최대화하고 정규화 항을 추가하여 $G_{v}, G_{l}$ 을 학습한다고 가정한다:

\min _{G_{v}, G_{l}} \mathcal{L}_{S}^{\rho}\left(G_{v}, G_{l}\right):=\min _{G_{v}, G_{l}} \frac{\sum_{i \in S} \sum_{j \in S}\left(s_{i j}-s_{i i}\right)}{|S|(|S|-1)}+\frac{\rho}{2} \frac{|S|}{|S|-1}\left\|G_{v} G_{l}^{\top}\right\|_{F}^{2}

여기서 $s_{i j}:=\left\langle G_{v}^{\top} \boldsymbol{x}_{i}^{v}, G_{l}^{\top} \boldsymbol{x}_{j}^{l}\right\rangle$ 이고 $\rho>0$ 는 정규화와 관련된 상수이다. 이 목적 함수는 자기 유사성(self-similarity)을 최대화하고 서로 다른 쌍 간의 유사성을 최소화한다. 이 "loss"는 음수일 수 있으며, 모든 값이 0인 자명한 해(trivial null solution)를 피한다. 우리는 주어진 $S$ 로부터의 이 학습 과정을 $G_{v l}=\mathcal{A}^{\rho}(S)$ 로 표기한다.

목표 및 측정 지표 (Goal and metric)
학습 loss 함수와 동일한 원칙에 따라, 우리는 분포 $\mathcal{D}_{\text {target}}$ 을 가진 다운스트림 task에서 학습된 $G_{v}, G_{l}$ 의 성능을 test loss $\mathcal{L}_{\text {target }}\left(G_{v}, G_{l}\right)$ 로 측정한다:

\mathbb{E}_{\substack{\boldsymbol{x}^{v l} \\ \boldsymbol{x}_{2}^{v l} \sim \mathcal{D}_{\text {target }}}}\left(\left\langle G_{v}^{\top} \boldsymbol{x}^{v}, G_{l}^{\top} \boldsymbol{x}_{2}^{l}\right\rangle-\left\langle G_{v}^{\top} \boldsymbol{x}^{v}, G_{l}^{\top} \boldsymbol{x}^{l}\right\rangle\right)

이는 다음 분류 정확도(classification accuracy)에서 영감을 받았다. 테스트 데이터가 $C$ 개의 클래스를 포함하고 클래스 분포가 $\mathcal{C}$ 라고 가정한다. 모든 클래스 $c$ 에 대해 학습 데이터 $\boldsymbol{x}=\left(\boldsymbol{x}^{v}, \boldsymbol{x}^{l}\right)$ 는 분포 $\mathcal{P}_{c}$ 를 만족한다. 우리는 또한 해당 분류 템플릿이 $\left\{\boldsymbol{x}_{c}\right\}_{c=1}^{C}$ 라고 가정한다. 따라서 분류 정확도를 다음과 같이 정의한다:

\mathrm{AC}\left(G_{v}, G_{l}\right)=\mathbb{E}_{c, c^{\prime} \sim \mathcal{C} \times \mathcal{C}}\left[\mathbb{E}_{\boldsymbol{x}_{i} \sim \mathcal{P}_{c}} \mathbf{1}\left[s_{i c}>s_{i c^{\prime}}\right]\right]

따라서 우리의 목표는 예산 제약 없이 임의의 $\rho$ 에 대해 최적의 후방 부분집합(best hind-side subset)과의 차이를 최소화하는 것이다:

\Delta^{\rho}(S)=\mathcal{L}_{\text {target }}\left(\hat{G}_{v l}\right)-\min _{S^{\prime} \in D_{\text {train }}} \mathcal{L}_{\text {target }}\left(\mathcal{A}^{\rho}\left(S^{\prime}\right)\right), \hat{G}_{v l}=\mathcal{A}^{\rho}(S)

A.2.2 Generalization Guarantees

이제 이론적 보장을 제공하며, 증명은 Appendix A.2.3으로 미룬다. 먼저, NormSim $_2$ 점수의 직관적 의미를 증명하고자 한다.

Lemma A.1 (NormSim $_2$ 의 직관적 의미). 높은 확률 $1-\frac{1}{|S|d}$ 로, 만약 후방 최적 부분집합(hind-side best subset)이 최소 $\underline{n}$ 개의 샘플을 가진다고 가정하면, 다음이 성립한다:

\Delta^{\rho}(S)=\underbrace{\frac{1}{\rho} \max _{S^{\prime} \in D_{\text {train }}}\left(\operatorname{Tr}\left(\Sigma_{\text {target }}\left(\Sigma_{S^{\prime}}-\Sigma_{S}\right)\right)\right)}_{\text {NormSim }{ }_{2} \text { related term }}+\underbrace{\mathcal{O}\left(\sqrt{\frac{d \log (d|S|)}{\underline{n}}}+\sqrt{\frac{d \log (d|S|)}{|S|}}\right)}_{\text {noise }}

증명 스케치 (Proof sketch). (1) $\boldsymbol{z}^{vl}, \xi_{vl}$ 이 모두 zero-mean이라는 가정 하에, clip score gap을 최대화하는 것은 동일한 샘플의 clip score를 최대화하는 것과 동등하다.

\mathcal{L}_{\text {target }}\left(\hat{G}_{v}, \hat{G}_{l}\right):=-\mathbb{E}_{\boldsymbol{x}^{v l} \sim \mathcal{D}_{\text {target }}}\left\langle\hat{G}_{v}^{\top} \boldsymbol{x}^{v}, \hat{G}_{l}^{\top} \boldsymbol{x}^{l}\right\rangle

(2) Eckart-Young-Mirsky Theorem을 사용하여 정규화된 학습 손실 $\mathcal{L}_{S}^{\rho}\left(G_{v}, G_{l}\right)$ 을 최소화함으로써, $\hat{G}$ 의 닫힌 형식 해(closed form solution)를 얻는다.

\hat{G}_{v} \hat{G}_{l}^{\top} \approx \frac{1}{\rho} G_{v}^{*} \Sigma_{S} \cdot\left(G_{l}^{*}\right)^{\top}+\text { noise depend on } S

(3) (2)와 (1)의 결과를 결합하면 다음을 얻는다.

\mathcal{L}_{\text {target }}\left(\hat{G}_{v l}\right) \approx-\frac{1}{\rho} \operatorname{Tr}\left(\Sigma_{\text {target }} \Sigma_{S}\right)-\text { noise depend on } S

동일한 분석이 $\min _{S^{\prime} \in D_{\text {train }}} \mathcal{L}_{\text {target }}\left(\mathcal{A}\left(S^{\prime}\right)\right)$ 에도 적용될 수 있다. 이 두 방정식을 재배열하면 최종 결과를 얻는다.

이 보조정리(lemma)는 $\Delta(S)$ 가 NormSim $_2$ 관련 항과 $\xi$ 에서 비롯된 noise 항에 의존한다는 것을 보여준다. $\underline{n}$ 과 $|S|$ 가 충분히 크면, NormSim $_2$ 관련 항이 지배적이 될 것이다. 이는 선택된 데이터의 수가 충분하다면 작은 변화에 최종 성능이 덜 민감하다는 우리의 실제 경험과 일치한다. 더욱이, 테스트 분포가 identity cross-variance를 가지는 일부 특수한 경우에는 CLIP score를 선택하는 것만으로도 충분할 수 있다.

이제 $\bar{\Sigma}_{\text {target}}$ 및 vision-only 정보의 선택에 대한 증명을 제시할 준비가 되었다. 구체적으로, 전략 오류(strategy error)는 주로 다음 두 가지에서 발생한다: (1) 학습과 테스트 간의 알 수 없는 테스트 분포 변화(unknown test distribution shift). (2) 관측 불가능한 ground truth $\Sigma_S$ . 오류 (1)을 해결하기 위해, 우리는 프록시 테스트 분산(proxy test variance) $\bar{\Sigma}_{\text {target}}$ 을 사용하여 테스트에 대한 사전 지식을 가정한다. 오류 (2)를 해결하기 위한 두 가지 가능한 해결책은 다음과 같다. 이론적 해석에 기반하여, 우리는 teacher embedding model의 속성에 따라 다른 전략을 선택해야 한다.

\begin{aligned} & S_{\text {vision+language }}=\underset{S}{\arg \max } \operatorname{Tr}\left(\bar{\Sigma}_{\text {target }}\left(\sum_{\boldsymbol{x}^{v l} \in S} \bar{G}_{v}^{\top} \boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top} \bar{G}_{l}\right)\right) \\ & S_{\text {vision only }}=\underset{S}{\arg \max } \operatorname{Tr}\left(\bar{\Sigma}_{\text {target }}\left(\sum_{\boldsymbol{x}^{v l} \in S} \bar{G}_{v}^{\top} \boldsymbol{x}^{v}\left(\boldsymbol{x}^{v}\right)^{\top} \bar{G}_{v}\right)\right) \end{aligned}

Theorem A.2 (Main). Lemma A.1의 가정 하에,

\begin{aligned} \Delta^{\rho}(S) & \leq \text { noise }+\frac{1}{\rho}\left\|\bar{\Sigma}_{\text {target }}-\Sigma_{\text {target }}\right\|\left\|\Sigma_{S}-\Sigma_{\text {best }}\right\|_{*} \\ & +\frac{1}{\rho}\left\{\begin{array}{l} \epsilon_{v * l}^{S} \quad(\text { vision }+ \text { language }) \\ \epsilon_{v}^{S}+\sqrt{\left.1-\frac{1}{|S|} \sum_{i \in[S]}\left\langle\boldsymbol{z}^{v}, \boldsymbol{z}^{l}\right\rangle\right)} \quad \text { (vision only) } \end{array}\right. \end{aligned}

첫째, $\bar{\Sigma}_{\text {target}}$ 과 $\Sigma_{\text {target}}$ 간의 차이가 클수록 기대할 수 있는 개선이 적다는 것은 명백하다. 둘째, $\epsilon_l$ 이 크고(언어 부분의 정확도가 낮음) $\epsilon_v$ 가 작은(비전 부분의 정확도가 높음) 시나리오에서는 vision-only embedding을 선택하는 것이 바람직할 수 있다. 그러나 학습자는 ground truth 시각 및 언어 잠재 벡터 간의 정렬(alignment)을 나타내는 $\sqrt{1-\frac{1}{|S|} \sum_{i \in S}\left\langle\boldsymbol{z}^{v}, \boldsymbol{z}^{l}\right\rangle}$ 항도 고려해야 한다. 이 항은 데이터의 본질적인 품질을 반영한다. 만약 이 항이 이미 상당하다면, 언어 정보의 프록시(proxy)로 시각 정보에만 의존하는 것은 최적 이하의 결과를 초래할 수 있다.

A.2.3 Detailed proofs

Lemma A.2. 다음을 가정하자.

\hat{G}_{v}, \hat{G}_{l}=\arg \min _{G_{v}, G_{l} \in \mathbb{R}^{d \times r}} \mathcal{L}\left(G_{v}, G_{l}\right)

그러면 다음이 성립한다.

\hat{G}_{v} \hat{G}_{l}^{\top}=\frac{1}{\rho} G_{v}^{*} \Sigma_{S}\left(G_{l}^{*}\right)^{\top}+P_{1}+P_{2}+P_{3}+P_{4}

여기서 noise term $P_{i}$ 는 (12), (13), (14), (15)에 정의되어 있다.

증명. $s_{i j}=\left(\boldsymbol{x}_{j}^{l}\right)^{\top} G_{l} G_{v}^{\top} \boldsymbol{x}_{i}^{v}=\operatorname{Tr}\left(G_{v}^{\top} \boldsymbol{x}_{i}^{v}\left(\boldsymbol{x}_{j}^{l}\right)^{\top} G_{l}\right)$ 임을 주목하자. [46]의 Corollary B.1. 증명과 유사하게, 다음을 얻는다.

\begin{aligned} \mathcal{L}\left(G_{v}, G_{l}\right) & =\frac{\sum_{i \in S} \sum_{j \in S}\left(s_{i j}-s_{i i}\right)}{|S|(|S|-1)}+\frac{\rho}{2} \frac{|S|}{|S|-1}\left\|G_{v} G_{l}^{\top}\right\|_{F}^{2} \\ & =\frac{\sum_{i \in S} \sum_{j \in S} s_{i j}-|S| \sum_{i \in S} s_{i i}}{|S|(|S|-1)}+\frac{\rho}{2} \frac{|S|}{|S|-1}\left\|G_{v} G_{l}^{\top}\right\|_{F}^{2} \\ & =-\operatorname{Tr}\left(G_{v}^{\top}\left[\frac{1}{|S|-1} \sum_{i \in S} \boldsymbol{x}_{i}^{v}\left(\boldsymbol{x}_{i}^{l}\right)^{\top}-\frac{|S|}{|S|-1} \overline{\boldsymbol{x}}^{v}\left(\overline{\boldsymbol{x}}^{l}\right)^{\top}\right] G_{l}\right)+\frac{\rho}{2} \frac{|S|}{|S|-1}\left\|G_{v} G_{l}^{\top}\right\|_{F}^{2} \\ & =:-\operatorname{Tr}\left(G_{v}^{\top} \Gamma G_{l}\right)+\frac{\rho}{2} \frac{|S|}{|S|-1}\left\|G_{v} G_{l}^{\top}\right\|_{F}^{2} \end{aligned}

여기서 $\overline{\boldsymbol{x}}^{v l}:=\left(\sum_{i \in S} \boldsymbol{x}_{i}^{v l}\right) /|S|$ 이다. Eckart-Young-Mirsky Theorem (예: Golub et al. [47]의 Theorem 2.4.8)에 의해 다음을 알 수 있다.

\begin{aligned} & \arg \min _{G_{v} \in \mathbb{R}^{d \times r}, G_{l} \in \mathbb{R}^{d \times r}} \mathcal{L}\left(G_{v}, G_{l}\right) \\ = & \arg \max _{G_{v} \in \mathbb{R}^{d \times r}, G_{l} \in \mathbb{R}^{d \times r}} \operatorname{Tr}\left(G_{v}^{\top} \Gamma G_{l}\right)-\frac{\rho}{2} \frac{|S|}{|S|-1}\left\|G_{v} G_{l}^{\top}\right\|_{F}^{2} \\ = & \left\{\left(G_{v}, G_{l}\right) \in \mathbb{R}^{d \times r} \times \mathbb{R}^{d \times r}: G_{v} G_{l}^{\top}=\frac{1}{\rho} \frac{|S|-1}{|S|} \operatorname{SVD}_{r}(\Gamma)\right\} \quad \text { (Eckart-Young-Mirsky Theorem) } \end{aligned}

여기서 $\operatorname{SVD}_{r}(\Gamma)$ 표기법은 행렬 $\Gamma$ 의 첫 $r$ 개 구성 요소를 선택하는 것을 의미한다. 또한 다음을 주목하자.

\begin{aligned} \Gamma & =\frac{1}{|S|-1} \sum_{i \in S} \boldsymbol{x}_{i}^{v}\left(\boldsymbol{x}_{i}^{l}\right)^{\top}-\frac{|S|}{|S|-1} \overline{\boldsymbol{x}}^{v}\left(\overline{\boldsymbol{x}}^{l}\right)^{\top} \\ & =: P_{0}+P_{1}+P_{2}+P_{3}+P_{4} \end{aligned}

여기서 $\Sigma_{S}=\frac{1}{|S|} \sum_{i \in S} \boldsymbol{z}_{i}^{v}\left(\boldsymbol{z}_{i}^{l}\right)^{\top}$ 임을 주목하면, $P_{i}$ 는 다음과 같다.

\begin{aligned} P_{0} & :=\frac{|S|}{|S|-1} G_{v}^{*} \cdot \Sigma_{S} \cdot\left(G_{l}^{*}\right)^{\top} \\ P_{1} & :=\frac{1}{|S|-1} G_{v}^{*} \sum_{i \in S} \boldsymbol{z}_{i}^{v}\left(\boldsymbol{\xi}_{i}^{l}\right)^{\top} \\ P_{2} & :=\frac{1}{|S|-1} \sum_{i \in S} \boldsymbol{\xi}_{i}^{v}\left(\boldsymbol{z}_{i}^{l}\right)^{\top}\left(G_{l}^{*}\right)^{\top} \\ P_{3} & :=\frac{1}{|S|-1} \sum_{i \in S} \boldsymbol{\xi}_{i}^{(1)}\left(\boldsymbol{\xi}_{i}^{(2)}\right)^{\top} \\ P_{4} & :=-\frac{|S|}{|S|-1} \overline{\boldsymbol{x}}^{v}\left(\overline{\boldsymbol{x}}^{l}\right)^{\top} \end{aligned}

행렬 $P_{0}$ 의 랭크는 $r$ 을 넘지 않으므로 $\operatorname{SVD}_{r}\left(P_{0}\right)=P_{0}$ 이다. 그리고 $i \in\{1,2,3,4\}$ 에 대해, $P_{i}$ 는 $\mathbb{E}\left[P_{i}\right]=O$ 인 noise term이다.

Lemma A.3. 임의의 고정된 $S$ 에 대해, 높은 확률 $1-\delta$ 로 noise term은 $\sqrt{\frac{d \log (1 / \delta)}{|S|}}$ 로 상한이 정해진다. 증명. P1과 P2의 상한을 정하기 위해 다음을 얻는다.

\begin{aligned} & \left\|\sum_{i} \boldsymbol{z}_{i}^{v l}\left(\xi_{i}^{v l}\right)^{\top}\right\|_{*}^{2}=\operatorname{Tr}\left(\sum_{i, j} \xi_{i}^{v l}\left(\boldsymbol{z}_{i}^{v l}\right)^{\top} \boldsymbol{z}_{j}^{v l} \xi_{j}^{v l}\right)=\sum_{i, j}\left(\boldsymbol{z}_{i}^{v l}\right)^{\top} \boldsymbol{z}_{j}^{v l}\left(\xi_{j}^{v l}\right)^{\top} \xi_{i}^{v l} \\ & \mathbb{E}\left\|\sum_{i} \boldsymbol{z}_{i}^{v l}\left(\xi_{i}^{v l}\right)^{\top}\right\|_{*}^{2}=\mathbb{E}\left[\sum_{i}\left(\boldsymbol{z}_{i}^{v l}\right)^{\top} \boldsymbol{z}_{i}^{v l}\left(\xi_{i}^{v l}\right)^{\top} \xi_{i}^{v l}\right]=|S| d \end{aligned}

각 $\left(\boldsymbol{z}_{i}^{v l}\right)^{\top} \boldsymbol{z}_{j}^{v l}\left(\xi_{j}^{v l}\right)^{\top} \xi_{i}^{v l}$ 를 약하게 종속적인 변수로 간주하면, Bernstein 부등식을 사용하여 높은 확률 $1-\delta$ 로 다음을 얻는다.

\left\|\sum_{i} z_{i}^{v l}\left(\xi_{i}^{v l}\right)^{\top}\right\|_{*}^{2} \leq|S| d+\sqrt{d|S|^{2} \sigma_{\xi}^{2} \log (1 / \delta)} \leq|S| d \sqrt{\log (1 / \delta)}

따라서 $\frac{1}{|S|}\left\|\sum_{i} \boldsymbol{z}_{i}^{v l}\left(\xi_{i}^{v l}\right)^{\top}\right\|_{*} \leq \sqrt{\frac{d \log (1 / \delta)}{|S|}}$ . Wainwright et al. [48]의 Proposition 2.5와 유사하게 $\left\|\overline{\boldsymbol{x}}^{v l}\right\| \lesssim \sqrt{\frac{\log (|S| d)}{|S|}}$ 임을 주목하면, $\delta \lesssim \frac{1}{|S| d}$ 일 때 P3와 P4가 낮은 차수의 항임을 쉽게 알 수 있다.

Lemma A.4 (VAS의 직관). 높은 확률 $1-\delta$ 로, 후방 최적 부분집합이 최소 $\underline{n}$ 개의 샘플을 가진다고 가정하면, 다음이 성립한다.

\Delta(S)=\frac{1}{\rho} \max _{S^{\prime} \in D_{\text {train }}}\left(\operatorname{Tr}\left(\Sigma_{\text {target }}\left(\Sigma_{S^{\prime}}-\Sigma_{S}\right)\right)\right)+\sqrt{\frac{d \log (1 / \delta)}{\underline{n}}}+\sqrt{\frac{d \log (1 / \delta)}{|S|}}

증명. 데이터셋 $S$ 를 기반으로 학습된 임의의 $G_{v}, G_{l}$ 에 대해 다음을 얻는다.

\begin{aligned} \mathcal{L}_{\text {test }}\left(G_{v}, G_{l}\right) & =\operatorname{Tr}\left(G_{v}^{\top} \mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right] G_{l}\right) \\ & =\operatorname{Tr}\left(\mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right] G_{l} G_{v}^{\top}\right) \\ & =\frac{1}{\rho} \operatorname{Tr}\left(\mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right] G_{l}^{*} \Sigma_{S}\left(G_{v}^{*}\right)^{\top}\right)-\operatorname{Tr}\left(\mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right] \text { noise }_{S}\right) \\ & =\frac{1}{\rho} \operatorname{Tr}\left(\left(G_{v}^{*}\right)^{\top} \mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right] G_{l}^{*} \Sigma_{S}\right)-\operatorname{Tr}\left(\mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right] \operatorname{noise}_{S}\right) \\ & =-\frac{1}{\rho} \operatorname{Tr}\left(\Sigma_{\text {target }} \Sigma_{S}\right)-\operatorname{Tr}\left(\mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right] \operatorname{noise}_{S}\right) \end{aligned}

여기서 첫 번째 방정식은 Theorem A.4에서, 세 번째 방정식은 Lemma A.2에서 유래한다. 결과적으로 다음을 얻는다.

\begin{aligned} -\min _{S^{\prime} \in D_{\text {train }}} \mathcal{L}_{\text {test }}\left(\mathcal{A}\left(S^{\prime}\right)\right) & =\max _{S^{\prime} \in D_{\text {train }}}\left(\frac{1}{\rho} \operatorname{Tr}\left(\Sigma_{\text {target }} \Sigma_{S^{\prime}}\right)+\operatorname{Tr}\left(\mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right] \text { noise }_{S^{\prime}}\right)\right) \\ & \leq \frac{1}{\rho} \max _{S^{\prime} \in D_{\text {train }}}\left(\operatorname{Tr}\left(\Sigma_{\text {target }} \Sigma_{S^{\prime}}\right)\right)+\left\|\mathbb{E}_{\boldsymbol{x}_{v l} \sim \mathcal{D}_{\text {target }}}\left[\boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top}\right]\right\| \| \text { noise }_{S^{\prime}} \|_{*} \\ & \leq \frac{1}{\rho} \max _{S^{\prime} \in D_{\text {train }}}\left(\operatorname{Tr}\left(\Sigma_{\text {target }} \Sigma_{S^{\prime}}\right)\right)+\mathcal{O}\left(\sqrt{\frac{d \log (1 / \delta)}{\underline{n}}}\right) \end{aligned}

따라서 최종 결과는 다음과 같다.

\begin{aligned} \Delta(S) & =\mathcal{L}_{\text {test }}\left(\hat{G}_{v l}\right)-\min _{S^{\prime} \in D_{\text {train }}} \mathcal{L}_{\text {test }}\left(\mathcal{A}\left(S^{\prime}\right)\right) \\ & =\frac{1}{\rho} \max _{S^{\prime} \in D_{\text {train }}}\left(\operatorname{Tr}\left(\Sigma_{\text {target }}\left(\Sigma_{S^{\prime}}-\Sigma_{S}\right)\right)\right)+\mathcal{O}\left(\sqrt{\frac{d \log (1 / \delta)}{\underline{n}}}+\sqrt{\frac{d \log (1 / \delta)}{|S|}}\right) \end{aligned} $$ $\square$ Theorem A.3 (주요 정리). Lemma A.1의 가정 하에 다음이 성립한다.

\begin{aligned} \Delta(S) & \leq \text { noise }+\left|\Sigma_{\text {target }}-\Sigma_{\text {target }}\right|\left|\Sigma_{S}-\Sigma_{\text {best }}\right|{*} \ & +\left{\begin{array}{l} \epsilon{v * l}^{S} \quad(\text { vision }+ \text { language }) \ \left(\epsilon_{v}^{S}+\sqrt{\left.1-\frac{1}{|S|} \sum_{i \in[S]}\left\langle\boldsymbol{z}^{v}, \boldsymbol{z}^{l}\right\rangle\right)}\right) \quad \text { (vision only) } \end{array}\right. \end{aligned}

**증명**. Lemma A.1을 기반으로, 부분집합 $S$를 선택함으로써 발생하는 오류, 즉 $\operatorname{Tr} \Sigma_{\text {target }} \Sigma_{S}$에 초점을 맞출 것이다. 정확한 $\Sigma_{\text {target }}$는 알 수 없으므로, 대신 일부 proxy $\Sigma_{\text{target}}$에 접근할 수 있다고 가정한다. 임의의 $S$에 대해 ground-truth $\Sigma_{S}=\mathbb{E}_{\boldsymbol{z}_{v l} \in S} \boldsymbol{z}^{v}\left(\boldsymbol{z}^{l}\right)^{\top}$임을 상기하자. 불행히도, 이는 학습자가 직접 관찰할 수 없다. 대신 학습자는 teacher model $\bar{G}_{v l}$을 기반으로 일부 proxy $\bar{\Sigma}_{S}$를 관찰할 수 있으며, 따라서 다음을 해결한다.

\underset{S}{\arg \max } \operatorname{Tr}\left(\bar{\Sigma}{\text {target }} \bar{\Sigma}{S}\right)

따라서 $\Sigma_{\text {best }}=\arg \max _{S^{\prime} \in D_{\text {train }}} \operatorname{Tr}\left(\Sigma_{\text {target }} \Sigma_{S^{\prime}}\right)$라고 하면

\begin{aligned} \operatorname{Tr}\left(\Sigma_{\text {target }}\left(\Sigma_{\text {best }}-\Sigma_{S}\right)\right) & =\operatorname{Tr}\left(\bar{\Sigma}{\text {target }}\left(\Sigma{\text {best }}-\bar{\Sigma}{S}\right)\right)+\operatorname{Tr}\left(\bar{\Sigma}{\text {target }}\left(\bar{\Sigma}{S}-\Sigma{S}\right)\right)+\operatorname{Tr}\left(\left(\Sigma_{\text {target }}-\bar{\Sigma}{\text {target }}\right)\left(\Sigma{\text {best }}-\Sigma_{S}\right)\right) \ & \leq \operatorname{Tr}\left(\bar{\Sigma}{\text {target }}\left(\bar{\Sigma}{S}-\Sigma_{S}\right)\right)+\operatorname{Tr}\left(\left(\Sigma_{\text {target }}-\bar{\Sigma}{\text {target }}\right)\left(\Sigma{\text {best }}-\Sigma_{S}\right)\right) \ & \leq\left|\Sigma_{\text {target }}\right|\left|\bar{\Sigma}{S}-\Sigma{S}\right|{*}+\left|\bar{\Sigma}{\text {target }}-\Sigma_{\text {target }}\right|\left|\Sigma_{S}-\Sigma_{\text {best }}\right|_{*} \end{aligned}

여기서 첫 번째 부등식은 $\bar{\Sigma}_{S}$의 정의에 의한 것이고, 두 번째 부등식은 Holder 부등식에 의한 것이다. 이제 핵심은 우리가 선택한 전략을 기반으로 $\left\|\bar{\Sigma}_{S}-\Sigma_{S}\right\|_{*}$의 상한을 정하는 것이다. 옵션 1에서는 시각 및 언어 모달리티 모두에서 CLIP embedding을 사용한다. 즉, $\bar{\Sigma}_{S}=\sum_{\boldsymbol{x}_{v l} \in S}\left(\bar{G}_{v}\right)^{\top} \boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top} \bar{G}_{l}$를 선택한다. 그러면 다음을 얻는다.

\left|\bar{\Sigma}{S}-\Sigma{S}\right|{*} \leq \frac{1}{|S|}\left|\sum{\boldsymbol{x}{v l} \in S}\left(\bar{G}{v}\right)^{\top} \boldsymbol{x}^{v}\left(\boldsymbol{x}^{l}\right)^{\top} \bar{G}{l}-\sum{\boldsymbol{x}{v l} \in S} \boldsymbol{z}^{v}\left(\boldsymbol{z}^{l}\right)^{\top}\right|{*} \leq \epsilon_{v * l}^{S}

옵션 2에서는 언어 모델에서만 CLIP embedding을 사용한다. 즉, $\bar{\Sigma}_{S}= \sum_{\boldsymbol{x}_{v l} \in S} \bar{G}_{v}^{\top} \boldsymbol{x}^{v}\left(\boldsymbol{x}^{v}\right)^{\top} \bar{G}_{v}$를 선택한다. 그러면 $\epsilon_{S}$의 정의에 의해 다음을 얻는다.

\begin{aligned} \left|\bar{\Sigma}{S}-\Sigma{S}\right|{*} & \leq \frac{1}{|S|}\left|\sum{\boldsymbol{x}{v l} \in S} \bar{G}{v}^{\top} \boldsymbol{x}^{v}\left(\boldsymbol{x}^{v}\right)^{\top} \bar{G}{v}-\sum{\boldsymbol{x}{v l} \in S} \boldsymbol{z}^{v}\left(\boldsymbol{z}^{v}\right)^{\top}\right|{}+\frac{1}{|S|}\left|\sum_{\boldsymbol{x}{v l} \in S} \boldsymbol{z}^{v}\left(\boldsymbol{z}^{v}\right)^{\top}-\Sigma{S}\right|_{} \ & \leq \epsilon_{v}^{S}+\frac{1}{|S|}\left|\sum_{\boldsymbol{x}{v l} \in S} \boldsymbol{z}^{v}\left(\boldsymbol{z}^{v}\right)^{\top}-\Sigma{S}\right|_{*} \end{aligned}

이제 두 번째 항의 상한을 더 정하기 위해 다음을 얻는다.

\begin{aligned} \frac{1}{|S|}\left|\sum_{\boldsymbol{x}{v} \in S} \boldsymbol{z}^{v}\left(\boldsymbol{z}^{v}\right)^{\top}-\Sigma{S}\right|{*} & \leq \frac{1}{|S|}\left|Z{v}^{\top}\right|{*}\left|Z{v}-Z_{l}\right|{*} \ & =\frac{1}{|S|} \sqrt{\operatorname{Tr} Z{v} Z_{v}^{\top}} \sqrt{\operatorname{Tr}\left(Z_{v}-Z_{l}\right)^{\top}\left(Z_{v}-Z_{l}\right)} \ & =\frac{1}{|S|} \sqrt{\operatorname{Tr}\left(I_{n \times n}\right)} \sqrt{2 \operatorname{Tr}\left(I_{n \times n}-Z_{v} Z_{l}^{\top}\right)} \ & =\frac{1}{|S|} \sqrt{2|S|\left(|S|-\sum_{i \in[S]}\left\langle\boldsymbol{z}^{v}, \boldsymbol{z}^{l}\right\rangle\right)} \ & =\sqrt{\left.1-\frac{1}{|S|} \sum_{i \in[S]}\left\langle\boldsymbol{z}^{v}, \boldsymbol{z}^{l}\right\rangle\right)} \end{aligned}

따라서 증명을 마친다. Theorem A.4 (테스트 손실의 간략화된 버전). $\boldsymbol{z}_{v l}, \xi_{v l}$이 모두 zero-mean이라는 가정 하에, CLIP 점수 차이를 최대화하는 것은 동일한 샘플의 CLIP 점수를 최대화하는 것과 동일하다.

\mathcal{L}{\text {target }}\left(G{v}, G_{l}\right):=-\mathbb{E}{\boldsymbol{x}{v l} \sim \mathcal{D}{\text {target }}}\left\langle G{v}^{\top} \boldsymbol{x}{v}, G{l}^{\top} \boldsymbol{x}_{l}\right\rangle

**증명**. 임의의 $\boldsymbol{x}_{v l}$에 대해 다음을 얻는다.

\begin{aligned} & \mathbb{E}{\boldsymbol{x}{v l}^{\prime} \sim \mathcal{D}{\text {target }}}\left(\left\langle G{v}^{\top} \boldsymbol{x}{v}, G{l}^{\top} \boldsymbol{x}{l}^{\prime}\right\rangle-\left\langle G{v}^{\top} \boldsymbol{x}{v}, G{l}^{\top} \boldsymbol{x}{l}\right\rangle\right) \ & =\left\langle G{v}^{\top} \boldsymbol{x}{v}, G{l}^{\top} \mathbb{E}{\boldsymbol{x}{v l}^{\prime} \sim \mathcal{D}{\text {target }}}\left(\boldsymbol{x}{l}^{\prime}-\boldsymbol{x}{l}\right)\right\rangle \ & =-\left\langle G{v}^{\top} \boldsymbol{x}{v}, G{l}^{\top} \boldsymbol{x}_{l}\right\rangle \end{aligned}

![](https://cdn.mathpix.com/cropped/2025_10_28_ac241298bae79e37ad1dg-22.jpg?height=730&width=1367&top_left_y=271&top_left_x=371) Figure 4: 멀티모달 contrastive learning을 위한 **데이터 선택 방법의 다양한 방향**을 보여주는 그림. 여기서는 우리가 얻을 수 있는 네 가지 주요 자원을 네 가지 색상으로 나타낸다: **CLIP teacher model, 다운스트림 target 데이터(외부 멀티모달 데이터셋 또는 사전학습 데이터셋보다 훨씬 작음), 외부 이미지-텍스트 데이터셋, 외부 non-CLIP 모델**. **Direction 1**은 **원래 OAI CLIP teacher model과 다운스트림 target 데이터만 사용하는 방법**을 나타낸다. **Direction 2**는 **외부 데이터셋을 사용하여 새로운 CLIP teacher model을 학습시켜 필터링을 개선하는 방법**을 나타내며, DFN \[2]과 같은 방식이다. **Direction 3**은 **외부 non-CLIP 모델을 사용하여 다운스트림 task에 휴리스틱하게 도움이 될 수 있는 데이터(예: 텍스트가 너무 많지 않거나 더 특별한 이미지)를 선택하는 방법**을 나타낸다. 일반적으로 **CLIP embedding만 사용하는 D1 방법(예: s-CLIPLoss)은 D2와 직교**한다. 그리고 **D1과 D2 모두 D3와 결합하여 더 나은 필터링 결과**를 탐색할 수 있다. 본 논문의 실험 부분(Sec.4)에서는 우리가 제안한 **D1 방법인 NormSim과 s-CLIPLoss가 최고의 방법인 "HYPE $\cup$ DFN"을 제외한 모든 D3 baseline보다 우수한 성능**을 보임을 추가로 보여준다. 그리고 **우리의 방법을 해당 방법과 결합하여 새로운 state-of-the-art를 달성**할 수 있다. ## B Illstration of Different Directions for Data Selection in Multimodal Contrastive Learning 우리는 현재 최고의 데이터 선택 방법들을 분류하는 우리의 주요 아이디어를 Figure 4에 요약하였다. ## C Details of Experiments ## C. 1 Computation Cost 우리 알고리즘은 **Table 5**에서 보여주듯이 **기존의 많은 연구들에 비해 계산 비용을 크게 줄일 수 있다.** 예를 들어, **CLIP embedding을 얻는 데 약 50시간(CLIP-B/32 기준)이 소요**된 후에도, **T-MARS \[12]와 MLM \[42]은 DataComp-medium의 110M 크기 데이터셋에서 필요한 정보를 추출하는 데 여전히 900시간 이상의 데이터 전처리 시간이 필요**하다. 반면, **우리는 약 5시간만 필요**하다. 한편, DFN은 유사한 forward 속도(즉, 전처리 시간)를 가지지만, DataComp-medium보다 큰 HQITP-350M에서 새로운 CLIP teacher 모델을 재학습해야 한다. 다른 방법들의 전처리 시간 추정에 대한 세부 정보는 다음과 같다: * **T-MARS**와 $\mathbb{D}^{2}$ pruning의 경우, 우리는 **DataComp-small (11M) 데이터에 대해 공식 코드를 실행**했으며, **T-MARS의 전처리 시간이 사전학습 데이터셋 크기에 비례**하고 $\mathbb{D}^{2}$ pruning이 선형보다 빠르지 않다는 점을 고려하여, **DataComp-medium에 대해서는 전처리 시간을 단순히 10배로 스케일링**했다. Table 5: 우리 방법과 다른 D3 카테고리 방법들 간의 전처리 시간 및 필요한 외부 리소스 비교. DFN은 우리 s-CLIPLoss 방법과 직교하며 Table 2에서 언급했듯이 직접 개선할 수 있으므로 생략한다. 여기서는 MLM을 제외한 모든 baseline이 사전학습된 CLIP 모델을 사용하므로, CLIP 이미지/텍스트 embedding 추론 시간(OAI CLIP-B/32의 경우 약 50 L40 시간)은 계산에 포함하지 않는다. 이는 DataComp 벤치마크 \[1]에서도 채택된 방식이다. 외부 데이터셋은 외부 모델을 학습하거나 fine-tuning하는 데 사용된 외부 멀티모달 데이터셋을 의미한다. 특히, 다음 방법들의 전처리 시간은 모두 필터링되지 않은 사전학습 데이터셋의 양에 거의 선형적으로 비례한다. | Type | Filtering Strategy | Ext. Model Used | Size of Ext. Dataset | Preprocess Time | Training Time | Avg. | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | D1 | $\mathbb{D}^{2}$ Pruning [18] | NA | NA | $>70 \mathrm{~L} 40 \mathrm{~h}$ | 65 L 40 h | 29.5 | | D3 | T-MARS [12] | FAST [13] | NA | 950 L 40 h | 65 L 40 h | 34.1 | | D3 | MLM [42] | LLaVA-1.5 [43, 44] | 50k | 1120 A100 h | 65 L 40 h | 34.5 | | D3 | Devil [14] | fasttext [15], BLIP-2 [16] | NA | 510 A 100 h | 65 L 40 h | 34.5 | | D3 | HYPE [3] | MERU [45] | 27M | $>120 \mathrm{~L} 40 \mathrm{~h}$ | 65 L 40 h | 31.9 | | D1 | Ours (20%) | NA | NA | 5 L 40 h | 65 L 40 h | 35.2 | * **MLM**의 경우, 우리는 **논문에서 제시된 추정 시간**을 사용했다. 그들은 A100에서 10k 샘플을 처리하는 데 6.1분이 필요하다고 언급했으며, 이는 우리 데이터셋(110M)에 대해 **1120 A100 시간**에 해당한다. 그들의 CLIP embedding 계산 시간 추정치는 부정확하며, 우리는 DataComp 파이프라인을 사용하여 그들의 주장보다 훨씬 빠르게 처리할 수 있다는 점을 언급해야 한다. * **Devil**의 경우, embedding 공간에서 **faiss 라이브러리의 k-means clustering 알고리즘을 실행**해야 하며, 이는 DataComp-medium에서 **120 L40 시간**이 소요될 것으로 추정된다. BLIP-2 \[16]를 사용하여 전체 데이터셋을 스캔하는 데는 \[17]의 실험 세부 정보에 따르면 약 **470 A100 시간**이 필요하다. https://lambdalabs.com/gpu-benchmarks를 참조하여, k-means clustering의 경우 120 L40 시간이 최소한 40 A100 시간과 비슷하다고 대략적으로 가정한다. * **HYPE**의 경우, MERU가 CLIP만큼 효율적이라고 주장하지만, 최종 점수를 위해 110M 데이터를 처리하는 데 **최소 120 L40 시간**이 여전히 필요하다. 이는 k-means clustering 알고리즘을 실행하여 얻은 DataComp-medium의 이미지 embedding 클러스터를 사용하기 때문이다. ## C. 2 Details of s-CLIPLoss 우리는 Algorithm 1에서 **s-CLIPLoss** 계산을 위한 **pseudocode**를 제공한다. 이 pseudocode는 **PyTorch 스타일의 병렬 행렬 계산에 특화**되어 있다. **완전히 가속화**될 수 있으며, **정규화 항(normalization term)으로 인해 발생하는 계산 비용은 Table C.1에 상세히 설명된 다른 최고 성능 baseline 모델들의 학습 시간이나 전처리 시간에 비해 무시할 수 있는 수준**이다. **s-CLIPLoss**에서는 **teacher model 사전학습 단계의 마지막 스텝에서 batch size $|B|$와 학습 가능한 온도 파라미터 $\tau$의 값**을 알아야 한다. **OAI CLIP-L/14**와 **OAI CLIP-B/32**의 경우, 이 값들은 각각 **$\tau=0.01$ 및 $|B|=32768$**이다. 우리는 또한 **Table 6**에서 볼 수 있듯이, **CLIP teacher model에 선택된 온도 파라미터와 batch size에 대한 ablation study**를 수행했다. 일반적으로 **더 큰 batch size가 더 나은 성능을 가져오며**, **$\tau=0.01, b=32768$이 OAI CLIP-B/32와 DFN-P 모두에게 최적의 선택**임을 확인할 수 있다. 이러한 batch size를 사용하는 이유는 **더 큰 batch가 더 많은 contrastive 데이터 쌍을 포함할 수 있기 때문**이며, 이는 **Appendix A.1에서 증명된 정규화 항의 집중 결과(concentration result)에 의해서도 뒷받침**된다. 따라서 **더 많은 다양한 데이터 간의 이미지-텍스트 매칭을 확인할 수 있다.** 그러므로 우리는 **CLIP forward pass에서 단일 24G GPU에 들어갈 수 있는 가장 큰 batch size인 32768**을 항상 고려하며, 이는 **OAI CLIP 학습 batch size와도 동일**하다. ## C. 3 Details of NormSim ${ }_{2}$-D 이 섹션에서는 **$\mathrm{NormSim}_{2}-\mathrm{D}$ 알고리즘의 세부 사항**을 설명한다. **Top-$N$ 선택 방법**은 다음 목표를 달성하는 것을 목표로 한다:

S=\arg \max {|S|=N} \sum{i \in S} \bar{f}{v}\left(x{i}^{v}\right)^{\top}\left(\frac{1}{\left|X_{\text {target }}\right|} \sum_{x_{t} \in X_{\text {target }}} \bar{f}{v}\left(x{t}^{v}\right) \bar{f}{v}\left(x{t}^{v}\right)^{\top}\right) \bar{f}{v}\left(x{i}^{v}\right)

Table 6: **CLIP teacher model의 temperature 파라미터 $\tau$와 batch size $b$에 대한 ablation study.** teacher model의 마지막 학습 단계에서 얻은 값은 OAI CLIP-B/32, OAI CLIP-L/14의 경우 $\tau=0.01, b=32768$이며, DFN-P의 경우 $b=16384, \tau=0.07$이다. 본 논문에서는 세 가지 teacher model 모두에 대해 $b=32768, \tau=0.01$을 사용한다. | OAI CLIP-B/32 | Size | IN-1k | IN Dist. Shift | VTAB | Retr. | Avg. | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | CLIPScore (30%) [38] | 33 M | 27.6 | 24.2 | 33.6 | 25.1 | 33.2 | | s-CLIPLoss (30%) | | | | | | | | $b=16384, \tau=0.01$ | 33M | 28.8 | 25.0 | 32.5 | 26.2 | 33.0 | | $b=16384, \tau=0.02$ | 33M | 28.6 | 24.8 | 33.3 | 25.3 | 33.1 | | $b=16384, \tau=0.07$ | 33 M | 28.0 | 24.2 | 33.5 | 25.1 | 32.6 | | $b=32768, \tau=0.001$ | 33 M | 16.0 | 13.9 | 25.1 | 19.4 | 24.4 | | $b=32768, \tau=0.005$ | 33 M | $\underline{28.5}$ | $\underline{25.0}$ | $\underline{33.6}$ | 27.0 | $\underline{33.0}$ | | $b=32768, \tau=0.01$ | 33 M | 28.8 | 25.1 | 33.7 | $\underline{26.6}$ | 33.6 | | $b=32768, \tau=0.02$ | 33 M | $\underline{28.5}$ | 24.8 | 33.6 | 26.2 | 32.9 | | $b=32768, \tau=0.07$ | 33 M | 28.2 | 24.5 | 32.8 | 25.2 | 32.7 | | s-CLIPLoss (30%) $\cap$ NormSim ${ }_{\infty}$ (Target) | | | | | | | | $b=16384, \tau=0.01$ | 22 M | 32.4 | 27.4 | 34.5 | 26.1 | 34.7 | | $b=16384, \tau=0.02$ | 22 M | 31.8 | 26.7 | 35.0 | 24.9 | 34.2 | | $b=16384, \tau=0.07$ | 22 M | 31.0 | 26.3 | 35.0 | 25.5 | 33.9 | | $b=32768, \tau=0.005$ | 22 M | 32.2 | 27.2 | 35.3 | 26.5 | 34.8 | | $b=32768, \tau=0.01$ | 22 M | 32.4 | 27.4 | 35.9 | 26.3 | 35.2 | | DFN-P | Size | IN-1k | IN Dist. Shift | VTAB | Retr. | Avg. | | s-CLIPLoss | | | | | | | | $15 \%, b=16384, \tau=0.07$ | 16M | 31.0 | 27.0 | 35.2 | 26.8 | 34.2 | | $15 \%, b=32768, \tau=0.01$ | 16M | 31.3 | $\underline{27.3}$ | 35.8 | 26.4 | $\underline{34.6}$ | | $17.5 \%, b=16384, \tau=0.07$ | 19M | 31.3 | 27.2 | 33.5 | 27.6 | 33.5 | | $17.5 \%, b=32768, \tau=0.01$ | 19M | 31.2 | 27.5 | 35.7 | $\underline{27.0}$ | 34.7 | | s-CLIPLoss $(17.5 \%) \cap$ NormSim ${ }_{\infty}^{\mathbf{B} / \mathbf{3 2}}$ (Target) | | | | | | | | $b=16384, \tau=0.07$ | 16M | 31.1 | 27.4 | 34.8 | 26.1 | 34.2 | | $b=32768, \tau=0.01$ | 16M | 31.6 | 27.3 | 37.2 | 25.5 | 35.7 | 실제 $X_{\text {target }}$이 알려지지 않은 경우이다. 실제로는 한 번에 하나의 데이터를 제거하는 것은 너무 느리다. 따라서, 우리는 **매 단계마다 데이터 배치를 제거**한다. 구체적으로, 단계의 수가 $\tau$이고, $\bar{\Sigma}_{\text {test }, i}= \frac{1}{\left|S_{i}\right|} \sum_{j \in S_{i}} \bar{f}_{v}\left(\boldsymbol{x}_{j}^{v}\right) \bar{f}_{v}\left(\boldsymbol{x}_{j}^{v}\right)^{\top}$라고 할 때, 여기서 $S_{i}$는 $i$단계에서 선택된 부분집합이다. 우리는 **최종 부분집합 크기에 도달할 때까지 다음 방정식을 만족하는 데이터를 단계별로 제거**한다:

S_{i} \backslash S_{i+1}=\arg \min {x{l} \in S_{i}}\left[\bar{f}{v}\left(x{l}^{v}\right)^{T} \cdot\left(\frac{1}{\left|S_{i}\right|} \sum_{x_{t} \in S_{i}} \bar{f}{v}\left(x{t}^{v}\right) \bar{f}{v}\left(x{t}^{v}\right)^{\top}\right) \cdot \bar{f}{v}\left(x{l}^{v}\right)\right], \quad i \in{0, \ldots, \tau-1}

그러면 Algorithm 2에서 **$\mathrm{NormSim}_{2}$-D의 알고리즘 프로세스**를 자세히 설명할 수 있다. 일반적으로 **단계 크기가 작을수록 결과가 더 좋다.** 하지만 실험에서는 **$\tau=500$일 때도 좋은 결과를 얻기에 충분**하다는 것을 발견했다. ## C. 4 Details of Related Works 우리는 본 논문에서 사용된 baseline에 대한 몇 가지 세부 정보를 다음과 같이 추가한다. * **Text-based filtering.** \[1]은 **ImageNet-21K 또는 ImageNet-1K의 클래스 이름과 겹치는 캡션을 포함하는 데이터**를 선택하려는 **텍스트 기반 필터링**을 제안한다. * **Image-based filtering.** \[1]은 또한 **ImageNet-1K 클래스와 시각적 콘텐츠가 겹치는 데이터를 샘플링하는 휴리스틱 방식**을 제안한다. 이들은 먼저 **언어(fasttext \[15]를 사용하여 영어 캡션만 선택) 및 캡션 길이(두 단어 이상, 5자 이상)로 필터링**을 적용한다. 그런 다음 **학습 데이터의 이미지 임베딩을 Faiss \[49]를 사용하여 100K 그룹으로 클러스터링**하고, **클러스터 중심이 ImageNet-1K 이미지의 최소 하나 이상의 이미지 임베딩에 가장 가까운 그룹**을 유지한다. ``` Algorithm 1 s-CLIPLoss Inputs: pretraining 데이터의 이미지/텍스트 임베딩 \(F^{v l}=\left[\left\{\bar{f}_{v l}\left(x_{1}^{v l}\right)\right\}, \ldots,\left\{\bar{f}_{v l}\left(x_{N}^{v l}\right)\right\}\right]^{\top} \in\) \(\mathbb{R}^{N \times d}\), 배치 크기 \(b\), 온도 파라미터 \(\tau\), s-CLIPLoss가 무작위로 계산되는 횟수 \(K(=10)\). s-CLIPLoss 배열 \(\boldsymbol{r}=[0, \ldots, 0] \in \mathbb{R}^{N}\) 초기화 for \(k=1\) to \(K\) do 무작위 배치 분할 \(S_{k}=\left\{B_{1}, \ldots, B_{s}\right\}\)을 얻는다. 여기서 \(s=\lceil N / b\rceil\). 모든 \(B_{i} \in S_{k}\)는 데이터 배치의 인덱스이다. for \(j=1\) to \(s\) do 배치 \(j\)의 임베딩 배치 얻기: \(F_{j}^{v l}=F^{v l}\left[B_{j}\right] \in \mathbb{R}^{b \times d}\) 유사도 행렬 얻기: \(E_{j}=F_{j}^{v}\left(F_{j}^{l}\right)^{\top} \in \mathbb{R}^{b \times b}\) CLIPScores 얻기: \(\boldsymbol{c}_{j}=\operatorname{diag}\left(E_{j}\right) \in \mathbb{R}^{b}\) \(G_{j}=\exp \left(E_{j} / \tau\right)\) 정의 \(\boldsymbol{g}_{j}^{v} \in \mathbb{R}^{b}\)를 \(G_{j}\)의 각 행 벡터의 합(즉, 이미지에 대한 합)을 포함하는 벡터로 정의한다. \(\boldsymbol{g}_{j}^{l} \in \mathbb{R}^{b}\)를 \(G_{j}\)의 각 열 벡터의 합(즉, 텍스트에 대한 합)을 포함하는 벡터로 정의한다. s-CLIPLoss 얻기: \(\boldsymbol{r}\left[B_{j}\right]=\boldsymbol{c}_{j}-0.5 \tau \cdot\left(\log \left(\boldsymbol{g}_{j}^{v}\right)+\log \left(\boldsymbol{g}_{j}^{v}\right)\right)\), 여기서 요소별(element-wise) 연산을 사용한다. end for end for 각 무작위 분할의 평균을 출력으로 취한다: s-CLIPLoss \(=\boldsymbol{r} / K\) ``` ``` Algorithm 2 NormSim-D strategy Inputs: CLIP score 필터링 후 데이터의 이미지 임베딩 \(\left\{\bar{f}_{v}\left(x_{i}^{v}\right)\right\}_{i \in S}\), 목표 크기 \(N\), 단계 수 \(\tau\) \(S_{0}=S, N_{0}=|S|\) 초기화 for \(t=1\) to \(\tau\) do 단계 \(t\)에서의 크기: \(N_{t}=N_{0}-\frac{t}{\tau}\left(N_{0}-N\right)\). 사전 행렬: \(\bar{\Sigma}_{\text {test }, t-1}=\sum_{j \in S_{t-1}} \bar{f}_{v}\left(x_{j}^{v}\right) \bar{f}_{v}\left(x_{j}^{v}\right)^{\top}\) \(S_{t-1}\)의 각 샘플 \(i\)에 대해 업데이트된 NormSim \({ }_{2}\)-D: \(\operatorname{NormSim}_{2}-\mathrm{D}\left(x_{i}\right)=\bar{f}_{v}\left(x_{i}^{v}\right)^{\top} \cdot \bar{\Sigma}_{\text {test }, t-1} \cdot \bar{f}_{v}\left(x_{i}^{v}\right)\) \(S_{t-1}\)에서 가장 높은 NormSim \({ }_{2}\)-D를 가진 데이터를 포함하고 \(\left|S_{t}\right|=N_{t}\)를 만족하는 \(S_{t}\)를 구성한다. end for ``` * **$\mathbb{D}^{2}$ Pruning.** \[18]은 **코어셋 선택을 위해 데이터셋을 무방향 그래프로 표현**하려고 시도한다. 이들은 각 예시에 대한 **난이도(difficulty)를 할당**하고, **메시지 전달(message passing)을 사용하여 이웃 예시의 난이도를 통합하여 난이도 점수를 업데이트**하며, 최종적으로 **다양하고 어려운 부분집합을 모두 유지**하려고 한다. 우리의 실험에서는 DataComp에 대한 $\mathbb{D}^{2}$의 기본 하이퍼파라미터를 공식 코드베이스에 명시된 대로 따른다. * **T-MARS** \[12]는 **FAST \[13]와 같은 텍스트 감지 모델을 사용하여 이미지 내 캡션 텍스트만 포함하고 다른 유용한 이미지 feature가 없는 데이터를 필터링**한다. * **Devils** \[14]는 **데이터 필터링을 위한 여러 방법들을 결합**한다. 처음에는 **텍스트 길이, 텍스트 빈도, 이미지 크기**와 같은 **휴리스틱 규칙**을 기반으로 데이터를 필터링하고, **CLIPScore를 사용하여 cross-modality 매칭**을 수행한다. 그런 다음 **이미지 기반 필터링과 유사한 대상 분포 정렬 방법**을 채택하지만, **ImageNet-1k만 사용하는 대신 22개의 다운스트림 task를 대상 세트로 사용**한다. 또한, **외부 모델 fasttext \[15]를 사용하여 비영어 캡션을 제거**하고, **이미지 캡셔닝 모델 BLIP-2 \[50]를 사용하여 MNIST 스타일 숫자가 있는 이미지를 선택**한다. * **MLM** \[42]은 **GPT-4V에 prompt를 주어 이미지-텍스트 데이터를 포함하는 instruction 데이터를 구성**하고, 이를 사용하여 **LLaVA-1.5 \[43, 44]와 같은 더 작은 vision-language model을 필터링 네트워크로 fine-tuning**한다. 그럼에도 불구하고, LLaVA-1.5의 파라미터 수는 여전히 CLIP보다 훨씬 많으며, 따라서 Table C.1에 언급된 바와 같이 LLaVA-1.5는 **훨씬 더 긴 전처리 시간**을 필요로 한다. ## C. 5 How to Choose Hyperparameters 우리의 **s-CLIPLoss**와 **NormSim**의 주요 하이퍼파라미터는 **필터링을 위한 목표 개수**이다 (온도 및 배치 크기 설정은 Appendix C.2 참조). 이는 DFN, MLM, T-MARS와 같은 모든 상위 baseline에서도 주요 관심사이다. **DataComp 설정**의 경우, DataComp-medium 벤치마크의 모든 상위 baseline이 **최고의 결과를 얻기 위해 15%에서 30% 범위의 downsampling 비율을 유지**한다는 점을 고려하여, 우리는 **샘플링 비율을 이전 baseline들과 유사하게 설정**할 수 있다. 우리의 방법은 OAI CLIP teacher model을 사용하여 먼저 **상위 30%의 s-CLIPLoss를 가진 데이터를 선택**하고, 그 다음 **상위 66.7%의 NormSim 점수를 가진 데이터를 선택**하여 **원래 풀의 20%를 유지**한다. 우리는 공정한 비교를 위해 여기서 목표 크기를 신중하게 튜닝하지 않았다. 더 일반적인 경우, **NormSim**은 점수가 풀 내의 다른 데이터가 아닌 **norm $p$와 목표 데이터에만 의존**하므로, **학습 데이터셋에 독립적인 임계값**을 권장할 수 있다. 일반적으로 **$\mathrm{NormSim}_{\infty}$ (Target)의 경우 0.7**, **$\mathrm{NormSim}_{2}$ (IN1k)의 경우 0.15**를 임계값으로 설정하는 것을 권장한다. 반면 **s-CLIPLoss**의 경우, NormSim과 마찬가지로 **CLIPScore도 학습 데이터셋에 독립적**이므로, 먼저 **CLIPScore가 0.21인 데이터의 백분위수를 찾은 다음**, 해당 백분위수에 도달할 때까지 **s-CLIPLoss를 사용하여 데이터셋을 downsample**하는 것을 권장한다. 전반적으로, **데이터 선택 알고리즘에 대한 최적의 필터링 비율을 찾는 것은 항상 어렵고 본 논문의 범위를 벗어난다.** 데이터 필터링을 위한 스케일링 법칙에 대한 논문 \[51]에 따르면, **downsampling 크기는 계산 예산에도 의존**한다. 예산이 많을수록 학습을 위해 더 많은 데이터를 샘플링해야 한다. 따라서 또 다른 가능한 해결책은 **그들의 fitting formula를 사용하여 권장 downsampling 비율을 얻는 것**이다. 마지막으로, 데이터 선택 문제에서 **시각화는 파라미터를 튜닝하거나 downsampling 비율을 찾는 간단하지만 효과적인 방법**이라는 점도 언급한다. 사람들은 먼저 일부 사전학습 데이터셋에서 **작은 부분집합(예: 1000개 데이터)을 무작위로 선택**한 다음, 그 데이터에 대해 **목표 점수(CLIPScore, s-CLIPLoss, NormSim 또는 기타 모든 지표)를 계산**하고, 마지막으로 **s-CLIPLoss의 하위 10%, 30%, 50%, 70%와 같이 다른 백분위수에서의 점수에 해당하는 데이터를 시각화**할 수 있다. 이러한 방식으로 **데이터를 관찰하여 필터링 임계값을 직접 결정**할 수 있다. 우리는 또한 Appendix E에 우리 방법의 시각화 예시를 제공한다. 우리는 이것이 **초기 downsampling 비율을 대략적으로 선택하는 방법에 대한 지침을 제공하는 효과적인 방법**이라고 믿는다. ## C. 6 Discussion of NormSim ## C.6.1 How NormSim ${ }_{2}$ Connects to Selecting the Data in Principal Components. 편의를 위해, 우리는 **타겟 데이터 $x_t \in X_T$의 이미지 임베딩을 $f(x_t)$로, 학습 데이터 $x_s \in X_S$의 이미지 임베딩을 $f(x_s)$로 표기**한다. 이때, **데이터 $x_s$에 대한 NormSim의 정의**는 다음과 같다:

\operatorname{NormSim}{p}\left(X{T}, x_{s}\right)=\left(\sum_{x_{t} \in X_{T}}\left[f\left(x_{t}\right)^{\top} f\left(x_{s}\right)\right]^{p}\right)^{1 / p}

$p=2$일 때, 우리는 다음을 얻는다:

\begin{aligned} \operatorname{NormSim}{2}\left(X{T}, x_{s}\right) & =\quad\left(\sum_{x_{t} \in X_{T}}\left[f\left(x_{s}\right)^{\top} f\left(x_{t}\right)\right] \cdot\left[f\left(x_{t}\right)^{\top} f\left(x_{s}\right)\right]\right)^{1 / 2} \ & =\quad\left(f\left(x_{s}\right)^{\top} \cdot \sum_{x_{t} \in X_{T}}\left[f\left(x_{t}\right) f\left(x_{t}\right)^{\top}\right] \cdot f\left(x_{s}\right)\right)^{1 / 2} \ & \propto \quad\left[f\left(x_{s}\right)^{\top}\left(\frac{1}{\left|X_{T}\right|} \sum_{x_{t} \in X_{T}} f\left(x_{t}\right) f\left(x_{t}\right)^{\top}\right) f\left(x_{s}\right)\right]^{1 / 2} \end{aligned}

여기서 $\Lambda=\frac{1}{\left|X_{T}\right|} \sum_{x_{t} \in X_{T}} f\left(x_{t}\right) f\left(x_{t}\right)^{\top}$는 **타겟 이미지 임베딩의 분산 행렬(variance matrix)**이다. NormSim$_2$를 필터링에 사용하면 다음과 같다:

\begin{aligned} S & =\arg \max {|S|=N} \sum{x_{s} \in X_{S}} \operatorname{NormSim}{2}\left(X{T}, x_{s}\right) \ \operatorname{NormSim}{2}\left(X{T}, x_{s}\right) & =f\left(x_{s}\right)^{\top} \cdot \Lambda \cdot f\left(x_{s}\right) \ & =f\left(x_{s}\right)^{\top} U \cdot S \cdot U^{\top} f\left(x_{s}\right) \ & =\sum_{j=1}^{r} s_{j} \cdot\left[f\left(x_{s}\right)^{\top} u_{j}\right]^{2} \end{aligned}