Data SelectionContrastive Learning
CLIPLoss와 Norm 기반 데이터 선택 방법을 통한 Multimodal Contrastive Learning
이 논문은 대규모 시각-언어 모델 사전학습 시 발생하는 노이즈가 많은 웹 데이터셋 문제를 해결하기 위한 두 가지 새로운 데이터 선택 방법을 제안합니다. 첫째, 기존 CLIPScore의 한계를 보완하기 위해 CLIP 학습 손실에서 영감을 받은 surrogate-CLIPLoss (s-CLIPLoss)를 도입하여, contrastive pair와의 유사도를 정규화 항으로 추가함으로써 데이터 품질을 더 정확하게 측정합니다. 둘째, 다운스트림 작업이 알려진 경우, 사전학습 데이터와 목표 데이터 간의 유사성을 측정하는 새로운 놈(norm) 기반 메트릭인 NormSim을 제안합니다. 이 방법들은 OpenAI의 CLIP-L/14 모델만을 사용한 기준선 대비 ImageNet-1k에서 5.3%, 38개 다운스트림 작업에서 평균 2.8%의 성능 향상을 보였으며, 기존 SOTA 방법과 결합하여 DataComp-medium 벤치마크에서 새로운 최고 성능을 달성했습니다. 논문 제목: CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning