Semi-supervised LearningVision-Language Model
S-CLIP: 적은 양의 캡션으로 전문 분야 Vision-Language 모델을 학습시키는 Semi-supervised 방법론
S-CLIP은 CLIP과 같은 Vision-Language 모델이 원격 탐사(remote sensing)와 같은 전문 분야에서 부족한 이미지-텍스트 쌍 데이터로 인해 겪는 성능 저하 문제를 해결합니다. 이 방법론은 소수의 레이블된 데이터와 다수의 레이블 없는 이미지를 활용하는 Semi-supervised learning 접근법을 제안합니다. S-CLIP은 Optimal Transport를 이용한 caption-level pseudo-label과 Partial Label Learning에 기반한 keyword-level pseudo-label이라는 두 가지 새로운 pseudo-labeling 전략을 사용하여, 적은 수의 이미지-텍스트 쌍만으로도 CLIP의 성능을 크게 향상시킵니다. 이를 통해 원격 탐사, 패션, 과학 등 다양한 전문 분야에서 모델의 적용 가능성을 확장합니다. 논문 제목: S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions