Contrastive Learning

2개의 포스트

Data SelectionContrastive Learning

CLIPLoss와 Norm 기반 데이터 선택 방법을 통한 Multimodal Contrastive Learning

이 논문은 대규모 시각-언어 모델 사전학습 시 발생하는 노이즈가 많은 웹 데이터셋 문제를 해결하기 위한 두 가지 새로운 데이터 선택 방법을 제안합니다. 첫째, 기존 CLIPScore의 한계를 보완하기 위해 CLIP 학습 손실에서 영감을 받은 surrogate-CLIPLoss (s-CLIPLoss)를 도입하여, contrastive pair와의 유사도를 정규화 항으로 추가함으로써 데이터 품질을 더 정확하게 측정합니다. 둘째, 다운스트림 작업이 알려진 경우, 사전학습 데이터와 목표 데이터 간의 유사성을 측정하는 새로운 놈(norm) 기반 메트릭인 NormSim을 제안합니다. 이 방법들은 OpenAI의 CLIP-L/14 모델만을 사용한 기준선 대비 ImageNet-1k에서 5.3%, 38개 다운스트림 작업에서 평균 2.8%의 성능 향상을 보였으며, 기존 SOTA 방법과 결합하여 DataComp-medium 벤치마크에서 새로운 최고 성능을 달성했습니다. 논문 제목: CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning

Affordance GroundingContrastive Learning

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Weakly Supervised Affordance Grounding (WSAG)은 픽셀 단위의 레이블 없이 3인칭 시점의 예시로부터 객체의 특정 행동이 가능한 부분을 찾는 것을 목표로 합니다. 기존 모델들은 affordance와 무관한, 클래스별 공통 패턴에 집중하는 경향이 있었습니다. 이 한계를 극복하기 위해 본 논문은 Selective Contrastive Learning을 제안합니다. 이 방법은 선택적인 prototypical 및 pixel contrastive learning 목표를 도입하여, 파트(part)와 객체(object) 수준 모두에서 affordance와 관련된 단서를 적응적으로 학습합니다. CLIP을 활용하여 행동과 연관된 객체를 찾고, 두 시점의 정보를 상호 참조하여 정확한 파트 수준의 affordance 단서를 발굴합니다. 이를 통해 모델이 affordance와 관련된 영역과 관련 없는 배경을 구별하도록 학습시켜, 활성화를 의미 있는 단서로 효과적으로 이동시킵니다. 논문 제목: Selective Contrastive Learning for Weakly Supervised Affordance Grounding