Affordance GroundingContrastive Learning
Selective Contrastive Learning for Weakly Supervised Affordance Grounding
Weakly Supervised Affordance Grounding (WSAG)은 픽셀 단위의 레이블 없이 3인칭 시점의 예시로부터 객체의 특정 행동이 가능한 부분을 찾는 것을 목표로 합니다. 기존 모델들은 affordance와 무관한, 클래스별 공통 패턴에 집중하는 경향이 있었습니다. 이 한계를 극복하기 위해 본 논문은 Selective Contrastive Learning을 제안합니다. 이 방법은 선택적인 prototypical 및 pixel contrastive learning 목표를 도입하여, 파트(part)와 객체(object) 수준 모두에서 affordance와 관련된 단서를 적응적으로 학습합니다. CLIP을 활용하여 행동과 연관된 객체를 찾고, 두 시점의 정보를 상호 참조하여 정확한 파트 수준의 affordance 단서를 발굴합니다. 이를 통해 모델이 affordance와 관련된 영역과 관련 없는 배경을 구별하도록 학습시켜, 활성화를 의미 있는 단서로 효과적으로 이동시킵니다. 논문 제목: Selective Contrastive Learning for Weakly Supervised Affordance Grounding