
인식을 통해, 인식을 위한 계층적 이미지 분할 학습 (CAST)
이미지 분할(Segmentation)과 인식(Recognition)을 별개의 작업으로 다루던 기존 방식과 달리, 이 논문은 두 과정을 상호 보완적인 시각적 파싱(visual parsing)의 연속체로 봅니다. CAST(Concurrently learns segmentation and recognition using Adaptive Segment Tokens)라는 모델을 제안하여, 계층적 분할(hierarchical segmentation)을 인식 과정에 내장합니다. 이 모델은 고정된 사각 패치 대신 이미지 윤곽에 맞는 adaptive segment token (superpixels)을 사용하고, graph pooling을 통해 세그먼트를 점진적으로 병합하여 부분-전체 관계를 학습합니다. 핵심은, 전체 모델이 오직 이미지 수준의 인식(image-level recognition) 목표만으로 학습된다는 점입니다. 이를 통해 별도의 분할 레이블 없이도 계층적 분할을 '공짜로' 학습하며, 심지어 SAM과 같은 대규모 모델을 능가하는 성능을 보입니다. 논문 제목: Learning Hierarchical Image Segmentation For Recognition and By Recognition



