전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 4 페이지)

인식을 통해, 인식을 위한 계층적 이미지 분할 학습 (CAST)
·
#Hierarchical Segmentation#Image Recognition

인식을 통해, 인식을 위한 계층적 이미지 분할 학습 (CAST)

이미지 분할(Segmentation)과 인식(Recognition)을 별개의 작업으로 다루던 기존 방식과 달리, 이 논문은 두 과정을 상호 보완적인 시각적 파싱(visual parsing)의 연속체로 봅니다. CAST(Concurrently learns segmentation and recognition using Adaptive Segment Tokens)라는 모델을 제안하여, 계층적 분할(hierarchical segmentation)을 인식 과정에 내장합니다. 이 모델은 고정된 사각 패치 대신 이미지 윤곽에 맞는 adaptive segment token (superpixels)을 사용하고, graph pooling을 통해 세그먼트를 점진적으로 병합하여 부분-전체 관계를 학습합니다. 핵심은, 전체 모델이 오직 이미지 수준의 인식(image-level recognition) 목표만으로 학습된다는 점입니다. 이를 통해 별도의 분할 레이블 없이도 계층적 분할을 '공짜로' 학습하며, 심지어 SAM과 같은 대규모 모델을 능가하는 성능을 보입니다. 논문 제목: Learning Hierarchical Image Segmentation For Recognition and By Recognition

B2T: 키워드 설명을 통한 시각적 편향 발견 및 완화 프레임워크
·
#Visual Bias#Explainable AI

B2T: 키워드 설명을 통한 시각적 편향 발견 및 완화 프레임워크

B2T(Bias-to-Text)는 computer vision 모델의 시각적 편향을 키워드로 해석하여 설명하는 프레임워크입니다. 잘못 예측된 이미지의 캡션에서 공통 키워드를 추출하여 잠재적 편향을 식별하고, CLIP과 같은 vision-language 모델을 사용하여 해당 키워드와 이미지의 유사도를 측정하여 편향을 검증합니다. B2T는 CelebA의 성별 편향이나 Waterbirds의 배경 편향과 같은 기존에 알려진 편향뿐만 아니라, ImageNet에서의 "벌"과 "꽃" 사이의 문맥적 편향과 같은 새로운 편향도 발견할 수 있습니다. 이렇게 발견된 키워드는 debiased training, CLIP prompting, 모델 비교 등 다양한 애플리케이션에 활용될 수 있습니다. 논문 제목: Discovering and Mitigating Visual Biases through Keyword Explanation

FLARE: 환경에 기반한 멀티모달 계획과 효율적인 재계획을 통한 Embodied Agent 학습
·
#Embodied AI#Few-shot Learning

FLARE: 환경에 기반한 멀티모달 계획과 효율적인 재계획을 통한 Embodied Agent 학습

FLARE는 소수의 예시 데이터만으로 Embodied Agent를 학습시키기 위한 멀티모달 기반 계획 및 효율적인 재계획 프레임워크입니다. 기존 LLM 기반 planner들이 주로 언어적 상식에 의존하여 환경 상태를 무시하는 문제를 해결하기 위해, FLARE는 언어 지시와 에이전트의 시각적 인식을 모두 활용하는 'Multi-Modal Planner (MMP)'를 통해 환경에 기반한 초기 계획을 생성합니다. 또한, 계획 실행 중 오류가 발생하면 'Environment Adaptive Replanning (EAR)' 모듈이 LLM 재호출 없이 시각적 단서만으로 계획을 빠르고 효율적으로 수정하여 실제 환경과의 불일치를 해결합니다. 논문 제목: Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples