Visual Bias

1개의 포스트

2025. 10. 15.

B2T: 키워드 설명을 통한 시각적 편향 발견 및 완화 프레임워크

B2T(Bias-to-Text)는 computer vision 모델의 시각적 편향을 키워드로 해석하여 설명하는 프레임워크입니다. 잘못 예측된 이미지의 캡션에서 공통 키워드를 추출하여 잠재적 편향을 식별하고, CLIP과 같은 vision-language 모델을 사용하여 해당 키워드와 이미지의 유사도를 측정하여 편향을 검증합니다. B2T는 CelebA의 성별 편향이나 Waterbirds의 배경 편향과 같은 기존에 알려진 편향뿐만 아니라, ImageNet에서의 "벌"과 "꽃" 사이의 문맥적 편향과 같은 새로운 편향도 발견할 수 있습니다. 이렇게 발견된 키워드는 debiased training, CLIP prompting, 모델 비교 등 다양한 애플리케이션에 활용될 수 있습니다. 논문 제목: Discovering and Mitigating Visual Biases through Keyword Explanation

모든 태그 보기