논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Transformer#Video Moment Retrieval#DETR#Multimodal#LLM
    모든 태그 보기 →

Momentum Distillation

1개의 포스트

2025. 9. 2.
Vision-Language Pre-trainingMomentum Distillation

ALBEF: Align before Fuse, 모멘텀 증류를 통한 Vision-Language 표현 학습

ALBEF는 이미지와 텍스트 표현을 융합(Fuse)하기 전에, 먼저 contrastive loss를 사용하여 두 표현을 정렬(Align)하는 새로운 Vision-Language Pre-training 프레임워크입니다. 이 ‘Align before Fuse’ 접근법은 cross-modal attention을 통한 이미지-텍스트 상호작용 학습을 더 효과적으로 만듭니다. 또한 ALBEF는 별도의 object detector를 요구하지 않으며, 노이즈가 많은 웹 데이터로부터의 학습 성능을 향상시키기 위해 모멘텀 모델의 pseudo-target을 활용하는 Momentum Distillation (MoD) 기법을 제안합니다. 이를 통해 이미지-텍스트 검색, VQA, NLVR² 등 다양한 downstream task에서 SOTA 성능을 달성했습니다. 논문 제목: Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

모든 태그 보기

© 2025 junhan.blog