논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Instruction Tuning#self-supervised learning#DETR#Multimodal Learning#Vision-Language Model#Representation Learning#Vision-and-Language#Transformer#Multi-modal#MLLM
    모든 태그 보기 →

LMM

1개의 포스트

2025. 7. 29.
LMMInstruction Tuning

LLaVA: Visual Instruction Tuning을 통한 범용 시각 보조 모델

LLaVA는 대규모 언어 모델(LLM)에 시각적 이해 능력을 부여하는 Visual Instruction Tuning을 제안하는 논문입니다. 언어 전용 GPT-4를 활용해 멀티모달 지시-따름(instruction-following) 데이터를 생성하고, 이를 통해 사전 학습된 Vision Encoder(CLIP)와 LLM(Vicuna)을 연결하여 종단간(end-to-end) 학습을 수행합니다. 그 결과 LLaVA는 별도의 학습 없이도 새로운 이미지와 지시에 대해 GPT-4와 유사한 멀티모달 채팅 능력을 보이며, Science QA 벤치마크에서는 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: Visual Instruction Tuning

모든 태그 보기

© Copyright 2025. All rights reserved.