LLaVA: Visual Instruction Tuning을 통한 범용 시각 보조 모델
LLaVA는 대규모 언어 모델(LLM)에 시각적 이해 능력을 부여하는 Visual Instruction Tuning을 제안하는 논문입니다. 언어 전용 GPT-4를 활용해 멀티모달 지시-따름(instruction-following) 데이터를 생성하고, 이를 통해 사전 학습된 Vision Encoder(CLIP)와 LLM(Vicuna)을 연결하여 종단간(end-to-end) 학습을 수행합니다. 그 결과 LLaVA는 별도의 학습 없이도 새로운 이미지와 지시에 대해 GPT-4와 유사한 멀티모달 채팅 능력을 보이며, Science QA 벤치마크에서는 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: Visual Instruction Tuning