Visual Instruction TuningMultimodal Large Language Models
SVIT: Visual Instruction Tuning의 새로운 지평을 열다
기존 Multimodal Large Language Models (MLLMs)의 한계는 고품질 instruction tuning 데이터의 부족에 있었습니다. 이를 해결하기 위해, 본 논문은 420만 개의 시각적 instruction tuning 데이터를 포함하는 대규모 데이터셋인 SVIT (Scaling up Visual Instruction Tuning)를 제안합니다. SVIT는 Visual Genome의 풍부한 수동 주석과 GPT-4를 활용하여 생성되었으며, 160만 개의 대화형 QA 쌍, 160만 개의 복잡한 추론 QA 쌍, 100만 개의 참조 QA 쌍, 그리고 10만 6천 개의 상세 이미지 설명을 포함합니다. 이 데이터셋으로 학습된 SVIT-v1.5 모델은 여러 벤치마크에서 기존의 SOTA MLLM 모델들을 능가하는 성능을 보였습니다. 논문 제목: SVIT: Scaling up Visual Instruction Tuning