논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Multimodal Large Language Models

1개의 포스트

2025. 7. 31.
Visual Instruction TuningMultimodal Large Language Models

SVIT: Visual Instruction Tuning의 새로운 지평을 열다

기존 Multimodal Large Language Models (MLLMs)의 한계는 고품질 instruction tuning 데이터의 부족에 있었습니다. 이를 해결하기 위해, 본 논문은 420만 개의 시각적 instruction tuning 데이터를 포함하는 대규모 데이터셋인 SVIT (Scaling up Visual Instruction Tuning)를 제안합니다. SVIT는 Visual Genome의 풍부한 수동 주석과 GPT-4를 활용하여 생성되었으며, 160만 개의 대화형 QA 쌍, 160만 개의 복잡한 추론 QA 쌍, 100만 개의 참조 QA 쌍, 그리고 10만 6천 개의 상세 이미지 설명을 포함합니다. 이 데이터셋으로 학습된 SVIT-v1.5 모델은 여러 벤치마크에서 기존의 SOTA MLLM 모델들을 능가하는 성능을 보였습니다. 논문 제목: SVIT: Scaling up Visual Instruction Tuning

모든 태그 보기

© 2025 junhan.blog