논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Data Synthesis

1개의 포스트

2025. 10. 28.
Data SynthesisVision-Language Model

SynthVLM: Vision-Language 모델을 위한 고품질 이미지-캡션 데이터셋의 효율적인 합성

SynthVLM은 Vision-Language Models (VLMs) 학습에 필요한 대규모 고품질 데이터셋의 문제를 해결하기 위한 새로운 데이터 합성 및 큐레이션 방법론을 제안합니다. 기존 방식과 달리, 고품질 캡션을 먼저 선별하고 고급 diffusion model을 사용하여 텍스트 캡션으로부터 이미지를 생성함으로써, 텍스트와 이미지가 정밀하게 정렬된 데이터 쌍을 만듭니다. 이 방법을 통해 생성된 SynthVLM-100K 데이터셋은 기존의 실제 데이터셋보다 우수한 성능을 보이며, 이 데이터셋으로 학습된 SynthVLM-7B 및 SynthVLM-13B 모델은 단 18%의 데이터만으로도 다양한 Vision Question-Answering (VQA) 작업에서 SOTA 성능을 달성합니다. 논문 제목: SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models

모든 태그 보기

© 2025 junhan.blog