Vision-Language Model

5개의 포스트

2025. 10. 28.

SynthVLM: Vision-Language 모델을 위한 고품질 이미지-캡션 데이터셋의 효율적인 합성

SynthVLM은 Vision-Language Models (VLMs) 학습에 필요한 대규모 고품질 데이터셋의 문제를 해결하기 위한 새로운 데이터 합성 및 큐레이션 방법론을 제안합니다. 기존 방식과 달리, 고품질 캡션을 먼저 선별하고 고급 diffusion model을 사용하여 텍스트 캡션으로부터 이미지를 생성함으로써, 텍스트와 이미지가 정밀하게 정렬된 데이터 쌍을 만듭니다. 이 방법을 통해 생성된 SynthVLM-100K 데이터셋은 기존의 실제 데이터셋보다 우수한 성능을 보이며, 이 데이터셋으로 학습된 SynthVLM-7B 및 SynthVLM-13B 모델은 단 18%의 데이터만으로도 다양한 Vision Question-Answering (VQA) 작업에서 SOTA 성능을 달성합니다. 논문 제목: SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models

2025. 10. 15.

Semi-supervised LearningVision-Language Model

S-CLIP: 적은 양의 캡션으로 전문 분야 Vision-Language 모델을 학습시키는 Semi-supervised 방법론

S-CLIP은 CLIP과 같은 Vision-Language 모델이 원격 탐사(remote sensing)와 같은 전문 분야에서 부족한 이미지-텍스트 쌍 데이터로 인해 겪는 성능 저하 문제를 해결합니다. 이 방법론은 소수의 레이블된 데이터와 다수의 레이블 없는 이미지를 활용하는 Semi-supervised learning 접근법을 제안합니다. S-CLIP은 Optimal Transport를 이용한 caption-level pseudo-label과 Partial Label Learning에 기반한 keyword-level pseudo-label이라는 두 가지 새로운 pseudo-labeling 전략을 사용하여, 적은 수의 이미지-텍스트 쌍만으로도 CLIP의 성능을 크게 향상시킵니다. 이를 통해 원격 탐사, 패션, 과학 등 다양한 전문 분야에서 모델의 적용 가능성을 확장합니다. 논문 제목: S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions

2025. 7. 30.

Vision-Language ModelLarge Language Model

MiniGPT-4: 고급 LLM을 활용한 시각-언어 이해 능력의 향상

MiniGPT-4는 frozen visual encoder와 frozen advanced LLM (Vicuna)를 단 하나의 projection layer로 연결하여, GPT-4와 유사한 고급 멀티모달 능력을 구현하는 모델입니다. 이 논문은 별도의 복잡한 모듈 없이, 시각적 특징을 강력한 LLM과 정렬하는 것만으로도 이미지 상세 묘사, 손으로 그린 초안으로 웹사이트 제작, 이미지 기반 시 작성 등 다양한 emergent abilities를 발현할 수 있음을 보여줍니다. 특히, 초반 학습에서 발생하는 부자연스러운 언어 생성을 해결하기 위해, 2단계에서 고품질 이미지 설명 데이터셋으로 미세 조정하여 모델의 신뢰성과 사용성을 크게 향상시켰습니다. 논문 제목: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

2025. 7. 30.

Vision-Language ModelInstruction Tuning

InstructBLIP: Instruction Tuning을 통한 범용 Vision-Language 모델

InstructBLIP은 사전 학습된 BLIP-2 모델을 기반으로 Vision-Language Instruction Tuning에 대한 체계적이고 포괄적인 연구를 제시합니다. 26개의 공개 데이터셋을 Instruction Tuning 형식으로 변환하여 학습에 사용했으며, 주어진 Instruction에 맞춰 정보를 추출하는 Instruction-aware Query Transformer를 도입했습니다. 이를 통해 InstructBLIP은 13개의 unseen 데이터셋에서 SOTA zero-shot 성능을 달성하여 BLIP-2 및 Flamingo와 같은 대규모 모델을 능가하는 성능을 보여줍니다. 논문 제목: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

2025. 7. 29.

Vision-Language ModelEfficient Pre-training

BLIP-2: Frozen Image Encoder와 LLM을 활용한 효율적인 Vision-Language Pre-training

BLIP-2는 사전 학습된 frozen image encoder와 frozen large language model (LLM)을 효율적으로 활용하는 새로운 vision-language pre-training 전략입니다. 이 모델은 경량의 Querying Transformer (Q-Former)를 사용하여 두 모델 간의 modality 차이를 해소하며, 두 단계의 pre-training을 통해 학습됩니다. 첫 번째 단계에서는 vision-language representation learning을, 두 번째 단계에서는 vision-to-language generative learning을 수행합니다. BLIP-2는 기존 모델들보다 훨씬 적은 학습 파라미터로 다양한 vision-language 태스크에서 최고 수준의 성능을 달성했으며, 특히 zero-shot VQAv2 태스크에서 Flamingo-80B 모델보다 8.7% 높은 성능을 보여주었습니다. 또한 자연어 지시를 따르는 zero-shot image-to-text 생성 능력도 갖추고 있습니다. 논문 제목: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

모든 태그 보기