Instruction Tuning
4개의 포스트
M³IT: 대규모 다중모드 다국어 Instruction Tuning 데이터셋
본 논문은 Vision-Language Model (VLM)의 발전을 위해 Multi-Modal, Multilingual Instruction Tuning (M³IT) 데이터셋을 제안합니다. M³IT는 40개의 데이터셋, 240만 개의 인스턴스, 400개의 수동 작성된 task instruction을 포함하는 대규모 데이터셋으로, VLM이 인간의 지시를 더 잘 따르도록 학습시키는 것을 목표로 합니다. 주요 task들은 80개 언어로 번역되어 언어적 다양성을 확보했습니다. 이 데이터셋으로 학습된 Ying-VLM 모델은 외부 지식이 필요한 복잡한 VQA task와 보지 못한 비디오 및 중국어 task에 대해서도 뛰어난 일반화 성능을 보여줍니다. 논문 제목: M³IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
mPLUG-Owl: 모듈화로 멀티모달리티를 구현한 Large Language Model
mPLUG-Owl은 foundation LLM, visual knowledge module, visual abstractor module의 모듈화된 학습을 통해 LLM에 멀티모달 능력을 부여하는 새로운 학습 패러다임입니다. 이 접근법은 2단계 학습을 통해 이미지와 텍스트를 정렬하며, 1단계에서는 LLM을 고정한 채 visual module들을 학습시키고, 2단계에서는 LoRA를 사용하여 LLM과 abstractor module을 공동으로 미세 조정합니다. 이를 통해 mPLUG-Owl은 강력한 지시 이해, 시각 이해, 다중 턴 대화 및 추론 능력을 보여줍니다. 논문 제목: mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality
InstructBLIP: Instruction Tuning을 통한 범용 Vision-Language 모델
InstructBLIP은 사전 학습된 BLIP-2 모델을 기반으로 Vision-Language Instruction Tuning에 대한 체계적이고 포괄적인 연구를 제시합니다. 26개의 공개 데이터셋을 Instruction Tuning 형식으로 변환하여 학습에 사용했으며, 주어진 Instruction에 맞춰 정보를 추출하는 Instruction-aware Query Transformer를 도입했습니다. 이를 통해 InstructBLIP은 13개의 unseen 데이터셋에서 SOTA zero-shot 성능을 달성하여 BLIP-2 및 Flamingo와 같은 대규모 모델을 능가하는 성능을 보여줍니다. 논문 제목: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
LLaVA: Visual Instruction Tuning을 통한 범용 시각 보조 모델
LLaVA는 대규모 언어 모델(LLM)에 시각적 이해 능력을 부여하는 Visual Instruction Tuning을 제안하는 논문입니다. 언어 전용 GPT-4를 활용해 멀티모달 지시-따름(instruction-following) 데이터를 생성하고, 이를 통해 사전 학습된 Vision Encoder(CLIP)와 LLM(Vicuna)을 연결하여 종단간(end-to-end) 학습을 수행합니다. 그 결과 LLaVA는 별도의 학습 없이도 새로운 이미지와 지시에 대해 GPT-4와 유사한 멀티모달 채팅 능력을 보이며, Science QA 벤치마크에서는 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: Visual Instruction Tuning