Multi-modal
2개의 포스트
M³IT: 대규모 다중모드 다국어 Instruction Tuning 데이터셋
본 논문은 Vision-Language Model (VLM)의 발전을 위해 Multi-Modal, Multilingual Instruction Tuning (M³IT) 데이터셋을 제안합니다. M³IT는 40개의 데이터셋, 240만 개의 인스턴스, 400개의 수동 작성된 task instruction을 포함하는 대규모 데이터셋으로, VLM이 인간의 지시를 더 잘 따르도록 학습시키는 것을 목표로 합니다. 주요 task들은 80개 언어로 번역되어 언어적 다양성을 확보했습니다. 이 데이터셋으로 학습된 Ying-VLM 모델은 외부 지식이 필요한 복잡한 VQA task와 보지 못한 비디오 및 중국어 task에 대해서도 뛰어난 일반화 성능을 보여줍니다. 논문 제목: M³IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
MultiModal-GPT: 인간과 대화가 가능한 시각-언어 모델
MultiModal-GPT는 인간과 여러 차례 대화를 주고받을 수 있는 시각 및 언어 모델입니다. 이 모델은 OpenFlamingo를 기반으로 LoRA(Low-rank Adapter)를 사용하여 효율적으로 fine-tuning되었습니다. LoRA는 언어 모델의 gated-cross-attention과 self-attention 구성 요소 모두에 적용되었습니다. 시각-언어 및 언어 전용 명령어 데이터를 함께 사용하여 학습함으로써, 상세한 캡션 생성, 특정 객체 수 세기, 일반적인 질문에 대한 답변 등 다양한 지시를 따를 수 있는 능력을 갖추었습니다. 논문 제목: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans