Multi-modalDialogue System
MultiModal-GPT: 인간과 대화가 가능한 시각-언어 모델
MultiModal-GPT는 인간과 여러 차례 대화를 주고받을 수 있는 시각 및 언어 모델입니다. 이 모델은 OpenFlamingo를 기반으로 LoRA(Low-rank Adapter)를 사용하여 효율적으로 fine-tuning되었습니다. LoRA는 언어 모델의 gated-cross-attention과 self-attention 구성 요소 모두에 적용되었습니다. 시각-언어 및 언어 전용 명령어 데이터를 함께 사용하여 학습함으로써, 상세한 캡션 생성, 특정 객체 수 세기, 일반적인 질문에 대한 답변 등 다양한 지시를 따를 수 있는 능력을 갖추었습니다. 논문 제목: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans