KOSMOS-1: 언어 모델과 인식을 결합한 Multimodal Large Language Model
KOSMOS-1은 일반적인 양식을 인식하고, in-context learning (few-shot)을 수행하며, 지시를 따를 수 있는 Multimodal Large Language Model (MLLM)입니다. 이 모델은 임의로 인터리브된 텍스트와 이미지, 이미지-캡션 쌍, 텍스트 데이터를 포함한 웹 스케일의 멀티모달 코퍼스를 기반으로 처음부터 학습됩니다. KOSMOS-1은 별도의 미세 조정 없이 zero-shot, few-shot, multimodal chain-of-thought 프롬프팅 등 다양한 설정에서 언어 이해, 멀티모달 대화, 이미지 캡셔닝, 시각적 질문 답변(VQA) 등 광범위한 작업에서 뛰어난 성능을 보입니다. 또한, 이 연구는 MLLM의 비언어적 추론 능력을 진단하기 위한 Raven IQ 테스트 데이터셋을 소개합니다. 논문 제목: Language Is Not All You Need: Aligning Perception with Language Models