MLLM

2개의 포스트

MLLMIn-context Learning

KOSMOS-1: 언어 모델과 인식을 결합한 Multimodal Large Language Model

KOSMOS-1은 일반적인 양식을 인식하고, in-context learning (few-shot)을 수행하며, 지시를 따를 수 있는 Multimodal Large Language Model (MLLM)입니다. 이 모델은 임의로 인터리브된 텍스트와 이미지, 이미지-캡션 쌍, 텍스트 데이터를 포함한 웹 스케일의 멀티모달 코퍼스를 기반으로 처음부터 학습됩니다. KOSMOS-1은 별도의 미세 조정 없이 zero-shot, few-shot, multimodal chain-of-thought 프롬프팅 등 다양한 설정에서 언어 이해, 멀티모달 대화, 이미지 캡셔닝, 시각적 질문 답변(VQA) 등 광범위한 작업에서 뛰어난 성능을 보입니다. 또한, 이 연구는 MLLM의 비언어적 추론 능력을 진단하기 위한 Raven IQ 테스트 데이터셋을 소개합니다. 논문 제목: Language Is Not All You Need: Aligning Perception with Language Models

MLLMLLM

멀티모달 대규모 언어 모델(MLLM)의 모든 것: 최신 연구 동향 총정리

최근 GPT-4V와 같은 Multimodal Large Language Model(MLLM)의 최신 연구 동향을 종합적으로 살펴봅니다. 본 논문은 MLLM의 기본 개념, 아키텍처, 학습 전략, 평가 방법을 다루고, Multimodal ICL (M-ICL), Multimodal CoT (M-CoT)와 같은 확장 기술과 멀티모달 환각 현상 및 해결 과제를 논의합니다. 논문 제목: A Survey on Multimodal Large Language Models