Multimodal Large Language Model

1개의 포스트

2025. 7. 31.

Multimodal Large Language ModelGrounding

Kosmos-2: Grounding Multimodal Large Language Models to the World

Kosmos-2는 객체 설명(예: bounding boxes)을 인식하고 텍스트를 시각 세계에 grounding하는 새로운 기능을 갖춘 Multimodal Large Language Model (MLLM)입니다. 이 모델은 참조 표현을 마크다운의 링크 형식, 즉 "[text span] (bounding boxes)"로 나타내며, 대규모의 grounded image-text pair 데이터셋(GRIT)을 사용하여 학습됩니다. Kosmos-2는 기존 MLLM의 기능(예: 일반적인 modality 인식, 지시 따르기, in-context learning)에 더해 grounding 기능을 다양한 다운스트림 애플리케이션에 통합합니다. 이를 통해 multimodal grounding, multimodal referring 등 여러 작업에서 뛰어난 성능을 보이며, Embodiment AI 발전의 토대를 마련합니다. 논문 제목: Kosmos-2: Grounding Multimodal Large Language Models to the World

모든 태그 보기