Multimodal LLM

2개의 포스트

Referring Video Object SegmentationMultimodal LLM

DTOS: 대규모 멀티모달 모델을 활용한 동적 시간 객체 감지

DTOS는 Referring Video Object Segmentation (RVOS) 분야에서 기존 Multimodal Large Language Models (MLLMs)가 겪는 주요 문제들을 해결하기 위해 제안된 새로운 프레임워크입니다. 이 모델은 텍스트의 수치 데이터 표현 부족, 반복적인 응답 템플릿, 텍스트 가이드 없는 비디오 샘플링으로 인한 시각 정보 손실 문제를 해결합니다. DTOS는 Text-guided Clip Sampler (TCS)가 사용자 지시에 따라 관련 비디오 클립을 선택하고, Text-guided Clip Detector (TCD)가 해당 클립 내 타겟을 정밀하게 탐지하는 2단계 구조로 동작합니다. 특히, 이벤트 경계와 객체 좌표를 직접 회귀(regression)하는 특수 토큰을 도입하여 수치적 정확도를 높이고 다중 타겟을 효과적으로 처리합니다. 이 접근법은 RVOS 및 Moment Retrieval 벤치마크에서 SOTA 성능을 달성했습니다. 논문 제목: DTOS: Dynamic Time Object Sensing with Large Multimodal Model

Multimodal LLMInstruction Tuning

mPLUG-Owl: 모듈화로 멀티모달리티를 구현한 Large Language Model

mPLUG-Owl은 foundation LLM, visual knowledge module, visual abstractor module의 모듈화된 학습을 통해 LLM에 멀티모달 능력을 부여하는 새로운 학습 패러다임입니다. 이 접근법은 2단계 학습을 통해 이미지와 텍스트를 정렬하며, 1단계에서는 LLM을 고정한 채 visual module들을 학습시키고, 2단계에서는 LoRA를 사용하여 LLM과 abstractor module을 공동으로 미세 조정합니다. 이를 통해 mPLUG-Owl은 강력한 지시 이해, 시각 이해, 다중 턴 대화 및 추론 능력을 보여줍니다. 논문 제목: mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality