LMM

2개의 포스트

2025. 10. 22.

LLaVA-OneVision: 이미지와 비디오를 넘나드는 손쉬운 시각 과제 전이

LLaVA-OneVision은 단일 모델로 단일 이미지, 다중 이미지, 비디오라는 세 가지 주요 컴퓨터 비전 시나리오에서 동시에 최고의 성능을 보이는 오픈소스 대규모 멀티모달 모델(LMM)입니다. 이 모델의 핵심은 서로 다른 양식(modality)과 시나리오 간의 강력한 transfer learning을 가능하게 하는 설계에 있으며, 특히 이미지에서 비디오로의 과제 전이(task transfer)를 통해 뛰어난 비디오 이해 능력과 같은 새로운 창발적 능력(emerging capabilities)을 보여줍니다. 논문 제목: LLaVA-OneVision: Easy Visual Task Transfer

2025. 7. 29.

LMMInstruction Tuning

LLaVA: Visual Instruction Tuning을 통한 범용 시각 보조 모델

LLaVA는 대규모 언어 모델(LLM)에 시각적 이해 능력을 부여하는 Visual Instruction Tuning을 제안하는 논문입니다. 언어 전용 GPT-4를 활용해 멀티모달 지시-따름(instruction-following) 데이터를 생성하고, 이를 통해 사전 학습된 Vision Encoder(CLIP)와 LLM(Vicuna)을 연결하여 종단간(end-to-end) 학습을 수행합니다. 그 결과 LLaVA는 별도의 학습 없이도 새로운 이미지와 지시에 대해 GPT-4와 유사한 멀티모달 채팅 능력을 보이며, Science QA 벤치마크에서는 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: Visual Instruction Tuning

모든 태그 보기