LLaVA-OneVision: 이미지와 비디오를 넘나드는 손쉬운 시각 과제 전이
LLaVA-OneVision은 단일 모델로 단일 이미지, 다중 이미지, 비디오라는 세 가지 주요 컴퓨터 비전 시나리오에서 동시에 최고의 성능을 보이는 오픈소스 대규모 멀티모달 모델(LMM)입니다. 이 모델의 핵심은 서로 다른 양식(modality)과 시나리오 간의 강력한 transfer learning을 가능하게 하는 설계에 있으며, 특히 이미지에서 비디오로의 과제 전이(task transfer)를 통해 뛰어난 비디오 이해 능력과 같은 새로운 창발적 능력(emerging capabilities)을 보여줍니다. 논문 제목: LLaVA-OneVision: Easy Visual Task Transfer