Video MLLM

1개의 포스트

2025. 7. 14.

InternVideo2.5: 긴밀하고 풍부한 컨텍스트 모델링으로 비디오 MLLM 역량 강화

본 논문은 길고 풍부한 컨텍스트(Long and Rich Context, LRC) 모델링을 통해 비디오 멀티모달 대형 언어 모델(MLLM)의 성능을 향상시키는 InternVideo2.5를 소개합니다. 이 모델은 Direct Preference Optimization을 사용하여 밀도 높은 비전 과제 주석을 통합하고, 적응형 계층적 토큰 압축을 통해 시공간 표현을 최적화하여 비디오의 미세한 디테일 인식 및 장기적인 시간 구조 포착 능력을 강화합니다. 이를 통해 기존 모델보다 6배 더 긴 비디오 입력을 처리하고 객체 추적과 같은 전문적인 비전 기능을 수행할 수 있습니다. 논문 제목: InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

모든 태그 보기