InternVideo2: 멀티모달 비디오 이해를 위한 파운데이션 모델 스케일링
새로운 비디오 파운데이션 모델(ViFM) 제품군인 InternVideo2를 소개합니다. 이 모델은 Masked video modeling, Cross-modal contrastive learning, Next token prediction을 통합하는 점진적 학습 접근 방식을 통해 비디오, 비디오-텍스트, 비디오 중심 대화 작업에서 최고의 성능을 달성합니다. 6B 파라미터까지 확장된 이 모델은 의미적으로 분할된 비디오와 비디오-오디오-음성 캡션을 사용하여 시공간적 일관성을 우선시하고 비디오와 텍스트 간의 정렬을 개선합니다. 논문 제목: InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
- Date