InternVideo: 생성 및 판별 학습을 통한 일반 비디오 파운데이션 모델
InternVideo는 생성적(generative) 및 판별적(discriminative) 자기지도 비디오 학습을 활용하여 범용 비디오 파운데이션 모델을 제시합니다. 이 모델은 masked video modeling과 video-language contrastive learning을 사전 학습 목표로 삼아 두 프레임워크의 비디오 표현을 학습 가능한 방식으로 조정하여 다양한 비디오 애플리케이션의 성능을 향상시킵니다. InternVideo는 비디오 액션 인식, 비디오-언어 정렬 등 39개의 비디오 데이터셋에서 최고의 성능을 달성하여 비디오 이해를 위한 일반성을 입증했습니다. 논문 제목: InternVideo: General Video Foundation Models via Generative and Discriminative Learning
- Date