논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

video foundation model

1개의 포스트

2025. 7. 14.
video foundation modelself-supervised learning

InternVideo: 생성 및 판별 학습을 통한 일반 비디오 파운데이션 모델

InternVideo는 생성적(generative) 및 판별적(discriminative) 자기지도 비디오 학습을 활용하여 범용 비디오 파운데이션 모델을 제시합니다. 이 모델은 masked video modeling과 video-language contrastive learning을 사전 학습 목표로 삼아 두 프레임워크의 비디오 표현을 학습 가능한 방식으로 조정하여 다양한 비디오 애플리케이션의 성능을 향상시킵니다. InternVideo는 비디오 액션 인식, 비디오-언어 정렬 등 39개의 비디오 데이터셋에서 최고의 성능을 달성하여 비디오 이해를 위한 일반성을 입증했습니다. 논문 제목: InternVideo: General Video Foundation Models via Generative and Discriminative Learning

모든 태그 보기

© 2025 junhan.blog