논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Highlight Detection

1개의 포스트

2025. 9. 10.
Video Moment RetrievalHighlight Detection

MS-DETR: Joint Motion-Semantic Learning을 통한 효과적인 비디오 모멘트 검색 및 하이라이트 탐지

MS-DETR은 텍스트 쿼리를 기반으로 비디오의 특정 순간을 찾아내는 Video Moment Retrieval (MR)과 클립별 관련성을 평가하는 Highlight Detection (HD) 작업을 위한 통합 프레임워크입니다. 이 모델은 비디오 콘텐츠 내의 시간적 움직임(temporal motion)과 공간적 의미(spatial semantics) 사이의 복잡한 관계를 효과적으로 활용합니다. MS-DETR은 Motion-Semantics Disentangled Encoder (MSDE)를 통해 움직임과 의미론 차원을 분리하여 모델링하고, Mutual Task-Collaborated Decoder (MTCD)를 사용하여 MR과 HD 작업 간의 상호 시너지를 극대화합니다. 또한, 데이터셋의 희소성 문제를 해결하기 위해 데이터 생성 전략과 Contrastive Denoising Learning을 제안하여 모델이 더 견고하게 학습하도록 합니다. 논문 제목: MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning

모든 태그 보기

© 2025 junhan.blog