논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Point Supervision

1개의 포스트

2025. 9. 9.
Video Moment RetrievalPoint Supervision

ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval

ADTC는 단일 프레임만 주석으로 사용하는 point-supervised Video Moment Retrieval (VMR) 작업을 위한 새로운 프레임워크입니다. 기존 방법들이 cross-modal 의미 정렬과 영상의 전역적 구조를 제대로 활용하지 못하는 문제를 해결하기 위해, ADTC는 지역적(local) 트리와 전역적(global) 트리를 통합하는 이중 단계 트리 아키텍처를 제안합니다. 이 모델은 프레임 클러스터링과 장면 분할을 통해 영상의 구조적 특성을 파악하고, 이를 기반으로 적응형 병합 및 가지치기(pruning) 전략을 사용하여 트리를 최적화합니다. 그 결과, Charades-STA 및 ActivityNet Captions 데이터셋에서 기존 point-supervised 방식들을 뛰어넘는 최고 수준의 성능을 달성했으며, 주석 비용을 크게 줄이면서도 일부 완전 지도 학습(fully supervised) 방법보다 우수한 성능을 보입니다. 논문 제목: ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval

모든 태그 보기

© 2025 junhan.blog