논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

multi-modal learning

1개의 포스트

2025. 7. 14.
video understandingmulti-modal learning

QUAG: 쿼리 중심 오디오-비주얼 인지 네트워크를 통한 비디오 분석

이 논문은 사용자의 선호도에 맞는 비디오 콘텐츠를 깊이 있게 이해하기 위해, 얕은 수준에서 깊은 수준으로 처리하는 원칙에 기반한 QUAG(Query-centric Audio-Visual Cognition) 네트워크를 제안합니다. QUAG는 시각 및 오디오 모달리티 간의 전역적 Contrastive 정렬과 지역적 상호작용을 모델링하는 MSP(Modality-Synergistic Perception)와, 쿼리를 사용하여 오디오-비주얼 표현에서 중요한 정보를 필터링하는 QC²(Query-centric Cognition)를 통해 모멘트 검색, 분할, 및 스텝 캡셔닝 작업을 수행하는 신뢰도 높은 다중 모달 표현을 구축합니다. 논문 제목: Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning

모든 태그 보기

© 2025 junhan.blog