전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 10 페이지)

Partially Relevant Video Retrieval
·
#Video-Text Retrieval#Multiple Instance Learning

Partially Relevant Video Retrieval

기존의 Text-to-Video Retrieval (T2VR)은 전체 비디오가 텍스트 쿼리와 완전히 관련이 있다고 가정하지만, 현실에서는 긴 비디오의 특정 순간만이 쿼리와 관련될 수 있습니다. 이 논문은 이러한 문제를 해결하기 위해 새로운 태스크인 Partially Relevant Video Retrieval (PRVR)을 제안합니다. PRVR은 텍스트 쿼리와 관련된 순간을 포함하는 긴 비디오(untrimmed video)를 검색하는 것을 목표로 합니다. 이를 위해, 비디오를 클립과 프레임의 집합으로 간주하는 Multiple Instance Learning (MIL) 문제로 정의하고, coarse-to-fine 방식으로 유사도를 학습하는 Multi-Scale Similarity Learning (MS-SL) 네트워크를 제안합니다. MS-SL은 먼저 쿼리와 가장 관련성이 높은 핵심 클립을 찾고, 이를 가이드 삼아 프레임 단위의 세밀한 중요도를 측정하여 최종적으로 비디오-텍스트 유사도를 계산합니다. 논문 제목: Partially Relevant Video Retrieval

DL-DKD: 동적 지식 증류와 듀얼 러닝을 통한 부분 관련 비디오 검색
·
#Knowledge Distillation#Video Retrieval

DL-DKD: 동적 지식 증류와 듀얼 러닝을 통한 부분 관련 비디오 검색

이 논문은 편집되지 않은 긴 비디오에서 텍스트 쿼리와 부분적으로 관련된 내용을 검색하는 PRVR(Partially Relevant Video Retrieval) 문제를 해결합니다. 이를 위해 DL-DKD (Dual Learning with Dynamic Knowledge Distillation)라는 새로운 프레임워크를 제안합니다. DL-DKD는 CLIP과 같은 대규모 vision-language 모델(teacher)의 지식을 PRVR 전용 모델(student)에 전달하는 knowledge distillation 방식을 사용합니다. 특히, student 모델은 teacher의 지식을 흡수하는 inheritance branch와 데이터셋 고유의 특성을 학습하는 exploration branch로 구성된 듀얼 구조를 가집니다. 또한, 훈련 과정에서 두 branch의 학습 비중을 동적으로 조절하는 dynamic knowledge distillation 전략을 통해 teacher 모델의 domain gap 문제를 완화하고, ActivityNet 및 TVR 데이터셋에서 SOTA 성능을 달성합니다. 논문 제목: Dual Learning with Dynamic Knowledge Distillation for Partially Relevant Video Retrieval

VGCI: 글로벌 단서 추론을 통한 약한 지도 비디오 모멘트 검색
·
#Video Moment Retrieval#Variational Inference

VGCI: 글로벌 단서 추론을 통한 약한 지도 비디오 모멘트 검색

Weakly supervised video moment retrieval task에서 기존 mask reconstruction 기반 방법들은 불완전한 정보로 인해 재구성에 혼란을 겪는 문제가 있습니다. VGCI (Variational Global Clue Inference)는 비디오에 해당하는 전체 쿼리 집합으로부터 "global clue"를 모델링하여 이 문제를 해결합니다. 이 global clue를 Gaussian latent variable로 모델링하여 정보 유출 및 노이즈 문제를 방지하고, variational inference를 통해 재구성 과정에 명확한 가이드를 제공합니다. 결과적으로, 모델은 더 정확하고 안정적으로 비디오-쿼리 정렬을 학습하여 비디오 모멘트 검색 성능을 향상시킵니다. 논문 제목: Variational global clue inference for weakly supervised video moment retrieval

What and Where: Moment Retrieval 및 Highlight Detection을 위한 Semantic Grasping과 Contextual Scanning
·
#Moment Retrieval#Highlight Detection

What and Where: Moment Retrieval 및 Highlight Detection을 위한 Semantic Grasping과 Contextual Scanning

본 논문은 moment retrieval (MR) 및 highlight detection (HD) 작업의 두 가지 주요 문제점, 즉 약하게 정렬된 multimodal feature와 인접 클립 간의 불분명한 구분을 해결하기 위해 "what and where"라는 점진적 프레임워크를 제안합니다. "what" 단계에서는 Initial Semantic Projection (ISP) loss를 통해 서로 다른 modal feature를 명시적으로 정렬하고, Clip Semantic Mining 모듈을 사용하여 쿼리와의 의미적 관련성을 깊이 탐색합니다. "where" 단계에서는 Multi-Context Perception 모듈을 통해 모호한 clip-level 컨텍스트 대신 moment-level 컨텍스트(Event Context, Chronological Context)를 모델링하여 특징의 구별성을 강화합니다. 이 W2W 모델은 추가 사전 학습 없이 벤치마크 데이터셋에서 SOTA 성능을 달성했습니다. 논문 제목: What and Where: Semantic Grasping and Contextual Scanning for Moment Retrieval and Highlight Detection

Vid-Morp & ReCorrect: 레이블 없는 영상으로 Video Moment Retrieval 모델 사전학습하기
·
#Video Moment Retrieval#Pretraining

Vid-Morp & ReCorrect: 레이블 없는 영상으로 Video Moment Retrieval 모델 사전학습하기

Video Moment Retrieval (VMR)은 대규모 수동 레이블링에 크게 의존하는 문제에 직면해 있습니다. 이 논문은 레이블이 없는 실제 비디오를 활용하는 새로운 사전학습 패러다임을 제안합니다. 이를 위해, 최소한의 인간 개입으로 수집된 대규모 데이터셋 Vid-Morp를 구축하고, 이 데이터셋의 불완전한 의사 레이블(pseudo-annotations)이 가진 노이즈 문제를 해결하기 위해 ReCorrect 알고리즘을 제시합니다. ReCorrect는 semantics-guided refinement를 통해 부정확한 데이터를 정제하고, memory-consensus correction을 통해 점진적으로 시간적 경계를 교정합니다. 이 방법을 통해 사전학습된 모델은 zero-shot 및 unsupervised 환경에서도 높은 성능을 보여주며, VMR의 레이블링 비용 문제를 효과적으로 해결할 수 있는 가능성을 제시합니다. 논문 제목: Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild

HyperAux: Hyper-Interaction으로 보조 모멘트-쿼리 쌍을 생성하여 Video Moment Retrieval 성능 개선
·
#Video Moment Retrieval#Hypergraph Neural Network

HyperAux: Hyper-Interaction으로 보조 모멘트-쿼리 쌍을 생성하여 Video Moment Retrieval 성능 개선

기존 Video Moment Retrieval (VMR) 데이터셋은 주석이 부족한(sparse annotations) 문제를 겪고 있습니다. 이 논문은 HyperAux라는 새로운 방법을 제안하여, 비디오와 언어 간의 multi-modal hyper-interaction을 모델링함으로써 고품질의 보조 모멘트-쿼리 쌍(auxiliary moment-query pairs)을 생성합니다. HyperAux는 모멘트 내/외부 프레임과 쿼리를 포함한 여러 노드를 연결하는 hyperedge를 가진 hypergraph를 구성합니다. 이 hypergraph 상에서 Hypergraph Neural Network (HGNN)를 사용하여 문맥을 고려한 표현을 학습하고, 이를 통해 더 정확하게 고품질의 데이터를 선택하고 모멘트 경계를 조정합니다. 이 방법은 별도의 수동 주석 없이 학습 가능하며, 생성된 보조 데이터는 기존 VMR 모델들의 성능을 크게 향상시킵니다. 논문 제목: Improving Video Moment Retrieval by Auxiliary Moment-Query Pairs With Hyper-Interaction

Chrono: Multimodal LLM을 위한 간단한 시간 표현 청사진
·
#Temporal Localization#Video-Language Model

Chrono: Multimodal LLM을 위한 간단한 시간 표현 청사진

Chrono는 비디오-언어 Multimodal LLM (MLLM)이 시간 정보를 이해하도록 돕는 간단한 청사진을 제안합니다. 기존 모델들은 비디오 내 특정 순간을 찾는 시간적 위치 파악(temporal localization) 문제 해결을 위해 복잡한 아키텍처나 추가 모듈을 사용했습니다. 반면, Chrono는 비디오 프레임과 해당 프레임의 타임스탬프를 텍스트 토큰으로 변환하여 번갈아 입력하는 간단한 시퀀스 설계만으로 이 문제를 해결합니다. 이 접근법은 기존의 이미지-텍스트 MLLM에 쉽게 적용 가능하며, 복잡한 구조 변경 없이도 Charades-STA, QVHighlights 등 주요 벤치마크에서 SOTA 성능을 달성하여, 단순하고 의도적인 설계의 효과를 입증합니다. 논문 제목: Chrono : A Simple Blueprint for Representing Time in MLLMs

MS-DETR: Joint Motion-Semantic Learning을 통한 효과적인 비디오 모멘트 검색 및 하이라이트 탐지
·
#Video Moment Retrieval#Highlight Detection

MS-DETR: Joint Motion-Semantic Learning을 통한 효과적인 비디오 모멘트 검색 및 하이라이트 탐지

MS-DETR은 텍스트 쿼리를 기반으로 비디오의 특정 순간을 찾아내는 Video Moment Retrieval (MR)과 클립별 관련성을 평가하는 Highlight Detection (HD) 작업을 위한 통합 프레임워크입니다. 이 모델은 비디오 콘텐츠 내의 시간적 움직임(temporal motion)과 공간적 의미(spatial semantics) 사이의 복잡한 관계를 효과적으로 활용합니다. MS-DETR은 Motion-Semantics Disentangled Encoder (MSDE)를 통해 움직임과 의미론 차원을 분리하여 모델링하고, Mutual Task-Collaborated Decoder (MTCD)를 사용하여 MR과 HD 작업 간의 상호 시너지를 극대화합니다. 또한, 데이터셋의 희소성 문제를 해결하기 위해 데이터 생성 전략과 Contrastive Denoising Learning을 제안하여 모델이 더 견고하게 학습하도록 합니다. 논문 제목: MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning

CDTR: Concept Decomposition Transformer를 이용한 비디오 순간 검색을 위한 Semantic Alignment
·
#Video Moment Retrieval#Transformer

CDTR: Concept Decomposition Transformer를 이용한 비디오 순간 검색을 위한 Semantic Alignment

CDTR (Concept Decomposition Transformer)은 자연어 쿼리를 기반으로 비디오 내 특정 순간을 찾는 Video Moment Retrieval (VMR) 작업을 위한 새로운 모델입니다. 이 모델은 비디오와 텍스트 쿼리를 독립적인 concept 표현으로 분해하는 semantic concept decomposition module을 도입하여, cross-modal 매칭에 중요한 세분화된 의미(fine-grained semantics)를 포착합니다. 분해된 concept 표현을 pseudo-label로 사용하여 비디오 내부 및 텍스트-비디오 간의 fine-grained concept alignment를 수행함으로써, 미묘한 의미적 차이를 구별하는 모델의 능력을 향상시키고 semantic overlap 및 sparse constraints와 같은 기존의 문제들을 완화합니다. 논문 제목: CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer

Aggregate and Discriminate: Pseudo Clips를 활용한 Video Moment Retrieval 경계 인식
·
#Video Moment Retrieval#Pseudo Clips

Aggregate and Discriminate: Pseudo Clips를 활용한 Video Moment Retrieval 경계 인식

본 논문은 Video Moment Retrieval (VMR) 성능 향상을 위해, 쿼리와 관련성이 높거나 낮은 비디오 클립을 의미론적 가이드로 활용하는 점진적 프레임워크를 제안합니다. 이 방법은 먼저 쿼리와 가장 관련 있는 pseudo-positive 클립과 관련 없는 pseudo-negative 클립을 생성하여 비디오와 텍스트 간의 의미적 격차를 해소합니다. 이후 Pseudo Clips Guided Aggregation 모듈이 관련 클립들을 효과적으로 집계하고, Discriminative Boundary-Enhanced Decoder가 혼란스러운 경계 정보를 명확히 구분하여 목표 모멘트의 시작과 끝 타임스탬프를 정확하게 localize합니다. 논문 제목: Aggregate and Discriminate: Pseudo Clips-Guided Boundary Perception for Video Moment Retrieval