전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 102개 / 1 페이지)

MS-DETR: Joint Motion-Semantic Learning을 통한 효과적인 비디오 모멘트 검색 및 하이라이트 탐지
·
#Video Moment Retrieval#Highlight Detection

MS-DETR: Joint Motion-Semantic Learning을 통한 효과적인 비디오 모멘트 검색 및 하이라이트 탐지

MS-DETR은 텍스트 쿼리를 기반으로 비디오의 특정 순간을 찾아내는 Video Moment Retrieval (MR)과 클립별 관련성을 평가하는 Highlight Detection (HD) 작업을 위한 통합 프레임워크입니다. 이 모델은 비디오 콘텐츠 내의 시간적 움직임(temporal motion)과 공간적 의미(spatial semantics) 사이의 복잡한 관계를 효과적으로 활용합니다. MS-DETR은 Motion-Semantics Disentangled Encoder (MSDE)를 통해 움직임과 의미론 차원을 분리하여 모델링하고, Mutual Task-Collaborated Decoder (MTCD)를 사용하여 MR과 HD 작업 간의 상호 시너지를 극대화합니다. 또한, 데이터셋의 희소성 문제를 해결하기 위해 데이터 생성 전략과 Contrastive Denoising Learning을 제안하여 모델이 더 견고하게 학습하도록 합니다. 논문 제목: MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning

CDTR: Concept Decomposition Transformer를 이용한 비디오 순간 검색을 위한 Semantic Alignment
·
#Video Moment Retrieval#Transformer

CDTR: Concept Decomposition Transformer를 이용한 비디오 순간 검색을 위한 Semantic Alignment

CDTR (Concept Decomposition Transformer)은 자연어 쿼리를 기반으로 비디오 내 특정 순간을 찾는 Video Moment Retrieval (VMR) 작업을 위한 새로운 모델입니다. 이 모델은 비디오와 텍스트 쿼리를 독립적인 concept 표현으로 분해하는 semantic concept decomposition module을 도입하여, cross-modal 매칭에 중요한 세분화된 의미(fine-grained semantics)를 포착합니다. 분해된 concept 표현을 pseudo-label로 사용하여 비디오 내부 및 텍스트-비디오 간의 fine-grained concept alignment를 수행함으로써, 미묘한 의미적 차이를 구별하는 모델의 능력을 향상시키고 semantic overlap 및 sparse constraints와 같은 기존의 문제들을 완화합니다. 논문 제목: CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer

Sparse-Dense Side-Tuner: 효율적인 Video Temporal Grounding을 위한 모델
·
#Video Temporal Grounding#Side-Tuning

Sparse-Dense Side-Tuner: 효율적인 Video Temporal Grounding을 위한 모델

SDST(Sparse-Dense Side-Tuner)는 텍스트 쿼리를 기반으로 비디오 내 특정 구간을 찾는 Video Temporal Grounding (VTG) 작업을 효율적으로 수행하기 위한 새로운 anchor-free side-tuning 아키텍처입니다. 이 모델은 Moment Retrieval (MR)의 희소한(sparse) 특성과 Highlight Detection (HD)의 조밀한(dense) 특성을 동시에 처리하기 위해 이중 스트림(dual-stream) 구조를 사용합니다. 또한, 기존 anchor-free 방식의 한계인 deformable attention의 context 부족 문제를 해결하기 위해 새로운 Reference-based Deformable Self-Attention (RDSA) 메커니즘을 제안합니다. InternVideo2 백본을 side-tuning 프레임워크에 효과적으로 통합하여 기존 SOTA 모델 대비 파라미터 수를 크게 줄이면서도 높은 성능을 달성했습니다. 논문 제목: Sparse-Dense Side-Tuner for efficient Video Temporal Grounding

DTOS: 대규모 멀티모달 모델을 활용한 동적 시간 객체 감지
·
#Referring Video Object Segmentation#Multimodal LLM

DTOS: 대규모 멀티모달 모델을 활용한 동적 시간 객체 감지

DTOS는 Referring Video Object Segmentation (RVOS) 분야에서 기존 Multimodal Large Language Models (MLLMs)가 겪는 주요 문제들을 해결하기 위해 제안된 새로운 프레임워크입니다. 이 모델은 텍스트의 수치 데이터 표현 부족, 반복적인 응답 템플릿, 텍스트 가이드 없는 비디오 샘플링으로 인한 시각 정보 손실 문제를 해결합니다. DTOS는 Text-guided Clip Sampler (TCS)가 사용자 지시에 따라 관련 비디오 클립을 선택하고, Text-guided Clip Detector (TCD)가 해당 클립 내 타겟을 정밀하게 탐지하는 2단계 구조로 동작합니다. 특히, 이벤트 경계와 객체 좌표를 직접 회귀(regression)하는 특수 토큰을 도입하여 수치적 정확도를 높이고 다중 타겟을 효과적으로 처리합니다. 이 접근법은 RVOS 및 Moment Retrieval 벤치마크에서 SOTA 성능을 달성했습니다. 논문 제목: DTOS: Dynamic Time Object Sensing with Large Multimodal Model

A²FA & F²SGD: 앵커 프레임과 2D 유사도 공간을 활용한 Video Moment Retrieval
·
#Video Moment Retrieval#Feature Alignment

A²FA & F²SGD: 앵커 프레임과 2D 유사도 공간을 활용한 Video Moment Retrieval

본 논문은 Video Moment Retrieval (VMR) 작업의 두 가지 주요 과제인 쿼리와 비디오 프레임 간의 정확한 정렬 및 시간 경계 예측을 해결하기 위한 새로운 프레임워크를 제안합니다. 제안된 A²FA (Anchor-Aware Feature Alignment)는 VLM을 통해 쿼리와 가장 관련성이 높은 '앵커 프레임'을 식별하고, 이를 중심으로 의미적으로 응집된 세그먼트를 구성하여 관련 프레임에 대한 쿼리 정렬을 유도합니다. 이 과정을 통해 관련 프레임 간의 유사도가 높아지며, F²SGD (Frame-Frame Similarity Guided Detection)는 이를 활용해 시간 경계 예측 문제를 2D 유사도 공간에서의 단일 지점 탐지 문제로 변환합니다. 이 접근 방식은 프레임 의미와 시간 경계 간의 정보 격차를 효과적으로 해소하여 기존 방법론들보다 뛰어난 성능을 달성합니다. 논문 제목: Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2D

ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval
·
#Video Moment Retrieval#Point Supervision

ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval

ADTC는 단일 프레임만 주석으로 사용하는 point-supervised Video Moment Retrieval (VMR) 작업을 위한 새로운 프레임워크입니다. 기존 방법들이 cross-modal 의미 정렬과 영상의 전역적 구조를 제대로 활용하지 못하는 문제를 해결하기 위해, ADTC는 지역적(local) 트리와 전역적(global) 트리를 통합하는 이중 단계 트리 아키텍처를 제안합니다. 이 모델은 프레임 클러스터링과 장면 분할을 통해 영상의 구조적 특성을 파악하고, 이를 기반으로 적응형 병합 및 가지치기(pruning) 전략을 사용하여 트리를 최적화합니다. 그 결과, Charades-STA 및 ActivityNet Captions 데이터셋에서 기존 point-supervised 방식들을 뛰어넘는 최고 수준의 성능을 달성했으며, 주석 비용을 크게 줄이면서도 일부 완전 지도 학습(fully supervised) 방법보다 우수한 성능을 보입니다. 논문 제목: ADTC: Adaptive Dual-stage Tree Construction for Point-Supervised Video Moment Retrieval

Mirasol3B: 시간 동기화 및 컨텍스트 모달리티를 위한 멀티모달 Autoregressive 모델
·
#Multimodal Model#Autoregressive Model

Mirasol3B: 시간 동기화 및 컨텍스트 모달리티를 위한 멀티모달 Autoregressive 모델

Mirasol3B는 비디오, 오디오, 텍스트와 같은 이종 모달리티를 효과적으로 결합하는 멀티모달 autoregressive 모델입니다. 이 모델의 핵심은 autoregressive 모델링을 시간적으로 동기화된 비디오/오디오와, 시간적으로 비동기화된 컨텍스트(텍스트) 모달리티로 분리한 것입니다. 긴 시퀀스를 효율적으로 처리하기 위해 미디어 입력을 연속적인 스니펫으로 분할하고, Combiner 메커니즘을 통해 오디오-비디오 정보를 공동으로 모델링하여 압축적이면서도 표현력 있는 representation을 생성합니다. 이 접근법을 통해 모델 파라미터 증가 없이 512 프레임의 긴 비디오까지 확장할 수 있으며, 여러 멀티모달 벤치마크에서 SOTA 성능을 달성합니다. 논문 제목: Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities

TIM: 오디오-비주얼 행동 인식을 위한 시간 간격 머신
·
#Audio-Visual Action Recognition#Time Interval Query

TIM: 오디오-비주얼 행동 인식을 위한 시간 간격 머신

이 논문은 긴 비디오에서 오디오와 시각적 신호를 모두 활용하여 행동을 인식하는 새로운 모델, Time Interval Machine (TIM)을 제안합니다. TIM은 특정 모달리티(오디오 또는 비디오)의 시간 간격(time interval)을 쿼리로 사용하여 transformer encoder가 긴 비디오 입력을 처리하도록 합니다. 이 방식은 지정된 시간 간격뿐만 아니라 주변의 문맥 정보까지 양쪽 모달리티에서 모두 고려하여 진행 중인 행동을 정확하게 인식할 수 있게 합니다. TIM은 EPIC-KITCHENS, Perception Test, AVE와 같은 여러 데이터셋에서 최첨단(SOTA) 성능을 달성했으며, 행동 탐지(action detection) 작업에도 적용될 수 있음을 보여줍니다. 논문 제목: TIM: A Time Interval Machine for Audio-Visual Action Recognition

EPIC-SOUNDS: 소리로 행동을 인식하는 대규모 데이터셋
·
#Audio Recognition#Audio Dataset

EPIC-SOUNDS: 소리로 행동을 인식하는 대규모 데이터셋

본 논문은 egocentric 비디오의 오디오 스트림 내에서 시간적 범위와 클래스 레이블을 포착하는 대규모 오디오 주석 데이터셋인 EPIC-SOUNDS를 소개합니다. 이 데이터셋은 시각적 이벤트와 청각적 이벤트가 시간적으로나 의미적으로 항상 일치하지 않는다는 문제의식에서 출발하여, 오디오에만 집중한 새로운 주석을 제공합니다. EPIC-SOUNDS는 44개의 클래스에 걸쳐 78.4k개의 분류된 오디오 이벤트 세그먼트를 포함하며, 특히 물체가 충돌할 때 발생하는 소리를 기반으로 해당 물체의 재질(예: 유리, 나무)까지 주석으로 달아 세밀함을 더했습니다. 이 데이터셋을 활용하여 최신 오디오 인식(audio recognition) 및 탐지(detection) 모델의 성능을 평가하고, 소리가 나는 행동을 이해하는 현재 모델의 한계와 가능성을 분석합니다. 논문 제목: EPIC-SOUNDS: A Large-Scale Dataset of Actions that Sound

Selective Contrastive Learning for Weakly Supervised Affordance Grounding
·
#Affordance Grounding#Contrastive Learning

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Weakly Supervised Affordance Grounding (WSAG)은 픽셀 단위의 레이블 없이 3인칭 시점의 예시로부터 객체의 특정 행동이 가능한 부분을 찾는 것을 목표로 합니다. 기존 모델들은 affordance와 무관한, 클래스별 공통 패턴에 집중하는 경향이 있었습니다. 이 한계를 극복하기 위해 본 논문은 Selective Contrastive Learning을 제안합니다. 이 방법은 선택적인 prototypical 및 pixel contrastive learning 목표를 도입하여, 파트(part)와 객체(object) 수준 모두에서 affordance와 관련된 단서를 적응적으로 학습합니다. CLIP을 활용하여 행동과 연관된 객체를 찾고, 두 시점의 정보를 상호 참조하여 정확한 파트 수준의 affordance 단서를 발굴합니다. 이를 통해 모델이 affordance와 관련된 영역과 관련 없는 배경을 구별하도록 학습시켜, 활성화를 의미 있는 단서로 효과적으로 이동시킵니다. 논문 제목: Selective Contrastive Learning for Weakly Supervised Affordance Grounding