전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 13 페이지)

HiPpo-Video: LLM을 이용한 시청 기록 시뮬레이션 기반 개인화 비디오 하이라이트
·
#Personalized Video Highlighting#LLM User Simulation

HiPpo-Video: LLM을 이용한 시청 기록 시뮬레이션 기반 개인화 비디오 하이라이트

본 논문은 사용자의 시청 기록을 활용하여 개인화된 비디오 하이라이트를 생성하는 새로운 접근법을 제시합니다. 개인화 데이터셋의 부재를 해결하기 위해, LLM 기반 사용자 시뮬레이터를 사용하여 다양한 선호도를 반영한 현실적인 시청 기록을 생성하는 대규모 데이터셋 HiPpo-Video를 구축했습니다. 또한, 이 데이터셋을 활용하여 사용자의 시청 기록으로부터 선호도를 모델링하고, 이를 기반으로 비디오 세그먼트별 saliency score를 예측하는 HiPHer 모델을 제안합니다. 실험 결과, HiPHer는 기존의 일반적인 방법이나 텍스트 쿼리 기반의 방법들보다 뛰어난 성능을 보이며, 상세한 사용자 기록을 활용하는 것이 효과적인 개인화 비디오 콘텐츠 제공에 중요함을 입증합니다. 논문 제목: HiPpo-Video : Simulating Watch Histories with Large Language Models for Personalized Video Highlighting

Dynamic Multimodal Fusion (DynMM): 데이터에 따라 동적으로 연산을 조절하는 Multimodal Fusion
·
#Dynamic Neural Network#Multimodal Fusion

Dynamic Multimodal Fusion (DynMM): 데이터에 따라 동적으로 연산을 조절하는 Multimodal Fusion

기존의 정적인 Multimodal fusion 방식과 달리, Dynamic Multimodal Fusion (DynMM)은 입력 데이터의 특성에 따라 동적으로 연산 경로를 결정하여 Multimodal 데이터를 융합하는 새로운 접근법입니다. DynMM은 Gating function을 사용하여 modality-level 또는 fusion-level에서 결정을 내리고, resource-aware loss function을 통해 연산 효율성을 최적화합니다. 이를 통해 "쉬운" 데이터에 대해서는 연산량을 줄이고, "어려운" 데이터에 대해서는 모든 정보를 활용하여 높은 성능을 유지합니다. 논문 제목: Dynamic Multimodal Fusion

Slot Attention: 경쟁적 Attention 메커니즘을 통한 객체 중심 표현 학습
·
#Object-Centric Learning#Slot Attention

Slot Attention: 경쟁적 Attention 메커니즘을 통한 객체 중심 표현 학습

Slot Attention은 CNN과 같은 perceptual representation을 입력받아, slots이라 불리는 task-dependent한 추상적 표현 집합을 생성하는 모듈입니다. 이 slots들은 여러 라운드에 걸친 경쟁적인 attention 절차를 통해 입력 내의 객체에 바인딩됩니다. 이를 통해 비지도 객체 발견 및 지도 속성 예측과 같은 task에서 보지 못한 구성에 대한 일반화가 가능한 객체 중심 표현을 추출할 수 있습니다. 논문 제목: Object-Centric Learning with Slot Attention

PMI: 비디오의 Temporal Sentence Localization 및 Event Captioning을 위한 Modality Interaction 학습
·
#Modality Interaction#Temporal Sentence Localization

PMI: 비디오의 Temporal Sentence Localization 및 Event Captioning을 위한 Modality Interaction 학습

본 논문은 비디오 내 여러 modality (visual, motion, audio 등) 간의 상호작용을 학습하여 상보적인 정보를 효과적으로 활용하는 새로운 방법인 Pairwise Modality Interaction (PMI)을 제안합니다. PMI는 modality 쌍 간의 sequence-level 및 channel-level 상호작용을 명시적으로 모델링하여 Temporal Sentence Localization 및 Event Captioning 두 가지 태스크의 성능을 크게 향상시킵니다. 이 모델은 각 modality 쌍의 상호작용 결과를 중요도에 따라 가중합하여 최종 비디오 representation을 생성하며, 이는 예측에 대한 설명 가능성도 제공합니다. 논문 제목: Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

Curriculum-Listener: 일관성과 상보성을 고려한 오디오 강화 Temporal Sentence Grounding
·
#Temporal Sentence Grounding#Audio-visual Learning

Curriculum-Listener: 일관성과 상보성을 고려한 오디오 강화 Temporal Sentence Grounding

본 논문은 자연어 쿼리를 통해 비디오의 특정 순간을 찾는 Temporal Sentence Grounding (TSG) 작업을 위해 오디오 정보를 효과적으로 활용하는 Adaptive Dual-branch Promoted Network (ADPN)를 제안합니다. ADPN은 visual-only 브랜치와 audio-visual 브랜치를 함께 학습하여 모달리티 간 간섭을 줄이고, 텍스트 의미를 가이드로 오디오와 비전의 일관성 및 상보성을 탐색하는 Text-Guided Clues Miner (TGCM)을 도입합니다. 또한, 자체 인식 방식으로 샘플의 난이도를 평가하여 노이즈를 줄이는 curriculum learning 기반 최적화 전략을 사용하여 오디오 정보 활용 성능을 극대화합니다. 논문 제목: Curriculum-Listener: Consistency- and Complementarity-Aware Audio-Enhanced Temporal Sentence Grounding

TVR: 비디오와 자막을 함께 이해하는 순간 검색을 위한 대규모 데이터셋
·
#Multimodal Retrieval#Video Moment Retrieval

TVR: 비디오와 자막을 함께 이해하는 순간 검색을 위한 대규모 데이터셋

TVR (TV show Retrieval)은 비디오의 시각적 내용과 자막 텍스트를 모두 이해해야 하는 새로운 멀티모달 순간 검색 데이터셋입니다. 이 논문은 6개 TV 쇼의 21.8K 비디오에 대한 109K 개의 쿼리를 포함하며, 각 쿼리는 정확한 시간 정보와 연결됩니다. 또한, Cross-modal Moment Localization (XML)이라는 새로운 모델을 제안하여, late fusion 방식과 Convolutional Start-End (ConvSE) detector를 통해 기존의 베이스라인 모델들보다 훨씬 높은 성능과 효율성을 보여줍니다. 논문 제목: TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval

RGTR: 쿼리 다양화를 통한 Temporal Sentence Grounding Transformer
·
#Temporal Sentence Grounding#Transformer

RGTR: 쿼리 다양화를 통한 Temporal Sentence Grounding Transformer

기존 DETR 기반의 Temporal Sentence Grounding 모델들은 중복되고 불필요한 proposal을 생성하는 문제를 겪습니다. 이를 해결하기 위해 제안된 Region-Guided Transformer (RGTR)는 학습 가능한 쿼리 대신 명시적인 지역적 가이드를 제공하는 anchor pair를 moment query로 사용하여 쿼리 다양성을 높이고 중복 proposal을 제거합니다. 각 moment query는 특정 시간 영역의 예측을 담당하여 최적화의 어려움을 줄이고 proposal의 다양성을 보장합니다. 또한, IoU-aware scoring head를 도입하여 proposal의 품질을 향상시킵니다. 논문 제목: Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding

DETRDistill: DETR 계열을 위한 범용 Knowledge Distillation 프레임워크
·
#DETR#Knowledge Distillation

DETRDistill: DETR 계열을 위한 범용 Knowledge Distillation 프레임워크

DETRDistill은 Transformer 기반 detector (DETR) 계열을 위해 특별히 설계된 새로운 Knowledge Distillation (KD) 프레임워크입니다. 기존 KD 방법들이 DETR의 집합 예측 (set prediction) 방식에 적용하기 어려운 문제를 해결하기 위해, 이 논문은 세 가지 주요 구성 요소를 제안합니다: (1) Hungarian-matching logits distillation은 student 모델이 teacher 모델의 예측과 정확히 일치하도록 유도합니다. (2) Target-aware feature distillation은 student가 teacher의 객체 중심적 (object-centric) feature로부터 학습하도록 돕습니다. (3) Query-prior assignment distillation은 잘 학습된 teacher의 query와 안정적인 할당(assignment) 정보를 활용하여 student 모델의 수렴 속도를 높입니다. 이 프레임워크는 COCO 데이터셋에서 다양한 DETR 모델의 성능을 크게 향상시키며, 때로는 teacher 모델을 능가하는 결과를 보여줍니다. 논문 제목: DETRDistill: A Universal Knowledge Distillation Framework for DETR-families

CHAPVIDMR: 자연어 쿼리를 이용한 챕터 기반 비디오 순간 검색
·
#Video Moment Retrieval#Multimodal

CHAPVIDMR: 자연어 쿼리를 이용한 챕터 기반 비디오 순간 검색

Video Moment Retrieval (VMR)은 쿼리와 비디오의 특정 순간을 연결하는 기술입니다. 본 논문에서는 YouTube 비디오의 챕터 정보를 활용하여 단일 쿼리에 여러 비디오 순간을 연결하는 새로운 데이터셋인 ChapVidMR (Chapter-based Video Moment Retrieval)을 제안합니다. ChapVidMR은 챕터 이름과 메타데이터를 기반으로 GPT4를 사용하여 생성된 10.8K개의 사용자 쿼리로 구성됩니다. 이 데이터셋을 사용하여 두 가지 VMR 작업, 즉 챕터 분류 기반 VMR과 세분화 기반 VMR에 대한 벤치마크를 제공합니다. 실험 결과, 챕터 분류 작업에서는 Sentence-BERT가, 세분화 작업에서는 UniVTG가 가장 높은 성능을 보였습니다. 논문 제목: CHAPVIDMR: Chapter-based Video Moment Retrieval using Natural Language Queries

ELIP: 이미지 검색 성능을 향상시키는 시각-언어 기반 모델
·
#Image Retrieval#Visual-Language Model

ELIP: 이미지 검색 성능을 향상시키는 시각-언어 기반 모델

ELIP (Enhanced Language-Image Pre-training)은 대규모 사전 학습 시각-언어 모델의 텍스트-이미지 검색 성능을 향상시키기 위한 새로운 프레임워크입니다. 이 접근법은 텍스트 쿼리를 사용하여 ViT 이미지 인코딩을 조건화하는 시각적 프롬프트 세트를 예측하며, 기존의 CLIP, SigLIP, BLIP-2와 같은 모델에 쉽게 적용할 수 있는 경량 아키텍처를 특징으로 합니다. ELIP은 제한된 컴퓨팅 자원으로 효율적인 학습이 가능하도록 데이터 큐레이션 전략을 제안하며, 텍스트-이미지 재순위화(re-ranking) 단계에서 성능을 크게 향상시켜 기존 모델들을 능가하는 결과를 보여줍니다. 논문 제목: ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval