전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 103개 / 3 페이지)

LanguageBind: 언어 기반 의미 정렬을 통한 N-모달리티 사전학습 확장
·
#Multi-modal Learning#Language-based Alignment

LanguageBind: 언어 기반 의미 정렬을 통한 N-모달리티 사전학습 확장

LanguageBind는 기존의 Video-Language 사전학습을 비디오, 적외선, 깊이, 오디오 등 N개의 다중 모달리티로 확장하는 프레임워크입니다. 이 모델은 풍부한 의미 정보를 가진 언어를 중심으로 다른 모든 모달리티를 정렬시키는 language-based semantic alignment 방식을 제안합니다. 사전 학습된 언어 인코더를 고정한 채, 다른 모달리티 인코더들을 contrastive learning으로 학습시켜 모든 모달리티를 공유된 특징 공간(shared feature space)에 매핑합니다. 또한, 이 연구는 1,000만 개의 Video, Infrared, Depth, Audio 데이터와 그에 상응하는 언어 데이터로 구성된 고품질 데이터셋 VIDAL-10M을 함께 제안합니다. 이를 통해 LanguageBind는 15개의 다양한 벤치마크에서 뛰어난 성능을 보이며, 여러 모달리티 간의 간접적인 정렬과 상호 보완성을 효과적으로 달성했음을 입증합니다. 논문 제목: LanguageBind: Extending Video-Language Pretraining to N-modality by Languagebased Semantic Alignment

BLIP: 통합 Vision-Language 이해 및 생성을 위한 언어-이미지 부트스트래핑 사전학습
·
#Vision-Language Pre-training#Data Bootstrapping

BLIP: 통합 Vision-Language 이해 및 생성을 위한 언어-이미지 부트스트래핑 사전학습

BLIP은 Vision-Language 이해(understanding) 및 생성(generation) Task 모두에 유연하게 적용 가능한 새로운 Vision-Language Pre-training(VLP) 프레임워크입니다. BLIP은 Multimodal mixture of Encoder-Decoder(MED)라는 통합 아키텍처를 통해 다양한 Task를 지원하며, Captioning and Filtering(CapFilt)이라는 데이터 부트스트래핑(bootstrapping) 기법을 도입하여 노이즈가 많은 웹 데이터를 효과적으로 활용합니다. CapFilt는 Captioner를 통해 합성 캡션을 생성하고 Filter를 통해 노이즈 캡션을 제거하여 데이터 품질을 향상시킵니다. 그 결과, BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, VQA 등 광범위한 vision-language Task에서 SOTA를 달성했습니다. 논문 제목: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BEIT-3: 이미지를 외국어로 간주하여 Vision과 Language 작업을 통합한 범용 모델
·
#Multimodal Foundation Model#Masked Data Modeling

BEIT-3: 이미지를 외국어로 간주하여 Vision과 Language 작업을 통합한 범용 모델

BEIT-3는 언어, 비전, 멀티모달 사전학습의 통합을 목표로 하는 범용 멀티모달 foundation model이다. 이 모델의 핵심 아이디어는 이미지를 '외국어(Imglish)'로 간주하여, 이미지(Imglish), 텍스트(English), 그리고 이미지-텍스트 쌍("병렬 문장")에 대해 통합된 masked "language" modeling을 수행하는 것이다. Multiway Transformer라는 공유된 backbone 아키텍처를 기반으로, modality-specific 인코딩과 deep fusion을 모두 지원한다. 이 접근법을 통해 BEIT-3는 object detection, semantic segmentation과 같은 vision task부터 visual question answering, image captioning 등 vision-language task에 이르기까지 광범위한 벤치마크에서 최고 수준의 성능을 달성했다. 논문 제목: Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

HiPpo-Video: LLM을 이용한 시청 기록 시뮬레이션 기반 개인화 비디오 하이라이트
·
#Personalized Video Highlighting#LLM User Simulation

HiPpo-Video: LLM을 이용한 시청 기록 시뮬레이션 기반 개인화 비디오 하이라이트

본 논문은 사용자의 시청 기록을 활용하여 개인화된 비디오 하이라이트를 생성하는 새로운 접근법을 제시합니다. 개인화 데이터셋의 부재를 해결하기 위해, LLM 기반 사용자 시뮬레이터를 사용하여 다양한 선호도를 반영한 현실적인 시청 기록을 생성하는 대규모 데이터셋 HiPpo-Video를 구축했습니다. 또한, 이 데이터셋을 활용하여 사용자의 시청 기록으로부터 선호도를 모델링하고, 이를 기반으로 비디오 세그먼트별 saliency score를 예측하는 HiPHer 모델을 제안합니다. 실험 결과, HiPHer는 기존의 일반적인 방법이나 텍스트 쿼리 기반의 방법들보다 뛰어난 성능을 보이며, 상세한 사용자 기록을 활용하는 것이 효과적인 개인화 비디오 콘텐츠 제공에 중요함을 입증합니다. 논문 제목: HiPpo-Video : Simulating Watch Histories with Large Language Models for Personalized Video Highlighting

Dynamic Multimodal Fusion (DynMM): 데이터에 따라 동적으로 연산을 조절하는 Multimodal Fusion
·
#Dynamic Neural Network#Multimodal Fusion

Dynamic Multimodal Fusion (DynMM): 데이터에 따라 동적으로 연산을 조절하는 Multimodal Fusion

기존의 정적인 Multimodal fusion 방식과 달리, Dynamic Multimodal Fusion (DynMM)은 입력 데이터의 특성에 따라 동적으로 연산 경로를 결정하여 Multimodal 데이터를 융합하는 새로운 접근법입니다. DynMM은 Gating function을 사용하여 modality-level 또는 fusion-level에서 결정을 내리고, resource-aware loss function을 통해 연산 효율성을 최적화합니다. 이를 통해 "쉬운" 데이터에 대해서는 연산량을 줄이고, "어려운" 데이터에 대해서는 모든 정보를 활용하여 높은 성능을 유지합니다. 논문 제목: Dynamic Multimodal Fusion

Slot Attention: 경쟁적 Attention 메커니즘을 통한 객체 중심 표현 학습
·
#Object-Centric Learning#Slot Attention

Slot Attention: 경쟁적 Attention 메커니즘을 통한 객체 중심 표현 학습

Slot Attention은 CNN과 같은 perceptual representation을 입력받아, slots이라 불리는 task-dependent한 추상적 표현 집합을 생성하는 모듈입니다. 이 slots들은 여러 라운드에 걸친 경쟁적인 attention 절차를 통해 입력 내의 객체에 바인딩됩니다. 이를 통해 비지도 객체 발견 및 지도 속성 예측과 같은 task에서 보지 못한 구성에 대한 일반화가 가능한 객체 중심 표현을 추출할 수 있습니다. 논문 제목: Object-Centric Learning with Slot Attention

PMI: 비디오의 Temporal Sentence Localization 및 Event Captioning을 위한 Modality Interaction 학습
·
#Modality Interaction#Temporal Sentence Localization

PMI: 비디오의 Temporal Sentence Localization 및 Event Captioning을 위한 Modality Interaction 학습

본 논문은 비디오 내 여러 modality (visual, motion, audio 등) 간의 상호작용을 학습하여 상보적인 정보를 효과적으로 활용하는 새로운 방법인 Pairwise Modality Interaction (PMI)을 제안합니다. PMI는 modality 쌍 간의 sequence-level 및 channel-level 상호작용을 명시적으로 모델링하여 Temporal Sentence Localization 및 Event Captioning 두 가지 태스크의 성능을 크게 향상시킵니다. 이 모델은 각 modality 쌍의 상호작용 결과를 중요도에 따라 가중합하여 최종 비디오 representation을 생성하며, 이는 예측에 대한 설명 가능성도 제공합니다. 논문 제목: Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

Curriculum-Listener: 일관성과 상보성을 고려한 오디오 강화 Temporal Sentence Grounding
·
#Temporal Sentence Grounding#Audio-visual Learning

Curriculum-Listener: 일관성과 상보성을 고려한 오디오 강화 Temporal Sentence Grounding

본 논문은 자연어 쿼리를 통해 비디오의 특정 순간을 찾는 Temporal Sentence Grounding (TSG) 작업을 위해 오디오 정보를 효과적으로 활용하는 Adaptive Dual-branch Promoted Network (ADPN)를 제안합니다. ADPN은 visual-only 브랜치와 audio-visual 브랜치를 함께 학습하여 모달리티 간 간섭을 줄이고, 텍스트 의미를 가이드로 오디오와 비전의 일관성 및 상보성을 탐색하는 Text-Guided Clues Miner (TGCM)을 도입합니다. 또한, 자체 인식 방식으로 샘플의 난이도를 평가하여 노이즈를 줄이는 curriculum learning 기반 최적화 전략을 사용하여 오디오 정보 활용 성능을 극대화합니다. 논문 제목: Curriculum-Listener: Consistency- and Complementarity-Aware Audio-Enhanced Temporal Sentence Grounding

TVR: 비디오와 자막을 함께 이해하는 순간 검색을 위한 대규모 데이터셋
·
#Multimodal Retrieval#Video Moment Retrieval

TVR: 비디오와 자막을 함께 이해하는 순간 검색을 위한 대규모 데이터셋

TVR (TV show Retrieval)은 비디오의 시각적 내용과 자막 텍스트를 모두 이해해야 하는 새로운 멀티모달 순간 검색 데이터셋입니다. 이 논문은 6개 TV 쇼의 21.8K 비디오에 대한 109K 개의 쿼리를 포함하며, 각 쿼리는 정확한 시간 정보와 연결됩니다. 또한, Cross-modal Moment Localization (XML)이라는 새로운 모델을 제안하여, late fusion 방식과 Convolutional Start-End (ConvSE) detector를 통해 기존의 베이스라인 모델들보다 훨씬 높은 성능과 효율성을 보여줍니다. 논문 제목: TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval

RGTR: 쿼리 다양화를 통한 Temporal Sentence Grounding Transformer
·
#Temporal Sentence Grounding#Transformer

RGTR: 쿼리 다양화를 통한 Temporal Sentence Grounding Transformer

기존 DETR 기반의 Temporal Sentence Grounding 모델들은 중복되고 불필요한 proposal을 생성하는 문제를 겪습니다. 이를 해결하기 위해 제안된 Region-Guided Transformer (RGTR)는 학습 가능한 쿼리 대신 명시적인 지역적 가이드를 제공하는 anchor pair를 moment query로 사용하여 쿼리 다양성을 높이고 중복 proposal을 제거합니다. 각 moment query는 특정 시간 영역의 예측을 담당하여 최적화의 어려움을 줄이고 proposal의 다양성을 보장합니다. 또한, IoU-aware scoring head를 도입하여 proposal의 품질을 향상시킵니다. 논문 제목: Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding