전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 12 페이지)

Tuna: 동적 비디오의 세밀한 시간적 이해를 위한 종합 벤치마크
·
#Video Understanding#Benchmark

Tuna: 동적 비디오의 세밀한 시간적 이해를 위한 종합 벤치마크

Tuna는 동적이고 밀도 높은 비디오의 시간적 요소를 종합적으로 평가하기 위해 제안된 벤치마크입니다. 기존 벤치마크가 비디오의 일부 속성만 다루는 한계를 극복하고자, Tuna는 카메라, 장면, 행동, 속성 등 다양한 시간적 요소를 전체적으로 평가합니다. 이를 위해 정교하게 주석 처리된 Tuna-1K 데이터셋을 구축했으며, 이를 기반으로 비디오 캡셔닝(Tuna-CAP)과 질의응답(Tuna-MCQ) 두 가지 태스크를 통해 모델의 성능을 측정합니다. 여러 Large Multimodal Models (LMMs)를 평가한 결과, 모델들이 복잡한 다중 객체 및 다중 장면 시나리오, 카메라 움직임, 그리고 행동 순서 이해에 여전히 어려움을 겪고 있음을 확인했으며, 이는 향후 비디오 이해 모델 연구에 중요한 방향을 제시합니다. 논문 제목: Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

TOMATO: 멀티모달 파운데이션 모델의 시각적 시간 추론 능력 평가
·
#Visual Temporal Reasoning#Benchmark

TOMATO: 멀티모달 파운데이션 모델의 시각적 시간 추론 능력 평가

기존 벤치마크들이 Multimodal Foundation Models (MFMs)의 시각적 시간 추론 능력을 과대평가하고 있다는 문제의식에서 출발한 논문입니다. 이 논문은 시각적 시간 추론 벤치마크를 체계적으로 평가하기 위해 Multi-Frame Gain, Frame Order Sensitivity, Frame Information Disparity라는 세 가지 원칙을 제안합니다. 이를 바탕으로, MFMs의 시간 추론 능력을 엄격하게 평가하기 위해 설계된 새로운 벤치마크 TOMATO를 소개합니다. TOMATO는 자체 제작한 비디오를 포함한 1,417개의 비디오와 1,484개의 질문으로 구성되어 있으며, 평가 결과 최고 성능의 모델도 인간과 57.3%의 큰 성능 차이를 보였습니다. 또한, 현재 MFMs가 프레임을 연속적인 시퀀스로 해석하지 못하고 개별 프레임 단위로만 이해하는 근본적인 한계를 가지고 있음을 밝혀냈습니다. 논문 제목: tomato: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

ALBEF: Align before Fuse, 모멘텀 증류를 통한 Vision-Language 표현 학습
·
#Vision-Language Pre-training#Momentum Distillation

ALBEF: Align before Fuse, 모멘텀 증류를 통한 Vision-Language 표현 학습

ALBEF는 이미지와 텍스트 표현을 융합(Fuse)하기 전에, 먼저 contrastive loss를 사용하여 두 표현을 정렬(Align)하는 새로운 Vision-Language Pre-training 프레임워크입니다. 이 ‘Align before Fuse’ 접근법은 cross-modal attention을 통한 이미지-텍스트 상호작용 학습을 더 효과적으로 만듭니다. 또한 ALBEF는 별도의 object detector를 요구하지 않으며, 노이즈가 많은 웹 데이터로부터의 학습 성능을 향상시키기 위해 모멘텀 모델의 pseudo-target을 활용하는 Momentum Distillation (MoD) 기법을 제안합니다. 이를 통해 이미지-텍스트 검색, VQA, NLVR² 등 다양한 downstream task에서 SOTA 성능을 달성했습니다. 논문 제목: Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

TAP: Prompting을 통해 무엇이든 토큰화하는 통합 모델
·
#Image Tokenization#Multi-modal

TAP: Prompting을 통해 무엇이든 토큰화하는 통합 모델

Tokenize Anything via Prompting (TAP)은 유연한 시각적 프롬프트(점, 상자, 스케치)를 통해 임의의 영역을 동시에 분할, 인식, 캡셔닝할 수 있는 통합된 프롬프트 기반 모델입니다. SAM의 아키텍처를 기반으로 각 예측된 마스크에 semantic token을 추가하여 이미지 디코더를 업그레이드했으며, SA-1B의 방대한 분할 마스크와 사전 훈련된 EVA-CLIP의 semantic prior를 결합하여 훈련되었습니다. 이 모델은 분할과 개념 예측을 공동으로 최적화하여 강력한 지역별 인식 및 위치 파악 능력을 보여주며, 다양한 시각적 인식 작업을 위한 다목적 지역 수준 이미지 토크나이저로 기능할 수 있습니다. 논문 제목: Tokenize Anything via Prompting

VAGUE: 시각적 맥락으로 모호한 표현을 명확히 하다
·
#Multimodal Reasoning#Benchmark

VAGUE: 시각적 맥락으로 모호한 표현을 명확히 하다

인간의 의사소통은 모호함을 해결하기 위해 종종 시각적 단서에 의존합니다. VAGUE는 이러한 멀티모달 추론 능력을 평가하기 위한 새로운 벤치마크로, 모호한 텍스트 표현과 이미지를 쌍으로 제공하여 시각적 맥락 없이는 정답을 알 수 없도록 설계되었습니다. 실험 결과, 기존 Multimodal AI 모델들은 화자의 실제 의도를 추론하는 데 어려움을 겪으며, 특히 피상적인 시각 정보에 의존할 뿐 깊이 있는 추론에는 실패하는 경향을 보였습니다. 이는 인간의 수준과 상당한 격차를 나타내며, VAGUE 벤치마크가 향후 멀티모달 추론 연구의 중요한 과제를 제시함을 시사합니다. 논문 제목: VAGUE: Visual Contexts Clarify Ambiguous Expressions

OFA: 아키텍처, 태스크, 모달리티를 통합하는 단일 Sequence-to-Sequence 프레임워크
·
#Unified Framework#Multimodal Pretraining

OFA: 아키텍처, 태스크, 모달리티를 통합하는 단일 Sequence-to-Sequence 프레임워크

OFA는 복잡한 태스크 및 모달리티별 커스터마이징을 벗어나기 위해 제안된 통합 멀티모달 사전학습 패러다임이다. 이 모델은 Task-Agnostic하고 Modality-Agnostic한 프레임워크로, 이미지 생성, visual grounding, 이미지 캡셔닝, VQA 등 다양한 cross-modal 및 uni-modal 태스크를 단일 sequence-to-sequence 학습 프레임워크로 통합한다. OFA는 사전학습과 파인튜닝 모두에서 instruction-based learning을 따르며, 다운스트림 태스크를 위한 추가적인 태스크별 레이어가 필요 없다. 상대적으로 적은 2,000만 개의 공개 이미지-텍스트 쌍으로 학습되었음에도 불구하고, OFA는 여러 cross-modal 태스크에서 새로운 SOTA를 달성하며 uni-modal 태스크에서도 높은 경쟁력을 보여준다. 논문 제목: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

LanguageBind: 언어 기반 의미 정렬을 통한 N-모달리티 사전학습 확장
·
#Multi-modal Learning#Language-based Alignment

LanguageBind: 언어 기반 의미 정렬을 통한 N-모달리티 사전학습 확장

LanguageBind는 기존의 Video-Language 사전학습을 비디오, 적외선, 깊이, 오디오 등 N개의 다중 모달리티로 확장하는 프레임워크입니다. 이 모델은 풍부한 의미 정보를 가진 언어를 중심으로 다른 모든 모달리티를 정렬시키는 language-based semantic alignment 방식을 제안합니다. 사전 학습된 언어 인코더를 고정한 채, 다른 모달리티 인코더들을 contrastive learning으로 학습시켜 모든 모달리티를 공유된 특징 공간(shared feature space)에 매핑합니다. 또한, 이 연구는 1,000만 개의 Video, Infrared, Depth, Audio 데이터와 그에 상응하는 언어 데이터로 구성된 고품질 데이터셋 VIDAL-10M을 함께 제안합니다. 이를 통해 LanguageBind는 15개의 다양한 벤치마크에서 뛰어난 성능을 보이며, 여러 모달리티 간의 간접적인 정렬과 상호 보완성을 효과적으로 달성했음을 입증합니다. 논문 제목: LanguageBind: Extending Video-Language Pretraining to N-modality by Languagebased Semantic Alignment

BLIP: 통합 Vision-Language 이해 및 생성을 위한 언어-이미지 부트스트래핑 사전학습
·
#Vision-Language Pre-training#Data Bootstrapping

BLIP: 통합 Vision-Language 이해 및 생성을 위한 언어-이미지 부트스트래핑 사전학습

BLIP은 Vision-Language 이해(understanding) 및 생성(generation) Task 모두에 유연하게 적용 가능한 새로운 Vision-Language Pre-training(VLP) 프레임워크입니다. BLIP은 Multimodal mixture of Encoder-Decoder(MED)라는 통합 아키텍처를 통해 다양한 Task를 지원하며, Captioning and Filtering(CapFilt)이라는 데이터 부트스트래핑(bootstrapping) 기법을 도입하여 노이즈가 많은 웹 데이터를 효과적으로 활용합니다. CapFilt는 Captioner를 통해 합성 캡션을 생성하고 Filter를 통해 노이즈 캡션을 제거하여 데이터 품질을 향상시킵니다. 그 결과, BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, VQA 등 광범위한 vision-language Task에서 SOTA를 달성했습니다. 논문 제목: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BEIT-3: 이미지를 외국어로 간주하여 Vision과 Language 작업을 통합한 범용 모델
·
#Multimodal Foundation Model#Masked Data Modeling

BEIT-3: 이미지를 외국어로 간주하여 Vision과 Language 작업을 통합한 범용 모델

BEIT-3는 언어, 비전, 멀티모달 사전학습의 통합을 목표로 하는 범용 멀티모달 foundation model이다. 이 모델의 핵심 아이디어는 이미지를 '외국어(Imglish)'로 간주하여, 이미지(Imglish), 텍스트(English), 그리고 이미지-텍스트 쌍("병렬 문장")에 대해 통합된 masked "language" modeling을 수행하는 것이다. Multiway Transformer라는 공유된 backbone 아키텍처를 기반으로, modality-specific 인코딩과 deep fusion을 모두 지원한다. 이 접근법을 통해 BEIT-3는 object detection, semantic segmentation과 같은 vision task부터 visual question answering, image captioning 등 vision-language task에 이르기까지 광범위한 벤치마크에서 최고 수준의 성능을 달성했다. 논문 제목: Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks