전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 103개 / 2 페이지)

Selective Contrastive Learning for Weakly Supervised Affordance Grounding
·
#Affordance Grounding#Contrastive Learning

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Weakly Supervised Affordance Grounding (WSAG)은 픽셀 단위의 레이블 없이 3인칭 시점의 예시로부터 객체의 특정 행동이 가능한 부분을 찾는 것을 목표로 합니다. 기존 모델들은 affordance와 무관한, 클래스별 공통 패턴에 집중하는 경향이 있었습니다. 이 한계를 극복하기 위해 본 논문은 Selective Contrastive Learning을 제안합니다. 이 방법은 선택적인 prototypical 및 pixel contrastive learning 목표를 도입하여, 파트(part)와 객체(object) 수준 모두에서 affordance와 관련된 단서를 적응적으로 학습합니다. CLIP을 활용하여 행동과 연관된 객체를 찾고, 두 시점의 정보를 상호 참조하여 정확한 파트 수준의 affordance 단서를 발굴합니다. 이를 통해 모델이 affordance와 관련된 영역과 관련 없는 배경을 구별하도록 학습시켜, 활성화를 의미 있는 단서로 효과적으로 이동시킵니다. 논문 제목: Selective Contrastive Learning for Weakly Supervised Affordance Grounding

프로토타입: 효율성과 정확성을 모두 잡는 부분 관련 영상 검색(PRVR) 기법
·
#Video Retrieval#Prototypical Learning

프로토타입: 효율성과 정확성을 모두 잡는 부분 관련 영상 검색(PRVR) 기법

영상 검색 시스템에서 정확성과 효율성을 동시에 달성하는 것은 어려운 과제입니다. 특히, 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)에서는 다양한 시간적 스케일의 컨텍스트를 표현할수록 정확도는 높아지지만 계산 및 메모리 비용이 증가합니다. 이 논문은 영상 내의 다양한 컨텍스트를 고정된 수의 프로토타입(prototypes)으로 인코딩하는 새로운 프레임워크를 제안하여 이 문제를 해결합니다. 텍스트 연관성과 영상 이해도를 높이기 위해 cross-modal 및 uni-modal 재구성 작업을 도입하고, 프로토타입의 다양성을 확보하기 위한 직교 목적 함수를 사용합니다. 이 접근법을 통해 효율성을 희생하지 않으면서도 TVR, ActivityNet-Captions 등 주요 벤치마크에서 최고의 성능을 달성합니다. 논문 제목: Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval

실세계 의사결정을 위한 새로운 언어, 비디오
·
#Video Generation#Embodied AI

실세계 의사결정을 위한 새로운 언어, 비디오

이 논문은 비디오 생성이 디지털 세계의 언어 모델처럼 물리적 세계에서 중요한 역할을 할 수 있다고 주장합니다. 비디오는 인터넷 규모의 지식을 흡수하고 다양한 실제 과업을 표현하는 통일된 인터페이스(unified interface)로 기능할 수 있습니다. 논문은 비디오 생성 모델이 in-context learning, planning, reinforcement learning과 같은 기술을 통해 로보틱스, 자율 주행, 과학과 같은 분야에서 planner, agent, 그리고 환경 simulator로 활용될 수 있는 가능성을 제시합니다. 이를 통해 비디오는 물리 세계에서의 복잡한 의사결정을 위한 새로운 언어가 될 수 있습니다. 논문 제목: Video as the New Language for Real-World Decision Making

Tuna: 동적 비디오의 세밀한 시간적 이해를 위한 종합 벤치마크
·
#Video Understanding#Benchmark

Tuna: 동적 비디오의 세밀한 시간적 이해를 위한 종합 벤치마크

Tuna는 동적이고 밀도 높은 비디오의 시간적 요소를 종합적으로 평가하기 위해 제안된 벤치마크입니다. 기존 벤치마크가 비디오의 일부 속성만 다루는 한계를 극복하고자, Tuna는 카메라, 장면, 행동, 속성 등 다양한 시간적 요소를 전체적으로 평가합니다. 이를 위해 정교하게 주석 처리된 Tuna-1K 데이터셋을 구축했으며, 이를 기반으로 비디오 캡셔닝(Tuna-CAP)과 질의응답(Tuna-MCQ) 두 가지 태스크를 통해 모델의 성능을 측정합니다. 여러 Large Multimodal Models (LMMs)를 평가한 결과, 모델들이 복잡한 다중 객체 및 다중 장면 시나리오, 카메라 움직임, 그리고 행동 순서 이해에 여전히 어려움을 겪고 있음을 확인했으며, 이는 향후 비디오 이해 모델 연구에 중요한 방향을 제시합니다. 논문 제목: Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

TOMATO: 멀티모달 파운데이션 모델의 시각적 시간 추론 능력 평가
·
#Visual Temporal Reasoning#Benchmark

TOMATO: 멀티모달 파운데이션 모델의 시각적 시간 추론 능력 평가

기존 벤치마크들이 Multimodal Foundation Models (MFMs)의 시각적 시간 추론 능력을 과대평가하고 있다는 문제의식에서 출발한 논문입니다. 이 논문은 시각적 시간 추론 벤치마크를 체계적으로 평가하기 위해 Multi-Frame Gain, Frame Order Sensitivity, Frame Information Disparity라는 세 가지 원칙을 제안합니다. 이를 바탕으로, MFMs의 시간 추론 능력을 엄격하게 평가하기 위해 설계된 새로운 벤치마크 TOMATO를 소개합니다. TOMATO는 자체 제작한 비디오를 포함한 1,417개의 비디오와 1,484개의 질문으로 구성되어 있으며, 평가 결과 최고 성능의 모델도 인간과 57.3%의 큰 성능 차이를 보였습니다. 또한, 현재 MFMs가 프레임을 연속적인 시퀀스로 해석하지 못하고 개별 프레임 단위로만 이해하는 근본적인 한계를 가지고 있음을 밝혀냈습니다. 논문 제목: tomato: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

ALBEF: Align before Fuse, 모멘텀 증류를 통한 Vision-Language 표현 학습
·
#Vision-Language Pre-training#Momentum Distillation

ALBEF: Align before Fuse, 모멘텀 증류를 통한 Vision-Language 표현 학습

ALBEF는 이미지와 텍스트 표현을 융합(Fuse)하기 전에, 먼저 contrastive loss를 사용하여 두 표현을 정렬(Align)하는 새로운 Vision-Language Pre-training 프레임워크입니다. 이 ‘Align before Fuse’ 접근법은 cross-modal attention을 통한 이미지-텍스트 상호작용 학습을 더 효과적으로 만듭니다. 또한 ALBEF는 별도의 object detector를 요구하지 않으며, 노이즈가 많은 웹 데이터로부터의 학습 성능을 향상시키기 위해 모멘텀 모델의 pseudo-target을 활용하는 Momentum Distillation (MoD) 기법을 제안합니다. 이를 통해 이미지-텍스트 검색, VQA, NLVR² 등 다양한 downstream task에서 SOTA 성능을 달성했습니다. 논문 제목: Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

TAP: Prompting을 통해 무엇이든 토큰화하는 통합 모델
·
#Image Tokenization#Multi-modal

TAP: Prompting을 통해 무엇이든 토큰화하는 통합 모델

Tokenize Anything via Prompting (TAP)은 유연한 시각적 프롬프트(점, 상자, 스케치)를 통해 임의의 영역을 동시에 분할, 인식, 캡셔닝할 수 있는 통합된 프롬프트 기반 모델입니다. SAM의 아키텍처를 기반으로 각 예측된 마스크에 semantic token을 추가하여 이미지 디코더를 업그레이드했으며, SA-1B의 방대한 분할 마스크와 사전 훈련된 EVA-CLIP의 semantic prior를 결합하여 훈련되었습니다. 이 모델은 분할과 개념 예측을 공동으로 최적화하여 강력한 지역별 인식 및 위치 파악 능력을 보여주며, 다양한 시각적 인식 작업을 위한 다목적 지역 수준 이미지 토크나이저로 기능할 수 있습니다. 논문 제목: Tokenize Anything via Prompting

VAGUE: 시각적 맥락으로 모호한 표현을 명확히 하다
·
#Multimodal Reasoning#Benchmark

VAGUE: 시각적 맥락으로 모호한 표현을 명확히 하다

인간의 의사소통은 모호함을 해결하기 위해 종종 시각적 단서에 의존합니다. VAGUE는 이러한 멀티모달 추론 능력을 평가하기 위한 새로운 벤치마크로, 모호한 텍스트 표현과 이미지를 쌍으로 제공하여 시각적 맥락 없이는 정답을 알 수 없도록 설계되었습니다. 실험 결과, 기존 Multimodal AI 모델들은 화자의 실제 의도를 추론하는 데 어려움을 겪으며, 특히 피상적인 시각 정보에 의존할 뿐 깊이 있는 추론에는 실패하는 경향을 보였습니다. 이는 인간의 수준과 상당한 격차를 나타내며, VAGUE 벤치마크가 향후 멀티모달 추론 연구의 중요한 과제를 제시함을 시사합니다. 논문 제목: VAGUE: Visual Contexts Clarify Ambiguous Expressions

OFA: 아키텍처, 태스크, 모달리티를 통합하는 단일 Sequence-to-Sequence 프레임워크
·
#Unified Framework#Multimodal Pretraining

OFA: 아키텍처, 태스크, 모달리티를 통합하는 단일 Sequence-to-Sequence 프레임워크

OFA는 복잡한 태스크 및 모달리티별 커스터마이징을 벗어나기 위해 제안된 통합 멀티모달 사전학습 패러다임이다. 이 모델은 Task-Agnostic하고 Modality-Agnostic한 프레임워크로, 이미지 생성, visual grounding, 이미지 캡셔닝, VQA 등 다양한 cross-modal 및 uni-modal 태스크를 단일 sequence-to-sequence 학습 프레임워크로 통합한다. OFA는 사전학습과 파인튜닝 모두에서 instruction-based learning을 따르며, 다운스트림 태스크를 위한 추가적인 태스크별 레이어가 필요 없다. 상대적으로 적은 2,000만 개의 공개 이미지-텍스트 쌍으로 학습되었음에도 불구하고, OFA는 여러 cross-modal 태스크에서 새로운 SOTA를 달성하며 uni-modal 태스크에서도 높은 경쟁력을 보여준다. 논문 제목: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework