전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 100개 / 7 페이지)

SA-DETR: Span Aware Detection Transformer를 이용한 Moment Retrieval
·
#Moment Retrieval#DETR

SA-DETR: Span Aware Detection Transformer를 이용한 Moment Retrieval

본 논문은 주어진 텍스트와 관련된 비디오 세그먼트를 찾는 Moment Retrieval 문제를 해결하기 위해 Span Aware DEtection TRansformer (SA-DETR)를 제안합니다. 기존 DETR 기반 방법들이 Query Initialization에서 비디오-텍스트 인스턴스 관련 정보를 간과하고 Query Refinement에서 span anchor의 역할을 충분히 활용하지 못하는 문제를 지적합니다. SA-DETR은 인스턴스에 관련된 span anchor의 중요성을 활용하여, 학습 가능한 파라미터 대신 비디오-텍스트 쌍을 기반으로 span anchor를 생성하고 GT 레이블로 감독합니다. 또한, denoise learning을 적용하여 모델의 span 인지 능력을 향상시킵니다. 논문 제목: SA-DETR:Span Aware Detection Transformer for Moment Retrieval

UNITER: 범용 이미지-텍스트 표현 학습(UNiversal Image-TExt Representation Learning)
·
#Vision-and-Language#Representation Learning

UNITER: 범용 이미지-텍스트 표현 학습(UNiversal Image-TExt Representation Learning)

UNITER는 다양한 Vision-and-Language (V+L) 태스크에 범용적으로 적용 가능한 UNiversal Image-TExt Representation 모델입니다. 대규모 이미지-텍스트 데이터셋을 기반으로 사전 학습되며, 4가지 태스크(Masked Language Modeling, Masked Region Modeling, Image-Text Matching, Word-Region Alignment)를 통해 이미지와 텍스트의 joint multimodal embedding을 학습합니다. 특히 이 모델은 한 modality의 전체 정보를 조건으로 다른 modality를 예측하는 Conditional Masking과, Optimal Transport (OT)를 이용해 단어와 이미지 영역 간의 정렬을 명시적으로 학습하는 Word-Region Alignment (WRA)를 제안하여 기존 모델들과 차별점을 두었습니다. 이를 통해 UNITER는 6개의 V+L 벤치마크에서 최고 성능을 달성했습니다. 논문 제목: UNITER: UNiversal Image-TExt Representation Learning

Kosmos-2: Grounding Multimodal Large Language Models to the World
·
#Multimodal Large Language Model#Grounding

Kosmos-2: Grounding Multimodal Large Language Models to the World

Kosmos-2는 객체 설명(예: bounding boxes)을 인식하고 텍스트를 시각 세계에 grounding하는 새로운 기능을 갖춘 Multimodal Large Language Model (MLLM)입니다. 이 모델은 참조 표현을 마크다운의 링크 형식, 즉 "[text span] (bounding boxes)"로 나타내며, 대규모의 grounded image-text pair 데이터셋(GRIT)을 사용하여 학습됩니다. Kosmos-2는 기존 MLLM의 기능(예: 일반적인 modality 인식, 지시 따르기, in-context learning)에 더해 grounding 기능을 다양한 다운스트림 애플리케이션에 통합합니다. 이를 통해 multimodal grounding, multimodal referring 등 여러 작업에서 뛰어난 성능을 보이며, Embodiment AI 발전의 토대를 마련합니다. 논문 제목: Kosmos-2: Grounding Multimodal Large Language Models to the World

VisCPM: 다국어 모델을 활용한 제로샷 멀티모달 학습
·
#Multilingual Model#Multimodal Learning

VisCPM: 다국어 모델을 활용한 제로샷 멀티모달 학습

이 논문은 비영어권 국가에서 대규모 멀티모달 모델을 효과적으로 훈련하기 위한 새로운 패러다임인 MpM (Multilingual models can Pivot Multimodal learning)을 제안합니다. MpM은 강력한 다국어 LLM (Large Language Model)을 기반으로, 영어 이미지-텍스트 데이터만으로 훈련된 멀티모달 모델이 다른 언어에서도 뛰어난 (준)zero-shot 성능을 보이도록 합니다. 중국어를 예시로 개발된 VisCPM 모델은 image-to-text 및 text-to-image 생성 작업에서 기존 중국어 모델들을 능가하는 SOTA 성능을 달성했으며, 이는 비영어권 멀티모달 데이터 부족 문제를 해결할 새로운 가능성을 제시합니다. 논문 제목: Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

ViLT: 합성곱이나 영역 감독 없이 구현된 Vision-and-Language Transformer
·
#Vision-and-Language#Transformer

ViLT: 합성곱이나 영역 감독 없이 구현된 Vision-and-Language Transformer

ViLT(Vision-and-Language Transformer)는 기존 Vision-and-Language Pre-training(VLP) 모델들이 의존했던 복잡한 이미지 특징 추출 과정(예: object detection, ResNet)을 제거한 혁신적인 모델입니다. ViLT는 텍스트를 처리하는 방식과 동일하게, 간단한 patch projection을 통해 시각적 입력을 처리하여 모델을 단순화했습니다. 이러한 설계 덕분에 기존 VLP 모델보다 수십 배 빠르면서도, 다양한 vision-and-language downstream task에서 경쟁력 있거나 더 나은 성능을 보여줍니다. 논문 제목: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

SVIT: Visual Instruction Tuning의 새로운 지평을 열다
·
#Visual Instruction Tuning#Multimodal Large Language Models

SVIT: Visual Instruction Tuning의 새로운 지평을 열다

기존 Multimodal Large Language Models (MLLMs)의 한계는 고품질 instruction tuning 데이터의 부족에 있었습니다. 이를 해결하기 위해, 본 논문은 420만 개의 시각적 instruction tuning 데이터를 포함하는 대규모 데이터셋인 SVIT (Scaling up Visual Instruction Tuning)를 제안합니다. SVIT는 Visual Genome의 풍부한 수동 주석과 GPT-4를 활용하여 생성되었으며, 160만 개의 대화형 QA 쌍, 160만 개의 복잡한 추론 QA 쌍, 100만 개의 참조 QA 쌍, 그리고 10만 6천 개의 상세 이미지 설명을 포함합니다. 이 데이터셋으로 학습된 SVIT-v1.5 모델은 여러 벤치마크에서 기존의 SOTA MLLM 모델들을 능가하는 성능을 보였습니다. 논문 제목: SVIT: Scaling up Visual Instruction Tuning

M³IT: 대규모 다중모드 다국어 Instruction Tuning 데이터셋
·
#Multi-modal#Instruction Tuning

M³IT: 대규모 다중모드 다국어 Instruction Tuning 데이터셋

본 논문은 Vision-Language Model (VLM)의 발전을 위해 Multi-Modal, Multilingual Instruction Tuning (M³IT) 데이터셋을 제안합니다. M³IT는 40개의 데이터셋, 240만 개의 인스턴스, 400개의 수동 작성된 task instruction을 포함하는 대규모 데이터셋으로, VLM이 인간의 지시를 더 잘 따르도록 학습시키는 것을 목표로 합니다. 주요 task들은 80개 언어로 번역되어 언어적 다양성을 확보했습니다. 이 데이터셋으로 학습된 Ying-VLM 모델은 외부 지식이 필요한 복잡한 VQA task와 보지 못한 비디오 및 중국어 task에 대해서도 뛰어난 일반화 성능을 보여줍니다. 논문 제목: M³IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

mPLUG-Owl: 모듈화로 멀티모달리티를 구현한 Large Language Model
·
#Multimodal LLM#Instruction Tuning

mPLUG-Owl: 모듈화로 멀티모달리티를 구현한 Large Language Model

mPLUG-Owl은 foundation LLM, visual knowledge module, visual abstractor module의 모듈화된 학습을 통해 LLM에 멀티모달 능력을 부여하는 새로운 학습 패러다임입니다. 이 접근법은 2단계 학습을 통해 이미지와 텍스트를 정렬하며, 1단계에서는 LLM을 고정한 채 visual module들을 학습시키고, 2단계에서는 LoRA를 사용하여 LLM과 abstractor module을 공동으로 미세 조정합니다. 이를 통해 mPLUG-Owl은 강력한 지시 이해, 시각 이해, 다중 턴 대화 및 추론 능력을 보여줍니다. 논문 제목: mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality

KOSMOS-1: 언어 모델과 인식을 결합한 Multimodal Large Language Model
·
#MLLM#In-context Learning

KOSMOS-1: 언어 모델과 인식을 결합한 Multimodal Large Language Model

KOSMOS-1은 일반적인 양식을 인식하고, in-context learning (few-shot)을 수행하며, 지시를 따를 수 있는 Multimodal Large Language Model (MLLM)입니다. 이 모델은 임의로 인터리브된 텍스트와 이미지, 이미지-캡션 쌍, 텍스트 데이터를 포함한 웹 스케일의 멀티모달 코퍼스를 기반으로 처음부터 학습됩니다. KOSMOS-1은 별도의 미세 조정 없이 zero-shot, few-shot, multimodal chain-of-thought 프롬프팅 등 다양한 설정에서 언어 이해, 멀티모달 대화, 이미지 캡셔닝, 시각적 질문 답변(VQA) 등 광범위한 작업에서 뛰어난 성능을 보입니다. 또한, 이 연구는 MLLM의 비언어적 추론 능력을 진단하기 위한 Raven IQ 테스트 데이터셋을 소개합니다. 논문 제목: Language Is Not All You Need: Aligning Perception with Language Models

MultiModal-GPT: 인간과 대화가 가능한 시각-언어 모델
·
#Multi-modal#Dialogue System

MultiModal-GPT: 인간과 대화가 가능한 시각-언어 모델

MultiModal-GPT는 인간과 여러 차례 대화를 주고받을 수 있는 시각 및 언어 모델입니다. 이 모델은 OpenFlamingo를 기반으로 LoRA(Low-rank Adapter)를 사용하여 효율적으로 fine-tuning되었습니다. LoRA는 언어 모델의 gated-cross-attention과 self-attention 구성 요소 모두에 적용되었습니다. 시각-언어 및 언어 전용 명령어 데이터를 함께 사용하여 학습함으로써, 상세한 캡션 생성, 특정 객체 수 세기, 일반적인 질문에 대한 답변 등 다양한 지시를 따를 수 있는 능력을 갖추었습니다. 논문 제목: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans