전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 100개 / 8 페이지)

MiniGPT-4: 고급 LLM을 활용한 시각-언어 이해 능력의 향상
·
#Vision-Language Model#Large Language Model

MiniGPT-4: 고급 LLM을 활용한 시각-언어 이해 능력의 향상

MiniGPT-4는 frozen visual encoder와 frozen advanced LLM (Vicuna)를 단 하나의 projection layer로 연결하여, GPT-4와 유사한 고급 멀티모달 능력을 구현하는 모델입니다. 이 논문은 별도의 복잡한 모듈 없이, 시각적 특징을 강력한 LLM과 정렬하는 것만으로도 이미지 상세 묘사, 손으로 그린 초안으로 웹사이트 제작, 이미지 기반 시 작성 등 다양한 emergent abilities를 발현할 수 있음을 보여줍니다. 특히, 초반 학습에서 발생하는 부자연스러운 언어 생성을 해결하기 위해, 2단계에서 고품질 이미지 설명 데이터셋으로 미세 조정하여 모델의 신뢰성과 사용성을 크게 향상시켰습니다. 논문 제목: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

InstructBLIP: Instruction Tuning을 통한 범용 Vision-Language 모델
·
#Vision-Language Model#Instruction Tuning

InstructBLIP: Instruction Tuning을 통한 범용 Vision-Language 모델

InstructBLIP은 사전 학습된 BLIP-2 모델을 기반으로 Vision-Language Instruction Tuning에 대한 체계적이고 포괄적인 연구를 제시합니다. 26개의 공개 데이터셋을 Instruction Tuning 형식으로 변환하여 학습에 사용했으며, 주어진 Instruction에 맞춰 정보를 추출하는 Instruction-aware Query Transformer를 도입했습니다. 이를 통해 InstructBLIP은 13개의 unseen 데이터셋에서 SOTA zero-shot 성능을 달성하여 BLIP-2 및 Flamingo와 같은 대규모 모델을 능가하는 성능을 보여줍니다. 논문 제목: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

LLaVA: Visual Instruction Tuning을 통한 범용 시각 보조 모델
·
#LMM#Instruction Tuning

LLaVA: Visual Instruction Tuning을 통한 범용 시각 보조 모델

LLaVA는 대규모 언어 모델(LLM)에 시각적 이해 능력을 부여하는 Visual Instruction Tuning을 제안하는 논문입니다. 언어 전용 GPT-4를 활용해 멀티모달 지시-따름(instruction-following) 데이터를 생성하고, 이를 통해 사전 학습된 Vision Encoder(CLIP)와 LLM(Vicuna)을 연결하여 종단간(end-to-end) 학습을 수행합니다. 그 결과 LLaVA는 별도의 학습 없이도 새로운 이미지와 지시에 대해 GPT-4와 유사한 멀티모달 채팅 능력을 보이며, Science QA 벤치마크에서는 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: Visual Instruction Tuning

언어 모델의 Multimodal Chain-of-Thought 추론
·
#Multimodal#Chain-of-Thought

언어 모델의 Multimodal Chain-of-Thought 추론

기존의 Chain-of-Thought (CoT) 연구는 주로 언어 modality에 집중되어 있었습니다. 이 논문에서는 언어(텍스트)와 비전(이미지) modality를 통합하는 2단계 프레임워크인 Multimodal-CoT를 제안합니다. 이 프레임워크는 논리적 근거(rationale) 생성과 답변 추론을 분리하여, 다중 모드 정보를 기반으로 생성된 더 나은 논리적 근거를 답변 추론에 활용할 수 있도록 합니다. 10억개 미만의 파라미터를 가진 모델로 ScienceQA 벤치마크에서 SOTA 성능을 달성했으며, 이 접근법이 hallucination을 완화하고 수렴 속도를 높이는 이점이 있음을 보여줍니다. 논문 제목: Multimodal Chain-of-Thought Reasoning in Language Models

BLIP-2: Frozen Image Encoder와 LLM을 활용한 효율적인 Vision-Language Pre-training
·
#Vision-Language Model#Efficient Pre-training

BLIP-2: Frozen Image Encoder와 LLM을 활용한 효율적인 Vision-Language Pre-training

BLIP-2는 사전 학습된 frozen image encoder와 frozen large language model (LLM)을 효율적으로 활용하는 새로운 vision-language pre-training 전략입니다. 이 모델은 경량의 Querying Transformer (Q-Former)를 사용하여 두 모델 간의 modality 차이를 해소하며, 두 단계의 pre-training을 통해 학습됩니다. 첫 번째 단계에서는 vision-language representation learning을, 두 번째 단계에서는 vision-to-language generative learning을 수행합니다. BLIP-2는 기존 모델들보다 훨씬 적은 학습 파라미터로 다양한 vision-language 태스크에서 최고 수준의 성능을 달성했으며, 특히 zero-shot VQAv2 태스크에서 Flamingo-80B 모델보다 8.7% 높은 성능을 보여주었습니다. 또한 자연어 지시를 따르는 zero-shot image-to-text 생성 능력도 갖추고 있습니다. 논문 제목: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Flamingo: a Visual Language Model for Few-Shot Learning
·
#Visual Language Model#Few-shot Learning

Flamingo: a Visual Language Model for Few-Shot Learning

Flamingo는 이미지와 텍스트가 혼합된 입력을 처리할 수 있으며, few-shot 학습 환경에서도 높은 성능을 보이는 Visual Language Model (VLM)이다. Flamingo는 pretrained된 vision-only 및 language-only 모델을 효과적으로 연결하고, 임의의 순서로 interleaved된 이미지 및 텍스트 시퀀스를 처리할 수 있도록 설계되었다. 이 모델은 이미지와 텍스트가 섞인 대규모 웹 데이터로 학습되며, in-context few-shot 학습 능력을 통해 다양한 multimodal task (예: visual question answering, image captioning 등)에 빠르게 적응하는 성능을 보여준다. 논문 제목: Flamingo: a Visual Language Model for Few-Shot Learning

VQ-WAV2VEC: 음성을 이산적인 표현으로 학습하는 자기지도학습 방법
·
#speech representation#self-supervised learning

VQ-WAV2VEC: 음성을 이산적인 표현으로 학습하는 자기지도학습 방법

VQ-WAV2VEC은 wav2vec 방식의 자기지도 컨텍스트 예측 과제를 통해 오디오 세그먼트의 이산적인 표현을 학습하는 방법론입니다. 이 알고리즘은 Gumbel-Softmax 또는 온라인 k-means 클러스터링을 사용하여 밀집된 표현을 양자화하며, 이를 통해 자연어 처리(NLP) 커뮤니티의 알고리즘을 음성 데이터에 직접 적용할 수 있게 합니다. 특히, BERT 사전 학습을 적용하여 TIMIT 음소 분류 및 WSJ 음성 인식에서 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: VQ-WAV2VEC: Self-Supervised Learning of Discrete Speech Representations

Whisper-Flamingo: 시각 정보를 활용한 Whisper의 진화, 시청각 음성 인식 및 번역
·
#AVSR#Whisper

Whisper-Flamingo: 시각 정보를 활용한 Whisper의 진화, 시청각 음성 인식 및 번역

Whisper-Flamingo는 Flamingo 모델에서 영감을 받아 기존 Whisper 모델에 Gated Cross Attention을 사용하여 시각적 특징(입술 움직임)을 통합하는 새로운 오디오-비주얼 음성 인식(AVSR) 모델입니다. 이 모델은 잡음이 많은 환경에서 오디오 전용 Whisper보다 뛰어난 성능을 보이며, LRS3 및 LRS2 데이터셋에서 최첨단(SOTA) 성능을 달성했습니다. 또한, 단일 모델로 영어 음성 인식과 6개 언어로의 번역 작업을 모두 수행할 수 있는 다재다능함을 보여줍니다. 논문 제목: Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

Self-Supervised Multimodal Learning (SSML) 핵심 개념 정리
·
#Self-Supervised Learning#Multimodal Learning

Self-Supervised Multimodal Learning (SSML) 핵심 개념 정리

이 글은 Self-Supervised Multimodal Learning (SSML) 분야의 최신 연구 동향을 종합적으로 리뷰합니다. SSML은 라벨이 없는 멀티모달 데이터로부터 표현을 학습하는 방법으로, (1) 라벨 없는 데이터에서의 표현 학습, (2) 다양한 modality의 Fusion, (3) 정렬되지 않은 데이터 학습이라는 세 가지 주요 과제를 다룹니다. 본문에서는 이러한 과제들을 해결하기 위한 다양한 self-supervised 목적 함수, 모델 아키텍처, 그리고 정렬 학습 전략에 대해 자세히 설명합니다. 논문 제목: Self-Supervised Multimodal Learning: A Survey

오디오 합성과 오디오-비주얼 멀티모달 처리 기술 동향
·
#Audio Synthesis#Multimodal Processing

오디오 합성과 오디오-비주얼 멀티모달 처리 기술 동향

이 논문은 딥러닝과 인공지능의 발전에 따른 오디오 합성 및 오디오-비주얼 멀티모달 처리에 대한 최신 연구 동향을 다룹니다. Text to Speech(TTS), 음악 생성과 같은 오디오 합성 기술과 Lipreading, Audio-visual speech separation 등 시각과 청각 정보를 결합하는 멀티모달 연구를 종합적으로 소개하고, 관련 기술 방법론을 분류하여 미래 발전 방향을 전망합니다. 논문 제목: A Survey on Audio Synthesis and Audio-Visual Multimodal Processing