전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 20 페이지)

InternVideo2: 멀티모달 비디오 이해를 위한 파운데이션 모델 스케일링
·
#Video Foundation Model#Multimodal Learning

InternVideo2: 멀티모달 비디오 이해를 위한 파운데이션 모델 스케일링

새로운 비디오 파운데이션 모델(ViFM) 제품군인 InternVideo2를 소개합니다. 이 모델은 Masked video modeling, Cross-modal contrastive learning, Next token prediction을 통합하는 점진적 학습 접근 방식을 통해 비디오, 비디오-텍스트, 비디오 중심 대화 작업에서 최고의 성능을 달성합니다. 6B 파라미터까지 확장된 이 모델은 의미적으로 분할된 비디오와 비디오-오디오-음성 캡션을 사용하여 시공간적 일관성을 우선시하고 비디오와 텍스트 간의 정렬을 개선합니다. 논문 제목: InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

InternVideo2.5: 긴밀하고 풍부한 컨텍스트 모델링으로 비디오 MLLM 역량 강화
·
#Video MLLM#Long Context

InternVideo2.5: 긴밀하고 풍부한 컨텍스트 모델링으로 비디오 MLLM 역량 강화

본 논문은 길고 풍부한 컨텍스트(Long and Rich Context, LRC) 모델링을 통해 비디오 멀티모달 대형 언어 모델(MLLM)의 성능을 향상시키는 InternVideo2.5를 소개합니다. 이 모델은 Direct Preference Optimization을 사용하여 밀도 높은 비전 과제 주석을 통합하고, 적응형 계층적 토큰 압축을 통해 시공간 표현을 최적화하여 비디오의 미세한 디테일 인식 및 장기적인 시간 구조 포착 능력을 강화합니다. 이를 통해 기존 모델보다 6배 더 긴 비디오 입력을 처리하고 객체 추적과 같은 전문적인 비전 기능을 수행할 수 있습니다. 논문 제목: InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

InternVideo: 생성 및 판별 학습을 통한 일반 비디오 파운데이션 모델
·
#video foundation model#self-supervised learning

InternVideo: 생성 및 판별 학습을 통한 일반 비디오 파운데이션 모델

InternVideo는 생성적(generative) 및 판별적(discriminative) 자기지도 비디오 학습을 활용하여 범용 비디오 파운데이션 모델을 제시합니다. 이 모델은 masked video modeling과 video-language contrastive learning을 사전 학습 목표로 삼아 두 프레임워크의 비디오 표현을 학습 가능한 방식으로 조정하여 다양한 비디오 애플리케이션의 성능을 향상시킵니다. InternVideo는 비디오 액션 인식, 비디오-언어 정렬 등 39개의 비디오 데이터셋에서 최고의 성능을 달성하여 비디오 이해를 위한 일반성을 입증했습니다. 논문 제목: InternVideo: General Video Foundation Models via Generative and Discriminative Learning

HuBERT: 은닉 유닛의 마스크된 예측을 통한 자기지도 음성 표현 학습
·
#self-supervised learning#speech representation

HuBERT: 은닉 유닛의 마스크된 예측을 통한 자기지도 음성 표현 학습

HuBERT(Hidden-Unit BERT)는 오프라인 클러스터링을 통해 BERT와 유사한 예측 손실을 위한 정렬된 타겟 레이블을 생성하는 자기지도 음성 표현 학습 접근법입니다. 이 모델의 핵심은 마스킹된 영역에만 예측 손실을 적용하여, 연속적인 음성 입력에 대해 음향 모델과 언어 모델을 결합하여 학습하도록 하는 것입니다. HuBERT는 단순한 k-means 클러스터링으로 시작하여 반복적인 개선을 통해 최첨단 wav2vec 2.0 모델의 성능과 동등하거나 이를 능가하는 결과를 보여줍니다. 논문 제목: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

DiscreteBERT: Self-Supervised Pre-Training을 통한 음성 인식의 혁신
·
#Self-supervised Learning#Speech Recognition

DiscreteBERT: Self-Supervised Pre-Training을 통한 음성 인식의 혁신

이 논문은 음성 데이터를 명시적으로 양자화하는 방식과 그렇지 않은 Self-Supervised 표현 학습 알고리즘을 비교합니다. vq-wav2vec을 통해 음성 데이터의 어휘를 구축하고 BERT로 학습하는 방식이 더 효과적임을 보여줍니다. 특히, 사전 학습된 BERT 모델을 Connectionist Temporal Classification (CTC) loss를 사용하여 직접 fine-tuning함으로써, 단 10분의 레이블 데이터만으로도 높은 음성 인식 성능을 달성할 수 있음을 입증했습니다. 이는 Self-Supervision이 거의 제로에 가까운 전사 데이터로도 음성 인식 시스템을 가능하게 함을 보여줍니다. 논문 제목: EFFECTIVENESS OF SELF-SUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION

Audio Spectrogram Transformer (AST): CNN을 넘어선 오디오 분류의 새로운 접근
·
#Audio Classification#Transformer

Audio Spectrogram Transformer (AST): CNN을 넘어선 오디오 분류의 새로운 접근

Audio Spectrogram Transformer(AST)는 오디오 분류를 위해 제안된 최초의 Convolution-free, 순수 attention 기반 모델입니다. 기존 CNN 기반 모델과 달리, AST는 오디오 Spectrogram에서 직접적으로 장거리 전역 컨텍스트를 학습하여 AudioSet, ESC-50, Speech Commands V2와 같은 주요 벤치마크에서 SOTA(State-of-the-Art) 성능을 달성했습니다. ImageNet으로 사전 학습된 Vision Transformer (ViT)의 지식을 활용하여 성능을 크게 향상시키는 방법 또한 제안합니다. 논문 제목: AST: Audio Spectrogram Transformer

AM-DETR: 언어 쿼리를 사용한 오디오 순간 검색
·
#Audio Moment Retrieval#AM-DETR

AM-DETR: 언어 쿼리를 사용한 오디오 순간 검색

본 논문에서는 텍스트 쿼리를 기반으로 긴 오디오에서 특정 순간을 예측하는 새로운 태스크인 오디오 순간 검색(AMR)을 제안합니다. 이를 위해 Clotho-Moment 데이터셋을 구축하고, 비디오 순간 검색에서 영감을 받아 오디오 특성 내의 시간적 의존성을 포착하는 DETR 기반 모델인 Audio Moment DETR (AM-DETR)을 제안하여 기존 클립 레벨 검색 방법을 능가하는 성능을 보입니다. 논문 제목: Language-based Audio Moment Retrieval

DEIM: DETR의 빠른 수렴을 위한 개선된 매칭 기법
·
#Object Detection#DETR

DEIM: DETR의 빠른 수렴을 위한 개선된 매칭 기법

DEIM은 Transformer 기반 객체 탐지 모델(DETR)의 느린 수렴 문제를 해결하기 위한 효율적인 훈련 프레임워크입니다. 이 방법은 Dense O2O 매칭 전략을 사용하여 훈련 중 양성 샘플 수를 늘리고, Matchability-Aware Loss(MAL)라는 새로운 손실 함수를 도입하여 다양한 품질의 매칭을 최적화합니다. 이를 통해 RT-DETR과 같은 기존 모델의 훈련 시간을 절반으로 줄이면서도 성능을 향상시킵니다. 논문 제목: DEIM: DETR with Improved Matching for Fast Convergence

Let's Go Real Talk: 얼굴을 마주보고 대화하는 음성 대화 모델
·
#Spoken Dialogue System#Multimodal

Let's Go Real Talk: 얼굴을 마주보고 대화하는 음성 대화 모델

본 논문은 사용자의 시청각 음성 입력을 처리하고 시청각 음성으로 응답을 생성하는 새로운 Face-to-Face 음성 대화 모델을 소개합니다. 이는 텍스트를 거치지 않는 아바타 챗봇 시스템을 향한 첫걸음입니다. 이를 위해 340시간 분량의 MultiDialog 데이터셋을 구축했으며, 사전 학습된 LLM을 음성-텍스트 공동 사전 학습을 통해 시청각 대화 도메인에 적용했습니다. 논문 제목: Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation