전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 100개 / 9 페이지)

wav2vec: 음성 인식을 위한 비지도 사전 학습(Unsupervised Pre-training)
·
#Speech Recognition#Unsupervised Learning

wav2vec: 음성 인식을 위한 비지도 사전 학습(Unsupervised Pre-training)

본 논문은 원시 오디오로부터 표현을 학습하여 음성 인식을 위한 비지도 사전 학습(unsupervised pre-training) 방법인 wav2vec을 제안합니다. wav2vec은 레이블이 없는 대량의 오디오 데이터로 학습되며, 결과 표현은 음향 모델 훈련을 개선하는 데 사용됩니다. 간단한 다층 convolutional neural network를 noise contrastive binary classification 작업을 통해 최적화합니다. WSJ 데이터셋 실험에서 적은 양의 전사 데이터만 있을 때 강력한 문자 기반 로그-멜 필터뱅크 기준 모델의 단어 오류율(WER)을 최대 36%까지 줄였습니다. 이 접근 방식은 기존 문자 기반 시스템인 Deep Speech 2보다 훨씬 적은 레이블 데이터를 사용하면서도 더 나은 성능을 보입니다. 논문 제목: wav2vec: Unsupervised Pre-training for Speech Recognition

wav2vec 2.0: 자기 지도 학습(Self-Supervised Learning)을 통한 음성 표현의 혁신
·
#speech recognition#self-supervised learning

wav2vec 2.0: 자기 지도 학습(Self-Supervised Learning)을 통한 음성 표현의 혁신

wav2vec 2.0은 음성 오디오만으로 강력한 표현을 학습한 후, 전사된 데이터로 미세 조정하여 기존의 반지도 학습(semi-supervised) 방법을 능가하는 프레임워크입니다. 이 모델은 잠재 공간(latent space)에서 음성 입력을 마스킹하고, 공동으로 학습된 잠재 표현의 양자화(quantization)를 통해 정의된 Contrastive loss를 해결합니다. 이 방식은 Transformer를 사용하여 문맥화된 표현을 구축하며, 단 10분의 레이블 데이터만으로도 초저자원 음성 인식의 가능성을 입증했습니다. 논문 제목: wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

TriSense: 시각, 청각, 음성 정보를 통합한 멀티모달 LLM 비디오 이해
·
#multimodal LLM#video understanding

TriSense: 시각, 청각, 음성 정보를 통합한 멀티모달 LLM 비디오 이해

TriSense는 시각, 오디오, 음성 세 가지 양식을 통합하여 비디오를 종합적으로 이해하는 트리플 모달리티 LLM입니다. 핵심 기술인 Query-Based Connector는 입력 쿼리에 따라 각 양식의 기여도를 동적으로 조절하여, 일부 양식이 누락된 상황에서도 강건한 성능을 보장합니다. 이 모델을 위해 2백만 개 이상의 고품질 샘플로 구성된 TriSense-2M 데이터셋도 함께 소개합니다. 논문 제목: Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

SpeechGPT: 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델
·
#Speech AI#LLM

SpeechGPT: 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델

SpeechGPT는 다중 모달 콘텐츠를 인식하고 생성할 수 있는 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델입니다. 이 모델은 기존의 캐스케이드 방식을 벗어나 이산적인 음성 표현을 활용하여 모달 간 지식 전달을 가능하게 합니다. 대규모 크로스모달 음성 지시 데이터셋인 SpeechInstruct를 구축하고, 3단계 학습 전략(모달리티 적응 사전학습, 크로스모달 지시 미세조정, Chain-of-Modality 지시 미세조정)을 통해 학습되었습니다. 논문 제목: SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

QUAG: 쿼리 중심 오디오-비주얼 인지 네트워크를 통한 비디오 분석
·
#video understanding#multi-modal learning

QUAG: 쿼리 중심 오디오-비주얼 인지 네트워크를 통한 비디오 분석

이 논문은 사용자의 선호도에 맞는 비디오 콘텐츠를 깊이 있게 이해하기 위해, 얕은 수준에서 깊은 수준으로 처리하는 원칙에 기반한 QUAG(Query-centric Audio-Visual Cognition) 네트워크를 제안합니다. QUAG는 시각 및 오디오 모달리티 간의 전역적 Contrastive 정렬과 지역적 상호작용을 모델링하는 MSP(Modality-Synergistic Perception)와, 쿼리를 사용하여 오디오-비주얼 표현에서 중요한 정보를 필터링하는 QC²(Query-centric Cognition)를 통해 모멘트 검색, 분할, 및 스텝 캡셔닝 작업을 수행하는 신뢰도 높은 다중 모달 표현을 구축합니다. 논문 제목: Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning

멀티모달 머신러닝의 모든 것: 최신 연구 동향과 분류
·
#Multimodal Machine Learning#Survey

멀티모달 머신러닝의 모든 것: 최신 연구 동향과 분류

AI가 인간처럼 다양한 정보를 이해하기 위한 핵심 기술, 멀티모달 머신러닝의 최신 연구 동향을 소개합니다. 이 논문은 기존의 초기/후기 통합 방식을 넘어, representation, translation, alignment, fusion, co-learning이라는 5가지 핵심 과제를 중심으로 새로운 분류 체계를 제시하여 연구자들이 분야의 현황을 파악하고 미래 연구 방향을 설정하는 데 도움을 줍니다. 논문 제목: Multimodal Machine Learning: A Survey and Taxonomy (4435회 인용)

멀티모달 정렬 및 융합 기술 심층 분석: 최신 연구 동향 서베이
·
#Multimodal Alignment#Multimodal Fusion

멀티모달 정렬 및 융합 기술 심층 분석: 최신 연구 동향 서베이

본 게시물은 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터 유형의 증가에 따라 기계 학습에서 Multimodal Alignment 및 Fusion의 최신 발전에 대한 포괄적인 검토를 제공합니다. 200편 이상의 관련 논문을 바탕으로 기존 정렬 및 융합 기술을 체계적으로 분류하고 분석하며, 소셜 미디어 분석, 의료 영상, 감정 인식과 같은 분야의 응용에 중점을 둡니다. 논문 제목: Multimodal Alignment and Fusion: A Survey

MMAudio: 고품질 비디오-오디오 합성을 위한 멀티모달 공동 학습
·
#video-to-audio#multimodal

MMAudio: 고품질 비디오-오디오 합성을 위한 멀티모달 공동 학습

비디오 및 선택적 텍스트 조건이 주어졌을 때, 새로운 멀티모달 공동 학습 프레임워크(MMAudio)를 사용하여 고품질의 동기화된 오디오를 합성하는 방법을 제안합니다. MMAudio는 대규모 텍스트-오디오 데이터와 공동으로 학습하여 의미적으로 정렬된 고품질 오디오 샘플 생성을 학습하며, 조건부 동기화 모듈을 통해 오디오-비디오 동기화를 개선합니다. 논문 제목: MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

MM-Diffusion: 오디오와 비디오를 함께 생성하는 새로운 Multi-Modal Diffusion 모델
·
#Diffusion Model#Multi-Modal Generation

MM-Diffusion: 오디오와 비디오를 함께 생성하는 새로운 Multi-Modal Diffusion 모델

본 논문은 고품질의 현실적인 비디오를 목표로, 시청과 청취 경험을 동시에 제공하는 최초의 공동 오디오-비디오 생성 프레임워크인 MM-Diffusion을 제안합니다. 이 모델은 두 개의 결합된 Denoising Autoencoder를 가진 새로운 Multi-Modal Diffusion 모델로, 오디오와 비디오 서브넷이 정렬된 오디오-비디오 쌍을 점진적으로 생성하도록 학습합니다. 모달리티 간의 의미적 일관성을 보장하기 위해 Random-shift 기반의 Cross-modal attention 블록을 도입하여 효율적인 교차 모달 정렬을 가능하게 합니다. 논문 제목: MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

멀티모달 대규모 언어 모델(MLLM)의 모든 것: 최신 연구 동향 총정리
·
#MLLM#LLM

멀티모달 대규모 언어 모델(MLLM)의 모든 것: 최신 연구 동향 총정리

최근 GPT-4V와 같은 Multimodal Large Language Model(MLLM)의 최신 연구 동향을 종합적으로 살펴봅니다. 본 논문은 MLLM의 기본 개념, 아키텍처, 학습 전략, 평가 방법을 다루고, Multimodal ICL (M-ICL), Multimodal CoT (M-CoT)와 같은 확장 기술과 멀티모달 환각 현상 및 해결 과제를 논의합니다. 논문 제목: A Survey on Multimodal Large Language Models