전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (25개의 글)

wav2vec 2.0: 자기 지도 학습(Self-Supervised Learning)을 통한 음성 표현의 혁신
·
#speech recognition#self-supervised learning

wav2vec 2.0: 자기 지도 학습(Self-Supervised Learning)을 통한 음성 표현의 혁신

wav2vec 2.0은 음성 오디오만으로 강력한 표현을 학습한 후, 전사된 데이터로 미세 조정하여 기존의 반지도 학습(semi-supervised) 방법을 능가하는 프레임워크입니다. 이 모델은 잠재 공간(latent space)에서 음성 입력을 마스킹하고, 공동으로 학습된 잠재 표현의 양자화(quantization)를 통해 정의된 Contrastive loss를 해결합니다. 이 방식은 Transformer를 사용하여 문맥화된 표현을 구축하며, 단 10분의 레이블 데이터만으로도 초저자원 음성 인식의 가능성을 입증했습니다. 논문 제목: wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

TriSense: 시각, 청각, 음성 정보를 통합한 멀티모달 LLM 비디오 이해
·
#multimodal LLM#video understanding

TriSense: 시각, 청각, 음성 정보를 통합한 멀티모달 LLM 비디오 이해

TriSense는 시각, 오디오, 음성 세 가지 양식을 통합하여 비디오를 종합적으로 이해하는 트리플 모달리티 LLM입니다. 핵심 기술인 Query-Based Connector는 입력 쿼리에 따라 각 양식의 기여도를 동적으로 조절하여, 일부 양식이 누락된 상황에서도 강건한 성능을 보장합니다. 이 모델을 위해 2백만 개 이상의 고품질 샘플로 구성된 TriSense-2M 데이터셋도 함께 소개합니다. 논문 제목: Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

SpeechGPT: 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델
·
#Speech AI#LLM

SpeechGPT: 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델

SpeechGPT는 다중 모달 콘텐츠를 인식하고 생성할 수 있는 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델입니다. 이 모델은 기존의 캐스케이드 방식을 벗어나 이산적인 음성 표현을 활용하여 모달 간 지식 전달을 가능하게 합니다. 대규모 크로스모달 음성 지시 데이터셋인 SpeechInstruct를 구축하고, 3단계 학습 전략(모달리티 적응 사전학습, 크로스모달 지시 미세조정, Chain-of-Modality 지시 미세조정)을 통해 학습되었습니다. 논문 제목: SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

QUAG: 쿼리 중심 오디오-비주얼 인지 네트워크를 통한 비디오 분석
·
#video understanding#multi-modal learning

QUAG: 쿼리 중심 오디오-비주얼 인지 네트워크를 통한 비디오 분석

이 논문은 사용자의 선호도에 맞는 비디오 콘텐츠를 깊이 있게 이해하기 위해, 얕은 수준에서 깊은 수준으로 처리하는 원칙에 기반한 QUAG(Query-centric Audio-Visual Cognition) 네트워크를 제안합니다. QUAG는 시각 및 오디오 모달리티 간의 전역적 Contrastive 정렬과 지역적 상호작용을 모델링하는 MSP(Modality-Synergistic Perception)와, 쿼리를 사용하여 오디오-비주얼 표현에서 중요한 정보를 필터링하는 QC²(Query-centric Cognition)를 통해 모멘트 검색, 분할, 및 스텝 캡셔닝 작업을 수행하는 신뢰도 높은 다중 모달 표현을 구축합니다. 논문 제목: Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning

멀티모달 머신러닝의 모든 것: 최신 연구 동향과 분류
·
#Multimodal Machine Learning#Survey

멀티모달 머신러닝의 모든 것: 최신 연구 동향과 분류

AI가 인간처럼 다양한 정보를 이해하기 위한 핵심 기술, 멀티모달 머신러닝의 최신 연구 동향을 소개합니다. 이 논문은 기존의 초기/후기 통합 방식을 넘어, representation, translation, alignment, fusion, co-learning이라는 5가지 핵심 과제를 중심으로 새로운 분류 체계를 제시하여 연구자들이 분야의 현황을 파악하고 미래 연구 방향을 설정하는 데 도움을 줍니다. 논문 제목: Multimodal Machine Learning: A Survey and Taxonomy (4435회 인용)

멀티모달 정렬 및 융합 기술 심층 분석: 최신 연구 동향 서베이
·
#Multimodal Alignment#Multimodal Fusion

멀티모달 정렬 및 융합 기술 심층 분석: 최신 연구 동향 서베이

본 게시물은 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터 유형의 증가에 따라 기계 학습에서 Multimodal Alignment 및 Fusion의 최신 발전에 대한 포괄적인 검토를 제공합니다. 200편 이상의 관련 논문을 바탕으로 기존 정렬 및 융합 기술을 체계적으로 분류하고 분석하며, 소셜 미디어 분석, 의료 영상, 감정 인식과 같은 분야의 응용에 중점을 둡니다. 논문 제목: Multimodal Alignment and Fusion: A Survey