Multimodal Fusion
3개의 포스트
EAU: Aleatoric Uncertainty를 활용하여 강건한 Multimodal Fusion 달성하기
Multimodal fusion은 각 modality에 내재된 노이즈로 인해 성능이 저하될 수 있습니다. EAU(Embracing Aleatoric Uncertainty)는 이러한 데이터 고유의 불확실성, 즉 Aleatoric Uncertainty를 제거하는 대신 정량화하고 이를 contrastive learning에 활용하여 안정적인 unimodal representation을 학습하는 새로운 fusion 전략입니다. 이 방법론은 SUFA (Stable Unimodal Feature Augmentation)를 통해 불확실성을 포용하여 안정적인 특징을 학습하고, RMFI (Robust Multimodal Feature Integration)에서 Variational Information Bottleneck을 이용해 중복을 줄인 강건한 joint representation을 생성합니다. 결과적으로 EAU는 노이즈가 있는 환경에서도 뛰어난 강건성을 보이며 여러 multimodal 벤치마크에서 SOTA를 달성합니다. 논문 제목: Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion
Dynamic Multimodal Fusion (DynMM): 데이터에 따라 동적으로 연산을 조절하는 Multimodal Fusion
기존의 정적인 Multimodal fusion 방식과 달리, Dynamic Multimodal Fusion (DynMM)은 입력 데이터의 특성에 따라 동적으로 연산 경로를 결정하여 Multimodal 데이터를 융합하는 새로운 접근법입니다. DynMM은 Gating function을 사용하여 modality-level 또는 fusion-level에서 결정을 내리고, resource-aware loss function을 통해 연산 효율성을 최적화합니다. 이를 통해 "쉬운" 데이터에 대해서는 연산량을 줄이고, "어려운" 데이터에 대해서는 모든 정보를 활용하여 높은 성능을 유지합니다. 논문 제목: Dynamic Multimodal Fusion
멀티모달 정렬 및 융합 기술 심층 분석: 최신 연구 동향 서베이
본 게시물은 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터 유형의 증가에 따라 기계 학습에서 Multimodal Alignment 및 Fusion의 최신 발전에 대한 포괄적인 검토를 제공합니다. 200편 이상의 관련 논문을 바탕으로 기존 정렬 및 융합 기술을 체계적으로 분류하고 분석하며, 소셜 미디어 분석, 의료 영상, 감정 인식과 같은 분야의 응용에 중점을 둡니다. 논문 제목: Multimodal Alignment and Fusion: A Survey