EAU: Aleatoric Uncertainty를 활용하여 강건한 Multimodal Fusion 달성하기
Multimodal fusion은 각 modality에 내재된 노이즈로 인해 성능이 저하될 수 있습니다. EAU(Embracing Aleatoric Uncertainty)는 이러한 데이터 고유의 불확실성, 즉 Aleatoric Uncertainty를 제거하는 대신 정량화하고 이를 contrastive learning에 활용하여 안정적인 unimodal representation을 학습하는 새로운 fusion 전략입니다. 이 방법론은 SUFA (Stable Unimodal Feature Augmentation)를 통해 불확실성을 포용하여 안정적인 특징을 학습하고, RMFI (Robust Multimodal Feature Integration)에서 Variational Information Bottleneck을 이용해 중복을 줄인 강건한 joint representation을 생성합니다. 결과적으로 EAU는 노이즈가 있는 환경에서도 뛰어난 강건성을 보이며 여러 multimodal 벤치마크에서 SOTA를 달성합니다. 논문 제목: Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion
Gao, Zixian, et al. "Embracing unimodal aleatoric uncertainty for robust multimodal fusion." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.
Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion
Zixian Gao , Xun Jiang , Xing Xu , Fumin Shen , Yujie Li , Heng Tao Shen <br> Center for Future Media & School of Computer Science and Engineering, University of Electronic Science and Technology of China, China<br> College of Electronic and Information Engineering, Tongji University, China<br> Kyushu Institute of Technology, Japan
Abstract
멀티모달 학습의 근본적인 문제로서, **멀티모달 융합(multimodal fusion)**은 단일 모달리티의 내재적 한계를 보완하는 것을 목표로 한다. 멀티모달 융합의 한 가지 도전 과제는 고유한 임베딩 공간에 있는 단일 모달 데이터가 대부분 잠재적인 노이즈를 포함하고 있어, cross-modal 상호작용을 손상시킨다는 점이다. 그러나 본 논문에서는 단일 모달 데이터의 잠재적 노이즈를 잘 정량화하고, 이를 contrastive learning을 통해 더 안정적인 단일 모달 임베딩을 강화하는 데 활용할 수 있음을 보여준다.
구체적으로, 우리는 **새롭고 일반적이며 견고한 멀티모달 융합 전략인 Embracing Aleatoric Uncertainty (EAU)**를 제안한다. 이 방법은 간단하며 다양한 모달리티에 적용할 수 있다. EAU는 두 가지 핵심 단계로 구성된다: (1) Stable Unimodal Feature Augmentation (SUFA): aleatoric uncertainty를 self-supervised contrastive learning에 통합하여 안정적인 단일 모달 표현을 학습한다. (2) Robust Multimodal Feature Integration (RMFI): 정보 이론적 전략을 활용하여 견고하고 압축된 joint representation을 학습한다.
우리는 제안하는 EAU 방법을 비디오, RGB 이미지, 텍스트, 오디오, 깊이 이미지 등 다양한 모달리티가 포함된 5개의 멀티모달 데이터셋에서 평가한다. 광범위한 실험을 통해 EAU 방법이 기존 멀티모달 융합 전략보다 노이즈에 더 강하며, 여러 벤치마크에서 새로운 state-of-the-art 성능을 달성함을 입증한다.
1. Introduction
서로 다른 모달리티의 상호 보완적인 정보를 탐색함으로써, 멀티모달 학습은 인터넷 애플리케이션의 멀티모달 이미지 분류 [1-5] 및 지능형 로봇의 감성 분석 [6-9]과 같은 다양한 인공지능 애플리케이션에서 인상적인 성공을 거두었다. 서로 다른 모달리티의 정보를 적절하게 융합하는 것이 더 나은 성능을 얻는 데 도움이 된다는 것이 널리 입증되었다. 이를 위해 멀티모달 융합은 강력한 신경망을 통해 서로 다른 모달리티를 통합된 표현으로 통합하는 멀티모달 학습에서 새로운 도전 과제가 되었다.
Figure 1. 멀티모달 데이터셋의 aleatoric uncertainty 및 **분포 표현(distributional representations)**에 대한 설명: (a) 의미가 모호하므로, 멀티모달 데이터는 노이즈가 있는 데이터를 도입하기 쉽다. (b) 우리는 노이즈가 있는 잠재 공간에서 **퍼지 의미(fuzzy semantics)**를 표현하기 위해 **다변량 가우시안 분포(multivariate Gaussian distribution)**를 채택한다.
(b) 퍼지 의미를 위한 다변량 가우시안 분포 표현 그럼에도 불구하고, 연구가 발전함에 따라 연구자들은 서로 다른 모달 형태의 멀티모달 데이터가 각 모달 공간의 고유한 노이즈로 인해 신뢰할 수 없을 수 있다는 점을 인식하게 되었다. 최근 몇몇 연구 [5,10-13]는 이전의 멀티모달 융합 방법들이 멀티모달 데이터의 신뢰할 수 없는 품질을 간과했음을 보여준다. 특히, 널리 채택된 융합 전략은 노이즈가 있는 멀티모달 데이터에서 실패할 수 있는데, 이는 cross-modal interaction이 데이터의 불확실성으로 인해 제한적인 영향을 받을 수 있기 때문이다. 여기 Fig. 1에서 멀티모달 데이터의 전형적인 노이즈를 설명한다. "긍정적"이라는 의미가 모호하고 레이블이 인간에 의해 주관적으로 판단되기 때문에, 주어진 이미지-텍스트 쌍은 이미지와 텍스트 모달리티 모두에 명백한 노이즈가 있음에도 불구하고 감성 분석에서 모두 긍정적으로 인식된다. 일반적으로, 도입된 노이즈는 aleatoric uncertainty [14]에서 비롯되며, 이는 멀티모달 데이터를 활용하는 효과를 저해하고 멀티모달 학습이 공짜 점심이 아님을 보여준다.
따라서 멀티모달 데이터의 불확실성이라는 새로운 도전 과제와 함께, 우리는 첫 번째 근본적인 질문을 제기한다: 멀티모달 데이터의 불확실성을 정량화할 수 있는가? 확률 분포 표현(probability Distributional Representation) [15-18]에서 영감을 받아, 우리는 이 문제를 해결하기 위해 자연스럽게 **가우시안 분포(Gaussian distributions)**를 채택한다. 우리는 각 인스턴스가 **다변량 정규 분포(multivariate normal distribution)**로 표현될 수 있다고 가정하며, 여기서 **분산(variance)**은 고유한 aleatoric uncertainty로 간주될 수 있다. 정량화된 불확실성을 통해 우리는 멀티모달 융합을 더 자세히 살펴보고 두 번째 질문을 제기할 수 있다: 고유한 불확실성을 완전히 제거하는 것이 적절한가? Fig. 1(a)의 예시에서 우리는 이미지-텍스트 쌍이 유사한 의미를 나타내더라도 도메인 시프트(domain shift), 추가 설명 또는 이미지 품질 등으로 인해 aleatoric uncertainty가 여전히 불가피하다는 것을 관찰할 수 있다. 이를 위해 Fig. 1(b)에 설명된 바와 같이, 우리는 aleatoric uncertainty를 고려하는 다변량 정규 분포가 의미에 대한 **퍼지 표현(fuzzy representation)**으로 간주될 수 있다고 주장한다. 여기서 의미 관련 데이터는 서로 다른 모달리티에 있더라도 유사한 분포 내에 있다. 두 가지 가정에 동기를 부여받아, 우리는 본 논문에서 새로운 멀티모달 융합 전략인 **Embracing Aleatoric Uncertainty (EAU)**를 개발한다.
구체적으로, 우리의 EAU 방법은 다음 두 가지 프로세스로 구성된다: (1) **Stable Unimodal Feature Augmentation (SUFA)**은 샘플을 다변량 정규 분포로 표현함으로써 각 모달리티의 고유한 aleatoric uncertainty를 정량화한다. 그런 다음, 우리는 더 나은 **의미적 일관성(semantical consistency)**을 가진 안정적인 unimodal embedding을 학습하기 위해 이러한 **분포 표현(distributional representations)**으로 self-supervised contrastive learning을 추가로 수행한다. (2) **Robust Multimodal Feature Integration (RMFI)**은 안정적인 unimodal embedding을 joint representation으로 동적으로 융합한다. 특히, SUFA가 의미적 일관성에만 초점을 맞추고 정보 중복성(information redundancy) 문제를 무시한다는 점을 고려하여, 우리는 **정보 이론적 전략(information-theoretic strategy)**인 Variational Information Bottleneck [19,20]을 사용하여 중복성이 적은 compact joint representation을 학습한다. 우리는 5개의 멀티모달 벤치마크 데이터셋에서 우리의 방법을 평가하고 Multimodal Sentiment Analysis 및 Multimodal Image Classification task 모두에서 기존의 state-of-the-art 방법들을 능가함을 입증한다. 또한, 우리의 제안된 EAU 방법은 **대응 방법들 [2,3,5]과 비교하여 노이즈가 있는 데이터셋에서 더 나은 견고성(robustness)**을 보여준다.
전반적으로, 본 논문의 기여는 세 가지로 요약될 수 있다:
- 우리는 고유한 aleatoric uncertainty를 정량화하고 이를 활용하여 안정적이고 견고한 joint representation을 학습하는 **Embracing Aleatoric Uncertainty (EAU)**라는 새로운 멀티모달 융합 방법을 제안한다.
- 우리는 aleatoric uncertainty를 정량화하고 더 나은 의미적 일관성을 가진 안정적인 unimodal representation을 학습하는 Stable Unimodal Feature Augmentation (SUFA) 모듈을 고안한다.
- 우리는 중복성이 적은 compact joint representation을 학습하기 위해 Robust Multimodal Feature Integration (RMFI) 모듈을 설계하며, 이는 우리 방법의 멀티모달 융합의 견고성을 더욱 향상시킨다.
2. Related Work
멀티모달 융합 (Multimodal Fusion)
서로 다른 modality로부터 더 강력한 표현(representation)을 학습하는 것을 목표로 하는 멀티모달 융합은 vision-audio learning [21, 22], vision-language learning [23, 24], 이미지 검색 [25-27], 비디오 이해 [28-30] 등 다양한 컴퓨터 비전 연구의 필수적인 부분이 되었다.
일반적으로 멀티모달 융합은 early fusion, intermediate fusion, late fusion의 세 가지 유형으로 분류할 수 있다. 기존의 멀티모달 융합 방법들은 feature-level 또는 decision-level 융합 작업에 따라 early fusion과 late fusion으로 분류될 수 있다. 지난 수십 년간 딥러닝을 활용한 수많은 연구들은 신경망의 hidden layer에서 멀티모달 데이터에 대한 통합된 embedding을 학습하는 intermediate fusion [13, 29, 31]이 representation 학습에 이점을 줄 수 있음을 시사한다.
이러한 멀티모달 융합 방법들이 다양한 멀티모달 학습 task에서 놀라운 개선을 달성했음에도 불구하고, 대부분은 멀티모달 학습의 불확실성(uncertainty)을 간과한다. 최근 몇몇 연구들 [5, 10-13]은 기존 멀티모달 융합 방법들이 노이즈가 있거나 손상된 멀티모달 데이터에 대해 제한적인 성능과 견고성(robustness)을 보였다는 것을 경험적 또는 이론적으로 입증했다. 이러한 선구적인 연구들에서 영감을 받아, 우리는 불확실성을 정량화하고 더 견고한 joint representation을 학습할 수 있는 새로운 intermediate 멀티모달 융합 방법을 고안했다.
딥러닝에서의 불확실성 (Uncertainty in Deep Learning)
일반적으로 딥러닝에서의 불확실성은 epistemic uncertainty와 aleatoric uncertainty로 분류할 수 있다 [14]. 전자는 딥 신경망의 파라미터 노이즈를 포착하는 것을 목표로 하는 반면, 후자는 주어진 학습 데이터에 내재된 노이즈를 측정한다.
open-world 시나리오에서 견고성과 일반화 능력을 향상시키기 위해 많은 연구자들은 **얼굴 인식 [15, 16], semantic segmentation [32], action localization [33, 34]**과 같은 컴퓨터 비전 task를 위한 딥러닝 모델에 불확실성 추정(uncertainty estimation)을 통합한다. 또한 멀티모달 학습 task에 불확실성 추정을 통합한 연구들도 다수 존재한다 [5, 17, 22, 35]. 그러나 이들 대부분은 cross-modal 상호작용에 사용되는 확률 분포 표현을 학습하기 위해 불확실성을 정량화했을 뿐, 내재된 불확실성의 가치를 간과하고 멀티모달 융합의 견고성에 대한 추가적인 분석을 거의 수행하지 않았다. 이러한 관찰에 따라, 우리는 self-supervised contrastive learning을 통해 불확실성을 포용하고, 멀티모달 학습을 위한 더 견고하고 compact한 joint representation을 학습하는 연구를 진행한다.
정보 병목 이론 (Information Bottleneck Theory)
**정보 병목 이론 [19]**은 원래 신호 처리 분야에서 정립되었으며, 신호의 가장 유익한 내용을 유지하면서 더 간결한 표현을 발견하기 위해 제안되었다. Alemi et al. [36]은 **정보 병목 이론과 딥러닝 간의 간극을 메우기 위해 Variational Information Bottleneck (VIB)**을 제안했으며, 이는 정보 병목 제약 조건을 근사화하고 딥러닝에서 이를 가능하게 한다. VIB를 기반으로 수많은 연구자들은 **객체 탐지 [37-39] 또는 이미지 분류 [37, 38]**와 같은 다양한 컴퓨터 비전 task를 해결하기 위해 딥러닝 모델에 정보 병목 이론을 도입한다. 또한 VIB는 compact하고 최소한의 표현을 학습하는 것을 목표로 하므로, 멀티모달 학습 분야 [28, 31]에서도 폭넓은 관심을 받고 있다. 예를 들어, Mai et al. [28]은 최소한의 충분한 unimodal 및 multimodal representation을 학습하기 위해 멀티모달 정보 병목을 고안했다. 이러한 성공에 영감을 받아, 우리는 joint representation의 중복성을 줄여 견고성과 효율성을 더욱 향상시키는 VIB 기반의 멀티모달 통합 전략을 고안한다.
3. Proposed Method
3.1. Preliminaries
딥러닝 모델의 불확실성 추정 (Uncertainty Estimation in Deep Learning Models)
[14]에 따르면, 딥러닝 모델의 불확실성은 aleatoric uncertainty와 epistemic uncertainty로 분류될 수 있다.
전자는 관측치에 내재된 불확실성을 의미하며, 더 많은 데이터를 통해 해소될 수 없다.
반면 후자는 모델 자체의 불확실성만을 나타내며, 충분한 데이터가 주어지면 해소될 수 있다.
일반적으로 딥러닝 모델 가 주어졌을 때, 이는 매핑을 수행한다. 여기서 는 입력 데이터, 는 관측된 레이블 공간을 나타낸다. 에 존재하는 aleatoric uncertainty는 에서 손상된 예측 결과로 이어진다.
딥러닝 모델의 불확실성을 추정하기 위한 널리 사용되는 전략은 다음과 같다:
Dropout 연산을 통해 개의 가중치 를 샘플링하여 평균 와 분산 에 대한 다양한 예측을 얻고, Gaussian posterior 를 채택하는 것이다.
여기서 우리는 **예측 분산(predictive variance)**을 얻고, 의 모호성(ambiguity)을 나타내는 aleatoric uncertainty를 추출할 수 있다:
여기서 는 aleatoric uncertainty를 나타내며, 는 epistemic uncertainty이다. epistemic uncertainty는 입력 데이터 보다는 모델 에 기인한다. 본 연구에서는 멀티모달 데이터의 내재된 노이즈를 정량화하고 이를 활용하여 더 나은 joint representation을 학습하는 것이 목표이므로, aleatoric uncertainty에 더 중점을 둔다.
Variational Information Bottleneck
Variational Information Bottleneck (VIB) [20]은 딥러닝 모델에서 널리 채택되는 정보 이론적 전략으로, 최소한의 중복성으로 최대한의 판별적(discriminative) feature representation을 유지하는 것을 목표로 한다.
구체적으로, 노이즈 또는 중복 정보가 포함된 입력 변수 와 타겟 변수 가 주어졌을 때, VIB는 압축된 잠재 변수 를 학습하는 것을 목표로 한다. 이때 는 타겟 변수 에 대해 최대한 판별적이어야 한다.
또한, 입력 가 노이즈가 많고 중복적이기 때문에, VIB는 가 원래 변수 에 대해서는 최소한으로만 판별적이도록 요구한다.
본 연구에서는 VIB를 활용하여 컴팩트한 joint representation을 학습한다. 이는 높게 정렬된(highly aligned) 분포형 멀티모달 표현에서 발생하는 중복성을 극복하여 멀티모달 융합(fusion)의 견고성을 향상시킨다.
Figure 2. Unimodal Distributional Representation 과정의 예시. 명확성을 위해, 두 변수만을 가진 다변량 Gaussian 분포를 시각화하였다.
3.2. Stable Unimodal Feature Augmentation
서로 다른 modality의 데이터는 각자의 모달 공간에서 고유한 노이즈를 포함하므로, 우리는 먼저 Stable Unimodal Feature Augmentation (SUFA) 모듈을 제안하여 이들의 내재적인 aleatoric uncertainty를 정량화한다. uncertainty가 의미론의 모호한 표현에 기인한다는 주장에 따라, 우리는 self-supervised contrastive learning을 통해 aleatoric uncertainty를 더욱 활용한다.
Unimodal Distributional Representation.
이미지, 오디오, 텍스트 등을 포함하는 modality 집합 에 속하는 멀티모달 샘플 이 주어졌을 때, 우리는 각 modality의 aleatoric uncertainty를 정량화하기 위해 분포 표현(distributional representation)을 학습한다. Eq. 1에 제시된 편차에 따르면, epistemic uncertainty를 고려하지 않을 경우, aleatoric uncertainty는 분산 로 딥러닝 모델 을 통해 직접 예측될 수 있음을 알 수 있다. 이를 위해 우리는 먼저 해당 feature extractor를 사용하여 각 modality의 예비 임베딩을 학습한 다음, 두 개의 추가 fully connected layer를 배포하여 평균 벡터 와 분산 벡터 를 학습한다.
나아가, 우리는 각 샘플 의 잠재 공간(latent space)에서의 표현 을 개의 변수를 가진 **다변량 가우시안 분포(multivariate Gaussian distribution)**로 정의하며, 이는 다음과 같이 표현될 수 있다:
여기서 과 는 각각 평균과 분산을 위한 두 개의 다른 fully connected layer를 나타낸다. 는 항등 행렬(identity matrix)이다. 서로 다른 modality에서 의미론의 일관성을 유지하기 위해, 우리는 Kullback-Leibler divergence를 사용하여 멀티모달 샘플의 분포 표현을 추가로 정렬한다:
명확성을 위해 Fig. 2에서 bi-modal 입력을 사용하여 Unimodal Distributional Representation 과정을 설명한다. 은 유사한 의미론을 가진 두 멀티모달 분포 표현을 더 가깝게 만들 것임을 알 수 있다. 이러한 방식으로, 각 멀티모달 샘플의 표현은 결정론적인 점 임베딩에 국한되지 않고, 여러 다변량 가우시안 분포에 걸쳐 **일관된 모호한 표현(consistent fuzzy representation)**이 된다. 특히, 분산 은 modality의 aleatoric uncertainty를 나타내고, 평균 은 해당 안정적인 표현이다.
Figure 3. Uncertainty-based Representation Augmentation 과정의 도식. 명확성을 위해 이미지 modality의 분포 표현만 보여준다.
Uncertainty-based Representation Augmentation.
정량화된 aleatoric uncertainty를 바탕으로, 우리는 Sec.1에서 제기한 두 번째 질문을 고려한다: 멀티모달 데이터에서 aleatoric uncertainty를 제거해야 하는가? 직관적으로, 멀티모달 데이터의 aleatoric uncertainty는 의미론의 자연스러운 모호성 때문에 피할 수 없다. 그러나 이는 또한 서로 다른 modality에서 unimodal 데이터의 다양성을 초래한다. 이를 위해 우리는 aleatoric uncertainty를 활용하여 보이지 않는(unseen) 샘플을 생성함으로써, 학습된 unimodal 표현이 유사한 의미론을 가진 다양한 unimodal 입력에 둔감하도록 만든다. 이미지 modality를 예로 들어, Fig. 3에서 Uncertainty-based Representation Augmentation 과정을 설명한다. 구체적으로, unimodal 분포 표현 가 주어졌을 때, 우리는 먼저 다변량 가우시안 분포에서 앵커 포인트 와 증강된 포인트 를 무작위로 샘플링하여 매칭 쌍으로 사용한다. 또한, 다른 분포 표현에서 음성 포인트(negative points) 세트를 무작위로 샘플링하고 다음과 같은 self-supervised contrastive learning 메커니즘을 고안한다:
여기서 는 temperature factor이고 sim은 cosine similarity 계산이다. 우리는 여기서 re-parameterization trick [40]을 채택하여 샘플링 연산을 수행하며, 이는 다음과 같이 공식화될 수 있다:
3.3. Robust Multimodal Feature Integration
SUFA를 통해 우리는 일관된 의미를 가진 안정적인 unimodal representation을 얻는다. 그러나 우리는 각 modality 내의 일관성만을 고려하고, 중복된 representation으로 인한 redundancy는 무시한다. 이를 해결하기 위해 본 섹션에서는 Robust Multimodal Feature Integration (RMFI) 모듈을 제안한다. RMFI 모듈의 개요는 Fig. 4에 나타나 있다.
Dynamic Multimodal Integration
dynamic multimodal fusion [5]에서 영감을 받아, 우리는 관찰된 label space 측면에서 볼 때, 서로 다른 modality가 joint representation에 기여하는 정도가 불균등하다고 가정한다. 이를 위해 우리는 먼저 attention mechanism 기반의 Dynamic Multimodal Integration 전략을 적용한다. 구체적으로, 안정적인 unimodal representation 이 주어졌을 때, 우리는 정량화된 불확실성(uncertainties) 에 따라 modality 전반의 분포적 representation에서 attentive weight를 계산하고, 이를 multimodal integration에 적용한다:
여기서 는 통합된 joint representation을, 은 modality의 다변량 가우시안 분포의 평균 분산을 나타낸다. 이러한 방식으로, 우리는 안정적인 unimodal representation을 joint representation으로 예비 통합하며, 이때 서로 다른 modality의 기여도는 동적으로 추정된다.
Joint Representation Compression
SUFA 모듈에서는 unimodal 데이터의 노이즈를 피하기 위해 서로 다른 modality 간의 의미 일관성을 충분히 고려한다. 그러나
Figure 4. RMFI 모듈의 개요. 우리는 classification 기반 및 regression 기반 다운스트림 task에 대해 각각 CrossEntropy loss와 loss를 제공한다.
서로 다른 modality 간에 유사한 다변량 가우시안 분포가 존재할 경우, 중복된 정보(redundant duplicated information)가 joint representation에 도입될 수 있다. 따라서 우리는 Variational Information Bottleneck (VIB) [20]을 활용한 joint representation compression을 고안한다. 구체적으로, 예비 joint representation 와 label space의 목표 관측값 가 주어졌을 때, 우리는 latent space에서 압축된 joint representation 를 학습한다: . 여기서 과 는 두 개의 fully connected layer이다. 유사하게, 우리는 최종 압축된 joint representation에 대해서도 **re-parameterization trick [40]**을 적용한다:
우리가 제안하는 방법은 다양한 다운스트림 task에 적용될 수 있으므로, 여기서는 joint representation compression을 위한 두 가지 학습 objective를 제공한다. 구체적으로, classification 기반 task에는 cross-entropy를 사용한다:
여기서 는 softmax 함수를, 는 classification을 위한 딥러닝 모델을 나타내며, 는 하이퍼파라미터이다. regression 기반 task의 경우, mean square error를 학습 objective로 사용한다:
4. Experiments
4.1. Experimental Settings
데이터셋 (Datasets)
우리는 본 연구에서 제안하는 방법을 5개의 멀티모달 데이터셋으로 평가한다. 이 중 CMU-MOSI [41]와 CMU-MOSEI [42]는 tri-modal 데이터셋이며, MVSA-Single [43], UPMC Food101 [1], NYU Depth v2 [44]는 bi-modal 데이터셋이다.
CMU-MOSI [41]와 CMU-MOSEI [42] 데이터셋은 Multimodal Sentiment Analysis (MSA) task에 널리 사용되는 비디오 데이터셋이다.
- CMU-MOSI: 2199개의 짧은 비디오로 구성되며, 각 비디오에는 -3에서 3까지의 감성 강도 점수가 부여되어 감정 강도를 미묘하게 측정할 수 있다.
- CMU-MOSEI: 감정 분석 task를 위해 특별히 설계된 더 큰 데이터셋으로, 22,856개의 영화 리뷰 클립을 포함한다.
bi-modal 데이터셋인 MVSA-Single [43] 또한 MSA task에 사용되지만, 이는 소셜 미디어에서 수집된 이미지-텍스트 쌍만을 포함하며 감성 분류를 목적으로 한다.
[2-5]를 따라, 우리는 UPMC Food101 [1]과 NYU Depth v2 [44] 데이터셋을 Multimodal Image Classification (MIC) task에도 활용한다.
- UPMC Food101: Google Image Search를 통해 얻은 101개 카테고리의 이미지와 해당 텍스트 설명을 포함한다.
- NYU Depth v2 [44]: 장면 인식(scene recognition)에 사용되며, 깊이(depth) 이미지와 RGB 이미지를 포함한다. [5]를 따라, 우리는 일반적으로 사용되는 27개 장면 카테고리 중 9개를 채택하고 나머지 카테고리는 "Others"로 분류한다.
구현 세부사항 (Implementation Details)
다른 방법론들과 마찬가지로, tri-modal 비디오 데이터셋의 경우, 우리는 시각, 오디오, 텍스트 모달리티에 대해 각각 FACET, COVAREP, BERT를 feature extractor로 사용한다.
bi-modal 데이터셋의 경우, RGB 및 깊이(depth) 이미지에 대해 ResNet-152를 feature extractor로 사용하고, 텍스트에 대해서는 BERT를 feature extractor로 사용한다.
하이퍼파라미터의 경우, 온도 계수(temperature factor) 는 0.5로, 균형 계수(balance factor) 는 으로 설정한다.
우리는 학습률(learning rate) 의 Adam optimizer를 사용했으며, Reduce-on-Plateau 학습률 조정 전략을 적용하여 EAU 방법을 학습시켰다.
평가 지표 (Evaluation Metrics)
CMU-MOSI 및 CMU-MOSEI 기반의 회귀(regression) 기반 MSA task의 경우, 우리는 이전 연구 [6, 7, 9, 45]를 따라 Acc7, F1 score, Pearson correlation coefficient를 평가 지표로 채택한다.
MSVA-Single 데이터셋의 분류(classification) 기반 MSA task와 UPMC FOOD101 및 NYU Depth v2 데이터셋의 MIC task의 경우, 우리는 정확도(accuracy)와 F1 score를 포함한 일반적으로 사용되는 지표들을 보고한다.
4.2. Comparisons with State-Of-The-Arts
우리는 멀티모달 융합에 대한 제안하는 EAU(Evidential Augmentation Uncertainty) 방법의 우수성을 입증하기 위해, CMU-MOSI 및 CMU-MOSEI 데이터셋에서 MSA(Multimodal Sentiment Analysis) task에 대한 기존의 state-of-the-art 방법들과 비교하였다. 비교 대상에는 MIB [28], HMA [6], MIM [7], GCNet [46], ConFEDE [8], DiCMoR [45], DMD [9] 등이 포함된다.
또한, 널리 사용되는 간단한 멀티모달 융합 전략인 Concat 및 Late Fusion과, bimodal 데이터셋에 대한 최근의 잘 설계된 멀티모달 융합 전략들(TMC [3], ITIN [47], MMBT [2], PMF [4], MVCN [48], QMF [5]) 과도 공정한 비교를 수행하였다. 특히, QMF [5]와 유사하게, 우리는 모델의 강건성(robustness)을 관찰하기 위해 노이즈가 있는 데이터셋에서도 우리의 방법을 평가하였다.
분류 task에서의 멀티모달 융합 (Multimodal Fusion on Classification Task)
Table 1에서는 MSA 및 MIC(Multimodal Image Classification) task를 포함한 분류 task의 성능을 보고하며, 가장 좋은 결과는 굵은 글씨로 표시되어 있다. 실험 결과에서 우리는 제안하는 EAU 방법이 모든 세 가지 데이터셋에서 다른 방법들을 능가함을 확인할 수 있다. 특히, 최신 state-of-the-art 방법인 QMF [5]와 비교했을 때, 우리의 EAU 방법은 MVSA-Single 및 NYU Depth v2 데이터셋에서 최소 1% 이상의 절대적인 성능 향상을 달성하였다. 이러한 결과는 EAU 접근 방식이 텍스트, 깊이(depth), RGB 이미지에 대해 더 나은 멀티모달 융합을 수행하며, 멀티모달 데이터의 aleatoric uncertainty를 활용하는 것의 효과를 입증한다.
그러나 UPMC Food 101 데이터셋에서의 개선은 다른 두 벤치마크 데이터셋만큼 두드러지지 않음을 확인하였다. 우리는 그 이유 중 하나가 이 데이터셋의 이미지와 텍스트가 다른 데이터셋에 비해 명확하기 때문이라고 추측한다. 따라서 증강(augmentation)의 효과가 제한적이므로 EAU 방법의 개선 폭이 적게 나타난 것으로 보인다.
| Method | CMU-MOSI | CMU-MOSEI | ||||
|---|---|---|---|---|---|---|
| Acc7 | F1 | Corr | Acc7 | F1 | Corr | |
| MIB [28] (2022) | 48.6 | 85.3 | 0.798 | 54.1 | 86.2 | 0.790 |
| HMA [6] (2023) | 45.3 | 85.6 | 0.782 | 52.8 | 85.4 | 0.787 |
| MIM [7] (2023) | 47.0 | 85.9 | 0.805 | 52.5 | 86.3 | 0.792 |
| GCNet [46] (2023) | 44.9 | 85.1 | - | 51.5 | 85.2 | - |
| ConFEDE [8] (2023) | 42.3 | 85.5 | 0.784 | 54.9 | 85.8 | 0.780 |
| DiCMoR [45] (2023) | 45.3 | 85.6 | - | 53.4 | 85.1 | - |
| DMD [9] (2023) | 45.6 | 86.0 | - | 54.5 | 86.6 | - |
| EAU (Ours) | 48.8 | 86.2 | 0.809 | 54.8 | 86.9 | 0.816 |
| Method | MVSA-Single | Food 101 | NYU Depth v2 | |||
|---|---|---|---|---|---|---|
| Acc | F1 | Acc | F1 | Acc | F1 | |
| Concat | 65.59 | 65.43 | 88.20 | 88.19 | 70.30 | 69.82 |
| Late Fusion | 76.88 | 75.72 | 90.69 | 90.77 | 69.14 | 68.32 |
| MMBT [2] (2020) | 78.50 | - | 91.52 | 91.28 | 71.04 | - |
| TMC [3] (2021) | 76.06 | 74.55 | 89.86 | 89.80 | 71.06 | 69.83 |
| ITIN [47] (2022) | 75.19 | 74.97 | - | - | - | - |
| PMF [4] (2023) | - | - | 91.68 | - | - | - |
| MVCN [48] (2023) | 76.06 | 74.55 | - | - | - | - |
| QMF [5] (2023) | 78.07 | 77.18 | 92.92 | 92.93 | 70.09 | 68.65 |
| EAU (Ours) | 79.15 | 78.36 | 93.20 | 93.18 | 72.05 | 70.63 |
Table 1. MSA 및 MIC task에 대한 state-of-the-art 멀티모달 융합 방법들과의 비교. CMU-MOSI 및 CMU-MOSEI 데이터셋은 비디오, 오디오, 텍스트를 포함한다. MVSA-Single 및 Food-101 데이터셋은 텍스트와 RGB 이미지를 포함한다. NYU Depth v2는 RGB 및 깊이(depth) 이미지를 포함한다. CMU-MOSI 및 CMU-MOSEI는 회귀 기반 MSA task에 사용되며, 다른 데이터셋은 분류 기반 MSA 또는 MIC task에 사용된다.
회귀 task에서의 멀티모달 융합 (Multimodal Fusion on Regression Task)
우리는 CMU-MOSEI 및 CMU-MOSI 데이터셋에서 회귀 task에 대한 우리의 방법을 평가하였다. 여기서 MSA task는 감정 강도(sentiment strength)를 예측하는 방식으로 수행된다. Table 1의 실험 결과에서 다음을 관찰할 수 있다: CMU-MOSI 데이터셋의 경우, 제안하는 EAU 방법은 모든 평가 지표에서 state-of-the-art 성능을 달성했으며, 특히 Acc7에서 현저한 개선을 보였다. CMU-MOSEI 데이터셋에서도 우리의 방법은 대부분의 평가 지표에서 상당한 개선을 입증하였다. 이러한 결과는 안정적이고 강건한 joint representation 학습을 통해 고품질 멀티모달 융합의 이점을 얻는 제안하는 EAU의 우수성을 보여준다. 동시에, 이러한 결과는 우리의 접근 방식이 다른 양식(modality)으로 쉽게 확장될 수 있으며, 다양한 양식을 수용하는 프레임워크로 원활하게 전이될 수 있음을 시사한다.
노이즈가 있는 멀티모달 데이터셋에서의 모델 강건성 (Model Robustness on Noisy Multimodal Datasets)
데이터 노이즈 처리에서 우리 모델의 효과를 검증하기 위해, 우리는 최근의 멀티모달 융합 전략인 QMF [5]를 따라 노이즈가 있는 데이터셋에 대해 추가 평가를 수행하였다. 구체적으로, MVSA-Single 및 NYU Depth v2 데이터셋에 대해 다양한 강도의 Gaussian 및 Salt-Pepper 노이즈를 고려하였다. 공정한 비교를 위해, 우리는 서로 다른 random seed로 10번의 실험을 수행하고 평균 결과를 최종 성능으로 보고하였다. Table 2에 나열된 실험 결과에 따르면, 우리의 방법이 다양한 유형과 강도의 노이즈 하에서 state-of-the-art 성능을 달성했음을 확인할 수 있다. 더욱이, 노이즈 강도가 증가함에 따라 우리의 방법과 기존 멀티모달 융합 전략 간의 성능 차이가 더 커진다. 특히, 노이즈가 있는 NYU Depth v2 데이터셋에서 우리의 방법은 QMF [5]보다 3% 이상의 개선을 달성하였다. 이러한 결과는 우리의 방법이 데이터 노이즈에 대해 더 나은 강건성을 나타냄을 보여준다. 그 이유는 우리 모델이 훈련 데이터의 내재적인 aleatoric uncertainty를 선구적으로 활용하여 안정적인 feature representation을 강화하기 때문이며, 이는 기존의 대조 방법들 [2, 3, 5]에서는 충분히 고려되지 않았다.
| Noisy MVSA-Single | |||||
|---|---|---|---|---|---|
| Method | Clean | Salt-Pepper Noise | Gaussian Noise | ||
| Concat | 65.59 | 58.69 | 51.16 | 50.70 | 46.12 |
| Late Fusion | 76.88 | 67.88 | 55.43 | 63.46 | 55.16 |
| MMBT [2] (2020) | 78.50 | 74.07 | 51.26 | 71.99 | 55.34 |
| TMC [3] (2021) | 74.87 | 68.02 | 56.62 | 66.72 | 60.35 |
| QMF [5] (2023) | 78.07 | 73.90 | 60.41 | 73.85 | 61.28 |
| EAU (Ours) | 79.15 | 74.81 | 61.04 | 73.89 | 62.04 |
| Noisy NYU Depth v2 | |||||
| Method | Clean | Salt-Pepper Noise | Gaussian Noise | ||
| Concat | 70.44 | 57.98 | 44.51 | 59.97 | 53.20 |
| Late fusion | 69.16 | 56.27 | 41.22 | 59.63 | 51.99 |
| MMTM [2] (2020) | 71.04 | 59.45 | 44.59 | 60.37 | 52.28 |
| TMC [3] (2021) | 71.06 | 59.34 | 44.65 | 61.04 | 53.36 |
| QMF [5] (2023) | 70.09 | 58.50 | 45.69 | 61.62 | 55.60 |
| EAU (Ours) | 72.05 | 59.83 | 46.85 | 63.33 | 58.85 |
Table 2. 노이즈가 있는 MVSA-Single 및 NYU Depth v2 데이터셋에서의 모델 성능에 대한 state-of-the-art 방법들과의 비교.
4.3. Further Analysis
모델 구조 분석 (Analysis on Model Structure)
다양한 모델 구조의 영향을 탐구하기 위해, 우리는 제안된 방법을 SUFA와 RMFI 두 가지 구성 요소로 분해하고, Noisy MVSA-Single 데이터셋에서 다양한 모델 구조와의 조합을 통해 그 효과를 평가했다.
| Method | Clean | Salt-Pepper Noise | Gaussian Noise | Modality | Acc | F1 | Corr | ||
|---|---|---|---|---|---|---|---|---|---|
| Acc@ | Acc@ | Acc@ | Acc@ | Acc@ | T | 44.1 | 83.7 | 0.785 | |
| Naive Backbone + Late Fusion | V | 16.7 | 45.3 | 0.072 | |||||
| Naive Backbone + Concat | A | 15.8 | 48.7 | 0.099 | |||||
| Naive Backbone + RMFI | T+A | 46.7 | 84.2 | 0.794 | |||||
| SUFA + Late Fusion | 46.3 | 84.6 | 0.786 | ||||||
| SUFA + Concat | 20.2 | 55.3 | 0.117 | ||||||
| BERT (NAACL'19) [49] | 48.8 | 86.2 | 0.809 | ||||||
| MMBT (arXiv'19) [2] | |||||||||
| TMC (ICLR'21) [3] | T | 76.30 | 75.90 | - | |||||
| QMF (ICML'23) [5] | V | 63.58 | 63.35 | - | |||||
| SUFA + RMFI (EAU) | 79.15 | 78.36 | - |
Table 3. Noisy MSVA-Single (왼쪽) 데이터셋에서 EAU 방법의 주요 모델 구조에 대한 분석, CMU-MOSI (오른쪽 상단) 및 MVSA-Single (오른쪽 하단) 데이터셋에서 모달리티에 대한 분석. BERT [49]는 텍스트 모달리티만 채택한다.
구체적으로, 우리는 SUFA와 RMFI에 대해 각각 두 가지 대체 설계를 사용했다: (1) Naive Backbone: SUFA 모듈의 분포 표현 및 안정적인 feature augmentation이 비활성화된 상태에서 feature extractor를 직접 배포한다. (2) Late Fusion: 단일 모달리티 표현이 먼저 다운스트림 task에 사용되고, 융합 연산은 확률 공간에서 수행된다. 우리 방법의 안정성을 관찰하기 위해, 우리는 다른 random seed로 10번의 실험을 수행하고 Table 3에 평균과 분산을 보고한다. 여기서는 우리의 우수성을 추가적으로 보여주기 위해 몇몇 비교 방법들 [2,3,5,49]과도 공정한 비교를 수행한다.
Table 3에 제시된 실험 결과에 따르면, 다음을 관찰할 수 있다: (1) 우리가 제안한 SUFA 및 RMFI 모듈은 모든 지표에서 일관되게 성능을 향상시킨다. 특히, SUFA 모듈을 사용하면 Concat 융합 전략의 결과가 노이즈 데이터에서 10% 이상의 절대 성능 향상을 보인다. 또한, Late Fusion과 비교하여, 우리가 제안한 RMFI 모듈은 SUFA 모듈과 함께 노이즈 데이터에 대한 분류 정확도를 크게 향상시킬 수 있다. 이러한 결과는 우리 방법이 멀티모달 융합의 효과성과 견고성에서 뛰어난 우수성을 보여준다는 것을 다시 한번 증명한다. (2) 또한, 우리가 제안한 EAU 방법이 비교 방법들 [2,3,5]에 비해 현저히 우수한 성능을 보인다는 것을 설명한다. 특히, 최근 state-of-the-art 방법인 QMF [5]와 비교하여, 우리의 완전한 모델은 더 나은 성능과 안정성을 보여주며, 우리 EAU 방법의 역량을 다시 한번 입증한다.
멀티모달 융합의 효과 분석 (Analysis on the Effectiveness of Multimodal Fusion)
우리 EAU 방법에서 멀티모달 융합의 효과를 검증하기 위해, 우리는 비디오(V), 텍스트(T), 오디오(A) 세 가지 모달리티로 구성된 CMU-MOSI 데이터셋에 대해 다른 모달리티에 대한 ablation study도 수행한다. Table 3에 제시된 실험 결과를 관찰함으로써, 우리는 다음 결론을 도출했다:
(1) 우리의 융합 전략은 다양한 모달리티 조합에서 상당한 효과를 보였다. 모달리티 수가 증가함에 따라, 우리의 접근 방식은 멀티모달 정보의 통합을 촉진하여 모든 평가 지표에서 상당한 개선을 가져왔다.
(2) 우리는 또한 텍스트 모달리티가 CMU-MOSI 데이터셋의 MSA task에서 필수적인 역할을 한다는 점에 주목한다. 그러나 우리가 제안한 EAU 방법을 통해 다른 두 모달리티와 결합될 때, 결과는 또한 크게 향상되어 우리 EAU 방법의 우수성을 다시 한번 입증한다. 이러한 현상은 RMFI 모듈의 Dynamic Multimodal Integration 프로세스의 합리성을 또한 증명한다.
Figure 5. 다른 노이즈 데이터에서 10회 이상의 무작위 실험으로 평가된 견고성 분석.
모델 견고성 분석 (Analysis on Model Robustness)
우리가 제안한 EAU 방법의 견고성과 안정성을 검증하기 위해, 우리는 MVSA-Single 및 NYU Depth v2 데이터셋에서 다른 노이즈 수준에 대한 추가 ablation study를 수행하고 최종 정확도의 희소성을 관찰한다. 구체적으로, 우리는 완전한 EAU (Complete로 표기) 및 SUFA가 없는 EAU (w/o SUFA로 표기)로 10회 이상의 무작위 실험을 수행하고 Fig. 5에 통계를 보여준다. 실험 결과를 관찰함으로써, 우리는 다음을 발견할 수 있다:
(1) SUFA 모듈은 다른 노이즈 강도에서 두 데이터셋 모두에서 일관되게 효과를 보여준다. 특히, 데이터에 더 많은 노이즈를 도입할 때, ablation된 모델은 강한 변동을 보인다. 대조적으로, 완전한 EAU 모델은 현저히 감소된 변동을 보여주며, 이는 모델 견고성과 안정성의 우수성을 입증한다.
(2) 우리는 또한 NYU Depth v2에서의 개선이 MVSA-Single 데이터셋보다 약간 낮다는 점에 주목한다. 비록 두 데이터셋 모두 상당한 결과를 보이지만 말이다. 우리는 이것이 텍스트 모달리티와 깊이 이미지(depth images) 간의 차이로 인해 발생한다고 추측한다. 구체적으로, 깊이 이미지는 공간 정보의 또 다른 뷰로 간주될 수 있으며, 텍스트에 비해 RGB 이미지에 대한 보완 정보가 적다.
이러한 이유로, 도입된 노이즈는 이미지-텍스트 구성보다 깊이-RGB 구성에 더 큰 영향을 미칠 것이다.
Figure 6. 학습 중 학습 수렴 및 성능 변동에 대한 분석.
학습 과정 분석 (Analysis on Training Process)
우리는 또한 학습 수렴 및 성능 변동을 관찰하기 위해 Fig 6에 MVSA-Single 데이터셋에서 우리가 제안한 EAU 방법의 학습 과정을 보여준다. 제시된 실험 결과에 따르면, 완전한 EAU 모델은 더 부드러운 학습 과정을 보이며, 현저히 더 나은 성능으로 더 빠르게 수렴한다는 것을 관찰할 수 있다. 특히, RMFI가 없는 ablation된 모델과 비교하여, 다른 두 모델은 학습 중 훨씬 더 나은 안정성을 보여준다. 이는 RMFI가 없는 ablation된 모델이 학습한 융합된 feature가 SUFA 모듈의 cross-modal distributional alignment로 인해 중복된 정보를 가지고 있기 때문이다. 이는 한계를 해결하기 위해 정보 이론적 전략을 배포하는 우리가 제안한 RMFI 모듈의 합리성을 다시 한번 증명한다.
Figure 7. MVSA-Single 데이터셋에서 t-SNE [50]를 이용한 joint representation 시각화. 여기서는 RMFI가 없는 ablation된 모델에 Concat을 사용한다.
Joint Representation 시각화 (Visualizations of Joint Representations)
우리가 제안한 EAU 방법의 우수성을 추가적으로 검증하기 위해, 우리는 학습된 **joint representation을 시각화하기 위해 t-SNE [50]**도 사용한다. Fig. 7에 제시된 바와 같이, 우리 방법으로 생성된 feature는 더욱 compact하고 판별적인 분포를 보인다. 대조적으로, SUFA 또는 RMFI 모듈이 제거될 때, feature 분포 주변에 더 많은 희소한 점들이 나타나며, 이는 최종적으로 손상된 분류 결과로 이어진다. 이러한 결과는 우리 방법이 더욱 대표적인 joint representation을 학습하는 데 더 유능하다는 것을 나타낸다.
Figure 8. MSVA-Single 데이터셋에서 선택된 테스트 케이스 시각화. 우리 EAU 방법이 노이즈에 대해 더 나은 견고성을 보임을 관찰할 수 있다.
정성적 분석 (Qualitative Analysis)
또한, 우리는 Fig. 8에 몇 가지 대표적인 테스트 케이스를 제시하고 최근 비교 방법인 QMF [5]와 비교한다. 다른 노이즈 설정에서, 우리가 제안한 EAU 방법은 주어진 이미지-텍스트 입력의 감성을 일관되게 정확하게 분류하는 반면, QMF 방법은 잘못된 결과를 반환한다. 이는 우리가 제안한 EAU 방법이 잘 설계된 SUFA 및 RMFI 모듈의 이점을 얻었으며, 이는 더 높은 정확도로 노이즈에 강한 성능을 위한 더 안정적이고 견고한 joint representation을 학습하는 데 효과적이라는 것을 설명한다.
5. Conclusion
본 논문에서는 새로운 멀티모달 융합 방법인 **Embracing Aleatoric Uncertainty (EAU)**를 제안하였다. EAU는 멀티모달 데이터에 내재된 aleatoric uncertainty를 충분히 고려함으로써, 더욱 판별력 있는(discriminative) joint representation을 달성한다. 특히, 잘 설계된 Stable Unimodal Feature Augmentation (SUFA) 및 Robust Multimodal Feature Integration (RMFI) 모듈을 통해, 제안된 EAU는 compact하고 robust한 joint representation을 학습할 수 있었다. 우리는 제안된 EAU 방법을 5개의 멀티모달 벤치마크 데이터셋에 대해 분류(classification) 및 회귀(regression) task 모두에서 평가하였으며, 융합 성능과 견고성(robustness) 측면에서 그 우수성을 입증하였다. 향후 연구에서는 멀티모달 학습에서의 uncertainty를 더욱 깊이 탐구할 예정이다.
6. Acknowledgement
본 연구는 중국 국가자연과학기금(National Natural Science Foundation of China)의 지원(과제 번호 62222203 및 62072080)과 XPLORER PRIZE를 통한 New Cornerstone Science Foundation의 지원을 받아 수행되었다.