PCME: Cross-Modal Retrieval을 위한 확률적 임베딩

Chun, Sanghyuk, et al. "Probabilistic embeddings for cross-modal retrieval." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

Sanghyuk Chun ${ }^{1}$ Seong Joon Oh ${ }^{1}$ Rafael Sampaio de Rezende ${ }^{2}$ Yannis Kalantidis ${2}$ Diane Larlus ${2}$

${ }^{1}$ NAVER AI Lab ${2}$ NAVER LABS Europe

Abstract

Cross-modal retrieval 방법들은 일반적으로 비전(vision) 및 언어(language) 도메인과 같은 여러 모달리티의 샘플들을 위한 **공통 표현 공간(common representation space)**을 구축한다. 이미지와 그 캡션의 경우, **다중 대응 관계(multiplicity of correspondences)**로 인해 이 task는 특히 어렵다. 즉, 하나의 이미지(또는 캡션)가 주어졌을 때, 동등하게 의미 있는 여러 캡션(또는 이미지)이 존재할 수 있다. 본 논문에서는 결정론적 함수(deterministic functions)가 이러한 일대다(one-to-many) 대응 관계를 포착하기에 충분히 강력하지 않다고 주장한다. 대신, 우리는 **Probabilistic Cross-Modal Embedding (PCME)**을 제안한다. PCME에서는 서로 다른 모달리티의 샘플들이 공통 임베딩 공간에서 확률 분포(probabilistic distributions)로 표현된다.

COCO와 같은 일반적인 벤치마크는 cross-modal 매치에 대한 비완전한(non-exhaustive) 어노테이션 문제를 가지고 있기 때문에, 우리는 모든 가능한 이미지-캡션 쌍이 어노테이션된 더 작지만 깨끗한 데이터베이스인 CUB 데이터셋에서 retrieval 성능을 추가적으로 평가할 것을 제안한다. 우리는 PCME에 대해 광범위한 ablation 연구를 수행하며, PCME가 결정론적 counterpart보다 retrieval 성능을 향상시킬 뿐만 아니라, 임베딩을 더 해석 가능하게 만드는 불확실성 추정치(uncertainty estimates)를 제공한다는 것을 입증한다. 코드는 https://github.com/naver-ai/pcme 에서 확인할 수 있다.

1. Introduction

쿼리와 서로 다른 모달리티의 데이터베이스가 주어졌을 때, cross-modal retrieval은 쿼리와 가장 관련성이 높은 데이터베이스 항목을 검색하는 task이다. 이 주제에 대한 대부분의 연구는 이미지 및 텍스트 모달리티에 집중되어 왔다 [6, 10, 27, 54, 61]. 일반적으로, 이 방법들은 시각 및 텍스트 입력을 **공통 임베딩 공간(common embedding space)**으로 매핑하는 임베딩 함수를 추정하여, cross-modal retrieval task가 유클리드 공간에서의 익숙한 최근접 이웃(nearest neighbour) 검색 task로 귀결되도록 한다 [10, 54].

여러 모달리티를 위한 **공통 표현 공간(common representation space)**을 구축하는 것은 도전적인 과제이다. 플랫폼에서 기차에 탑승할 준비를 하는 사람들의 그룹이 있는 이미지(Figure 1)를 생각해보자. 이 이미지를 설명하는 캡션은 하나 이상일 수 있다. "People waiting to board a train in a train platform"과 "The metro train has pulled into a large station"은 COCO [6] 어노테이터들이 선택한 두 가지 캡션이었다. 따라서 공통 표현은 하나의 이미지가 잠재적으로 여러 다른 캡션과 일치할 수 있다는 사실을 다룰 수 있어야 한다. 반대로, 하나의 캡션이 주어졌을 때, 시각적 형태로 캡션의 여러 표현이 있을 수 있다. 이미지-텍스트 쌍 간의 이러한 **다중 대응(multiplicity of correspondences)**은 부분적으로 모달리티의 서로 다른 특성에서 비롯된다. 시각적 장면의 모든 다른 구성 요소는 사진에 철저하고 수동적으로 포착되는 반면, 언어 설명은 장면에서 보고할 핵심 관련 개념에 대한 의식적인 선택의 결과물이다. 종합적으로, 이미지 및 텍스트 모달리티를 위한 공통 표현 공간은 양방향으로의 one-to-many 매핑을 모델링해야 한다.

Figure 1. 우리는 probabilistic embedding을 사용하여 이미지와 캡션을 cross-modal retrieval에 적합한 공통 임베딩 공간 내의 확률 분포로 표현할 것을 제안한다. 이러한 분포는 시각적 장면에 나타나는 개념의 다중성으로 인해 발생하는 불확실성을 자연스럽게 모델링하며, 이러한 개념들 간의 many-to-many 매칭을 암묵적으로 수행한다.

**바닐라 함수(vanilla functions)**에 의존하는 표준 접근 방식은 이러한 필수 조건을 충족하지 못한다: 이들은 one-to-one 관계만 정량화할 수 있다 [10, 54]. 다중성을 도입하려는 시도가 있었다. 예를 들어, Song과 Soleymani [48]는 임베딩 함수가 주어진 입력에 대해 $K$ 개의 후보 표현을 제안하도록 함으로써 **Polysemous Visual-Semantic Embeddings (PVSE)**를 도입했다. PVSE는 매칭 task에서 다중성을 성공적으로 포착하고 one-to-one 함수를 기반으로 구축된 baseline보다 개선되었음을 보여주었다. 다른 연구자들 [27]은 사전학습된 객체 탐지기로 얻은 **영역 임베딩(region embedding)**을 계산하여 여러 영역-단어 매칭을 설정했다. 이 전략은 계산 비용의 상당한 증가를 대가로 상당한 성능 향상을 가져왔다.

본 연구에서는 **Probabilistic Cross-Modal Embedding (PCME)**을 제안한다. 우리는 **확률적 매핑(probabilistic mapping)**이 탐지 기반 접근 방식처럼 명시적인 many-to-many 표현을 요구하지 않으면서도 효과적인 표현 도구이며, 여러 가지 장점을 제공한다고 주장한다. 첫째, PCME는 **불확실성 추정치(uncertainty estimates)**를 제공하여 쿼리의 난이도 또는 실패 가능성을 추정하는 것과 같은 유용한 응용으로 이어진다. 둘째, 확률적 표현은 집합 대수(set algebras)가 의미를 갖는 더 풍부한 임베딩 공간으로 이어지는 반면, 결정론적 표현은 유사성 관계만 나타낼 수 있다. 셋째, PCME는 결정론적 검색 시스템을 보완한다.

one-to-one 대응 가정이 방법론에 해로운 만큼, 동일한 가정이 평가 벤치마크에도 혼란을 야기했다. 예를 들어, MS-COCO [6]는 cross-modal 매칭에 대한 비포괄적인(non-exhaustive) 어노테이션으로 인해 어려움을 겪는다. 가장 좋은 해결책은 평가를 위해 모든 이미지-캡션 쌍을 명시적으로 수동으로 어노테이션하는 것이다. 불행히도 이 과정은 특히 COCO와 같은 대규모 데이터셋의 경우 확장성이 떨어진다. 대신, 우리는 CUB [58]를 사용하여 더 작지만 더 깔끔한 cross-modal retrieval 벤치마크와 더 합리적인 평가 지표를 제안한다.

우리의 기여는 다음과 같다. (1) 우리는 **cross-modal retrieval을 위한 joint embedding space에서 one-to-many 관계를 적절하게 표현하기 위해 Probabilistic Cross-Modal Embedding (PCME)**을 제안한다. (2) 우리는 기존 cross-modal retrieval 벤치마크의 단점을 식별하고 대안적인 해결책을 제안한다. (3) 우리는 PCME가 제공하는 불확실성 추정치를 사용하여 joint embedding space를 분석하고 직관적인 속성이 어떻게 나타나는지 보여준다.

Cross-modal retrieval
본 연구에서는 이미지-텍스트 cross-modal retrieval에 관심을 가진다. 많은 연구가 이미지와 문장을 함께 임베딩하는 metric space를 학습하는 데 집중해왔다 [9,10,11,20,27,48,50]. 초기 연구들 [12,25]은 Canonical Correlation Analysis (CCA) [14]를 활용하여 joint embedding space를 구축했다. Frome et al. [11]은 두 가지 modality로 구성된 triplet에 대해 hinge rank loss를 사용했다. Wang et al. [54]은 이 아이디어를 확장하여 uni-modal triplet으로도 학습하여 joint space에서 각 modality에 내재된 구조를 보존하고자 했다. Faghri et al. [10]은 triplet loss를 사용하여 이러한 공간을 학습하고, query-positive 쌍에 대해 가장 어려운 negative 샘플만을 추출하는 방식을 제안했다.

단일 global representation에 의존하는 방식의 단점 중 하나는 이미지나 캡션에 존재하는 다양한 semantic concept을 표현할 수 없다는 점이다. 선행 연구들 [17, 57]은 이미지나 캡션당 하나 또는 여러 개의 임베딩 표현을 사용하는 방식으로 특징지어지는 visual-semantic embedding space에서 one-to-one 매칭과 many-to-many 매칭 간의 분리를 관찰했다. Song and Soleymani [48]는 local descriptor에 multi-head self-attention을 사용하여 각 이미지나 문장에 대해 여러 개의 global representation을 구축했다. 다른 방법들은 region-level 및 word-level descriptor를 사용하여 many-to-many 매칭으로부터 global image-to-text 유사도를 구축한다. Li et al. [27]은 Faster-RCNN [42] detector에서 얻은 region proposal의 semantic reasoning을 위해 graphical convolutional network [24]를 사용한다. Veit et al. [52]은 해시태그의 다중성을 해결하기 위해 conditional embedding 접근 방식을 제안했지만, 이는 joint embedding space에 의존하지 않으므로 cross-modal retrieval에 직접 적용할 수 없다.

최근, many-to-many image-to-sentence 매칭을 다루는 가장 성공적인 방법은 별도의 region-level encoder 위에 joint visual 및 textual reasoning module을 추가하는 방식이다 [26,30,32,33,36,56,57,63]. 이러한 방법들 대부분은 cross-modal attention network를 포함하며 cross-modal retrieval에서 state-of-the-art 결과를 보고한다. 그러나 이는 테스트 시 계산 비용이 크게 증가한다는 단점이 있다. 즉, query와 모든 데이터베이스 항목으로 구성된 쌍이 reasoning module을 거쳐야 한다. 우리는 확장성에 초점을 맞춰, joint embedding space를 직접 활용하고 대규모 인덱싱과 호환되는 접근 방식을 기반으로 구축하기로 결정했다.

마지막으로, 본 연구와 동시에 진행된 Wray et al. [59]의 연구는 cross-modal video retrieval을 다루며, 평가를 위한 one-to-one 대응 가정의 유사한 한계점을 논의한다. 그들은 표준 비디오 검색 데이터셋에서 보다 신뢰할 수 있는 평가를 위해 캡션에서 계산된 semantic similarity proxy를 고려할 것을 제안한다.

Probabilistic embedding
데이터의 확률적 표현은 머신러닝 분야에서 오랜 역사를 가지고 있다 [34]. 이는 언어에 내재된 계층 구조를 자연스럽게 처리하기 때문에 2014년 word embedding에 도입되었으며 [53], 그 이후로 다양한 분포족을 word representation에 적용하는 연구가 진행되어 왔다 [28,37,38]. 최근에는 probabilistic embedding이 vision task에도 도입되었다. Oh et al. [39]은 metric learning을 위한 one-to-many 대응을 처리하기 위해 **Hedged Instance Embedding (HIB)**을 제안했으며, 다른 연구들은 probabilistic embedding을 얼굴 이해 [4, 46], 2D-to-3D pose estimation [49], 화자 분리(speaker diarization) [47], 그리고 prototype embedding [45]에 적용했다. 우리의 연구는 HIB를 이미지와 캡션 간의 joint embedding으로 확장하여, 두 도메인에서 다양한 수준의 granularities를 표현하고 결과적으로 발생하는 one-to-many 연관성을 암묵적으로 포착한다. 최근 Schönnfeld et al. [43]은 zero-shot recognition을 위해 Variational Autoencoders [22]를 활용했다. 그들의 latent space는 개념적으로 우리와 유사하지만, 학습 및 사용 방식이 매우 다르다. 그들은 단순히 2-Wasserstein distance를 분포 정렬 손실(distribution alignment loss)로 사용하고 그 위에 classifier를 학습하는 반면, PCME는 latent feature를 검색에 직접 사용할 수 있도록 하는 probabilistic contrastive loss를 사용한다. 우리가 아는 한, PCME는 multi-modal retrieval에 probabilistic embedding을 사용하는 최초의 연구이다.

3. Method

이 섹션에서는 Probabilistic CrossModal Embedding (PCME) 프레임워크를 소개하고, 그 개념적 작동 방식과 장점을 논의한다.

먼저 cross-modal retrieval task를 정의한다. $\mathcal{D}=$ ( $\mathcal{C}, \mathcal{I}$ )를 vision 및 language 데이터셋이라고 하자. 여기서 $\mathcal{I}$ 는 이미지 집합이고 $\mathcal{C}$ 는 캡션 집합이다. 이 두 집합은 ground-truth 매칭을 통해 연결된다. 캡션 $c \in \mathcal{C}$ (또는 이미지 $i \in \mathcal{I}$ )에 대해, 해당 이미지 집합 (또는 캡션 집합)은 $\tau(c) \subseteq \mathcal{I}$ (또는 $\tau(i) \subseteq \mathcal{C}$ )로 주어진다. 모든 쿼리 $q$ 에 대해 여러 개의 cross-modal 매칭이 있을 수 있다는 점에 주목하자 ( $|\tau(q)|>1$ ). 이러한 다중성(multiplicity)을 처리하는 것이 본 연구의 핵심 초점이 될 것이다.

Cross-modal retrieval 방법들은 일반적으로 **임베딩 공간 $\mathbb{R}^{D}$ **를 학습하여, "유사성"이라는 주관적인 개념을 두 벡터 간의 거리로 정량화할 수 있도록 한다. 이를 위해, 이미지와 텍스트 샘플을 공통 공간 $\mathbb{R}^{D}$ 로 매핑하는 두 개의 임베딩 함수 $f_{\mathcal{V}}, f_{\mathcal{T}}$ 를 학습한다.

3.1. Building blocks for PCME

우리는 PCME를 위한 두 가지 핵심 요소를 소개한다: joint visual-textual embedding과 probabilistic embedding이다.

3.1.1 Joint visual-textual embeddings

우리는 시각 및 텍스트 인코더를 학습하는 방법을 설명한다. 이어서, cross-modal 연관성의 다중성을 다루기 위한 이전 시도에 대해 제시한다.

Visual encoder $f_{\mathcal{V}}$ . 우리는 ResNet 이미지 인코더 [15]를 사용한다. $z_{v}=g_{\mathcal{V}}(i): \mathcal{I} \rightarrow \mathbb{R}^{h \times w \times d_{v}}$ 는 Global Average Pooling (GAP) layer 이전의 출력을 나타낸다. Visual embedding은 $v=h_{\mathcal{V}}\left(z_{v}\right) \in \mathbb{R}^{D}$ 를 통해 계산되며, 가장 간단한 경우 $h_{\mathcal{V}}$ 는 GAP 이후 선형 layer이다. 우리는 $h_{\mathcal{V}}$ 를 수정하여 점(point)이 아닌 분포(distribution)를 예측하도록 한다.

Textual encoder $f_{\mathcal{T}}$ . 캡션 $c$ 가 주어졌을 때, 우리는 단어 수준의 descriptor 배열 $z_{t}=g_{\mathcal{T}}(c) \in \mathbb{R}^{L(c) \times d_{t}}$ 를 구축한다. 여기서 $L(c)$ 는 $c$ 의 단어 수이다. 우리는 사전학습된 GloVe [40]를 사용한다. 문장 수준 feature $t$ 는 GloVe feature 위에 있는 bidirectional GRU [7]에 의해 $t=h_{\mathcal{T}}\left(z_{t}\right)$ 로 주어진다. 이전 연구에서 사용된 손실 함수들은 contrastive loss 또는 triplet loss [10, 11]를 사용하여 joint embedding을 학습하는 경우가 많다.

Polysemous Visual-Semantic Embeddings (PVSE) [48]는 cross-modal 검색을 위한 일대다(one-to-many) 매칭을 모델링하도록 설계되었다. PVSE는 시각 및 텍스트 feature 위에 multi-head attention block을 채택하여 모달리티당 $K$ 개의 가능한 embedding을 인코딩한다. 시각적 경우, $k \in\{1, \ldots, K\}$ 에 대한 각 visual embedding $v^{k} \in \mathbb{R}^{D}$ 는 다음과 같이 주어진다: $v^{k}=\operatorname{LN}\left(h_{\mathcal{V}}\left(z_{v}\right)+s\left(w^{1}\right.\right.$ att $\left.\left._{\mathcal{V}}^{k}\left(z_{v}\right) z_{v}\right)\right)$ . 여기서 $w^{1} \in \mathbb{R}^{d_{v} \times D}$ 는 fully connected layer의 가중치이고, $s$ 는 sigmoid 함수이며, LN은 LayerNorm [1]이다. $\operatorname{att}_{\mathcal{V}}^{k}$ 는 visual self-attention att $\nu$ 의 $k$ -번째 attention head를 나타낸다. $k \in\{1, \ldots, K\}$ 에 대한 textual embedding $t^{k}$ 는 multi-head attention에 의해 대칭적으로 주어진다: $t^{k}=$ LN $\left(h_{\mathcal{T}}\left(z_{t}\right)+s\left(w^{2}\right.\right.$ att $\left.\left._{\mathcal{C}}^{k}\left(z_{t}\right) z_{t}\right)\right)$ . PVSE는 multiple instance learning (MIL) objective를 사용하여 시각 및 텍스트 인코더를 학습하며, 여기서 $K^{2}$ 개의 가능한 visual-textual embedding 쌍 중 가장 좋은 쌍만이 supervised된다.

3.1.2 Probabilistic embeddings for a single modality

우리의 PCME 모델은 각 샘플을 분포(distribution)로 표현한다. 이는 인스턴스를 분포로 나타내기 위해 개발된 단일 모달리티 방법론인 Hedged Instance Embeddings (HIB) [39]에 기반한다. HIB는 contrastive loss [13]의 확률론적 아날로그이다. HIB는 쌍별 의미론적 유사성을 보존할 뿐만 아니라 데이터에 내재된 불확실성까지 표현하는 확률적 매핑 $p_{\theta}(z \mid x)$ 를 학습한다. 여기서는 HIB의 주요 구성 요소를 설명한다.

Soft contrastive loss
$p_{\theta}(z \mid x)$ 가 쌍별 유사성을 포착하도록 학습시키기 위해, HIB는 깊은 metric embedding 학습에 널리 사용되는 contrastive loss [13]의 soft 버전을 정식화한다. 샘플 쌍 $(x_{\alpha}, x_{\beta})$ 에 대한 손실은 다음과 같이 정의된다:

\mathcal{L}_{\alpha \beta}(\theta)= \begin{cases}-\log p_{\theta}\left(m \mid x_{\alpha}, x_{\beta}\right) & \text { if } \alpha, \beta \text { is a match } \\ -\log \left(1-p_{\theta}\left(m \mid x_{\alpha}, x_{\beta}\right)\right) & \text { otherwise }\end{cases}

여기서 $p_{\theta}\left(m \mid x_{\alpha}, x_{\beta}\right)$ 는 **매치 확률(match probability)**이다.

매치 확률의 인수분해 (Factorizing match probability)
[39]는 $p_{\theta}\left(m \mid x_{\alpha}, x_{\beta}\right)$ 를 embedding 기반 매치 확률 $p\left(m \mid z_{\alpha}, z_{\beta}\right)$ 와 encoder $p_{\theta}(z \mid x)$ 로 인수분해하였다. 이는 Monte-Carlo 추정을 통해 이루어진다:

p_{\theta}\left(m \mid x_{\alpha}, x_{\beta}\right) \approx \frac{1}{J^{2}} \sum_{j}^{J} \sum_{j^{\prime}}^{J} p\left(m \mid z_{\alpha}^{j}, z_{\beta}^{j^{\prime}}\right)

여기서 $z^{j}$ 는 embedding 분포 $p_{\theta}(z \mid x)$ 에서 샘플링된 값이다. gradient가 흐르기 위해서는 embedding 분포가 reparametrization-trick-friendly해야 한다 [23].

유클리드 거리로부터의 매치 확률 (Match probability from Euclidean distances)
우리는 샘플별 매치 확률을 다음과 같이 계산한다:

p\left(m \mid z_{\alpha}, z_{\beta}\right)=s\left(-a\left\|z_{\alpha}-z_{\beta}\right\|_{2}+b\right)

여기서 $(a, b)$ 는 학습 가능한 스칼라이며, $s(\cdot)$ 는 sigmoid 함수이다.

우리는 PCME를 사용하여 확률적 표현이 가능한 joint embedding space를 학습하는 방법을 설명한다.

Figure 2. 방법론 개요. **Probabilistic Cross-Modal Embedding (PCME)**의 시각 및 텍스트 인코더가 나타나 있다. 각 modality는 $\mathbb{R}^{D}$ 공간에서 정규 분포를 나타내는 평균(mean) 및 분산(variance) 벡터를 $\mathbb{R}^{D}$ 로 출력한다.

Figure 3. Head 모듈. 시각 및 텍스트 head ( $h_{\mathcal{V}}, h_{\mathcal{T}}$ )는 modality-specific 모듈(a)을 제외하고는 동일한 구조를 공유한다. 평균(b) 및 분산(c) 계산 방식은 다르다: 분산 모듈은 sigmoid $s(\cdot)$ , LayerNorm (LN), L2 projection을 포함하지 않는다.

3.2.1 Model architecture

PCME의 개요는 Figure 2에 나와 있다. PCME는 이미지 $i$ 와 캡션 $c$ 를 동일한 임베딩 공간 $\mathbb{R}^{D}$ 상의 정규 분포 $p(v \mid i)$ 와 $p(t \mid c)$ 로 표현한다. 우리는 이 정규 분포들을 $\mathbb{R}^{D}$ 내의 평균 벡터와 대각 공분산 행렬로 매개변수화한다:

\begin{aligned} p(v \mid i) & \sim N\left(h_{\mathcal{V}}^{\mu}\left(z_{v}\right), \operatorname{diag}\left(h_{\mathcal{V}}^{\sigma}\left(z_{v}\right)\right)\right. \\ p(t \mid c) & \sim N\left(h_{\mathcal{T}}^{\mu}\left(z_{t}\right), \operatorname{diag}\left(h_{\mathcal{T}}^{\sigma}\left(z_{t}\right)\right)\right. \end{aligned}

여기서 $z_{v}=g_{\mathcal{V}}(i)$ 는 feature map이고 $z_{t}=g_{\mathcal{T}}(c)$ 는 feature sequence이다 (§3.1.1). 각 모달리티에 대해 두 개의 head 모듈인 $h^{\mu}$ 와 $h^{\sigma}$ 가 각각 평균 벡터와 분산 벡터를 계산한다. 이에 대한 설명은 다음과 같다.

Local attention branch. PVSE 아키텍처 (§3.1.1, [48])에서 영감을 받아, 우리는 이미지 및 캡션 인코더 모두의 head 모듈( $h^{\mu}, h^{\sigma}$ )에 local attention branch를 추가하는 것을 고려한다. 자세한 내용은 Figure 3을 참조하라. 이 local attention branch는 공간 feature에 대한 self-attention 기반의 aggregation으로 구성되며, 그 뒤에 sigmoid 활성화 함수를 가진 선형 layer가 이어진다. 우리는 ablation study를 통해 이 추가적인 branch가 공간 feature를 더 효과적으로 aggregation하여 성능 향상에 기여함을 보일 것이다.

$\mu$ 대 $\sigma$ 모듈. Figure 3은 각각 head 모듈 $h^{\mu}$ 와 $h^{\sigma}$ 를 보여준다. $h_{\mathcal{V}}^{\mu}$ 와 $h_{\mathcal{T}}^{\mu}$ 의 경우, 우리는 local attention branch에 sigmoid를 적용하고 residual output을 더한다. 이어서 LayerNorm (LN) [1]과 L2 projection 연산이 적용된다 [48, 51]. $h_{\mathcal{V}}^{\sigma}$ 와 $h_{\mathcal{T}}^{\sigma}$ 의 경우, sigmoid 및 LN 연산이 표현을 과도하게 제한하여 불확실성 추정 성능을 저하시킨다는 것을 관찰했다 (§D에서 논의). 따라서 우리는 불확실성 모듈에는 sigmoid, LN, L2 projection을 사용하지 않는다.

Soft cross-modal contrastive loss. 공동 확률 임베딩을 학습하는 것은 매핑 $p(v \mid i)=p_{\theta_{v}}(v \mid i)$ 와 $p(t \mid c)=p_{\theta_{t}}(t \mid c)$ 에 대한 파라미터를 학습하는 것이다. 우리는 Equation (1)의 확률 임베딩 loss를 채택하며, 여기서 매치 확률은 이제 cross-modal 쌍 $(i, c)$ 에 기반한다: $\mathcal{L}_{\mathrm{emb}}\left(\theta_{v}, \theta_{t} ; i, c\right)$ . 여기서 $\theta=\left(\theta_{v}, \theta_{t}\right)$ 는 각각 시각 및 텍스트 인코더의 파라미터이다. 매치 확률은 이제 시각 및 텍스트 feature에 따라 정의된다: $p_{\theta}(m \mid i, c) \approx \frac{1}{J^{2}} \sum_{j}^{J} \sum_{j^{\prime}}^{J} s\left(-a\left\|v^{j}-t^{j^{\prime}}\right\|_{2}+b\right)$ , 여기서 $v^{j}$ 와 $t^{j^{\prime}}$ 는 Equation (4)의 분포를 따른다.

추가적인 정규화 기법. 우리는 학습된 불확실성을 정규화하기 위해 두 가지 추가적인 loss 함수를 고려한다. [39]를 따라, 우리는 학습된 분산이 0으로 수렴하는 것을 방지하기 위해 학습된 분포와 표준 정규 분포 $\mathcal{N}(0, I)$ 사이의 KL divergence loss를 도입한다. 또한, 최근 [55]에서 소개된 uniformity loss를 사용하며, 이는 미니배치 내의 모든 임베딩 간에 계산된다. 자세한 내용은 §A.1을 참조하라.

Sampling SGD mini-batch. 우리는 먼저 $B$ 개의 ground-truth 이미지-캡션 매칭 쌍 $(i, c) \in \mathcal{G}$ 를 샘플링한다. 샘플링된 부분집합 내에서, 우리는 ground truth 매치에 의해 결정되는 모든 긍정 및 부정 쌍을 고려한다. 이는 우리 미니배치에서 $B$ 개의 매칭 쌍과 $B(B-1)$ 개의 비매칭 쌍에 해당한다.

Instance-wise 불확실성 측정. 각 입력에 대해 예측된 공분산 행렬은 데이터에 대한 내재된 불확실성을 나타낸다. 스칼라 불확실성 측정을 위해, 우리는 공분산 행렬의 행렬식을 취하거나, 동등하게 $\sigma$ 들의 기하 평균을 취한다. 직관적으로, 이는 분포의 부피를 측정한다.

3.2.2 How does our loss handle multiplicity, really?

우리는 Equation (1)의 loss가 **cross-modal 매칭의 다중성(multiplicity)**을 어떻게 처리하고 데이터의 불확실성을 학습하는지를 연구하기 위해 gradient 분석을 수행한다. §A.2에서는 PVSE에서 사용된 MIL loss (§3.1.1, [48])와의 연관성을 추가로 설명한다.

먼저 **거리 로짓(distance logit)**을 $l_{j j^{\prime}}:=-a\left\|v^{j}-t^{j^{\prime}}\right\|_{2}+ b$ 로 정의하고, 다양한 $\left(j, j^{\prime}\right)$ 값에 따른 supervision의 양을 비교한다. 이를 위해 $l_{j j^{\prime}}$ 에 대한 gradient를 취한다.

\begin{aligned} \frac{\partial \mathcal{L}_{\mathrm{emb}}}{\partial l_{j j^{\prime}}} & = \begin{cases}w_{j j^{\prime}} \cdot\left(1-s\left(l_{j j^{\prime}}\right)\right) & \text { for positive match } \\ -w_{j j^{\prime}} \cdot s\left(l_{j j^{\prime}}\right) & \text { for negative match }\end{cases} \\ w_{j j^{\prime}} & :=\frac{e^{ \pm l_{j j^{\prime}}}}{\sum_{\alpha \alpha^{\prime}} e^{ \pm l_{\alpha \alpha^{\prime}}}} \quad \text { where } \pm \text { is the positivity of match. } \end{aligned}

먼저, 만약 $w_{j j^{\prime}}=1$ 이라면, Equation (5)는 soft contrastive loss (Equation (1))로부터의 supervision과 정확히 일치한다는 것을 알 수 있다. 따라서, 모델이 다중성을 학습하고 관련 불확실성을 표현하도록 하는 것은 $w_{j j^{\prime}}$ 항이다.

$w_{j j^{\prime}}$ 의 동작을 연구하기 위해, 먼저 $(v, t)$ 가 positive pair라고 가정하자. 그러면 $w_{j j^{\prime}}$ 는 pairwise logit $l_{j j^{\prime}}$ 에 대한 softmax 값이 된다. 따라서, 거리가 더 작은 쌍 $\left\|v^{j}-t^{j^{\prime}}\right\|_{2}$ 은 먼 쌍보다 더 큰 가중치 $w_{j j^{\prime}}$ 를 갖는다. 유사하게, 만약 $(v, t)$ 가 negative pair라면, $w_{j j^{\prime}}$ 는 가까운 쌍보다 먼 쌍에 더 큰 가중치를 할당한다. 다시 말해, $w_{j j^{\prime}}$ 는 embedding 공간에서 거리 관계를 올바르게 예측하는 쌍 샘플에 더 많은 가중치를 부여한다. 이러한 결과는 적어도 하나의 올바른 유사성 예측이 있는 한, 잘못된 유사성 예측이 크게 페널티를 받지 않는 보상 구조로 이어진다. 이러한 보상은 embedding이 더 다양한 샘플을 생성하고, $\sigma$ 예측의 0이 아닌 값을 통해 위험을 분산하도록 장려한다.

3.2.3 Test-time variants

cross-modal reasoning 모듈을 사용하는 방법들 [26, 30, 32, 33, 36, 56, 57, 63]과 달리, PCME는 테스트 시점에 매치 확률을 계산하는 것이 쌍별 유클리드 거리(pairwise Euclidean distances)에 대한 함수를 계산하는 것으로 귀결된다. 이는 PCME의 확률적 임베딩이 테스트 시점에 매치 확률을 계산하는 데 다양한 방식으로 사용될 수 있으며, 각 변형마다 다른 계산 복잡도를 가진다는 것을 의미한다. 옵션은 두 가지 그룹으로 나뉜다.

(i) 샘플링 기반 변형 (Sampling-based variants): 학습과 유사하게, Monte-Carlo 샘플링(Equation (2))을 사용하여 매치 확률을 근사할 수 있다. $J$ 개의 샘플을 가정하면, 이는 매치당 $O(J^2)$ 의 거리 계산과 모든 데이터베이스 항목에 대해 $O(J^2)$ 의 공간을 필요로 한다. 이는 $J$ 가 테스트 시간 복잡도 측면에서 중요한 역할을 한다는 것을 의미한다.

(ii) 비샘플링 기반 변형 (Non-sampling variants): 단순히 $\mu$ 기반의 거리를 사용하여 매치 확률을 근사할 수 있다. 이 경우, 시간 및 공간 복잡도는 모두 $O(1)$ 이 된다. 우리는 이 변형(" $\mu$ only")을 실험에서 ablation하는데, 이는 결정론적 접근 방식과 직접적으로 비교 가능하기 때문이다. 또한, 가우시안 분포에 대해 닫힌 형식(closed-form expressions)을 갖는 모든 분포 거리 측정(distributional distance measures)을 사용할 수 있다. 예시로는 2-Wasserstein distance, Jensen Shanon (JS) divergence, Expected Likelihood Kernel (ELK) 등이 있다. 우리는 이들도 ablation한다. 각 확률적 거리(probabilistic distance)에 대한 자세한 내용은 §B에서 찾을 수 있다.

Figure 4. 캡션을 이미지와 매치시킬 수 있습니까? COCO 주석에서 네 개의 캡션 각각은 네 개의 이미지 중 (오직) 하나에 해당합니다 (정답: $\mathrm{p}: \mathrm{C}$ ' $\mathrm{e}: \supset$ ' $\mathrm{a}: \mathrm{g}$ ' $\mathrm{q}: \forall$ ).

a) 야구 선수가 공을 향해 방망이를 휘두르고 있다. b) 야구 선수가 공을 치기 위해 준비하고 있다. c) 야구 선수가 홈 플레이트 옆에 서서 방망이를 들고 있다. d) 투수판에 모여 있는 야구 선수들.

4. Experiments

우리는 PCME에 대한 실험 결과를 제시한다. 먼저 실험 프로토콜과 현재 cross-modal retrieval 벤치마크 및 평가 지표의 문제점에 대한 논의, 그리고 대안적인 해결책을 제시한다(§4.1). 이어서 CUB cross-modal retrieval task(§4.2)와 COCO(§4.3)에 대한 실험 결과를 보고한다. 마지막으로 §4.4에서는 embedding space에 대한 분석을 제시한다.

4.1. Experimental protocol

우리는 ImageNet으로 사전학습된 ResNet [15]과 220만 개의 어휘를 가진 사전학습된 GloVe [40]를 사용하여 시각 및 텍스트 인코더를 초기화한다. 학습은 두 단계로 진행된다:

warm-up 단계: head 모듈만 학습한다.
end-to-end fine-tuning 단계: 모든 파라미터를 fine-tuning한다.

MS-COCO의 경우 ResNet-152 backbone을 사용하며, 임베딩 차원 $D=1024$ 이다. CUB의 경우 ResNet-50 backbone을 사용하며, 임베딩 차원 $D=512$ 이다. 두 데이터셋 모두에서 모델은 항상 Cutout [8] 및 random caption dropping [3] 증강 전략을 사용하여 학습되며, erasing ratio는 각각 0.2와 0.1이다. 안정적인 학습을 위해 **AdamP optimizer [16]**와 **cosine learning rate scheduler [31]**를 사용한다. 더 자세한 구현 내용은 §C.2에 제공되어 있다. 하이퍼파라미터 세부 정보 및 ablation은 §D에 제시되어 있다.

연구자들은 cross-modal retrieval 평가 세트에서 잠재적으로 긍정적인 매치(positive matches)가 많다는 점을 오랫동안 인지해왔다. 이들은 이러한 고려 사항을 반영하는 지표들을 사용한다.

많은 연구에서 Recall@ $k$ (R@ $k$ ) 지표를 다양한 $k$ 값으로 보고한다. 이 평가 정책은 $k$ 값이 커질수록 COCO 데이터셋에서 흔히 발생하는 그럴듯한 오답 예측에 대해 더 관대해진다. 그러나 이는 명백히 잘못 검색된 샘플에 대한 페널티를 부여하지 못하는 단점을 가진다. 잘못 검색된 top- $k$ 샘플에 대한 페널티 부족은 precision 지표로 보완될 수 있다.

Musgrave et al. [35]은 대안으로 R-Precision (R-P) 지표를 제안했다. 이 지표는 모든 쿼리 $q$ 에 대해, 검색된 top- $r$ 항목 중 긍정 항목의 비율을 계산한다. 여기서 $r=|\tau(q)|$ 는 ground-truth 매치의 개수이다. 이 precision 지표는 검색 모델이 부정 항목보다 모든 긍정 항목을 먼저 검색할 때만 완벽한 R-Precision 점수를 달성한다는 바람직한 특성을 가진다.

R-Precision이 의미를 가지려면, 데이터셋 내의 모든 기존 긍정 쌍이 주석(annotated)되어 있어야 한다. 따라서 우리는 추가 정보(예: COCO의 클래스 레이블)를 통해 데이터베이스에서 추가적인 그럴듯한 긍정 매치(plausible positive matches)를 찾아 기존 ground truth 매치를 확장한다. 더 구체적으로, 두 인스턴스에 대한 이진 레이블 벡터 $y^{i}, y^{c} \in\{0,1\}^{d_{\text {label }}}$ 가 최대 $\zeta$ 개의 위치에서만 다를 경우, 해당 쌍 $(i, c)$ 를 긍정으로 선언한다. 실제로는 여러 기준 $\zeta \in\{0,1,2\}$ 를 고려하고, 이 $\zeta$ 값들에 대한 결과를 평균한다. 우리는 이러한 **클래스 기반 유사도에 기반한 지표를 Plausible Match (PM)**라고 부르는데, 이는 모델이 그럴듯한 항목을 검색하도록 장려하기 때문이다. Plausible Match 정책에 기반한 R-Precision 지표를 PMRP라고 칭한다. 자세한 내용은 §C.1에 있다.

COCO Captions [6]는 crossmodal retrieval 모델에 널리 사용되는 데이터셋이다. 이 데이터셋은 MS-COCO [29]의 이미지 123,287개와 각 이미지당 5개의 사람이 주석한 caption으로 구성된다. 우리는 COCO에 대한 실험 결과를 제시한다. 우리는 [19]의 평가 프로토콜을 따르며, 여기서 COCO validation set은 학습 풀에 추가된다 ([9, 10]에서는 rV 또는 rVal로 지칭). 우리의 학습 및 validation 분할은 각각 113,287개와 5,000개의 이미지를 포함한다. 우리는 5K 및 (5-fold 평균) 1K 테스트 세트 모두에 대한 결과를 보고한다.

COCO가 cross-modal retrieval 벤치마크로서 가지는 문제점은 이미지-캡션 쌍 $(i, c)$ 의 이진 관련성 할당이다. 결과적으로, 이미지 $i$ 에 대한 일치하는 캡션의 수 $\tau(i)$ 는 항상 5이다. 반대로, 캡션 $c$ 에 대한 일치하는 이미지의 수 $\tau(c)$ 는 항상 1이다. 다른 모든 쌍은 의미적 유사성과 관계없이 비일치(non-matching)로 간주된다. 이는 데이터셋의 의미적 풍부함을 제대로 나타내지 못한다. 그림 4를 참조하라. 모든 $4 \times 4$ 가능한 쌍이 그럴듯한 긍정 쌍임에도 불구하고, 12개의 쌍은 학습 및 평가 중에 부정 레이블로 할당된다. 이는 노이즈가 많은 학습과, 더 심각하게는 신뢰할 수 없는 평가 결과를 초래한다.

우리는 cross-modal retrieval 모델 평가를 위한 더 신뢰할 수 있는 대리 벤치마크로 CUB 200-2011 [58]을 재활용한다. 우리는 Reed et al. [41]의 캡션 주석을 활용한다. 이 주석은 CUB 이미지(200개의 세분화된 새 카테고리에 대한 11,788개 이미지)당 10개의 캡션으로 구성된다. 클래스 내에서 캡션과 이미지가 대체로 동질적이라는 사실 덕분에 오탐(false positives)이 억제된다. 오류(false negatives)는 발생할 가능성이 낮다. 왜냐하면 이미지에는 클래스별로 다른 유형의 새가 포함되어 있고, 주석자는 클래스를 구별하는 특성에 초점을 맞추도록 지시받아 캡션이 생성되었기 때문이다 [41].

우리는 Xian et al. [60]이 제안한 클래스 분할을 따르며, 150개 클래스는 학습 및 validation에 사용되고, 나머지 50개 클래스는 테스트에 사용된다. 하이퍼파라미터는 150개의 학습 클래스에서 검증된다. 우리는 이 벤치마크를 CUB Captions라고 부른다.

4.2. Results on CUB

테스트 시 검색을 위한 유사도 측정 (Similarity measures for retrieval at test time)
우리는 PCME가 테스트 시 채택할 수 있는 다양한 유사도 측정 방식에 대해 논의했다 (§ 3.2.3). "Mean only" 측정 방식은 결정론적 검색 시나리오에서와 같이 $h^{\mu}$ feature만을 사용한다. 이 방식은 데이터베이스 feature를 저장하는 데 $O(N)$ 의 공간 복잡도만을 필요로 한다. 반면, ELK, JS-divergence, 2-Wasserstein과 같은 확률적 거리 측정 방식은 $\mu$ 와 $\sigma$ feature를 모두 저장해야 하므로, 저장 공간 요구량이 두 배가 된다. **평균 L2 거리(average L2 distance) 및 매치 확률(match probability)**과 같은 샘플링 기반 거리 계산 방식은 Mean-only baseline에 비해 $J^2$ 배의 저장 공간을 필요로 한다.

우리는 Table 1과 §E.1에서 위에서 언급된 다양한 방식들을 비교한다. 우선, 어떤 테스트 시 유사도 측정 방식을 사용하든 PCME는 결정론적으로 학습된 PCME ( $\mu$ -only training)보다 대부분 성능이 향상됨을 관찰할 수 있다. 심지어 임베딩이 결정론적인 것처럼 테스트 시 유사도를 계산하더라도 (Mean only), PCME 학습은 검색 성능을 향상시킨다 (i2t의 경우 $24.7\%$ 에서 $26.1\%$ 로, t2i의 경우 $25.6\%$ 에서 $26.7\%$ 로). 2-Wasserstein과 같이 비용이 저렴한 다른 확률적 거리 측정 방식들도 합리적인 성능을 보여주며 (i2t의 경우 $26.2\%$ , t2i의 경우 $26.7\%$ ), 원래 공간 소비량의 두 배만 추가된다. 가장 좋은 성능은 매치 확률을 사용하는 유사도 측정 방식에서 달성되었으며, i2t에서 $26.3\%$ , t2i에서 $26.8\%$ 의 성능을 기록했다. 계산 비용과 성능, 그리고 결정론적 테스트 시 유사도 측정 방식 사이에는 trade-off가 존재한다. 본 논문의 나머지 부분에서는 테스트 시 매치 확률 측정 방식을 사용한다.

다른 방법들과의 비교 (Comparison against other methods)
우리는 Table 2에서 PCME를 VSE0 [10] 및 PVSE [48]와 비교한다. PVSE의 중요한 요소로서, 우리는 **가장 어려운 negative mining (HNM)**의 사용을 고려한다. 우리는 먼저 다음을 관찰한다.

PCME variant	Sampling	Test-time Similarity Metric	Space complexity	i2t R-P	t2i R-P
$\mu$ only	$x$	Mean only	$O(N)$	24.70	25.64
PCME	$\times$	Mean only	$O(N)$	26.14	26.67
	$\times$	ELK	$O(2 N)$	25.33	25.87
	$\times$	JS-divergence	$O(2 N)$	25.06	25.55
	$\times$	2-Wasserstein	$O(2 N)$	26.16	$\underline{26.69}$
	$\checkmark$	Average L2	$O\left(J^{2} N\right)$	26.11	26.64
	$\checkmark$	Match prob	$O\left(J^{2} N\right)$	26.28	26.77

Table 1. 분포 간의 쌍별 거리. 두 분포 간의 거리를 계산하는 데는 여러 옵션이 있다. 각 옵션의 공간 복잡도와 검색 성능은 어떠한가? R-P는 R-Precision을 나타낸다.

Method	HNM	Image-to-text		Text-to-image
		R-P	R@1	R-P	R@1
VSE0	$x$	22.4	44.2	22.6	32.7
PVSE K=1	$\checkmark$	22.3	40.9	20.5	31.7
PVSE K=2	$\checkmark$	19.7	47.3	21.2	28.0
PVSE K=4	$\checkmark$	18.4	47.8	19.9	34.4
PCME $\mu$ only	$x$	24.7	46.4	25.6	35.5
PCME	$x$	26.3	46.9	26.8	35.2

Table 2. CUB Caption test split에서의 비교. R-P와 R@1은 각각 R-Precision과 Recall@1을 나타낸다. 가장 어려운 negative mining (HNM)의 사용 여부가 표시되어 있다.

HNM을 사용한 PVSE는 R@1 지표에서 VSE0보다 더 나은 성능을 얻는 경향이 있으며, VSE0의 $44.2\%$ 에 비해 $K=4$ 일 때 $47.8\%$ 를 기록한다. 그러나 R-Precision 지표에서는 HNM을 사용한 모든 PVSE 모델이 VSE0보다 성능이 떨어지는 것을 관찰할 수 있다 (VSE0의 $22.4\%$ 에서 PVSE $K=4$ 의 $18.4\%$ 로 R-Precision이 하락). 이는 HNM을 사용한 PVSE가 정확도(precision)보다는 다양성(diversity)에 기반하여 항목을 검색하는 경향이 있음을 시사한다. 우리는 HNM이 R@1 성능을 최적화하도록 설계되었다고 추측한다; 자세한 내용은 §E.2에 있다. 다양한 $K$ 값에 대한 PVSE를 비교해보면, $K$ 를 증가시키는 것이 R-Precision 지표에서 항상 성능 향상을 가져오지는 않지만 (t2i의 경우 $K=1,2,4$ 에 대해 각각 $20.5\%, 21.2\%, 19.9\%$ ), R@1 지표에서는 개선이 더 두드러진다. 마지막으로, PCME는 i2t의 R@1 점수를 제외하고 R-Precision과 R@1 지표 모두에서 최고의 성능을 제공한다. PCME는 또한 결정론적 버전인 PCME $\mu$ -only보다 상당한 차이로 성능을 향상시킨다: i2t 및 t2i R-Precision 점수에서 각각 +1.6 pp 및 +1.2 pp 향상되었다.

4.3. Results on COCO

COCO에서의 성능 측정에 잠재적인 문제가 있음을 확인했으므로 (§4.1.2), 널리 사용되는 $\mathrm{R} @ k$ metric보다 모델 성능을 더 정확하게 포착하는 Plausible-Match R-Precision (PMRP) metric (§4.1.1)을 사용하여 결과를 보고한다. Table 3은 state-of-the-art COCO retrieval 방법들과의 결과를 보여준다.

	1 K Test Images		5 K Test Images
Method	i2t <br> PMRP R@1	t2i <br> PMRP R@1	i2t <br> PMRP R@1	t2i <br> PMRP R@1
VSE++ [10]	-	-	-	-
PVSE K=1 [48]	40.3*	41.8*	29.3*	30.1*
PVSE K=2 [48]	42.8*	43.6*	31.8*	32.0*
VSRN [27]	41.2*	42.4*	29.7*	29.9*
VSRN + AOQ [5]	44.7*	45.6*	33.0*	33.5*
PCME $\mu$ only	45.0	45.9	34.0	34.3
PCME	45.0	46.0	34.1	34.4

Table 3. MS-COCO에서의 비교. PMRP는 Plausible Match R-Precision을, R@1은 Recall@1을 의미한다. "*"는 공개된 모델에 의해 생성된 결과를 나타낸다.

우리는 PCME의 stochastic 버전이 deterministic 버전( $\mu$ only)보다 전반적으로 더 나은 성능을 보인다는 것을 관찰했다. R@1 metric 측면에서는 PVSE $K=2$ [48], VSRN [27], AOQ [5]가 PCME보다 더 나은 성능을 보인다 (예: 5K, i2t task에서 PCME의 44.2% 대비 각각 45.2%, 53.0%, 55.1%). 그러나 더 정확한 PMRP metric에서는 PCME가 이전 방법들보다 상당한 차이로 우수한 성능을 보인다 (예: 5K, i2t task에서 PCME의 34.1% 대비 각각 31.8%, 29.7%, 33.0%). 이 두 metric에 대한 결과는 PCME가 이전 방법들보다 plausible match를 훨씬 더 잘 검색한다는 것을 시사한다. 전체 결과는 §E에서 확인할 수 있다.

4.4. Understanding the learned uncertainty

PCME의 검색 성능을 확인한 후, 이제 데이터 표현에 확률 분포를 사용하는 이점을 연구한다. 우리는 학습된 embedding이 데이터의 내재된 불확실성(inherent uncertainty)을 나타낼 뿐만 아니라, 대략적으로 의미론적 의미에 해당하는 샘플 간의 집합 대수(set algebras)를 가능하게 함을 보여준다.

$\sigma$ 를 이용한 불확실성 측정
자동화된 의사결정 과정에서 불확실성을 표현할 수 있는 능력은 많은 이점을 제공한다. 예를 들어, 알고리즘은 불확실성 추정치를 기반으로 의사결정을 보류할 수 있다. 우리는 학습된 cross-modal embedding이 인스턴스에 내재된 불확실성을 포착함을 보여준다. 모든 쿼리 인스턴스에 대한 **인스턴스별 불확실성(instance-wise uncertainty)**은 $\sigma \in \mathbb{R}^{D}$ 항목의 **기하 평균(geometric mean)**을 취하여 측정한다 (§3.2.1). 그런 다음 10개의 불확실성 bin 각각에서 평균 R@1 성능을 계산한다. Figure 6은 COCO test set에서 불확실성과 R@1 간의 상관관계를 보여준다. 우리는 불확실성이 증가함에 따라 성능이 하락하는 것을 관찰한다. §F.2에서는 어떤 단어가 불확실성에 더 많은 영향을 미치는지 시각화한다. 불확실한 인스턴스의 예시와 그 검색 결과는 §F.3에 있다.

PCME의 2D 시각화
PCME의 동작을 시각적으로 분석하기 위해, CUB Captions의 9개 클래스를 사용하여 2D toy experiment를 수행한다 (자세한 내용은 §C.3). Figure 5는 학습된 이미지 및 캡션 embedding을 시각화한다. 또한 CUB Captions 데이터셋의 가장 일반적인 캡션인 "this bird has <unk> <unk> ..."에 대한 embedding도 플로팅한다.

Figure 5. 확률적 embedding의 시각화. CUB Captions의 9개 하위 클래스에 대한 학습된 이미지 (왼쪽) 및 캡션 (오른쪽) embedding. 클래스는 색상으로 구분된다. 각 타원은 각 embedding에 대한 50% 신뢰 영역을 보여준다. 빨간색 타원은 99% 신뢰 영역을 가진 일반적인 CUB 캡션인 "this bird has <unk> $\cdots$ <unk>"에 해당한다.

Figure 6. $\sigma$ 대 성능. COCO 1k test set에서 쿼리별 불확실성 수준에 따른 PCME의 성능.

Figure 7. $\sigma$ 는 모호성을 포착한다. 지워진 픽셀 (이미지의 경우) 및 단어 (캡션의 경우) 비율에 따른 평균 $\sigma$ 값.

여기서 <unk>는 단어의 부재를 나타내는 특수 토큰이다. 이 일반 캡션은 embedding 공간에서 대부분의 캡션 변형을 포괄한다 (빨간색 타원).

집합 대수 (Set algebras)
embedding 공간에서 분포 간의 관계를 이해하기 위해, 이미지 데이터에 다양한 유형의 불확실성을 인위적으로 도입한다. Figure 8에서 두 개의 새 이미지에서 시작하여 지우기(erasing) 및 혼합(mixing) 변환을 수행한다 [62]. embedding 공간에서 이미지에 대한 혼합 작업은 원래 embedding의 교집합을 포괄하는 embedding을 생성함을 발견한다. 반면에 입력 이미지의 작은 영역을 가리는 것은 약간 더 넓은 분포를 초래하며, 이는 **포함 관계(inclusion relationship)**를 나타낸다. 우리는 Figure 7에서 $\sigma$ 값이 지워진 픽셀의 비율과 양의 상관관계를 가짐을 정량적으로 확인한다. COCO에서도 유사한 동작을 관찰한다 (§F.1에 표시됨). 우리는 단어를 지움으로써 유도된 캡션 모호성과 embedding 불확실성 간의 또 다른 양의 상관관계를 발견한다.

Figure 8. 집합 대수. 두 이미지에 대해 지워지거나 혼합된 샘플에 대한 embedding을 시각화한다. 혼합 (왼쪽) 및 지우기 (오른쪽) 작업은 해당 embedding 간의 교집합 및 포함 관계로 대략적으로 해석된다.

5. Conclusion

우리는 임베딩 공간에서 멀티모달 데이터의 **확률적 표현(probabilistic representations)**을 학습하는 **Probabilistic Cross-Modal Embedding (PCME)**을 소개한다. 이 확률적 프레임워크는 이미지-캡션 쌍에서 흔히 나타나는 one-to-many 연관성을 모델링하는 강력한 도구를 제공한다. 우리가 아는 한, 이는 멀티모달 task에 확률적 임베딩을 사용한 첫 번째 연구이다. 우리는 PCME에 대한 광범위한 ablation study를 수행했으며, 그 결과 PCME가 결정론적(deterministic) 모델보다 검색 성능을 향상시킬 뿐만 아니라, 임베딩을 더 해석 가능하게 만드는 불확실성 추정치(uncertainty estimates)를 제공한다는 것을 보여준다.

Acknowledgements

NAVER AI Lab 동료들의 귀중한 논의에 감사드립니다. 모든 실험은 NAVER Smart Machine Learning (NSML) [21] 플랫폼에서 수행되었습니다.

Supplementary Materials

본 문서에는 추가 자료가 포함되어 있다. 우리는 본 논문을 보완하기 위해 PCME에 대한 추가 세부 사항을 설명한다 (§A). 다양한 **확률적 거리(probabilistic distance)**가 소개된다 (§B). 우리는 실험 프로토콜 세부 사항 (§C), ablation study (§D), 그리고 추가 결과 (§E)를 제공한다. 마지막으로, 더 많은 **불확실성 분석(uncertainty analysis)**이 제시된다 (§F).

A. More details for PCME

이 섹션에서는 PCME에 대한 세부 정보를 제공한다.

A.1. The uniformity loss

최근 Wang et al. [55]은 feature vector들이 단위 초구(unit hypersphere) 상에 균일하게 분포하도록 강제하는 uniformity loss를 제안했다. Wang et al. [55]의 연구에서 uniformity loss는 L2 정규화된 feature에 대해 더 나은 representation을 학습하는 데 효과적임이 입증되었다. 우리의 $\mu$ vector 또한 단위 L2 초구에 투영되므로, 우리는 더 나은 representation 학습을 위해 uniformity loss를 사용한다. 우리는 mini-batch 크기 $B$ 에서 joint embedding $\mathcal{Z}=\left\{v_{1}^{1}, t_{1}^{1}, \ldots, v_{B}^{J}, t_{B}^{J}\right\}$ 에 uniformity loss를 다음과 같이 적용한다:

\mathcal{L}_{\text {Unif }}=\sum_{z, z^{\prime} \in \mathcal{Z} \times \mathcal{Z}} e^{-2\left\|z-z^{\prime}\right\|_{2}^{2}}

A.2. Connection between the soft contrastive loss and the MIL objective of PVSE

본문에서는 Equation (1)의 손실 함수가 **cross-modal 매칭에서의 복수성(plurality)**을 어떻게 처리하고 데이터의 불확실성을 어떻게 학습하는지 연구하기 위해 gradient 기반 분석을 제시했다. 여기서는 PVSE [48]에서 사용된 MIL(Multiple Instance Learning) 손실과 연결점을 찾는다 (§3.1.1). 이 섹션은 본문의 해당 섹션을 따른다.

PVSE와 연결점을 만들기 위해, **one-hot 가중치 배열 $w_{j j^{\prime}}$ **를 고려해보자. 여기서 $(v, t)$ 가 positive 쌍일 때, 가장 작은 거리를 가지는 단일 쌍 $(j, j^{\prime})$ 에 대해서만 "1" 값을 가진다. negative 쌍 $(v, t)$ 에 대해서는 반대로 $w_{j j^{\prime}}$ 를 정의한다. 이렇게 하면, PVSE에서 사용된 MIL 손실을 재현할 수 있으며, 이 경우 $J^2$ 개의 예측 중 가장 좋은 매치 하나만 활용된다. 실험에서 보듯이, 우리의 softmax 가중치 방식은 PVSE에서 사용된 argmax 방식보다 불확실성에 대해 더 해석 가능하고 성능이 우수한 supervision을 제공한다.

B. Probabilistic distances

우리는 두 정규 분포 $p= \mathcal{N}\left(\mu_{1}, \sigma_{1}^{2}\right)$ 와 $q=\mathcal{N}\left(\mu_{2}, \sigma_{2}^{2}\right)$ 사이의 거리를 측정하기 위해 **확률적 거리 변형(probabilistic distance variants)**을 도입한다. 모든 거리 함수는 음이 아닌 값을 가지며, 두 분포가 동일할 때만 0이 된다. 대각 분산(diagonal variance)을 가진 다변량 가우시안 분포로의 확장은 차원별 거리의 합을 취함으로써 간단히 유도될 수 있다.

Kullback-Leibler (KL) divergence는 두 분포 간의 차이를 다음과 같이 측정한다:

\begin{aligned} K L(p, q) & =\int \log \frac{p}{q} d p \\ & =\frac{1}{2}\left[\log \frac{\sigma_{2}^{2}}{\sigma_{1}^{2}}+\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}+\frac{\left(\mu_{1}-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right] \end{aligned}

KL divergence는 비대칭적( $K L(p, q) \neq K L(q, p)$ )이며 삼각 부등식을 만족하지 않으므로 metric이 아니다. 만약 $q$ 가 거의 0에 가까운 매우 작은 분산을 가진다면, $p$ 와 $q$ 사이의 KL divergence는 발산할 것이다. 다시 말해, 우리의 gallery set에 거의 0에 가까운 분산을 가진 매우 확실한 embedding이 있다면, 이 확실한 embedding은 KL divergence 측정으로는 거의 검색되지 않을 것이다. 다음 섹션에서는 KL divergence가 실제 시나리오에서 좋지 않은 검색 성능을 초래함을 보여줄 것이다.

Jensen-Shannon (JS) divergence는 정방향 KL divergence ( $K L(p, q)$ )와 역방향 KL divergence ( $K L(q, p)$ )의 평균이다. KL divergence와 달리, JS divergence의 제곱근은 metric 함수이다.

J S(p, q)=\frac{1}{2}[K L(p, q)+K L(q, p)]

KL divergence와 마찬가지로, JS divergence도 분산 $\sigma_{1}, \sigma_{2}$ 로 나누는 항을 포함하므로, 분산이 매우 작을 때 수치적으로 불안정할 수 있다.

**Probability product kernels [18]**은 두 분포에 대한 일반화된 내적이며, 다음과 같다:

P P K(p, q)=\int p(z)^{\rho} q(z)^{\rho} d z

$\rho=1$ 일 때 **expected likelihood kernel (ELK)**이라고 불리며, $\rho=1/2$ 일 때 Bhattacharyya's affinity [2] 또는 Bhattacharyya kernel이라고 불린다.

**Expected likelihood kernel (ELK)**은 Equation (B.3)에서 $\rho=1$ 일 때의 PPK의 특수한 경우이다. 실제로는 ELK를 계산하기 위해 로그를 취하며, 다음과 같다:

E L K(p, q)=\frac{1}{2}\left[\frac{\left(\mu_{1}-\mu_{2}\right)^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}}+\log \left(\sigma_{1}^{2}+\sigma_{2}^{2}\right)\right] .

**Bhattacharyya kernel (BK)**은 Equation (B.3)에서 $\rho=1/2$ 일 때의 PPK의 또 다른 특수한 경우이다. $\log \mathrm{BK}$ 는 다음과 같이 정의된다:

B K(p, q)=\frac{1}{4}\left[\frac{\left(\mu_{1}-\mu_{2}\right)^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}}+2 \log \left(\frac{\sigma_{2}}{\sigma_{1}}+\frac{\sigma_{1}}{\sigma_{2}}\right)\right] .

Wasserstein distance는 주어진 metric space $M$ 상의 두 분포에 대한 metric 함수이다. $\mathbb{R}^{1}$ 상의 두 정규 분포 사이의 Wasserstein distance, 즉 2-Wasserstein distance는 다음과 같이 정의된다:

W(p, q)^{2}=\left(\mu_{1}-\mu_{2}\right)^{2}+\sigma_{1}-\sigma_{2}^{2} .

C. Experimental Protocol Details

우리는 본 연구에서 고려된 cross-modal retrieval 벤치마크를 소개한다. 기존 평가 방식의 문제점을 논의하고 새로운 대안을 제시한다.

C.1. Plausible Match R-Precision (PMRP) details

본 연구에서는 이미지에 대한 class 및 attribute label을 통해 보다 신뢰할 수 있는 쌍별 유사도 측정 소스를 찾고자 한다. 예를 들어, CUB caption 데이터셋에서는 쌍 $(i, c)$ 가 동일한 새(bird) class에 속하는 경우에만 긍정(positive)으로 간주하는 기준을 설정하여 쌍의 긍정성을 확립하였다.

Figure C.1. MS-COCO validation set의 고유 카테고리 수. 10개 이상의 카테고리를 가진 이미지는 제외되었다.

마찬가지로, COCO caption 데이터셋에서는 **이미지당 부여된 여러 class label(총 80개 class)**을 통해 긍정성을 판단한다: 쌍 $(i, c)$ 는 두 인스턴스의 이진 class 벡터 $y^{i}, y^{c} \in\{0,1\}^{80}$ 가 최대 $\zeta$ 개의 위치에서만 다른 경우(Hamming Distance)에만 긍정으로 간주된다. MS-COCO 5k 테스트 이미지 중 48개 이미지에는 인스턴스 레이블이 없으므로 평가에서 제외한다. 우리가 R-Precision을 사용하기 때문에, 즉 상위 $r$ 개의 검색된 항목 중 긍정 항목의 비율을 사용하며, 여기서 $r$ 은 ground-truth 일치 항목의 수이다. 따라서 $\zeta$ 를 증가시키면 $r$ 이 커지고, 관련 없는 항목을 검색하는 방법에 더 큰 불이익을 줄 수 있음에 유의해야 한다.

Figure C.1에서는 MS-COCO validation set의 이미지당 고유 카테고리 수를 시각화하였다. 그림에서 이미지의 약 절반이 두 개 이상의 카테고리를 가지고 있음을 확인할 수 있다. 거의 무시할 수 있는 객체로 인해 발생하는 불이익을 피하기 위해(Figure C.2 참조), PMRP 점수 측정 시 $\zeta=2$ 로 설정하였다. $\zeta$ 가 2가 아닌 다른 값일 때의 PMRP 결과는 $\S$ E에서 확인할 수 있다.

C.2. Implementation details

공통 (Common)
Faghri et al. [10]에서와 같이, 우리는 **ImageNet으로 사전학습된 ResNet [15]**과 **2.2M 단어의 GloVe [40]**를 사용하여 시각 및 텍스트 인코더( $f_{\mathcal{V}}, f_{\mathcal{T}}$ )를 초기화한다.
먼저, feature extractor를 고정(freeze)한 상태에서 각 modality의 head 모듈을 학습시켜 모델을 warm-up한다. 그 후, 전체 파라미터는 end-to-end 방식으로 fine-tuning된다.
MS-COCO의 경우 임베딩 차원 $D=1024$ 의 ResNet-152 backbone을 사용하고, CUB의 경우 $D=512$ 의 ResNet-50을 사용한다. 모든 실험에서 샘플 수 $J=7$ 로 설정하였다 (자세한 연구는 §E 참조). 안정적인 학습을 위해 **AdamP optimizer [16]와 cosine learning rate scheduler [31]**를 사용한다.

MS-COCO
우리는 [19]의 평가 프로토콜을 따르며, validation set은 training pool에 추가된다 ([9, 10]에서는 rV로 언급됨). 우리의 학습 및 검증 분할은 각각 113,287개와 5,000개의 이미지를 포함한다. 우리는 5K 및 (5-fold 평균) 1K 테스트 세트 모두에서 결과를 보고한다.

하이퍼파라미터 탐색 프로토콜 (Hyperparameter search protocol)
우리는 초기 학습률, warm-up 및 fine-tuning을 위한 epoch 수, 그리고 기타 하이퍼파라미터를 150개의 CUB 학습 클래스와 MS-COCO caption validation split에서 검증한다.
MS-COCO의 경우, 초기 학습률은 0.0002, warm-up epoch는 30, fine-tune epoch는 30으로 설정한다. 정규화 항 $\mathcal{L}_{\mathrm{KL}}$ 과 $\mathcal{L}_{\text {Unif }}$ 의 가중치는 각각 0.00001과 0으로 설정한다.
CUB Caption의 경우, 초기 학습률은 0.0001, warm-up epoch는 10, fine-tuning epoch는 50으로 설정한다. 정규화 항 $\mathcal{L}_{\text {KL }}$ 과 $\mathcal{L}_{\text {Unif }}$ 의 가중치는 각각 0.001과 10으로 설정한다.
두 데이터셋 모두에서 모델은 항상 Cutout [8]과 random caption dropping [3] 증강 전략을 사용하며, erasing ratio는 각각 0.2와 0.1이다. Equation (3)의 $a, b$ 초기값은 COCO의 경우 -15와 15, CUB의 경우 -5와 5로 설정한다.

C.3. CUB 2D toy experiment details

우리는 CUB caption에서 9개의 새 클래스를 선택했다:

수영하는 새 세 종류: "Western Grebe", "Pied Billed Grebe", "Pacific Loon"
작은 새 세 종류: "Vermilion Flycatcher", "Black And White Warbler", "American Redstart"
딱따구리 세 종류: "Red Headed Woodpecker", "Red Bellied Woodpecker", "Downy Woodpecker"

우리는 2차원 embedding을 학습하기 위해 PCME를 약간 수정했다. Image encoder의 경우, 다른 실험들과 동일한 구조를 사용했지만, $\mu$ 및 $\sigma$ 모듈에서 attention 모듈은 제외했다. Caption encoder의 경우, GloVe 벡터 위에 1024차원 bi-GRU를 학습시키고, 두 개의 2D projection을 적용하여 1024차원의 $\mu$ 및 $\sigma$ embedding을 얻었다. 다른 학습 세부 사항은 CUB caption 실험과 동일하다.

D. Ablation studies

우리는 **정규화 항, $\sigma$ 모듈 아키텍처, 학습 중 샘플 수 $J$ , 임베딩 차원 $D$ **에 대한 PCME의 ablation study를 제공한다.

불확실성 정규화 (Regularizing uncertainty)
PCME는 확률적 출력을 예측한다. 본 논문에서는 불확실성 특정 정규화 전략으로 **정보 병목 손실(information bottleneck loss) $\mathcal{L}_{\mathrm{KL}}$ **과 **균일성 손실(uniform loss) $\mathcal{L}_{\text {Unif }}$ **을 고려했다. 우리는 이러한 요소들의 이점을 연구한다. Table D.1은 우리의 결과를 보여준다. 우리는 150개 클래스 학습 CUB caption 데이터셋에 대한 **cross-validated MAP@R [35]**을 보고한다. KL loss는 $\sigma$ 값들을 의미 있는 범위로 증가시킨다 (예: $e^{-13.01} \approx 2.2 \times 10^{-6}$ 에서 $e^{-3.84} \approx 0.02$ 로). 균일성 손실은 불확실성이 붕괴되는 것을 방지하고 성능을 약간 향상시킨다.

Figure C.2. MS-COCO plausible match examples. 가장 왼쪽 인스턴스의 그럴듯한 예시를 $\zeta=0$ 부터 $\zeta=2$ 까지 보여준다. 포함된 인스턴스 클래스, $\zeta$ , 그림 및 캡션이 표시되어 있다.

$\mathcal{L}_{\mathrm{KL}}$	$\mathcal{L}_{\text {Unif }}$	i 2 t <br> $\mathrm{MAP} @ \mathrm{R}$	t 2 i <br> $\mathrm{MAP} @ \mathrm{R}$	Image <br> $\mathbb{E}[\log \sigma]$	Caption <br> $\mathbb{E}[\log \sigma]$
$\times$	$\times$	10.56	13.32	-13.01	-8.77
$\checkmark$	$\times$	10.57	13.77	-3.84	-3.89
$\times$	$\checkmark$	10.56	13.31	-11.26	-7.59
$\checkmark$	$\checkmark$	$\mathbf{10 . 6 5}$	$\mathbf{13 . 8 4}$	-3.63	-3.64

Table D.1. 불확실성 정규화. CUB 학습 세트에 대한 cross-validated MAP@R 성능, KL 및 균일성 손실 항의 유무에 따른 결과. 스케일 추정치 $\mathbb{E}[\log \sigma]$ 는 $\sigma$ 차원 및 검증 샘플에 대한 평균값이다.

$\sigma$ 의 자유도 (DoF for $\sigma$ )
기본적으로 우리는 공분산 행렬 $\Sigma \in \mathbb{R}^{D \times D}$ 의 전체 대각 요소를 벡터 $\sigma \in \mathbb{R}^{D}$ 로 파라미터화하지만, 임베딩 분포 패밀리를 **등방성 가우시안(isotropic Gaussian)**으로 제한하여 스칼라를 통해 $\sigma$ 를 더 저렴하게 파라미터화할 수도 있다. Table D.2는 $\sigma$ 의 자유도(DoF)와 PCME의 R-Precision 간의 trade-off를 보여준다. 실제로 $\sigma$ 에 더 큰 자유도를 허용할수록 더 나은 성능을 가져온다. Figure D.1은 각 차원에 대한 평균 분산 값을 보여주며, 이는 학습된 분산이 높은 자유도를 요구한다는 것을 뒷받침한다.

Figure D.1. 분산은 얼마나 등방성인가? 분산의 정렬된 값들이 등방성 PCME의 학습된 값들과 비교된다. CUB 테스트 세트에 대한 결과.

Method	DoF $(\sigma)$	i2t	t2i
PCME $\mu$ only	0	24.7	25.6
PCME isotropic	1	25.7	26.0
PCME	512	$\mathbf{2 6 . 3}$	$\mathbf{2 6 . 8}$

Table D.2. $\sigma$ 의 자유도. CUB Caption 테스트 세트에 대한 R-Precision.

$\mu$ <br> local attention	$\sigma$ <br> local attention	I-to-T <br> R-Precision	T-to-I <br> R-Precision
$x$	$x$	25.60	25.85
$x$	$\checkmark$	24.65	25.15
$\checkmark$	$x$	25.01	25.52
$\checkmark$	$\checkmark$	$\mathbf{2 6 . 2 8}$	$\mathbf{2 6 . 7 7}$

$s(\cdot) \&$ LN in $\sigma$ module	I-to-T R-Precision	T-to-I R-Precision
$\checkmark$	23.81	24.58
$\times$	$\mathbf{2 6 . 2 8}$	$\mathbf{2 6 . 7 7}$

Table D.3. $\mu$ 및 $\sigma$ 를 위한 아키텍처. CUB caption 테스트 분할에 대한 아키텍처 설계 선택 비교.

아키텍처 연구 (Architecture study)
Table D.3은 CUB Caption 테스트 분할에 대한 PCME의 아키텍처 설계 비교를 보여준다. 표에서 $\mu$ 및 $\sigma$ 모듈 모두에 local attention을 적용하는 것이 가장 좋은 성능을 보인다. 또한, 우리는 분산의 표현을 제한할 수 있는 $\sigma$ 모듈의 sigmoid 및 LN 부분을 ablation한다. 결과적으로, sigmoid 및 layer norm에 의한 표현 제한은 최종 성능을 저해한다.

Figure D.2. 샘플 수. 학습 중 샘플 수 $J$ 를 변화시켰을 때의 cross-validated PCME 성능.

Figure D.3. 임베딩 차원. 임베딩 차원 $D$ 에 대한 PCME 성능.

학습 중 샘플 수 (Number of samples during training)
Figure D.2에서 우리는 학습 중 샘플 수 $J$ 를 변화시켰을 때의 cross-validated 평균 R-Precision 점수를 보고한다. 그림에서 우리는 $J$ 가 클수록 성능이 높아지는 것을 관찰한다. 실제로는 계산 예산을 고려하여 $J=7$ 을 선택한다.

임베딩 차원 (Embedding dimensions)
PCME $\mu$ only와 PCME에 대한 다양한 임베딩 공간 차원에 따른 성능은 Figure D.3에 나타나 있다. 모든 임베딩 차원에서 우리의 확률적 접근 방식(PCME)은 결정론적 접근 방식(PCME $\mu$ only)보다 일관되게 우수한 성능을 보인다.

E. More results

이 섹션에서는 CUB Caption 및 COCO Caption에 대한 PCME의 추가 실험 결과를 제공한다.

PCME variant	Sampling	Test-time Similarity Metric	Space complexity	i2t R-P	t2i R-P
$\mu$ only	$\times$	Mean only	$O(N)$	24.70	25.64
PCME	$\times$	Mean only	$O(N)$	26.14	26.67
	$\times$	KL-divergence	$O(2 N)$	21.99	20.92
	$\times$	JS-divergence	$O(2 N)$	25.06	25.55
	$\times$	ELK	$O(2 N)$	25.33	25.87
	$\times$	Bhattacharyya	$O(2 N)$	24.93	25.27
	$\times$	2-Wasserstein	$O(2 N)$	$\underline{26.16}$	26.69
	$\checkmark$	Average L2	$O\left(J^{2} N\right)$	26.11	26.64
	$\checkmark$	Match prob	$O\left(J^{2} N\right)$	26.28	26.77

Table E.1. 분포 간의 쌍별 거리(Pairwise distances for distributions). 두 분포 간의 거리를 계산하는 데에는 여러 옵션이 있다. 각 옵션에 대한 **공간 복잡도(space complexity)**와 **검색 성능(retrieval performance)**은 어떠한가? R-P는 R-Precision을 의미한다.

Figure E.1. 다양한 검색 전략 비교.

E.1. More results on similarity measures for retrieval at test time

Table E.1에서는 §B에서 논의된 다양한 분포 거리(distribution distance)를 통해 얻은 전체 retrieval 결과를 보고한다. §B에서 언급했듯이, KL-divergence는 비확률적 거리인 "Mean only" baseline보다도 더 낮은 성능을 보인다. 또한, Figure E.1에서는 matching probability의 샘플 수에 따른 성능을 보고한다. 이 그림에서 matching probability 전략은 $J=3$ 부터 non-sampling 전략보다 더 나은 결과를 보이며, $J$ 값이 커질수록 성능이 향상된다. 연산 복잡도 때문에 Table E.1에서는 $J=7$ 을 사용하였다.

E.2. Discussion on hardest negative mining

Recall@K는 많은 cross-modal retrieval task 평가에 널리 사용되므로, 최근의 많은 cross-modal retrieval 방법들은 hardest negative mining (HNM) 전략 [10]을 통해 Recall@1을 직접 최적화한다. 그 식은 다음과 같다:

\begin{array}{r} \max _{t^{\prime}}\left[\alpha+\operatorname{sim}\left(v, t^{\prime}\right)-\operatorname{sim}(v, t)\right] \\ +\max _{v^{\prime}}\left[\alpha+\operatorname{sim}\left(v^{\prime}, t\right)-\operatorname{sim}(v, t)\right], \end{array}

Figure E.2. Hardest negative mining (HNM) vs. Non-HNM.

Method	HNM	Image-to-text		Text-to-image
		R-P	R@1	R-P	R@1
VSE0	$x$	22.35	44.19	22.57	32.71
PVSE K=1	$x$	22.65	43.11	22.78	33.49
PVSE K=2	$x$	21.62	44.05	21.49	31.31
PVSE K=4	$x$	21.12	40.51	20.90	30.94
PVSE K=1	$\checkmark$	22.34	40.88	20.51	31.71
PVSE K=2	$\checkmark$	19.67	47.29	21.16	27.98
PVSE K=4	$\checkmark$	18.38	47.76	19.94	34.39
PCME $\mu$ only	$x$	24.70	46.38	25.64	35.50
PCME	$x$	26.28	46.92	26.77	35.22

Table E.2. CUB Caption unseen 50 class test set에 대한 비교. R-P와 R@1은 각각 R-Precision과 Recall@1을 나타낸다. hardest negative mining (HNM)의 사용 여부가 표시되어 있다.

여기서 sim은 cosine similarity이다. 이 전략은 다른 모든 가능한 positive candidate를 무시하고, 가장 유사한 positive 및 negative 쌍만을 고려한다. HNM 전략이 전역적인 구조(global structure)를 학습하는 데 불리하다는 것을 밝히기 위해, 우리는 CUB Caption 데이터셋에서 R-Precision과 Recall@1 두 가지 지표를 측정한다. non-HNM 전략의 경우, Equation (E.1)에서 max를 $\sum$ 으로 대체한다. Figure E.2는 다양한 mining 전략에 따른 R-Precision 및 Recall@1 성능을 보여준다. 이 그림에서 HNM 전략을 사용한 PVSE는 embedding의 수 $K$ 를 증가시킴에 따라 Recall@1이 높아지지만 ( $36.3 \rightarrow 37.6 \rightarrow 41.1$ ), 동시에 R-Precision 점수는 감소한다 ( $21.4 \rightarrow 20.4 \rightarrow 19.2$ ). 반면, 모든 $K$ 값에 대해 non-HNM 전략을 사용한 PVSE 결과는 HNM 결과보다 Recall@1은 낮지만, 더 높은 R-Precision 성능을 달성한다. Table 3에서는 이러한 현상이 MS-COCO에서도 PMRP 점수를 측정함으로써 관찰됨을 보여준다.

E.3. Full results for CUB and COCO

CUB Caption. 우리는 CUB Caption test 데이터에 대한 전체 결과를 Table E.2와 Table E.3에 각각 unseen 50개 클래스와 seen 150개 클래스에 대해 보고한다. 두 분할(split) 모두에서 PCME는 baseline 대비 최고의 R-Precision 성능을 보여준다.

Method	HNM	Image-to-text		Text-to-image
		R-P	R@1	R-P	R@1
VSE0	$x$	19.85	40.88	18.72	25.51
PVSE K=1	$x$	19.69	40.65	18.72	25.58
PVSE K=2	$\times$	18.84	41.45	17.72	24.99
PVSE K=4	$\times$	18.31	38.08	17.21	23.54
PVSE K=1	$\checkmark$	18.98	38.77	18.23	23.49
PVSE K=2	$\checkmark$	17.62	44.24	17.71	22.78
PVSE K=4	$\checkmark$	17.47	44.98	17.44	26.19
PCME $\mu$ only	$\times$	20.65	42.70	20.16	26.94
PCME	$\times$	20.87	43.10	20.37	26.47

Table E.3. CUB Caption seen 150 클래스 test set에 대한 비교. R-P와 R@1은 각각 R-Precision과 Recall@1을 나타낸다. hardest negative mining (HNM) 사용 여부가 표시되어 있다.

Figure E.3. $\zeta$ 값 변화에 따른 PMRP. $\zeta=\{0,1,2\}$ 에 대한 네 가지 방법의 Plausible Match R-Precision 점수.

COCO Caption. 우리는 MS-COCO Caption 1k test 이미지와 5k test 이미지에 대한 전체 결과를 각각 Table E.4와 Table E.5에 보고한다. 또한, PVSE에 대한 추가 실험으로 더 큰 $K(K=4)$ 값과 **다른 negative mining 전략(semi-hard negative mining [44])**을 사용한 결과도 보고한다. 표에서 PCME는 PVSE K=2보다 R@1 결과가 약간 낮지만, PMRP 점수에서는 PVSE K=2를 능가한다.

또한, Figure E.3에서는 PMRP의 $\zeta$ 값을 변화시키면서 네 가지 방법(PVSE [48], VSRN [27], VSRN + AOQ [5] 및 PCME)에 대한 PMRP 점수를 보고한다. 그림에서 VSRN과 VSRN + AOQ의 PMRP 점수는 $\zeta$ 가 증가함에 따라 악화된다. 즉, 이 방법들은 검색된 항목에서 하나의 누락되거나 변경된 객체 클래스를 허용할 경우 일관성이 떨어지는 모습을 보인다. 반면, PCME는 $\zeta>0$ 일 때 성능이 오히려 증가하는데, 이는 PCME가 다른 방법들보다 더 그럴듯한(plausible) 항목들을 검색한다는 것을 의미한다.

Method	$D$	Image-to-text				Text-to-image
		PMRP	R@1	R@5	R@10	PMRP	R@1	R@5	R@10
VSE++ BMVC'18 [10]	1024	-	64.6	90.0	95.7	-	52.0	84.3	92.0
PVSE K=1 CVPR'19 [48]	1024	40.3*	66.7	91.0	96.2	41.9*	53.5	85.1	92.7
PVSE K=2 CVPR'19 [48]	$1024 \times 2$	42.8*	69.2	91.6	96.6	43.7*	55.2	86.5	93.7
PVSE K=4 CVPR'19 [48]	$1024 \times 4$	41.5	68.0	91.9	96.6	42.7	54.1	85.5	92.9
PVSE K=1 + SHM [44]	$1024 \times 1$	41.6	66.1	91.4	96.4	42.4	53.6	85.5	93.0
PVSE K=2 + SHM [44]	$1024 \times 2$	39.0	65.1	90.9	96.5	39.4	53.1	85.4	93.0
VSRN ICCV'19 [27]	2048	41.2*	76.2	94.8	98.2	42.4*	62.8	89.7	95.1
VSRN + AOQ ECCV'20 [5]	$2048 \times 2$	44.7*	77.5	95.5	98.6	45.6*	63.5	90.5	95.8
PCME $\mu$ only	1024	45.0	68.0	92.0	96.2	45.9	54.6	86.3	93.8
PCME	$1024 \times 2$	45.1	68.8	91.6	96.7	46.0	54.6	86.3	93.8

Table E.4. 1K MS-COCO 결과. MS-COCO 1k test 이미지에 대한 Plausible Match R-Precision (PMRP), Recall@K 결과. "*"는 공개된 모델에서 생성된 결과를 나타낸다.

Method	$D$	Image-to-text				Text-to-image
		PMRP	R@1	R@5	R@10	PMRP	R@1	R@5	R@10
VSE++ BMVC'18 [10]	1024	-	41.3	71.1	81.2	-	30.3	59.4	72.4
PVSE K=1 CVPR'19 [48]	1024	29.3*	41.7	73.0	83.0	30.1*	30.6	61.4	73.6
PVSE K=2 CVPR'19 [48]	$1024 \times 2$	31.8*	45.2	74.3	84.5	32.0*	32.4	63.0	75.0
PVSE K=4 CVPR'19 [48]	$1024 \times 4$	30.5	43.0	72.8	83.6	31.0	31.2	61.5	74.4
PVSE K=1 + SHM [44]	$1024 \times 1$	30.6	41.1	71.6	82.7	30.8	30.9	60.8	73.7
PVSE K=2 + SHM [44]	$1024 \times 2$	28.1	40.7	70.8	81.9	27.8	29.9	60.4	73.4
VSRN ICCV'19 [27]	2048	29.7*	53.0	81.1	89.4	29.9*	40.5	70.6	81.1
VSRN + AOQ ECCV'20 [5]	$2048 \times 2$	33.0*	55.1	83.3	90.8	33.5*	41.1	71.5	82.0
PCME $\mu$ only	1024	34.0	43.5	73.1	84.2	34.3	31.7	62.2	74.9
PCME	$1024 \times 2$	34.1	44.2	73.8	83.6	34.4	31.9	62.1	74.5

Table E.5. 5K MS-COCO에 대한 비교. MS-COCO 5k test 이미지에 대한 Plausible Match R-Precision (PMRP), Recall@K 결과. "*"는 공개된 모델에서 생성된 결과를 나타낸다.

F. More uncertainty analysis

PCME를 통한 **불확실성 추정(uncertainty estimation)**은 cross-modal retrieval task에 흥미로운 통찰력을 제공한다. 이 섹션에서는 PCME에 대한 추가적인 불확실성 분석을 제시한다.

F.1. Corruption vs. uncertainty in MS-COCO

Figure 7에서 우리는 Figure F.1에 나타난 픽셀 및 단어의 corruption 수준을 변화시켜 불확실성 수준을 시각화한다. 왼쪽 그림은 가려진 픽셀(occluded pixels) 수에 따른 불확실성 수준을 보여준다. 예상대로, 가려진 부분이 많을수록 불확실성이 증가한다. 오른쪽 그림은 추가된 <unk> 토큰 수에 따른 불확실성 수준을 보여준다.

F.2. Frequent words for each uncertainty bin

Figure F.2는 각 불확실성 bin별로 자주 등장하는 단어들을 보여준다. 우리는 **term frequency-inverse document frequency (TF-IDF)**를 빈도 측정기로 사용하며, 이는 다음과 같이 정의된다:

\operatorname{TF}-\operatorname{IDF}(i)=\left(1+\log n_{i}\right) \log \frac{N}{n_{i}},

Figure F.1. $\sigma$ 는 COCO Caption에서 **모호성(ambiguity)**을 포착한다. 지워진 픽셀(이미지의 경우) 및 추가된 <unk> 토큰(캡션의 경우)의 비율에 따른 평균 $\log \sigma$ 값.

여기서 $N$ 은 전체 캡션의 수이고, $n_i$ 는 단어 $i$ 를 포함하는 캡션의 수이다. 이미지 단어 빈도 계산을 위해, 우리는 TF-IDF 점수를 계산하는 데 ground truth 캡션을 사용한다.

F.3. Example uncertain samples

우리는 불확실한 이미지와 캡션, 그리고 그에 해당하는 검색된 항목들을 Figure F.3과 Figure F.4에서 시각화하였다.

흥미롭게도, 검색된 캡션과 이미지들은 주어진 쿼리 항목에 대해 그럴듯한(plausible) 결과를 보여준다. 이러한 정성적 결과는 또한 Recall@1 측정치가 얼마나 노이즈가 많은지를 보여주며, 제안된 Plausible Match R-Precision (PMRP)이 서로 다른 검색 방법들을 비교하는 데 있어 더 그럴듯하고 신뢰할 수 있는 측정치임을 시사한다.

Figure F.2. 각 불확실성 bin에 자주 등장하는 단어들. 이미지(상단 행) 및 캡션(하단 행) 모달리티에 대해 각 불확실성 bin (U-Bin, 오름차순)별로 TF-IDF(Term Frequency-Inverse Document Frequency)로 정렬된 단어 빈도가 표시되어 있다.

Figure F.3. 불확실한 이미지 예시. 불확실성이 높은 이미지, PCME에 의해 검색된 캡션, 그리고 해당 이미지의 ground truth 캡션이 제시되어 있다.

Query caption ( $\sigma=0.0046$ ): A batter is swinging at a ball at the game.

Query caption $(\sigma=0.0046)$ : a large clock tower is on top of a building.

Query caption ( $\sigma=0.0047$ ): A man playing tennis outside during a sunny day.

GT image Retrieved images

Figure F.4. 불확실한 캡션 예시.
매우 불확실한 캡션, PCME로 검색된 이미지, 그리고 해당 ground truth 이미지가 표시되어 있다.

Probabilistic Embeddings for Cross-Modal Retrieval