Chen, Shaoxiang, et al. "Learning modality interaction for temporal sentence localization and event captioning in videos." European Conference on Computer Vision. Cham: Springer International Publishing, 2020.

Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

Shaoxiang Chen ${ }^{1 \star}$ , Wenhao Jiang ${ }^{2}$ , Wei Liu ${ }^{2}$ , and Yu-Gang Jiang ${ }^{1 \star \star}$ ${ }^{1}$ Shanghai Key Lab of Intelligent Information Processing, School of Computer Science, Fudan University ${ }^{2}$ Tencent AI Lab {sxchen13, ygj}@fudan.edu.cn, cswhjiang@gmail.com, wl2223@columbia.edu

Abstract

자동으로 비디오 내 이벤트를 설명하는 문장을 생성하고, 비디오에서 문장을 시간적으로 지역화하는 것은 언어와 비디오를 연결하는 두 가지 중요한 task이다. 최근 기술들은 off-the-shelf feature를 사용하여 비디오를 표현함으로써 비디오의 멀티모달 특성을 활용하지만, 모달리티 간의 상호작용은 거의 탐구되지 않았다.
인간 두뇌에 cross-modal interaction이 존재한다는 사실에서 영감을 받아, 우리는 비디오 내 각 모달리티 쌍에 대한 보완적인 정보를 더 잘 활용하고, 이를 통해 두 task 모두에서 성능을 향상시키기 위한 새로운 pairwise modality interaction 학습 방법을 제안한다.
우리는 모달리티 상호작용을 시퀀스 및 채널 수준에서 pairwise 방식으로 모델링하며, 이러한 pairwise interaction은 타겟 task 예측에 대한 일부 설명 가능성(explainability)도 제공한다.
우리는 광범위한 ablation study를 통해 제안하는 방법의 효과성과 특정 설계 선택의 유효성을 입증한다.
우리의 방법은 다음 네 가지 표준 벤치마크 데이터셋에서 state-of-the-art 성능을 달성한다:

MSVD 및 MSR-VTT (event captioning task)
Charades-STA 및 ActivityNet Captions (temporal sentence localization task)

Keywords: Temporal Sentence Localization $\cdot$ Event Captioning in Videos $\cdot$ Modality Interaction

1 Introduction

신경과학 연구 [5, 3, 15]에 따르면, 인간 뇌의 초기 감각 처리 체인은 단일 모달리티(unimodal)가 아니며, 한 모달리티(예: 청각)의 정보 처리가 다른 모달리티(예: 시각)에 영향을 미칠 수 있고, 뇌에는 교차 모달 상호작용(cross-modal interactions)을 조절하는 시스템이 존재한다. 그러나 이벤트 캡셔닝 [71, 57, 58] 및 시간적 문장 지역화(temporal sentence localization) [17, 34, 8]와 같은 고수준 비디오 이해 task 연구에서는 모달리티 간의 상호작용이 크게 간과되고 있다. 이 두 task는 모두 자연어 설명을 포함하며, 인식 task보다 상당히 더 도전적이다. 따라서 이러한 task를 더 잘 해결하기 위해서는 사용 가능한 각 모달리티의 정보를 활용하고, 모달리티 간의 상호보완적인 정보(inter-modality complementary information)를 포착하는 것이 중요하다.

최근의 이벤트 캡셔닝 방법들 [37, 47, 60, 9, 26]은 대부분 encoder-decoder 구조를 채택한다. 여기서 encoder는 비디오 feature를 집계하고, decoder(일반적으로 LSTM [24] 또는 GRU [13])는 집계 결과에 기반하여 문장을 생성한다. 비디오 feature는 주로 시각적 외형(visual appearance) 모달리티에서 파생되며, 이는 일반적으로 정지 이미지에 대한 고수준 시각 표현을 출력할 수 있도록 사전학습된 상용 CNN(Convolutional Neural Networks) [50, 21, 51, 46]으로 추출된다. 시각 모달리티의 feature만을 사용하는 것은 일반적으로 비디오 이벤트 캡셔닝에서 잘 작동할 수 있다. 최근 연구들 [73, 37, 9, 44, 11, 43, 41]은 움직임(motion) 및 오디오 표현을 추가적으로 활용함으로써 더 나은 개선을 얻을 수 있다고 제안한다. 그러나 이러한 연구들의 한계는 여러 모달리티의 feature들이 단순히 연결(concatenated)될 뿐, 그 상대적 중요성이나 모달리티 간의 고수준 상호작용을 고려하지 않아 여러 모달리티의 큰 잠재력이 충분히 탐색되지 못했다는 점이다. encoder에서 cross-modal attention을 통해 개별 모달리티에 중요도 가중치를 할당하는 방법을 학습하는 몇몇 연구들 [28, 25, 76, 69]이 존재하지만, 모달리티 상호작용은 여전히 명시적으로 처리되지 않는다.

비디오 내 시간적 문장 지역화는 비교적 새로운 문제이다 [17]. 다양한 접근 방식 [49, 74, 10]이 제안되고 상당한 진전이 있었지만, 이 문제는 멀티모달 설정(multimodal setting)에서는 논의되지 않았다. 가장 최근에 Rahman et al. [41]은 dense event captioning을 해결하기 위해 비디오와 오디오를 함께 고려하는 것의 중요성을 강조했으며, 문장 지역화는 dense event captioning의 하위 task이다. 시각, 움직임, 오디오 모달리티 외에도, 의미론적 속성(semantic attributes)을 활용하는 것은 이벤트 캡셔닝과 문장 지역화 모두에서 최근 방법들 [1, 36, 10, 64]에서 인기를 얻고 있다.

비디오 콘텐츠 이해를 위해 멀티모달 feature를 더 잘 활용하기 위해, 우리는 모달리티 상호작용을 모델링하는 새롭고 일반적인 방법을 제안한다. 이 방법은 문장 지역화 및 이벤트 캡셔닝 task 모두에서 성능을 효과적으로 향상시키는 데 활용될 수 있다. 우리가 제안하는 **Pairwise Modality Interaction (PMI)**은 Channel-Gated Bilinear Model을 사용하여 각 feature 시퀀스 쌍 간의 시퀀스 수준 상호작용을 명시적으로 모델링하며, 각 상호작용 쌍의 출력은 중요도 가중치와 함께 융합(fused)된다. 이러한 모델링은 예측에 대한 어느 정도의 설명 가능성(explainability)을 제공한다.

우리의 주요 기여는 다음과 같다:

우리는 Channel-Gated Modality Interaction 모델을 사용하여 **쌍별 모달리티 상호작용(PMI)**을 계산하는 새로운 멀티모달 상호작용 방법을 제안한다. 이는 비디오 내 모달리티 내(intra-modality) 및 모달리티 간(inter-modality) 정보를 더 잘 활용한다. PMI를 활용함으로써 비디오 이벤트 캡셔닝 및 시간적 문장 지역화 task 모두에서 상당한 성능 향상을 달성한다.
비디오와 텍스트 내 모달리티 상호작용을 기반으로, 우리는 위치별 비디오-텍스트 관련성(position-wise video-text relevance)을 더 잘 예측하기 위해 비디오-텍스트 지역 상호작용(video-text local interaction)을 구축하는 새로운 문장 지역화 방법을 추가로 제안한다. 우리가 아는 한, 이는 멀티모달 설정에서 문장 지역화를 다루는 최초의 연구이다.
MSVD, MSR-VTT, ActivityNet Captions, Charades-STA 데이터셋에 대한 광범위한 실험을 통해 두 task 모두에서 기존 state-of-the-art 방법들과 비교하여 우리 방법의 우수성을 검증한다.

Temporal Sentence Localization
Gao et al. [17]는 최근 temporal sentence localization task를 제안했으며, 이는 컴퓨터 비전 및 자연어 처리 커뮤니티 모두에서 큰 관심을 받고 있다. 이 task에 대한 접근 방식은 크게 proposal-based methods와 proposal-free methods의 두 그룹으로 나눌 수 있다.
**TALL [17]**은 multimodal processing module을 사용하여 sliding window proposal을 위한 시각 및 텍스트 feature를 융합한 다음, 각 proposal에 대한 랭킹 점수와 시간적 경계를 예측한다.
**NSGV [8]**는 순차적으로 인코딩된 문장과 비디오 간의 상호작용을 LSTM을 통해 수행한 다음, 각 시간 단계에서 $K$ 개의 proposal을 예측한다.
Proposal-free methods는 일반적으로 시간적 경계를 직접 회귀(regress)한다. 가장 대표적인 방법인 **ABLR [74]**은 시각 및 텍스트 feature 간의 co-attention을 반복적으로 적용하여 상호작용을 촉진하고, 최종적으로 상호작용한 feature를 사용하여 시간적 경계를 예측한다.

Event Captioning
S2VT [57] 방법은 encoder-decoder 네트워크를 사용하여 비디오 캡셔닝을 해결하려는 첫 시도였다. 이 방법에서는 두 개의 LSTM [24] layer가 CNN으로 추출된 비디오 feature를 먼저 인코딩한 다음, 문장을 단어 단위로 예측한다. 이후의 연구들은 대부분 encoder-decoder 구조를 기반으로 하며, encoder 또는 decoder를 개선하는 데 중점을 두었다.
Yao et al. [71]은 비디오 feature에 temporal attention을 적용하여, encoder가 decoding 중에 각 비디오 feature에 중요도 가중치를 할당할 수 있도록 했으며, 이 방법은 이후의 연구들에서도 널리 채택되었다. 일부 연구들 [37, 4, 12, 78, 61]은 비디오 내부의 시간적 구조를 고려하여 encoder를 개선하려고 시도했다. 또 다른 그룹의 연구들 [70, 33, 9]은 동적 attention 메커니즘을 적용하여 프레임 feature를 공간적으로 통합함으로써 비디오 프레임의 공간 정보를 활용하는 데 중점을 두었다.
멀티모달(외형, 움직임, 오디오) feature를 활용하는 것 또한 최근 연구들에서 흔하지만, cross-modal attention을 사용하여 서로 다른 modality 간의 상대적 중요도를 다루려고 시도한 연구는 소수에 불과하다 [25, 76, 69, 36]. 가장 최근에는 일부 연구들 [1, 75, 36]이 객체/의미 속성(object/semantic attributes)을 비디오 캡셔닝에 통합하는 것이 효과적임을 입증했다.
decoder의 경우, LSTM이 비디오 캡셔닝의 decoder로 일반적으로 사용되어 왔으며, 최근에는 CNN [7] 또는 Transformer [77] 구조와 같은 비순환(non-recurrent) decoder를 사용하려는 시도도 있었다.

Modality Interaction
self-attention을 사용하여 modality interaction을 모델링하려는 연구들이 있다. Self-attention은 vision [65] 및 language [55] task 모두에서 효과적임이 입증되었다. 시퀀스 모델링에서의 효과는 시퀀스의 모든 위치에 attention을 적용하여 한 위치에서의 응답을 계산함으로써 장거리 의존성(long-range dependencies)을 더 잘 포착할 수 있다는 점에 기인한다.
**Au-toInt [48]**는 서로 다른 modality의 feature를 연결(concatenate)한 다음, multi-head self-attention module에 입력하여 상호작용을 포착한다. 이미지 분할 task의 경우, Ye et al. [72]은 **CMSA (Cross-Modal Self-Attention)**를 도입했는데, 이는 시각 feature, 단어 임베딩, 공간 좌표의 연결에 작동하여 단어와 공간 영역 간의 장거리 의존성을 모델링한다.
**DFAF [18]**는 visual question answering (VQA) 방법으로, regional feature sequence와 word embedding sequence에 self-attention을 적용하여 inter-modality interaction을 모델링하고, 각 시퀀스에 대한 intra-modality interaction도 모델링한다.
우리는 modality interaction이 VQA 방법에서 흔하다는 점에 주목하지만, 이들은 일반적으로 bilinear 또는 multi-linear pooling [16, 30, 31, 35]을 사용하여 multimodal feature sequence를 단일 벡터로 풀링한다. 또한 VQA 방법은 시각 및 텍스트 modality 간의 상호작용에 더 중점을 두므로, 비디오 내의 modality interaction을 완전히 활용하지 못한다.

이러한 기존 방법들과 비교할 때, 우리가 제안하는 **Pairwise Modality Interaction (PMI)**은 두 가지 독특한 특징을 가진다: (1) modality interaction이 쌍별(pairwise) 방식으로 포착되며, 비디오 내 각 modality 쌍 간의 정보 흐름이 시퀀스 수준과 채널 수준 모두에서 명시적으로 고려된다. (2) interaction은 feature sequence를 풀링하지 않으며(즉, 시간 차원이 보존됨), interaction 결과는 중요도 가중치에 의해 융합되어 일부 설명 가능성(explainability)을 제공한다.

3 Proposed Approach

3.1 Overview

우리는 먼저 우리 접근 방식의 개요를 설명한다. Fig. 1에서 보듯이, 주어진 비디오에서 멀티모달 feature가 먼저 추출된 다음 video modality interaction module로 입력된다. 이 모듈에서는 모든 모달리티 쌍에 대해 Channel-Gated Modality Interaction이 수행되어 모달리티 내(intra-modality) 및 모달리티 간(inter-modality) 정보를 활용한다. 상호작용 결과는 고차원 텐서로 타일링(tiled)되며, 우리는 이 텐서를 feature 시퀀스로 변환하기 위해 단순한 fully-connected network를 사용하여 중요도 가중치(importance weights)를 효율적으로 계산한다. 쌍별 모달리티 상호작용(pairwise modality interaction)을 모델링하는 이 과정은 PMI로 약칭된다.

문장 localization의 경우, 텍스트 feature도 모달리티 상호작용을 통해 모달리티 내 정보(intra-modality information)를 활용하도록 처리된다. 그런 다음 비디오 feature와 텍스트 feature는 각 시간적 위치에서 이 두 모달리티 간의 복잡한 연관성을 포착하기 위해 로컬하게 상호작용한다. 마지막으로, 경량 convolutional network가 localization head로 적용되어 feature 시퀀스를 처리하고 비디오-텍스트 관련성 점수(relevance score)와 경계 예측(boundary prediction)을 출력한다.

비디오 캡셔닝의 경우, 본 논문의 초점은 멀티모달 정보를 완전히 활용하는 것이므로, 우리는 정교한 decoder 아키텍처를 채택하지 않고 video modality interaction 위에 temporal attention을 가진 두 개의 layer LSTM만을 사용한다. 그러나 PMI의 우수성 덕분에 state-of-the-art 성능이 여전히 달성된다. video modality interaction은 문장 localization 모델 또는 이벤트 캡셔닝 모델 모두에서 사용될 수 있지만, 모델들은 별도로 학습된다는 점에 유의해야 한다.

Fig. 1. 우리 접근 방식의 프레임워크. 비디오에서 추출된 멀티모달 feature는 각 모달리티 쌍에 대해 Channel-Gated Modality Interaction (Fig. 2 참조)으로 처리되며, 그 후 가중치 기반 모달리티별 융합(weighted modality-wise fusion)이 실행되어 통합된 비디오 feature(파란색 상자)를 얻는다. 이 feature는 비디오 캡셔닝에도 사용될 수 있지만, 두 task는 함께 학습되지 않는다. Temporal sentence localization의 경우, 단어 임베딩 feature도 문장 내 정보(intra-sentence information)를 활용하기 위해 자체적으로 상호작용하여 텍스트 feature를 생성한다. 그런 다음 비디오 feature와 텍스트 feature는 각 시간적 위치에서 로컬하게 상호작용(녹색 상자)하며, 그 결과 feature는 layer-wise norm regularization이 적용된 경량 convolutional network로 입력되어 예측(주황색 상자)을 생성한다. 각 색깔 원은 feature 벡터를 나타낸다.

3.2 Video Modality Interaction

입력 비디오 $\boldsymbol{V}=\left\{\boldsymbol{f}_{i}\right\}_{i=1}^{F}$ 가 주어졌을 때( $\boldsymbol{f}_{i}$ 는 $i$ 번째 프레임), off-the-shelf 딥 뉴럴 네트워크를 사용하여 멀티모달 feature를 추출할 수 있다. 본 논문에서는 비디오 내의 세 가지 명확한 모달리티, 즉 시각(visual) 모달리티, 움직임(motion) 모달리티, 오디오(audio) 모달리티를 채택한다. 이러한 모달리티로부터 얻은 feature들을 사용하여, **잠재적인 의미 모달리티(latent semantic modality)**를 나타내는 feature 시퀀스를 학습할 수 있다.
위 모달리티들로부터 얻은 해당 feature 시퀀스는 각각 $\boldsymbol{X}^{v}=\left\{\boldsymbol{x}_{n}^{v}\right\}_{n=1}^{N}, \boldsymbol{X}^{m}=\left\{\boldsymbol{x}_{n}^{m}\right\}_{n=1}^{N}, \boldsymbol{X}^{a}=\left\{\boldsymbol{x}_{n}^{a}\right\}_{n=1}^{N}$ , 그리고 $\boldsymbol{X}^{l}=\left\{\boldsymbol{x}_{n}^{l}\right\}_{n=1}^{N}$ 로 표기한다. 각 모달리티의 feature 벡터 차원은 각각 $d_{v}, d_{m}, d_{a}$ , 그리고 $d_{l}$ 로 표기한다.

우리는 feature 시퀀스 쌍( $\boldsymbol{X}^{p}$ 와 $\boldsymbol{X}^{q}$ , 여기서 $p \in\{a, m, v, l\}$ 이고 $q \in\{a, m, v, l\}$ ) 간의 모달리티 상호작용(modality interaction)을 명시적으로 모델링할 것을 제안한다. 여기서 $p$ 와 $q$ 는 동일한 모달리티일 수 있으며, 이 경우 상호작용은 모달리티 내(intra-modality) 정보를 활용한다.

Fig. 2. Channel-Gated Modality Interaction 개요. Channel-Level Interaction 결과는 Sequence-Level Interaction 결과를 조절하는 gating 변수로 사용된다. 자세한 내용은 아래 Eqs (1)-(6)에 설명되어 있다.

Fig. 2에서 보여지듯이, 상호작용은 다음과 같이 정식화될 수 있다:

\operatorname{INT}\left(\boldsymbol{X}^{p}, \boldsymbol{X}^{q}\right)=\operatorname{FFN}\left(\mathrm{BA}\left(\boldsymbol{X}^{p}, \boldsymbol{X}^{q}\right) \odot \operatorname{CG}\left(\boldsymbol{X}^{p}, \boldsymbol{X}^{q}\right) \oplus \boldsymbol{X}^{p}\right),

여기서 $\mathrm{BA}(\cdot)$ 는 sequence-level 모달리티 상호작용을 수행하는 bilinear attention 모델이고, $\mathrm{CG}(\cdot)$ 는 channel-level 상호작용에 기반한 channel gating 메커니즘으로 sequence-level 상호작용 출력을 조절하는 데 사용된다. $\oplus \boldsymbol{X}^{p}$ 는 residual connection을 나타내며, $\operatorname{FFN}(\cdot)$ 은 입력을 더 낮은 차원으로 투영하는 position-wise feedforward network이다.

Sequence-Level Interaction
우리는 feature 시퀀스 $\boldsymbol{X}^{p}$ 와 $\boldsymbol{X}^{q}$ 의 각 요소 쌍 간의 상호작용을 고려하기 위해 low-rank bilinear 모델을 사용한다:

\boldsymbol{A}_{i j}^{p q}=\boldsymbol{p}^{T}\left(\rho\left(\boldsymbol{X}_{i}^{p} \boldsymbol{U}^{p}\right) \odot \rho\left(\boldsymbol{X}_{j}^{q} \boldsymbol{U}^{q}\right)\right), \quad \boldsymbol{\mathcal { A }}_{i j}^{p q}=\operatorname{Softmax}_{j}\left(\boldsymbol{A}_{i j}^{p q}\right),

여기서 $\boldsymbol{X}_{i}^{p}$ 는 $\boldsymbol{X}^{p}$ 의 $i$ 번째 요소이고, $\boldsymbol{X}_{j}^{q}$ 는 $\boldsymbol{X}^{q}$ 의 $j$ 번째 요소이다. $\boldsymbol{U}^{p} \in \mathbb{R}^{d_{p} \times d}$ 와 $\boldsymbol{U}^{q} \in \mathbb{R}^{d_{q} \times d}$ 는 low-rank projection matrix이다( $d<\min \left(d_{p}, d_{q}\right)$ ). $\odot$ 는 **요소별 곱셈(Hadamard product)**을 나타내고, $\rho$ 는 ReLU 비선형성을 나타낸다. $\boldsymbol{p} \in \mathbb{R}^{d}$ 는 요소 상호작용을 스칼라로 투영하여, $\boldsymbol{A}^{p q} \in \mathbb{R}^{N \times N}$ 가 열별 softmax를 적용하여 bilinear attention map으로 정규화될 수 있도록 한다. 그러면 bilinear 모델의 출력은 다음과 같다:

\mathrm{BA}\left(\boldsymbol{X}^{p}, \boldsymbol{X}^{q}\right)=\mathcal{A}^{p q}\left(\boldsymbol{X}^{q} \boldsymbol{W}^{q}\right) .

$\mathcal{A}^{p q}$ 와 $\boldsymbol{X}^{q} \boldsymbol{W}^{q}$ 의 행렬 곱셈에서 relative position embedding [42]이 주입되어 sequence-level 상호작용이 **위치 인식(position-aware)**이 되도록 한다.

Channel-Level Interaction
sequence-level 상호작용 결과를 조절하기 위해, 우리는 세밀한 channel-level 상호작용에 기반한 gate 함수를 고안한다. 먼저 $\boldsymbol{X}^{p}$ 와 $\boldsymbol{X}^{p}$ 의 channel representation을 다음과 같이 얻는다:

\overline{\boldsymbol{X}}^{p}=\operatorname{Mean}_{n}\left(\boldsymbol{X}^{p} \boldsymbol{V}^{p}\right), \quad \overline{\boldsymbol{X}}^{q}=\operatorname{Mean}_{n}\left(\boldsymbol{X}^{q} \boldsymbol{V}^{q}\right),

여기서 $\operatorname{Mean}(\cdot)$ 은 sequence-wise mean-pooling이고, $\boldsymbol{V}^{p}, \boldsymbol{V}^{q}$ 는 $\boldsymbol{X}^{p}$ 와 $\boldsymbol{X}^{p}$ 를 효율적인 처리를 위해 더 낮은 차원으로 투영하는 데 사용된다. 유사하게, 우리는 channel-to-channel attention map도 계산한다:

\boldsymbol{S}_{i j}^{p q}=f_{c h n}\left(\overline{\boldsymbol{X}}_{i}^{p}, \overline{\boldsymbol{X}}_{j}^{q}\right), \quad \boldsymbol{\mathcal { S }}_{i j}^{p q}=\operatorname{\operatorname {\operatorname {Softmax}}}_{i}\left(\boldsymbol{S}_{i j}^{p q}\right),

여기서 $f_{\text {chn }}(\cdot)$ 은 channel-level 상호작용을 계산하는 함수이다. $\overline{\boldsymbol{X}}^{p}$ 와 $\overline{\boldsymbol{X}}^{q}$ 의 각 요소는 스칼라이므로, 우리는 단순히 $f_{c h n}(a, b)=-(a-b)^{2}$ 를 사용한다. 그러면 gate 함수의 출력은 다음과 같다:

\operatorname{CG}\left(\boldsymbol{X}^{p}, \boldsymbol{X}^{q}\right)=\sigma\left(\operatorname{FFN}\left(\boldsymbol{X}^{p} \boldsymbol{\mathcal { S }}^{p q}\right)\right)

여기서 $\sigma$ 는 Sigmoid 함수이므로, 출력 값은 $[0,1]$ 범위에 있다.

Modality-Wise Fusion
$M$ 개의 모달리티가 주어지면, $M^{2}$ 개의 상호작용 모달리티 쌍이 존재하며, 이들은 고차원 텐서 $\boldsymbol{X}^{M I} \in \mathbb{R}^{N \times M^{2} \times d}$ 로 타일링된다. $\boldsymbol{X}^{M I}$ 의 정보는 타겟 task에 입력되기 전에 추가적으로 집계(aggregate)될 필요가 있다. 간단한 concatenation 또는 pooling으로 이 목적을 달성할 수 있다. 여기서는 position-wise fully-connected layer를 사용하여 중요도 가중치를 예측함으로써 각 상호작용 결과의 중요성을 고려한다:

\begin{aligned} \boldsymbol{e}_{n} & =\boldsymbol{X}_{n}^{M I} \boldsymbol{W}_{n}^{a}+\boldsymbol{b}_{n}^{a}, \quad \boldsymbol{\alpha}_{n}=\operatorname{Softmax}_{m}\left(\boldsymbol{e}_{n}\right) \\ \widehat{\boldsymbol{X}}_{n} & =\sum_{m=1}^{M^{2}} \boldsymbol{\alpha}_{n m} \boldsymbol{X}_{n m}^{M I} \end{aligned}

마지막으로, 융합 결과 $\widehat{\boldsymbol{X}} \in \mathbb{R}^{N \times d}$ 는 비디오의 **모달리티 상호작용 표현(modality-interacted representation)**이며, 타겟 task에서 사용될 준비가 되었다.

3.3 Sentence Localization

문장은 단어 임베딩 벡터 시퀀스 $Y= \left\{\boldsymbol{w}_{l}\right\}_{l=1}^{L}$ 로 표현되며, 이는 intra-modality 정보를 활용하기 위해 CGMI로도 처리되어 텍스트 feature $\widehat{\boldsymbol{Y}}$ 를 생성한다. 문장 localization을 위해서는 비디오와 텍스트 modality 간의 복잡한 연관성을 각 시간적 위치에서 포착하고, 각 위치의 문장 관련성을 예측하는 것이 중요하다.

Video-Text Local Interaction
위의 직관을 바탕으로, 우리는 Video-Text Local Interaction을 제안한다. $\widehat{\boldsymbol{X}}$ 의 각 시간적 위치 $t \in[1, N]$ 에 대해, local window $\widetilde{\boldsymbol{X}}=\left\{\widehat{\boldsymbol{X}}_{n}\right\}_{n=t-w}^{t+w}$ 가 추출되어 텍스트 feature $\widehat{\boldsymbol{Y}}$ 와 상호작용한다. Fig. 1에서 보듯이, local video-to-text interaction은 다음과 같이 모델링된다:

\boldsymbol{Z}_{t}^{x y}=\mathrm{BA}(\operatorname{Mean}(\widetilde{\boldsymbol{X}}), \widehat{\boldsymbol{Y}}), \quad \widehat{\boldsymbol{Z}}_{t}^{x y}=\operatorname{MM}\left(\boldsymbol{Z}_{t}^{x y}, \operatorname{Mean}(\widetilde{\boldsymbol{X}})\right)

여기서 우리는 gating 대신 더 효율적인 multimodal processing unit $\operatorname{MM}(a, b)=\boldsymbol{W}^{T}[a\|b\| a \odot b \| a \oplus b]$ 를 사용하여 두 modality의 추가적인 상호작용을 촉진한다. 마찬가지로, text-to-video interaction $\widehat{\boldsymbol{Z}}_{t}^{y x}$ 는 $\widetilde{\boldsymbol{X}}$ 와 $\operatorname{Mean}(\widehat{\boldsymbol{Y}})$ 이 주어졌을 때 계산되며, 이후 video-to-text interaction 결과와 융합된다:

\boldsymbol{Z}_{t}=\widehat{\boldsymbol{Z}}_{t}^{x y} \oplus \widehat{\boldsymbol{Z}}_{t}^{y x}

Localization Head
우리는 video-text interacted sequence $\boldsymbol{Z}$ 위에 경량의 convolutional network를 적용하여 예측을 생성한다. 각 layer는 다음과 같이 공식화될 수 있다:

\boldsymbol{C}^{k}=\operatorname{Conv}\left(\boldsymbol{C}^{k-1} \| \operatorname{Mean}(\widehat{\boldsymbol{Y}})\right),

여기서 $k=1, . ., K$ 이고, $\boldsymbol{C}_{0}=\boldsymbol{Z}$ 이다. 우리는 각 layer의 출력에 Instance Normalization [54]과 LeakyReLU [66] 활성화 함수를 적용한다. 비디오-텍스트 관련성을 layer-wise 방식으로 계산하므로, 더 견고한 feature를 얻기 위해 각 layer의 출력에 $\ell_{2}$ norm regularization을 부과한다:

\operatorname{Loss}_{n o r m}=\sum_{n=1}^{N}\left(\left\|\boldsymbol{C}_{n}^{k}\right\|_{2}-\beta_{k}\right)^{2}

여기서 $\|\cdot\|$ 는 벡터의 $\ell_{2}$ norm이다. $K$ -번째 layer 출력 $C^{K}$ 는 1개의 출력 채널을 가지며, 이는 Softmax를 사용하여 정규화되어 Video-Text Relevance $\boldsymbol{r} \in[0,1]^{N}$ 를 나타낸다. 그런 다음, $\boldsymbol{r}$ 에 두 개의 출력 유닛을 가진 fully connected layer가 적용되어 boundary prediction $\boldsymbol{b} \in \mathbb{R}^{2}$ 를 생성한다. 예측에 대한 loss는 다음과 같다:

\operatorname{Loss}_{\text {pred }}=\operatorname{Huber}(\boldsymbol{b}-\hat{\boldsymbol{b}})-\lambda_{r} \frac{\sum_{n} \hat{\boldsymbol{r}}_{n} \log \left(\boldsymbol{r}_{n}\right)}{\sum_{n} \hat{\boldsymbol{r}}_{n}},

여기서 $\hat{\boldsymbol{b}}$ 는 ground-truth temporal boundary이고, Huber(•)는 Huber loss 함수이며, $\hat{\boldsymbol{r}}_{n}=1$ 은 $n$ 이 ground-truth temporal region에 있을 때, 그렇지 않으면 $\hat{\boldsymbol{r}}_{n}=0$ 이다. 전체 loss는 다음과 같다:

\operatorname{Loss}_{l o c}=\operatorname{Loss}_{p r e d}+\lambda_{n} \operatorname{Loss}_{n o r m}

여기서 $\lambda_{n}, \lambda_{r}$ 은 loss 항들의 균형을 맞추는 데 사용되는 상수 가중치이다.

3.4 Event Captioning

비디오 모달리티 상호작용 결과가 얻어진 후, 우리는 이전 연구들 [59, 9, 69]에서와 같이 표준 양방향 LSTM을 인코딩에 사용하고, temporal attention [71]을 포함하는 2계층 LSTM 네트워크를 사용하여 문장을 생성한다. 문장 생성은 단어 단위(word-by-word)로 진행된다.
매 시간 단계마다, LSTM hidden state와 비디오 feature를 기반으로 temporal attention 가중치 세트가 계산되며, 이는 비디오 feature를 단일 벡터로 가중합(weighted-sum)하는 데 사용된다. 이 동적 feature 벡터는 이전에 생성된 단어와 함께 LSTM에 입력되어 다음 단어를 예측한다.
우리는 비디오 모달리티 상호작용이 문장 localization 또는 이벤트 captioning을 위한 기본적인 비디오 feature 인코딩 기술로 사용될 수 있음을 다시 한번 강조하지만, 이 두 가지에 대해 multi-task training은 수행하지 않는다.

4 Experiments

이 섹션에서는 모델 설계에 대한 실험적 분석을 제공하고, temporal sentence localization 및 video captioning 분야의 state-of-the-art 방법들과의 비교 결과를 제시한다.

4.1 Experimental Settings

MSVD Dataset [6]. MSVD는 1,970개의 비디오로 구성된 잘 알려진 비디오 캡셔닝 데이터셋이다. 비디오의 평균 길이는 9.6초이며, 각 비디오에는 평균 약 40개의 문장 주석이 달려 있다. 우리는 이전 연구들 [71, 69, 4]과 동일한 일반적인 데이터셋 분할을 채택하였다. 따라서 학습, 검증, 테스트를 위해 각각 1,200개, 100개, 670개의 비디오를 사용한다.

MSR-VTT Dataset [68]. MSR-VTT는 10,000개의 비디오로 구성된 대규모 비디오 캡셔닝 데이터셋이다. 이 데이터셋의 표준 분할 [68]이 제공되었다. 따라서 우리 실험에서는 학습, 검증, 테스트를 위해 각각 6,513개, 497개, 2,990개의 비디오를 사용한다. 이 데이터셋에서 각 비디오는 20개의 문장 주석과 연결되어 있으며, 평균 길이는 14.9초이다.

ActivityNet Captions Dataset [32] (ANet-Cap). ANet-Cap은 ActivityNet 데이터셋 [22]을 기반으로 구축되었으며, 19,994개의 untrimmed 비디오(평균 153초)를 포함한다. 표준 분할은 학습, 검증, 테스트를 위해 각각 10,009개, 4,917개, 5,068개의 비디오로 구성된다. 비디오당 평균 3.74개의 시간적으로 지역화된(temporally localized) 문장이 있다. 테스트 세트가 공개적으로 사용 가능하지 않으므로, 우리는 이전 연구들 [62, 67]과 마찬가지로 검증 세트에서 우리의 방법을 평가한다.

Charades-STA Dataset [17]. Charades-STA는 Charades [45] 데이터셋의 6,672개 비디오를 기반으로 구축되었다. 비디오의 평균 길이는 29.8초이다. 16,128개의 시간적으로 지역화된 문장 주석이 있으며, 이는 비디오당 2.42개의 문장에 해당한다. 학습 및 테스트 세트에는 각각 12,408개와 3,720개의 주석이 포함되어 있다.

우리는 MSVD 및 MSRVTT에서 일반적으로 사용되는 지표인 BLEU [38], METEOR [14], CIDEr [56]를 사용하여 우리 방법의 캡셔닝 성능을 평가한다. ANet-Cap 및 Charades-STA는 문장 지역화(sentence localization) 성능을 평가하는 데 사용된다. 우리는 이전 연구들 [17]에서 사용된 것과 동일한 평가 지표인 "Recall@1, IoU=m" ( $r\left(m, s_{i}\right)$ 로 표기)를 채택한다. 이는 상위 1개 결과 중 주석된 문장 $s_{i}$ 의 세그먼트와 IoU가 $m$ 보다 큰 결과의 비율을 의미한다. $N$ 개의 문장으로 구성된 데이터셋의 전체 성능은 모든 문장의 평균 점수 $\frac{1}{N} \sum_{i=1}^{N} r\left(m, s_{i}\right)$ 이다.

구현 세부 사항 (Implementation Details)
모든 데이터셋의 문장은 소문자로 변환된 후 토큰화된다. 캡셔닝 task의 경우, 512차원의 무작위 초기화된 word embedding 벡터가 사용되며, 이는 모델과 함께 fine-tuning된다. 문장 지역화 task의 경우, 이전 연구들과 마찬가지로 GloVe [40] word embedding을 사용한다. 우리는 Inception-ResNet v2 [50]와 C3D [52]를 사용하여 시각 및 모션 feature를 추출한다. 오디오 feature의 경우, 캡셔닝 task에서는 **MFCC (Mel-Frequency Cepstral Coefficients)**를, 문장 지역화 task에서는 SoundNet [2]을 사용한다. feature 시퀀스는 이벤트 캡셔닝을 위해 32 길이로, 문장 지역화를 위해 128 길이로 시간적으로 subsample된다. bilinear attention은 8개의 attention head를 채택하며, loss 가중치 $\lambda_{r}$ 과 $\lambda_{n}$ 은 각각 5와 0.001로 설정된다. 모든 실험에서 batch size는 32로 설정되었고, learning rate 0.0001의 Adam optimizer가 모델 학습에 사용되었다.

Table 1. MSVD에서 비디오 모달리티 상호작용 전략의 성능 비교.

$\#$	Method	$\mathrm{B} @ 4$	M	C
0	Concat w/o Interact (Baseline)	45.28	31.60	62.57
1	Concat + Interact	46.24	32.03	66.10
2	Pairwise Interact + Concat Fusion	47.86	33.73	75.30
3	Pairwise Interact + Sum Fusion	51.37	34.01	78.42
4	Pairwise Interact + Weighted Fusion (ours)	54.68	36.40	95.17
5	Intra-modality Interactions only	49.92	34.76	88.46
6	Inter-modality Interactions only	47.30	32.72	70.20
7	(Intra+Inter)-modality (ours)	54.68	36.40	95.17

Table 2. Charades-STA 데이터셋에서 다양한 localizer 설정의 성능 (%).

#	PMI	VTLI	$\ell_{2}$ -Norm	IoU $=0.3$	IoU $=0.5$	IoU $=0.7$
0	$\boldsymbol{x}$	$\boldsymbol{x}$	$\boldsymbol{x}$	51.46	35.34	15.81
1	$\checkmark$	$\boldsymbol{x}$	$\boldsymbol{x}$	53.22	37.05	17.36
2	$\checkmark$	$\checkmark$	$\boldsymbol{x}$	54.37	38.42	18.63
3	$\checkmark$	$\checkmark$	$\checkmark$	55.48	39.73	19.27

4.2 Ablation Studies

첫째, 우리는 접근 방식의 설계 선택을 검증하기 위해 광범위한 실험을 수행한다. MSVD 데이터셋에서는 다양한 modality 상호작용 전략의 효과를, CharadesSTA 데이터셋에서는 문장 localizer 구성 요소의 효과를 연구한다. 모든 실험은 Inception-ResNet v2와 C3D feature를 사용한다.

MSVD 데이터셋에서 우리는 8가지 다른 variant를 설계했으며, 그 성능은 Table 1에 요약되어 있다. Variant 0은 baseline으로, multimodal feature가 연결(concatenate)되어 caption decoder에 직접 입력된다. Variant 1은 연결된 feature를 하나의 modality로 간주하고 intra-modality 상호작용을 수행한다. Variant 2-4에서는 PMI가 수행되고 다른 fusion 전략이 채택된다. Variant 5-7에서는 intra- 및 inter-modality 상호작용의 ablation을 연구한다.

왜 pairwise인가?
우리는 모델에서 modality 상호작용을 pairwise 방식으로 수행하며, 이는 feature concatenation을 사용하는 기존 방법들 [48, 72]과의 주요 차이점이다. Table 1에서 볼 수 있듯이, 모든 modality를 하나로 연결하여 intra-modality 상호작용을 수행하는 것이 baseline보다 성능 향상을 가져올 수 있지만 (#1 vs. #0), pairwise 상호작용 후 연결하는 것이 더욱 상당한 이점을 가진다 (#2 vs. #1). 우리는 또한 pairwise 상호작용 후 다른 aggregation 전략의 효과를 비교했으며 (#2-4), **가중치 기반 fusion (PMI 내)**이 확실한 차이로 최고의 결과를 산출했다. 이는 다른 modality 쌍 간의 상호작용이 서로 다른 중요도를 가진 고유한 정보를 생성한다는 것을 나타낸다.

Inter-modality 상호보완성의 효과
다음으로 우리는 intra- 및 inter-modality 상호작용을 개별적으로 검토한다. **Table 1 (#5-7)**은 intra-modality 상호작용이 baseline에 비해 각 modality의 정보를 이미 효과적으로 활용할 수 있음을 보여준다. Inter-modality 상호보완성만으로는 captioning에 충분하지 않지만, intra-modality 정보와 결합될 때 추가적인 성능 향상을 얻을 수 있으며, 이는 우리의 pairwise 상호작용 설계의 유효성을 다시 한번 입증한다.

Table 3. 제안된 PMI와 다른 state-of-the-art 멀티모달 융합 방법들의 MSVD 데이터셋 비디오 캡셔닝 성능. Feature의 의미는 Table 4에서 찾을 수 있다.

Method	Features	B@ 4	M	C
AF [25]	V+C	52.4	32.0	68.8
TDDF [76]	V+C	45.8	33.3	73.0
MA-LSTM [69]	G+C	52.3	33.6	70.4
MFATT [36]	R152+C	50.8	33.2	69.4
GRU-EVE [1]	IRV2+C	47.9	35.0	78.1
XGating [59]	IRV2+I3D	52.5	34.1	88.7
HOCA [28]	IRV2+I3D	52.9	35.5	86.1
PMI-CAP	V+C	49.74	33.59	77.11
PMI-CAP	G+C	51.55	34.64	74.51
PMI-CAP	R152+C	52.07	34.34	77.35
PMI-CAP	IRV2+C	54.68	36.40	95.17
PMI-CAP	IRV2+I3D	55.76	36.63	95.68

Table 4. 제안된 모델과 다른 state-of-the-art 방법들의 MSVD 및 MSR-VTT 데이터셋 성능. R, G, V, C, IV4, R3D, IRV2, Obj, A는 각각 ResNet, GoogLeNet, VGGNet, C3D, Inception-V4, 3D ResNeXt, Inception-ResNet v2, Object features, audio features를 의미한다. 오디오 트랙은 MSR-VTT에서만 사용 가능하며, 공정한 비교를 위해 [9,11]과 같이 MFCC 오디오 표현을 사용한다. 자세한 feature 추출 설정은 원본 논문을 참조하라.*

Dataset	MSVD				MSR-VTT
Method	Features	B@4	M	C	Features	B@4	M	C
STAT [53]	$\mathrm{G}+\mathrm{C}+\mathrm{Obj}$	51.1	32.7	67.5	$\mathrm{G}+\mathrm{C}+\mathrm{Obj}$	37.4	26.6	41.5
$\mathrm{M}^{3}$ [63]	V+C	51.78	32.49	-	V+C	38.13	26.58	-
DenseLSTM [79]	V+C	50.4	32.9	72.6	V+C	38.1	26.6	42.8
PickNet [12]	R152	52.3	33.3	76.5	R152	41.3	27.7	44.1
hLSTMat [47]	R152	53.0	33.6	73.8	R152	38.3	26.3	-
VRE [44]	R152	51.7	34.3	86.7	$\mathrm{R} 152+\mathrm{A}$	43.2	28.0	48.3
MARN [39]	$\mathrm{R} 101+\mathrm{R} 3 \mathrm{D}$	48.6	35.1	92.2	$\mathrm{R} 101+\mathrm{R} 3 \mathrm{D}$	40.4	28.1	47.1
OA-BTG [75]	R200+Obj	56.9	$\underline{36.2}$	90.6	$\mathrm{R} 200+\mathrm{Obj}$	41.4	28.2	46.9
RecNet [60]	IV4	52.3	34.1	80.3	IV4	39.1	26.6	42.7
XGating [59]	IRV2 + I3D	52.5	34.1	88.7	IRV2 + I3D	42.0	28.1	49.0
MM-TGM [11]	IRV2+C	48.76	34.36	80.45	IRV $2+\mathrm{C}+\mathrm{A}$	$\underline{44.33}$	29.37	49.26
GRU-EVE [1]	IRV2+C	47.9	35.0	78.1	IRV2+C	38.3	28.4	48.1
MGSA [9]	IRV2+C	53.4	35.0	86.7	$\mathrm{IRV} 2+\mathrm{C}+\mathrm{A}$	45.4	28.6	50.1
PMI-CAP	IRV2+C	54.68	36.40	95.17	IRV2+C	42.17	28.79	49.45
PMI-CAP	-	-	-	-	$\mathrm{IRV} 2+\mathrm{C}+\mathrm{A}$	43.96	29.56	50.66

문장 localizer 구성 요소의 효과
PMI, video-text local interaction (VTLI), 그리고 $\ell_{2}$ -norm regularization은 문장 localization 모델의 핵심 구성 요소이다. Table 2에서 볼 수 있듯이, 각 구성 요소를 통합하면 일관되게 성능 향상을 가져온다.

4.3 Comparison with State-of-the-Art Methods

비디오 이벤트 캡셔닝(Video Event Captioning) Task 결과
비디오 캡셔닝에 대한 우리의 접근 방식을 PMI-CAP으로 줄여서 부른다. 제안된 pairwise modality interaction의 우수성을 입증하기 위해, 우리는 먼저 우리의 방법을 다음과 같은 기존 state-of-the-art 방법들과 비교한다.

Table 5. Charades-STA 데이터셋에서 제안 모델 및 다른 state-of-the-art 방법들의 성능(%). *는 우리의 구현을 의미한다.

Method	$\mathrm{IoU}=0.3$	$\mathrm{IoU}=0.5$	$\mathrm{IoU}=0.7$
Random	14.16	6.05	1.59
VSA-RNN [29]	-	10.50	4.32
VSA-STV [29]	-	16.91	5.81
MCN [23]	32.59	11.67	2.63
ACRN [34]	38.06	20.26	7.64
ROLE [35]	37.68	21.74	7.82
SLTA [27]	38.96	22.81	8.25
CTRL [17]	-	23.63	8.89
VAL [49]	-	23.12	9.16
ACL [19]	-	30.48	12.20
SAP [10]	-	27.42	13.36
SM-RL [64]	-	24.36	11.17
QSPN [67]	54.7	35.6	15.8
ABLR* [74]	51.55	35.43	15.05
TripNet [20]	51.33	36.61	14.50
CBP [62]	-	36.80	18.87
PMI-LOC (C)	55.48	39.73	19.27
PMI-LOC (C+IRV2)	56.84	41.29	20.11
PMI-LOC (C+IRV2+A)	58.08	42.63	21.32

Table 6. ActivityNet Captions 데이터셋에서 제안 모델 및 다른 state-of-the-art 방법들의 성능(%).

Method	IoU=0.3
Random	12.46	6.37	IoU=0.7
QSPN [67]	45.3	27.7	13.6
TGN [8]	43.81	27.93	-
ABLR [74]	55.67	36.79	-
TripNet [20]	48.42	32.19	13.93
CBP [62]	54.30	35.76	17.80
PMI-LOC (C)	$\mathbf{5 9 . 6 9}$	$\mathbf{3 8 . 2 8}$	$\mathbf{1 7 . 8 3}$
PMI-LOC (C+IRV2)	60.16	39.16	18.02
PMI-LOC (C+IRV2+A)	61.22	40.07	18.29

비디오 캡셔닝을 위한 멀티모달 feature 융합에 중점을 둔 state-of-the-art 방법들과 비교한다. 공정한 비교를 위해, 우리는 각 비교 방법과 동일한 feature 세트를 사용한다. Table 3에서 보듯이, 우리의 PMI-CAP은 동일한 feature를 사용할 때 모든 비교 방법들을 능가했다. 특히 CIDEr metric에서의 개선이 두드러지며, 평균 10.8% 향상되었다. 이는 우리의 pairwise modality interaction이 멀티모달 feature를 훨씬 더 효과적으로 활용할 수 있음을 보여준다.

Table 4는 MSVD 및 MSR-VTT 데이터셋에서의 성능 비교를 보여준다. 우리는 최근 state-of-the-art 방법들 [59, 1, 9]에서 일반적으로 사용되는 feature 세트인 **Inception-ResNet v2(시각 모달리티)와 C3D(모션 모달리티)**를 채택한다. 경쟁 방법들 중 OA-BTG [75]는 외부 detector로부터 객체 수준 정보를 활용하고, MARN [39]은 더 발전된 3D CNN을 사용하여 모션 feature를 추출한다. 우리는 MGSA [9] 및 VRE [44]와 같은 공간 정보를 활용하지 않으며, hLSTMat [47] 및 MM-TGM [11]과 같은 정교한 decoder를 사용하지 않는다. 하지만 PMI는 이러한 방법들의 대부분과 함께 사용될 수 있음을 강조한다. 전반적으로, 우리의 PMI-CAP은 MSVD와 MSR-VTT 모두에서 state-of-the-art 성능을 달성한다.

Fig. 3. 시간적 문장 localization 및 이벤트 캡셔닝의 정성적 결과. 결과는 우리 모델을 사용하되, 모달리티의 다른 조합으로 생성되었다.

문장 Localization Task 결과
이전에 소개했듯이, 현재 문장 localization을 위한 state-of-the-art 방법들은 이 문제를 멀티모달 설정에서 고려하지 않고 C3D feature만 사용한다. 따라서 우리는 이 방법들과 공정하게 비교하기 위해 C3D feature만을 사용한 결과를 제시하고, 멀티모달 설정에서의 성능도 보고한다. 우리의 접근 방식은 문장 localization을 위해 PMI-LOC으로 줄여서 부른다. Table 5는 널리 사용되는 Charades-STA 데이터셋의 결과를 보여준다. 우리의 PMI-LOC은 모든 metric에서 모든 비교 방법들을 능가한다. 멀티모달 feature를 사용한 추가 실험에서는 훨씬 더 높은 localization 정확도를 보여주며, 이는 우리의 모달리티 상호작용 방법의 효과를 입증한다. Table 6에서 보듯이, 대규모 ActivityNet Captions 데이터셋에서도 우리의 방법은 state-of-the-art 성능을 달성한다.

4.4 Qualitative Results

우리는 Figure 3, 4, 5에서 몇 가지 정성적 결과(qualitative results)를 제시하여, 우리의 modality interaction 방법의 효과성과 이것이 타겟 task의 최종 예측에 어떻게 설명 가능성(explainability)을 제공하는지를 보여준다. 여기서 시각(V), 모션(M), 오디오(A) modality 외에도, 이전에 언급된 잠재 의미(latent semantics, L) modality를 활용하여 비디오 콘텐츠를 포괄적으로 탐색했음을 밝힌다.

Figure 3은 더 많은 modality를 활용함으로써 모델이 modality interaction을 통해 더 많은 보완적인 정보를 얻고, temporal sentence localization과 event captioning 모두에서 더 나은 성능을 달성함을 보여준다. Figure 4의 event captioning 예시들은 각 이벤트 유형마다 고유한 modality interaction 패턴을 가지고 있음을 나타낸다. 스포츠 비디오(상단)는 주로 visual-motion modality interaction에 의해 포착되는 독특한 시각 및 모션 패턴을 가지고 있다. 요리 비디오(중간)는 고유한 시각적 단서와 주방용품에서 나는 소리를 가지고 있어,

Fig. 4. Modality 중요도 가중치 시각화를 포함한 비디오 이벤트 캡셔닝의 정성적 결과.

Fig. 5. Modality 중요도 가중치 시각화를 포함한 temporal sentence localization의 정성적 결과.

visual modality와 audio modality 간의 상호작용 및 audio modality 내의 상호작용이 중요하다. 애니메이션 비디오(하단)의 경우, 다른 modality만으로는 콘텐츠를 포착하기에 불충분할 때 latent semantics modality가 중요하게 작용한다. Figure 5의 sentence localization 예시에서도 유사한 관찰을 할 수 있다.

5 Conclusions

본 논문에서는 temporal sentence localization 및 event captioning task를 해결하기 위해 pairwise modality interaction (PMI) 방법을 제안하였다. 우리는 비디오 콘텐츠를 더 잘 이해하기 위해 sequence 및 channel 레벨 모두에서 fine-grained cross-modal interaction을 수행하였다. 두 task에 대한 네 가지 벤치마크 데이터셋에서 수행된 광범위한 실험은 제안된 방법의 효과를 일관되게 검증한다. 향후 연구에서는 제안된 modality interaction 방법을 다른 비디오 이해 task에도 적용할 수 있도록 확장할 것이다.

Supplementary Material for: Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

Shaoxiang Chen ${ }^{1 \star}$ , Wenhao Jiang ${ }^{2}$ , Wei Liu ${ }^{2}$ , and Yu-Gang Jiang ${ }^{1 \star \star}$ ${ }^{1}$ 상하이 푸단대학교 컴퓨터과학부 지능형 정보 처리 핵심 연구소 ${ }^{2}$ 텐센트 AI 랩 {sxchen13, ygj}@fudan.edu.cn, cswhjiang@gmail.com, wl2223@columbia.edu

1 Learning Latent Semantic Modality

시각, 동작, 오디오와 같이 직접 관찰 가능한 양상(apparent modalities) 외에도, 고수준의 의미론적 정보를 담고 있는 잠재 의미론(latent semantics) 양상은 언어 관련 task에 유용할 수 있다. 우리는 각 데이터셋(비디오 캡셔닝 또는 문장 localization 데이터셋)에서 제공하는 문장 주석(sentence annotation)을 사용하여 의미론적 속성(semantic attributes)을 예측하는 경량 네트워크를 설계한다. 이는 독립적인 task이며, 잠재 의미론 양상은 우리 방법론에서 선택 사항이다.

이 네트워크의 입력은 모든 apparent modalities의 연결(concatenation)인 $\boldsymbol{X}^{A}=\left[\boldsymbol{X}^{v}\left\|\boldsymbol{X}^{m}\right\| \boldsymbol{X}^{a}\right]$ 이다. 여기서 $\boldsymbol{X}^{A} \in \mathbb{R}^{N \times\left(d_{a}+d_{m}+d_{v}\right)}$ 이다. 우리는 단순히 양방향 LSTM을 사용하여 $\boldsymbol{X}^{A}$ 를 처리하고 각 LSTM의 hidden state를 연결한다:

\boldsymbol{X}^{l}=\left[\overrightarrow{\operatorname{LSTM}}\left(\boldsymbol{X}^{A}\right) \| \overleftarrow{\operatorname{LSTM}}\left(\boldsymbol{X}^{A}\right)\right]

여기서 $\boldsymbol{X}^{l} \in \mathbb{R}^{N \times 2 d_{\text {hid }}}$ 이며, $\overrightarrow{\operatorname{LSTM}}(\cdot)$ 과 $\overleftarrow{\operatorname{LSTM}}(\cdot)$ 은 각각 $d_{\text {hid }}$ 개의 유닛을 가지며 입력을 정방향 및 역방향으로 처리하는 LSTM 네트워크를 나타낸다. $\boldsymbol{X}^{l}$ 은 이어서 sigmoid 활성화 함수를 가진 fully-connected layer를 통과하여 의미론적 속성 확률을 예측한다:

\boldsymbol{P}=\operatorname{sigmoid}\left(\boldsymbol{X}^{l} \boldsymbol{W}_{c}+\boldsymbol{b}_{c}\right),

여기서 $\boldsymbol{W}_{c}$ 와 $\boldsymbol{b}_{c}$ 는 파라미터이고, $\boldsymbol{P} \in \mathbb{R}^{C \times N}$ 는 **시간적 의미론적 속성(temporal semantic attributes)**을 수집하며, $C$ 는 미리 정의된 속성들의 어휘 크기(vocabulary size)이다.

이 네트워크를 학습시키기 위해, 우리는 이벤트 캡셔닝 또는 문장 localization 데이터셋의 문장 주석으로부터 레이블을 구성한다. 먼저 데이터셋의 학습 문장들을 처리하고, 가장 빈번한 $C$ 개의 명사 또는 동사를 선택하여 표제어(lemmatize) 처리한 후 속성 어휘(attribute vocabulary)를 형성한다. 그런 다음 각 문장은

해당 단어들이 어휘에 포함되어 있는지 여부에 따라 one-hot 레이블 $\boldsymbol{l} \in \mathbb{R}^{C}$ 로 변환될 수 있다. 여기서 $\boldsymbol{l}_{c}=1$ 은 속성 $c$ 가 문장에 존재함을 나타내고, 그렇지 않으면 $\boldsymbol{l}_{c}=0$ 이다. 레이블 $\boldsymbol{l}$ 은 $N$ 개의 시간적 위치로 **브로드캐스트(broadcast)**되어 각 위치에서 cross entropy loss를 계산한다:

\mathcal{L}_{c e}=-\frac{1}{C} \sum_{c=1}^{C}\left(\boldsymbol{l}_{c} \ln \boldsymbol{P}_{c}+\left(1-\boldsymbol{l}_{c}\right) \ln \left(1-\boldsymbol{P}_{c}\right)\right),

여기서 $\mathcal{L}_{c e} \in \mathbb{R}^{N}$ 이다. 문장 localization task의 경우, 문장 주석은 일반적으로 시간적 세그먼트(temporal segments)에 대해 제공된다. 손실 표현을 통일하기 위해, 우리는 다음과 같이 정의된 시간적 마스크(temporal mask) $\boldsymbol{M}^{t c p} \in[0,1]^{N}$ 를 구성한다:

\boldsymbol{M}_{i}^{t c p}= \begin{cases}1 & \text { if } i \in[s, e] \text { and } \operatorname{rand}(0,1)>0.5 \\ 0 & \text { otherwise }\end{cases}

여기서 $[s, e]$ 는 $[0,1]$ 로 정규화된 문장 주석의 시간적 세그먼트이다. 이벤트 캡셔닝에서는 비디오가 상대적으로 짧기 때문에 $s=0$ 및 $e=1$ 로 가정하는 것이 안전하다. 과적합(overfitting)을 방지하기 위해 $\boldsymbol{M}^{\text {tcp }}$ 에 무작위성(randomness)이 도입된다. 최종 시간적 의미론적 속성 예측 손실은 다음과 같이 계산된다:

\mathcal{L}_{t c p}=\frac{1}{N} \mathcal{L}_{c e} \cdot \boldsymbol{M}^{t c p},

여기서 $\cdot$ 은 dot product 연산자이다. 위 설명에서 볼 수 있듯이, 네트워크가 속성을 예측하도록 학습될 때, $\boldsymbol{X}^{l}$ 은 모든 시간적 위치에 대해 풍부한 잠재 의미론 정보를 담고 있다. 따라서 이는 다른 양상들과 상호작용하여 우리의 목표 task를 지원하는 데 사용될 수 있다.

2 Feed-Forward Network (FFN)

Fig. 1. Feed-Forward Network (FNN)의 구조.

Fig. 1에서 볼 수 있듯이, FNN은 주로 세 개의 position-wise fully-connected layer로 구성된다. 각 layer는 기본적으로 입력 feature 시퀀스의 각 요소에 대해 파라미터를 공유하는 fully-connected layer를 적용한다. 첫 번째 layer와 두 번째 layer에는 각각 ReLU activation과 layer normalization이 적용되며, 초기 입력은 residual connection을 통해 두 번째 layer의 출력에 연결되어 gradient flow를 촉진한다. 출력 차원 $d_{\text {out }}$ 은 입력에 따라 결정된다 ( $d_{\text {out }} \leq d_{\text {in }}$ ).

3 More on Motivation

우리의 동기는 두 가지이다 (이 섹션에서 언급된 Equation, Table, Figure는 모두 원본 논문에 있다): (1) 인간과 AI 모델 모두 다양한 감각 양식(sensory modalities)의 조합을 통해 이벤트를 더 잘 이해한다는 것은 직관적이다. 그러나 다른 양식의 중요성은 비디오마다, 그리고 비디오 내의 순간마다 다르다. 이는 양식별(modality-wise) 및 시퀀스별(sequence-wise) 중요성을 모두 고려하여 양식 상호작용 텐서(modality-interacted tensor)를 융합하도록 동기를 부여한다 (Eq. (7)). (2) 신경과학 연구들은 한 양식에서의 정보 처리가 다른 양식에 영향을 미칠 수 있음을 입증했다. 이는 양식 간에 상호작용이 존재하며, 상호보완적인 정보가 이러한 상호작용을 통해 소통할 수 있음을 의미한다. 이는 우리가 각 양식 쌍에 대해 시퀀스 수준(sequence-level) 및 채널 수준(channel-level) 상호작용을 설계하도록 동기를 부여한다. 시퀀스 수준 상호작용에서는 한 시퀀스의 각 요소가 bilinear model을 통해 다른 시퀀스의 모든 요소와 상호작용한다 (Eq. (2)). 두 양식 간의 이러한 완전 연결된 정보 흐름은 Table 1에서 보여주듯이 전통적인 융합 전략보다 상호보완적인 정보의 활용을 더 잘 가능하게 한다. 또한 다른 feature 채널이 다른 정보를 포착한다는 것은 널리 받아들여지고 있다. 따라서 채널 수준 상호작용의 목표는 중요한 채널을 강조하는 것이며, 이는 gating을 통해 구현된다. gate 변수는 channel-to-channel attention 메커니즘을 통해 계산되며, 시퀀스별 평균 풀링(sequence-wise mean-pooling) (Eq. (4))은 계산량 감소를 위한 것이다. gating의 효과는 Section 6의 아래 실험에서 입증된다. 채널 수준 상호작용이 가져오는 개선은 시퀀스 수준 상호작용만큼 크지는 않지만, 분명히 효과적이다.

이러한 동기를 바탕으로, 우리의 목표는 세분화된(fine-grained) 상호작용을 통해 양식의 더 나은 조합을 찾는 것이다. Attention은 이 목표를 달성하기 위해 우리가 채택한 구성 요소이다. 왜냐하면 **이해하고 구현하기 쉽고 (또한 명확한 프레임워크를 제공)**하기 때문이다. 마지막으로, 우리는 우리의 양식 상호작용이 효과적일 뿐만 아니라 설명 가능성(explainability)을 제공할 수 있음을 입증했다 (Figs. 4 및 5 참조).

4 Computational Complexity

Table 1. PMI-CAP의 RTX 2080Ti GPU에서의 실행 시간.

Mode	Memory	Time/batch
Train (batch size=32)	5939 MB	0.38 s
Infer (batch size=1)	1441 MB	0.08 s

주요 계산 비용은 sequence-level interaction에서 발생하며, 이는 주로 feature projection과 bilinear modeling (원 논문의 Eq. (2) 및 (3))으로 구성된다. 상호작용하는 두 feature sequence의 차원이 모두 $b \times n \times d$ 라고 가정하자. 여기서 $b$ 는 batch size, $n$ 은 sequence length를 나타낸다.

Table 2. PMI와 다른 타겟 task 방법들을 결합했을 때의 성능.

Method	B@4	M	C
Masked Transformer [3]	47.49	32.43	77.35
Masked Transformer [3]+PMI	50.95	35.20	86.61
Method	IoU $=0.3$	IoU $=0.5$	IoU $=0.7$
ABLR [2]	53.55	37.47	16.21
ABLR [2]+PMI	55.26	39.52	16.88

Table 3. ActivityNet Captions 데이터셋에서의 성능 비교.

Method	B@4	M	C
vanilla-CAP (IRV2+I3D)	1.75	10.14	40.63
PMI-CAP (IRV2+I3D)	1.99	10.89	43.56
PMI-CAP (IRV2+I3D+A)	2.31	11.00	51.30
PMI-CAP/no-channel (IRV2+I3D)	2.00	10.52	43.06
2019 Rank-1 Intra-Event	3.91	11.96	49.56

그러면 계산 복잡도는 $O\left(b n d^{2}+b n^{2} d\right)$ 가 된다. 짧은 비디오의 경우 $n \ll d$ 이므로, 복잡도는 $O\left(b n d^{2}\right)$ (주로 batch matrix multiplication)가 되어 GPU에서 효율적으로 실행된다. 반면 TV 쇼와 같이 매우 긴 비디오의 경우 $O\left(b n^{2} d\right)$ 항이 지배적이 되어 계산 비용이 비디오 길이에 따라 이차적으로 증가한다. 그럼에도 불구하고, 매우 긴 비디오에 대한 이차 복잡도를 줄이는 것은 본 연구의 범위를 벗어나며 향후 연구 과제로 남겨둔다. PMI-CAP의 실제 실행 시간은 Table 1에 제시되어 있다.

5 Compatibility with Other Models

우리는 또한 이벤트 캡셔닝(event captioning) 또는 문장 localization을 위한 다른 유형의 아키텍처와 결합했을 때, 제안된 PMI의 효과를 테스트한다. 원래 방법들은 입력으로 concatenated feature [3] 또는 단일 feature [2]를 사용했지만, 우리의 구현은 두 방법 모두에 대해 멀티모달 feature를 concatenate한다. 결과는 Table 2에 제시되어 있다.

비디오 캡셔닝의 경우, 우리는 Masked-Transformer 모델 [3]을 채택했는데, 이는 RNN 기반 캡션 decoder와는 본질적으로 다르다. 우리는 PMI를 사용하여 멀티모달 feature를 인코딩하여 입력으로 사용했으며, feature concatenation 방식보다 상당한 성능 향상을 얻었다. 우리는 PMI를 state-of-the-art RNN 기반 문장 localization 방법인 ABLR [2]과 결합했다. ABLR의 feature extraction과 Bi-LSTM feature encoding 사이에 PMI 모듈을 삽입함으로써, 명확한 성능 향상 또한 관찰되었다.

6 Captioning Performances on ActivityNet Captions

우리는 ActivityNet Captions 데이터셋에서 PMI-CAP의 여러 변형 모델을 추가로 평가하고, 2019 ActivityNet captioning 챌린지 우승 모델 [1]과 비교하였다. 챌린지 우승 모델은 세 가지 일반적인 modality 외에도 **더 다양한 feature (예: 객체 및 context)**를 사용했다.
공식 평가 프로토콜에 따라, 우리는 validation set에서 ground-truth event proposal에 대한 captioning 성능을 비교하였다. 결과는 Table 3에 제시되어 있다.
Vanilla-CAP 방법은 PMI를 제거하고 feature concatenation을 대신 사용한다.
"no-channel" 설정에서는 channel-level interaction과 gating이 비활성화된다.
상위 네 행에서 볼 수 있듯이, 우리가 제안한 방법은 ActivityNet에서 일관되게 효과적이다.
더 적은 feature를 사용했음에도 불구하고, 우리의 방법이 챌린지 우승 모델과 비교할 만한 성능을 달성할 수 있다는 점은 주목할 만하다.

References

Chen, S., Song, Y., Zhao, Y., Jin, Q., Zeng, Z., Liu, B., Fu, J., Hauptmann, A.: Activitynet 2019 task 3: Exploring contexts for dense captioning events in videos. arXiv preprint arXiv:1907.05092 (2019)
Yuan, Y., Mei, T., Zhu, W.: To find where you talk: Temporal sentence localization in video with attention based location regression. In: AAAI (2019)
Zhou, L., Zhou, Y., Corso, J.J., Socher, R., Xiong, C.: End-to-end dense video captioning with masked Transformer. In: CVPR (2018)

본 연구의 일부는 저자가 Tencent AI Lab에서 인턴으로 근무할 때 수행되었습니다. ** 교신 저자.

3 공정한 비교를 위해, state-of-the-art 방법들과 비교할 때는 이 modality를 포함하지 않았지만, latent semantic modality를 사용한 일부 정성적 결과를 보여줄 것이다. 해당 학습 방법은 Supplementary Material에 수록되어 있다.

4 이 FFN에 대한 자세한 내용은 Supplementary Material에서 확인할 수 있다.

5 공간 제약과 caption decoder가 본 연구의 초점이 아니므로, 여기서는 공식적인 설명을 생략한다. 또한 일부 실험 및 분석은 Supplementary Material로 옮겼다.

본 연구의 일부는 저자가 Tencent AI Lab에서 인턴으로 근무할 때 수행되었습니다. ** 교신 저자.

PMI: 비디오의 Temporal Sentence Localization 및 Event Captioning을 위한 Modality Interaction 학습

논문 요약: Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성

Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

Abstract

1 Introduction