Huh, Jaesung, et al. "Epic-sounds: A large-scale dataset of actions that sound." IEEE Transactions on Pattern Analysis and Machine Intelligence (2025).

EPIC-SOUNDS: A Large-Scale Dataset of Actions that Sound

Jaesung Huh ${ }^{1 *}$ , Jacob Chalk ${ }^{2 *}$ , Evangelos Kazakos ${ }^{3}$ , Dima Damen ${ }^{2}$ , Andrew Zisserman ${ }^{1}$ <br> ${ }^{1}$ Visual Geometry Group, Department of Engineering Science, University of Oxford, UK<br> ${ }^{2}$ Department of Computer Science, University of Bristol, UK<br> ${ }^{3}$ CIIRC, Czech Technical University in Prague, Czech Republic<br>https://epic-kitchens.github.io/epic-sounds/

Fig. 1: EPIC-KITCHENS-100 [1]에서 가져온 샘플 비디오와 해당 오디오. 우리는 이미 공개된 시각 레이블과 우리가 수집한 EPIC-SOUNDS 오디오 레이블을 비교한다. 우리는 모달리티 주석 간의 차이점을 시간적 범위와 클래스 레이블 모두에서 보여주며 다음을 강조한다:

Misaligned intervals (시간 불일치 구간): 시간적 경계가 서로 다르다.
Invisible action (보이지 않는 동작): 비디오에서는 보이지 않지만, 뚜렷한 소리를 내는 동작 (0-to-1 매칭).
Indistinguishable sounds (구분 불가능한 소리): 두 개의 뚜렷한 시각적 동작에서 발생하지만, 청각적으로는 분리할 수 없는 소리.
Silent action (무음 동작): 가청 소리가 없는 시각적 동작 (1-to-0).
Visual actions containing multiple repetitive sounds (여러 반복적인 소리를 포함하는 시각적 동작): 하나의 시각적 동작이 여러 반복적인 소리를 포함하는 경우 (1-to-N).

Abstract

우리는 EPIC-SOUNDS를 소개한다. EPIC-SOUNDS는 egocentric 비디오의 오디오 스트림 내에서 시간적 범위(temporal extents)와 클래스 레이블을 포착하는 대규모 오디오 어노테이션 데이터셋이다. 우리는 어노테이터가 구분 가능한 오디오 세그먼트를 시간적으로 레이블링하고, 이 소리를 유발했을 수 있는 동작을 설명하는 어노테이션 파이프라인을 제안한다. 우리는 이러한 자유 형식의 오디오 설명을 그룹화하여 클래스로 분류함으로써, 오디오만으로도 구별 가능한 동작들을 식별한다. 물체가 충돌하는 동작의 경우, 우리는 해당 물체의 재질(예: 유리 물체가 나무 표면에 놓이는 소리)에 대한 사람의 어노테이션을 수집하고, 비디오를 통해 이를 검증하여 모호한 부분을 제거한다.
전반적으로 EPIC-SOUNDS는 44개 클래스에 걸쳐 분포된 78.4k개의 분류된 가청 이벤트 및 동작 세그먼트와 39.2k개의 분류되지 않은 세그먼트를 포함한다. 우리는 오디오 전용(audio-only) 및 오디오-비주얼(audio-visual) 방법 모두에 대해, state-of-the-art 오디오 인식 및 탐지 모델을 우리의 데이터셋으로 학습하고 평가한다. 또한 다음 사항들에 대한 분석도 수행한다:

오디오 이벤트 간의 시간적 중첩(temporal overlap),
오디오 및 비주얼 모달리티 간의 시간적 및 레이블 상관관계,
오디오 전용 입력으로부터 재질을 어노테이션하는 데 있어서의 모호성,
오디오 전용 레이블의 중요성,
소리를 통해 동작을 이해하는 현재 모델의 한계.

Index Terms—audio recognition, action recognition, audio event detection, audio dataset, data collection, dataset

I. Introduction

인간은 여러 감각, 특히 시각과 청각을 통해 사물과 행동을 인지한다 [2]. 이에 영감을 받아, 수많은 연구들이 액션 인식 [3], [4], [5] 및 감지 [6], [7]와 같은 다양한 비디오 이해 task를 두 가지 모달리티(시각 및 청각)를 융합하여 해결하고자 한다. 이러한 시도는 특히 카메라가 진행 중인 액션에 가깝게 위치하여 시각적으로나 청각적으로 더 명확한 입력을 제공하는 egocentric 비디오 데이터셋에서 흔히 볼 수 있다. 연구에 따르면 egocentric 데이터에서 오디오와 비디오를 함께 사용함으로써 성능이 향상되었다 [8], [9], [10], [11].

일반적으로 이러한 연구들은 두 가지 핵심적인 잘못된 가정을 한다: 첫째, 시각 및 청각 이벤트가 시간적으로 일치한다는 가정. 둘째, 단일 클래스 집합이 두 모달리티에 모두 사용될 수 있으며, 이는 주로 시각 정보에서 파생된다는 가정.

실제로는 시각 및 청각 이벤트는 시간적 및 의미적 일치성(temporal and semantic congruence)에서 다양한 수준을 보이며, 따라서 이러한 가정을 위반한다 (Figure 1 참조). 예를 들어, 'close bin'과 같은 액션의 경우, 시각 이벤트의 시작은 사람이 손잡이를 잡는 시점으로 정의될 수 있지만, 청각 이벤트의 시작은 쓰레기통 뚜껑이 쾅 닫히는 순간으로 지연된다. 일부 액션은 청각적으로 구별하기 어렵다. 예를 들어, 'wash carrot'과 'wash tomato'는 소리만으로는 어떤 채소가 씻기고 있는지 판단하기 불가능하다. 결과적으로, 시각적 시간 레이블을 오디오 분류기 학습의 목표로 사용하는 것은 종종 결함이 있는 시도이다. 이렇게 학습된 오디오 분류기는 모든 시각 이벤트를 구별할 수 없을 것이며, 학습에 감독(supervision)을 제공할 수 있는 많은 오디오 레이블이 누락될 것이다. 이러한 관찰을 바탕으로, 우리는 EPIC-KITCHENS-100의 오디오에 대해 시각 레이블과 구별되는 시간적 및 의미적 레이블을 크라우드소싱하였다.

그러나 [12]의 증거가 시사하듯이, 인간은 오디오만으로는 사물과 이벤트를 인식하는 데 어려움을 겪으며, 이는 오디오만을 사용한 주석 작업을 어렵게 만든다. 오디오에 이벤트의 세부적인 속성을 추론하기에 충분한 정보가 부족하기 때문에, 인간은 이를 설명할 때 모호한 용어를 사용하는 경향이 있다. 예를 들어, 두 물체의 충돌로 인한 상호작용이 오디오만으로는 구별되지 않을 때, 주석자들은 종종 관련 이벤트를 'clang' 또는 'bang'과 같이 묘사한다. 이를 완화하기 위해, 우리는 이러한 의미론에 상호작용하는 물체의 재료 정보를 추가로 보강하였다. 우리는 비디오를 통해 이를 검증하고, 오디오만으로 이루어진 부정확한 재료 주석은 폐기하였다.

요약하자면, 우리는 EPIC-KITCHENS-100의 오디오에서 파생된 대규모 일상생활 소리 데이터셋인 EPIC-SOUNDS를 소개한다. EPIC-SOUNDS는 44개 이상의 카테고리에 걸쳐 78,366개의 분류된 소리 이벤트와 39,187개의 분류되지 않은 소리 이벤트를 포함하며, 총 117,553개의 소리 이벤트가 45개 가정 주방에서 수집된 700개 비디오의 100시간 분량 영상에 걸쳐 있다. 소리 클래스는 오디오만 듣고 얻은 설명에 기반하므로, 소리 인식 및 소리 이벤트 감지와 같은 음향학 문제에 적합하다.

본 논문에서는 먼저 EPIC-SOUNDS와 관련된 연구들(Section III)을 소개한다. 이어서 EPIC-SOUNDS(Section III)를 소개하고, 데이터 수집 파이프라인(Section IV)을 자세히 설명한다. 우리는 오디오와 시각 모달리티 간의 상호작용, 그리고 재료 기반 충돌 소리 수집의 복잡성에 대한 광범위한 분석을 제시한다 (Section V). 우리는 EPIC-SOUNDS에 대한 두 가지 챌린지를 공개한다: **소리 인식(sound recognition)**은 소리 이벤트의 시작 및 종료 시간이 주어졌을 때 이를 분류하는 것이고, **소리 감지(sound detection)**는 untrimmed 비디오 내의 모든 소리 이벤트를 위치화하고 분류하는 것이다. 또한, 우리는 이러한 챌린지에 대해 오디오 전용 및 오디오-시각 접근 방식을 모두 사용하여 강력한 baseline 결과를 제공한다 (Section VI). 우리는 본 연구의 기여를 되짚어보고 EPIC-SOUNDS 출시 이후 이미 달성된 영향에 대한 개요를 제공하며 작업을 마무리한다 (Section VIII).

음향 이벤트 감지 데이터셋 (Sound event detection datasets)
Sound Event Detection (SED)는 오디오 이벤트의 시작(onset)과 끝(offset)을 감지하고, 감지된 경계 내에서 이벤트를 인식하는 task이다.

TABLE I: 데이터셋 비교. A: 오디오. V: 비디오. T: 시간적 주석. 우리는 EPIC-SOUNDS와 최근의 Perception Test만이 오디오 및 비디오 모달리티에 대해 별개의 클래스(D)를 가지고 있음을 보여준다. 여기에 EPIC-SOUNDS의 분류된 세그먼트를 보고한다.

Name	Source	#hrs	#seg.	#cls	Modality	T	D
DESED [13]	real + synth.	43h	8k	10	A	$\checkmark$	N/A
L3DAS21 [14]	synth.	15 h	23k	14	A	$\checkmark$	N/A
URBAN-SED 15	synth.	30 h	50 k	10	A	$\checkmark$	N/A
TUT 2016 [16	real	2 h	6.3 k	18	A	$\checkmark$	N/A
AudioSet [17]	YouTube	5833 h	1.8 M	632	$\mathrm{A}+\mathrm{V}$	$\times$	$\times$
VGG-Sound [18]	YouTube	550 h	200k	309	$\mathrm{A}+\mathrm{V}$	$\times$	$x$
SSW60 [19]	real	25.7 h	9.2 k	60	$\mathrm{A}+\mathrm{V}$	$\times$	$\times$
LLP 20	YouTube	33 h	19.4 k	25	A+V	$\checkmark$	$\times$
Perception Test 21]	real	68.9 h	113 k	16	$\mathrm{A}+\mathrm{V}$	$\checkmark$	$\checkmark$
EPIC-SOUNDS	home kitchens	100 h	78.4 k	44	$\mathrm{A}+\mathrm{V}$	$\checkmark$	$\checkmark$

SED 데이터셋 [13], [14], [15], [16]은 이벤트의 시간적 경계 주석을 포함한다는 점에서 EPIC-SOUNDS와 유사하지만, sound recognition 데이터셋 [22], [23], [24]은 그렇지 않다. 그럼에도 불구하고, 이들은 여러 측면에서 EPIC-SOUNDS와 차이가 있다. 첫째, 규모가 작아 최신 아키텍처를 학습시키기에는 비실용적이다. 둘째, [13], [14], [15]는 합성 오디오(synthetic audio)를 포함하고 있어, 이 데이터셋으로 학습된 모델은 실제 녹음 데이터에 대한 일반화 성능이 떨어진다. 셋째, [13], [14], [15], [16]은 일반적인 장면 및 이벤트와 관련된 소리를 포함하는 반면, EPIC-SOUNDS는 45개의 가정 주방에서 발생하는 다양한 가청 이벤트로부터 생성된 세분화된 소리(fine-grained sounds)에 초점을 맞춘다.

오디오-비디오 데이터셋 (Audio-visual datasets)
우리는 Table I에서 EPIC-SOUNDS를 공개된 sound recognition 또는 detection 데이터셋과 비교한다. AudioSet [17]은 210만 개의 클립과 527개의 주석 클래스를 가진 가장 큰 오디오 이벤트 오디오-비디오 데이터셋이며, VGGSound [18]는 20만 개 이상의 비디오 클립과 300개의 오디오 클래스를 포함한다. 이들은 모두 YouTube에서 수집되었으며, 각 오디오 클립은 10초 길이이다. 두 데이터셋 모두 이벤트에 대한 시간적 주석이 없으며, 중요한 것은 두 모달리티에 대해 단일 주석 세트가 수집된다는 점이다. LLP 데이터셋 [20]은 시각 및 청각 이벤트가 독립적으로 주석되어 별도의 시간적 세그먼트를 제공한다는 점에서 우리와 유사하다. 그러나 우리와 달리, 두 모달리티는 여전히 동일한 레이블 세트를 공유한다. 또한, LLP는 규모가 작고 다양한 이벤트를 포함하는 반면, EPIC-SOUNDS는 행동으로 인해 발생하는 소리에 초점을 맞춘다.

우리 연구와 가장 유사한 것은 **Perception Test [21]**로, 이 또한 오디오 및 시각 모달리티 모두에 대해 별개의 타임스탬프와 레이블을 제공한다. 그러나 클래스 다양성은 16개의 오디오 클래스 대 우리의 44개 오디오 클래스로 더 작다. Perception Test의 비디오는 또한 상당히 짧다 (우리의 평균 514초(8분 34초)에 비해 23초).

세분화된 오디오-비디오 데이터셋 (Fine-grained audio-visual datasets)
PACS 데이터셋 [25]은 비디오에 나타난 객체의 물리적 상식 속성을 이해하는 데 초점을 맞추며, 이는 우리의 '재료' 기반 주석 절차와 유사하다. 그러나 이러한 속성들은 13,400개의 질문-답변 쌍으로 구분된다. 즉, 오디오 유무에 따라 비디오를 보여주고 다양한 물리적 속성을 묻는 방식이다. SSW60 [19]은 60종의 새에 대한 31,000개의 이미지, 3,800개의 오디오, 5,400개의 비디오로 구성되어 있으며, 오디오-비디오 융합을 사용한 세분화된 분류 연구를 촉진하기 위해 제안되었다. 두 데이터셋 모두 소리에 대한 시간적 주석을 포함하지 않는다.

III. EPIC-SOUNDS: DATASET STATISTICS

EPIC-KITCHENS-100. EPIC-KITCHENS-100 [1]은 대규모 1인칭 시점(egocentric) 오디오-비주얼 데이터셋으로, 사람들의 주방에서 촬영된 대본 없는 일상 활동 및 사물 상호작용을 담은 100시간 분량의 비디오를 포함한다. 이 데이터셋은 700개의 비디오와 89,977개의 시각적 동작(visual action)을 설명하는 세그먼트로 구성된다. 동작은 동사(verb) 및 명사(noun) 레이블로 이루어져 있으며, 97개의 동사 클래스와 300개의 명사 클래스가 있다. 평균 동작 길이는 2.6초이다. 이러한 동작들은 비디오에만 기반하므로, 우리는 어노테이션 과정에서 이러한 레이블을 전혀 참조하지 않았음을 강조한다.

EPIC-SOUNDS. 이 데이터셋은 44개 클래스에 걸쳐 분포된 78,366개의 분류된 시간적 어노테이션으로 구성되며, 평균 길이는 4.9초이다. 우리는 EPIC-KITCHENS-100의 train / validation / test 분할을 그대로 따랐으며, Figure 2 (왼쪽)에 각 클래스별 분할 비율을 제시한다.

클래스 빈도는 Figure 2 (오른쪽)에도 나타나 있으며, EPIC-SOUNDS가 자연스럽게 long-tailed 분포를 보임을 강조한다. 우리는 또한 샘플링된 클래스들의 파형(waveform)을 시각화하였다. 여기에는 모든 충돌 기반 클래스와 같이 단기적이고 타악기적인 소리(percussive sound)와 일치하는 파형을 생성하는 클래스뿐만 아니라, 지글거리는 소리(sizzling)와 같은 장기적인 소리를 생성하는 클래스도 있다. 우리는 또한 Figure 3에서 클래스별 어노테이션 길이 분포를 시각화하였다. 여기서는 클래스를 길이의 중앙값( $\tilde{t}$ )에 따라 정렬하고, 세 가지 범주로 구분한다:

장기(long-term): $\tilde{t} \geq 10s$
중간(intermediate): $1s < \tilde{t} < 10s$
단기(short-term): $\tilde{t} \leq 1s$

장기 클래스는 요리(cooking)나 청소(hoovering)와 같은 긴 활동과 관련이 있다. 중간 클래스에는 문지르거나 긁는 소리(scrub / scrape), 또는 바스락거리는 소리(rustle) 등이 있으며, 단기 클래스에는 모든 충돌 기반 클래스를 포함하여 거의 즉각적인/타악기적인 소리가 포함된다.

IV. Data collection Pipeline

데이터 수집 과정은 자유 형식 어휘로 설명되는 개별 소리의 시간적 세그먼트(temporal segments)를 수집한 후, 일반적인 소리 범주를 개별 클래스로 클러스터링하는 방식으로 진행된다. 이 섹션에서는 이 과정과 결과를 정제하기 위해 수행된 후처리 단계에 대해 자세히 설명한다.

A. Data collection of labelled temporal segments

목표는 EPIC-KITCHENS-100의 모든 비디오에서 발생하는 독특한 오디오 이벤트에 주석을 다는 것이다. 주석은 이벤트의 시간 간격과 자유 형식의 텍스트 설명으로 구성된다. 이 데이터셋의 비디오 길이는 30초에서 1.5시간까지 매우 다양하므로, 우리는 주석 작업을 위해 비디오를 3~4분 길이의 관리 가능한 세그먼트로 잘라낸다.
우리는 주석자가 시각적, 맥락적 정보에 편향되지 않고 오디오 이벤트의 시간적 경계에만 집중하도록 오디오 스트림만 제공하는 것을 핵심적인 단계로 간주한다 (Figure 1에 표시된 'misaligned intervals' 예시를 고려해 보라. 동일한 이벤트에 대해 시각적 및 청각적 시간 세그먼트가 일치하지 않는다). 그러나 주석자에게는 특정 오디오 특징을 목표로 삼고 주석 프로세스를 간소화하는 데 도움이 되는 시각적 가이드 역할을 하도록 오디오 파형 플롯이 제공된다.

주석 프로세스. 우리는 주석 회사에서 고용한 20명의 주석자와 함께 작업했다. 각 비디오 세그먼트에 대해, 우리는 한 명의 주석자가 초기 오디오 주석 세트를 제공하고, 두 번째 주석자가 이를 확인하도록 했다. 첫 번째 주석자는 오디오를 듣고 독특한 오디오 이벤트를 식별하며, 시작 및 종료 시간을 표시하고, 소리와 관련된 행동 또는 출처에 대한 주석자의 해석을 반영하는 의미론적 레이블을 할당한다. 주석자들은 자유 형식의 어휘를 사용하지만, 우리는 그들이 선택할 수 있는 일반적으로 발생하는 일상 소리 레이블의 참조 목록을 제공하여 안내한다. 두 번째 주석자는 누락된 이벤트가 있는지 주석을 검토하고 필요한 수정을 하는 등 품질 관리를 수행한다.

우리는 주석을 수집하기 위해 VIA 도구 [26]의 맞춤형 버전을 사용했다 (Figure 4 참조). 각 고유한 레이블 설명에 대해 VIA 도구는 별도의 타임라인을 생성하여 동일한 이벤트의 시퀀스를 효과적으로 그룹화한다. 소리 이벤트는 시간적으로 겹칠 수 있다는 점에 유의해야 한다. 만약 동일한 레이블을 가진 두 세그먼트가 0.3초 미만으로 떨어져 있다면, 우리는 주석자들에게 두 세그먼트를 병합하도록 지시한다. 이는 두 세그먼트가 동일한 이벤트에 속한다고 판단하기 때문이다. 또한, 주석자들은 오디오의 상당 부분에 걸쳐 발생하는 일관된 배경 소리(또는 노이즈)(예: 라디오, 선풍기 또는 세탁기)를 식별하도록 요청받았다. 주석자들은 이를 'background'로 태그하도록 요청받았다. 지금까지 설명된 절차는 556개의 고유한 소리 설명에 대한 주석을 생성했다.

인간은 특히 물체 간의 충돌로 발생하는 소리에 대해 'clang' 또는 'clatter'와 같은 추상적인 단어를 사용하여 소리를 묘사하는 경향이 있다. 그러나 인간은 충돌한 물체의 재료를 더 잘 이해할 수 있다. 예를 들어, 두 개의 유리잔이 충돌하는 것과 플라스틱 용기가 나무 표면과 충돌하는 것을 구별할 수 있다. 따라서 우리는 이러한 충돌 소리에 관련된 재료를 주석하기로 결정했다. 우리는 오디오를 기반으로 충돌하는 물체의 재료를 주석하기 위해 맞춤형 LISA [27] 주석 인터페이스를 사용한다 (Figure 5).

우리는 주석자들에게 Table III에 제공된, 충돌에 관련된 재료의 사전 지정된 목록에서 선택하도록 지시한다. 이 목록은 주방에서 흔히 사용되는 모든 재료를 포함한다. 주석자들은 하나 이상의 재료를 선택하거나, 'Can't tell' 옵션을 선택하여 재료를 구별할 수 없음으로 표시하도록 권장된다. 우리는 후자의 경우를 제외한다. 이는 이러한 경우가 소리 또는 이벤트 이해 task에 도움이 되지 않는다고 판단하기 때문이다. 그러나 일부 재료 소리는 착각을 유발할 수 있다. 예를 들어, 어떤 사람은 재료 충돌이 유리와 나무 물체 사이에서 발생했다고 인식할 수 있지만, 실제로는 세라믹 용기에 음식이 부어지는 소리일 수 있다. 따라서 우리는 주석자들에게 해당 비디오를 사용하여 재료 주석을 시각적으로 확인하도록 요청한다. 중요한 것은, 주석자들은 먼저 소리를 듣고 인지된 재료를 선택해야 하며 (Figure 5a), 비디오를 본 후에는 이를 변경할 수 없다 (Figure 5b).

대신, 그들은 비디오를 볼 때 실제로 관련된 재료를 선택한다. 우리는 시각적으로 검증된 충돌 소리만 유지한다. 즉, 오디오만으로 올바르게 인지된 후 시각적 관찰을 통해 검증된 재료이다. 우리는 최소 40개의 예시가 존재하는 모든 충돌 재료 레이블을 선택한다. 그 결과, 충돌과 관련된 추상적인 레이블(예: 'clang/clatter', 'put objects on surface')은 24개의 소리 범주로 클러스터링된다.

Fig. 2: 왼쪽: EPIC-SOUNDS 데이터셋 분할에서 각 오디오 클래스의 분포. 오른쪽: 긴 꼬리 분포를 보여주는 클래스 빈도. C: 동일하거나 두 가지 다른 재료 유형의 물체 간 충돌 기반 소리를 나타낸다.

Fig. 3: 클래스별 주석 길이의 상자 그림으로, 길이의 중앙값에 따라 정렬되었다. 대부분의 클래스, 30개(68%)는 단기이며, 11개(25%)는 중간 클래스이고, 단 3개(7%)만이 장기(중앙값 > 10초)로 간주된다. C: 동일하거나 두 가지 다른 재료 유형의 물체 간 충돌 기반 소리.

이러한 소리 범주는 관련된 재료를 설명하며, 예를 들어 C: metal-only 또는 C: plastic-wood와 같이 표현된다. 여기서 C는 충돌 기반 클래스를 나타낸다.

B. Post-processing Annotations

레이블에서 클래스로.
우리는 철자 오류를 수정하고 의미론적 동등성을 그룹화하기 위해 오디오 레이블을 후처리한다. 예를 들어, 'buzzer', 'beep', 'alarm'과 같은 소리는 하나의 beep 클래스로 그룹화된다. 마찬가지로, 'wipe', 'scour', 'scrape', 'scrub'과 같은 동사로 설명되는 소리도 하나의 클래스로 그룹화된다.

Fig. 4: VIA 도구 [26]를 맞춤 설정하여 주석자가 듣는 각 독특한 소리의 시간 간격과 의미론적 레이블을 주석하는 인터페이스. 상단에는 단일 정적 프레임이 비디오의 맥락을 이해할 수 있도록 한다.

우리는 또한 **꼬리 인스턴스(tail instances)**를 수동으로 검토하여 새로운 클래스를 형성하는지 또는 다른 클래스와 병합되어야 하는지 결정한다. 설명이 의미 없었던 경우에는 분류된 주석은 삭제된다. 예를 들어, 'spray' 소리는 소리가 나는 행동의 의미 있는 꼬리 인스턴스로 간주되었다. 반대로, 'dog barking' 레이블은 우리의 맥락과 관련이 없으므로 폐기되었다. 이 과정을 통해 Figure 2에 표시된 44개의 오디오 클래스가 생성된다.

오디오 클래스 오류 확인.
주석자 간의 소리 인지 차이로 인해 클래스 간에 일부 오류가 존재한다. 예를 들어, 한 주석자가 서랍이 당겨지는 소리를 듣고 'open / close'로 레이블을 지정한 경우, 다른 주석자는 유사한 오디오에 대해 'drag object'로 들을 수 있다. 이러한 오류를 해결하기 위해 우리는 테스트 및 검증 세트의 각 레이블을 수동으로 검토한다.

절차는 다음과 같다: 먼저, Figure 6a에 표시된 인터페이스를 사용하여 주석자에게 모든 검증/테스트 샘플을 수동으로 검토하도록 요청한다. 비충돌 소리의 경우, 주석 중 시각적 편향을 피하기 위해 오디오만 제공하고 주석자에게 오디오 레이블을 확인하도록 요청한다. 우리는 이를 closed-form QA 설정에서 추가로 테스트하며, 주석자에게 4개의 소리 레이블 중에서 이전에 레이블된 소리 하나를 선택하도록 다시 요청한다. 레이블이 다시 올바르게 선택되면 최종 오디오 ground-truth로 간주된다.

Fig. 5: 주어진 트리밍된 오디오를 기반으로 충돌하는 물체의 재료를 주석하는 데 사용된 맞춤형 LISA [27] 주석 인터페이스. 인터페이스는 두 단계로 구성된다: (a) 오디오만으로 재료 주석, (b) 비디오 입력을 통해 재료 확인. 주석자는 비디오를 본 후 오디오 전용 예측을 변경할 수 없다.

TABLE II: 충돌 소리에 대한 재료 옵션. 각 재료가 충돌 소리에서 선택된 횟수를 기록하고, 'Others' 또는 'Can't tell'로 주석된 소리는 제외한다.

재료	예시 물체	선택된 횟수
금속	금속 또는 스테인리스 스틸	15523
플라스틱	플라스틱 그릇, 플라스틱 용기	5464
세라믹	세라믹 컵, 접시	2634
나무	나무 주걱, 나무 테이블	2408
종이	키친 타월, 골판지 상자	1253
유리	와인 잔, 유리컵	1248
돌 / 대리석	주방 조리대, 대리석 테이블	377
천	수건, 행주, 옷	257
기타	위에 나열되지 않은 재료 (예: 음식)	3596
알 수 없음	재료를 판단할 수 없음	10030

Fig. 6: 맞춤형 LISA [27] 주석 인터페이스 사용처: (a) 트리밍된 이벤트 레이블 수동 확인, (b) 수동 확인 단계에서 불일치하는 샘플 수정, (c) 다른 주석 중에서 선택.

충돌 기반 소리의 경우, 오디오만으로는 충돌 소리에 관련된 물체의 재료를 확인하기 어렵기 때문에, 대신 주석자에게 원본 오디오-시각 푸티지를 제공하여 수정을 수행하도록 한다. 두 가지 유형의 소리 모두에 대해, 주석자가 소리를 더 잘 설명한다고 생각하는 경우 자신의 설명을 제공할 수 있도록 자유 형식 텍스트 상자도 제공한다. 또한, 실제 소리를 설명하기 어려운 경우 'can't tell' 옵션을 포함한다.

초기 수정 라운드 후, 우리는 주석자가 초기 레이블을 조정한 인스턴스에 집중한다. Figure 6b에 표시된 인터페이스를 사용하여 다른 주석자에게 이 두 주석 중에서 올바른 것을 선택하도록 요청하며, 'can't tell' 또는 'neither' 옵션도 제공하여 세 번째 주석을 추가로 제공할 수 있도록 한다. 모든 레이블 수정은 채택되기 전에 수동으로 검토된다. 우리는 특히 Figure 6c에 표시된 비자명한 충돌 레이블을 확인하기 위한 인터페이스를 사용한다.

학습 세트의 경우, 오디오 세그먼트와 시각 세그먼트 간의 중첩을 활용하여 검토할 샘플을 선택한다. 주석 프로세스가 완료되었으므로 시각 레이블을 오류 수정에 사용하는 것이 허용된다고 판단한다. 따라서 후처리 시 시각 레이블을 활용하는 것은 Figure 1에 명시된 문제를 더 이상 손상시키지 않는다. 우리는 EPIC-KITCHENS-100에서 시각 클래스에 매핑이 존재하는 모든 오디오 클래스를 검토한다. 우리는 두 가지 유형의 매핑을 식별한다: 자명한(trivial) 매핑은 오디오 클래스 자체가 이미 시각 클래스로 존재하는 경우(예: 'scrub')이고, 관계형(relational) 매핑은 오디오 클래스 자체가 시각 클래스로 존재하지 않지만, 'turn on / off' 동사 또는 'light switch' 명사와 관련된 오디오 클래스 'click'과 같이 하나 이상의 시각 클래스에 의미론적으로 매핑될 수 있는 경우이다.

우리는 오디오 주석이 다른 시각적 행동과 겹치는 모든 경우(예: 'open / close' 클래스의 시각적 주석과 겹치는 'scrub' 오디오 클래스)를 수동으로 검토한다. 이 추가 필터링을 사용하여 오디오 클래스를 수정한다.

우리는 모든 잘못 분류된 인스턴스가 처리되도록 이 오류 확인 주기를 여러 번 실행한다.

분류되지 않은 오디오 이벤트.
후처리 결과, 소리가 존재하지만 의미론적 레이블을 부여할 수 없는 오디오 이벤트가 있다. 이들은 다양한 수정 단계에서 클래스 레이블을 할당할 수 없었거나, 시각적으로 확인할 수 없었던 충돌 소리 샘플이다. 우리는 이 39,187개 샘플의 자유 형식 설명과 시간적 경계를 분류되지 않은(non-categorised) 것으로 공개한다.

Fig. 7: 시각 및 오디오 클래스 간의 시간적 중첩 다양성을 보여주는 막대 차트. 가장 빈번하게 시간적으로 중첩되는 상위 10개 시각 클래스 각각에 대한 중첩 인스턴스의 비율이 각 오디오 클래스의 막대를 나눈다. 참고로, 플롯은 로그 스케일이지만, 막대 분할은 선형 스케일이다.

V. Audio-Visual Analysis

EPICSOUNDS를 구성하는 오디오 전용 어노테이션을 수집한 후, 우리는 이를 EPIC-KITCHENS [1]를 위해 이미 수집된 시각 어노테이션과 비교한다. 이 시각 어노테이션은 시각 스트림에 대한 시작-종료 시간과 액션 레이블을 포함한다. 우리는 이를 visual event라고 부르며, EPICSOUNDS 어노테이션은 auditory event라고 칭한다. 이 섹션에서는 오디오 및 시각 이벤트 간의 상호작용과 한 모달리티의 지식이 다른 모달리티의 지식에 어떻게 도움이 될 수 있는지에 대해 광범위한 분석을 수행한다.

A. Overlap of Visual and Auditory Events

오디오 레이블과 비디오 레이블을 비교할 때, 우리는 Figure 1의 동기를 다시 생각한다. 각 오디오 클래스에 대해 우리는 시각 클래스와의 **시간적 중첩(temporal overlap)**을 연구하고 이러한 중첩을 기반으로 추론한다. Figure 7은 각 오디오 클래스에 대해 가장 빈번하게 시간적으로 중첩되는 상위 10개 시각 클래스의 인스턴스 수를 시각화한다. 개별 막대는 각 중첩 시각 클래스의 인스턴스 비율로 나뉜다. 이 그림은 오디오 클래스 전반에 걸쳐 중첩의 다양성을 보여주며, 시각 클래스와 오디오 클래스 사이에 강한 연관성이 있음을 시사한다. 예를 들어, 시각 클래스 'open cupboard'는 오디오 클래스 'open / close' 또는 'footstep'과 빈번하게 시간적으로 중첩되는데, 이는 많은 경우 참가자들이 열려고 하는 찬장으로 걸어가는 상황과 관련이 있다.

Figure 8 (상단)은 어떤 시각 이벤트와도 시간적 중첩이 없는 오디오 이벤트의 비율을 보여준다. 우리는 시간적 중첩이 없다는 것은 청각 이벤트가 시야 밖에 있거나 사소한 시각 이벤트에 해당함을 의미한다고 가정한다. 반대로, 오디오와 시각 클래스 간의 시간적 중첩은 일반적으로 시야 내의 시청각 이벤트를 나타낸다. 우리는 시각 클래스와 시간적 중첩이 없는 인스턴스 비율이 가장 높은 상위 3개 오디오 클래스가 다음과 같음을 확인했다: footstep (28.5%), click (21.1%), plastic-marble collision (20.1%). 이러한 인스턴스에서 해당 클래스들은 일반적으로 화면 밖에서 발생하거나 때때로 사소하다고 여겨지는 시각적 행동(예: 물건을 놓거나 가스레인지를 켜는 것)에 의해 생성되는 소리와 관련이 있으며, 이는 시각적 어노테이션은 누락되었지만 여전히 뚜렷한 청각 신호를 생성하는 결과를 낳는다. 반면에, 시각 클래스와 가장 빈번하게 시간적 중첩이 있는 상위 3개 클래스는 zip (100%), sizzling / boiling (97.1%), **hoover / fan (97.0%)**이다. zip의 경우, 이는 **자주 어노테이션되는 명확한 시각적 행동(가방을 열고 닫는 것)**과 관련이 있는 반면, sizzling / boiling 및 hoover / fan은 여러 시각적 활동 중에 발생하는 장시간 오디오와 관련이 있다. 예를 들어, 레시피의 다른 단계를 완료하면서 음식을 팬에 튀기거나, 요리 중에 환풍기가 켜지는 경우 등이다.

Fig. 8: 시각 클래스와 시간적 중첩이 없는 오디오 클래스(즉, 명확한 시각 신호가 없는 경우)의 비율(상단)과 오디오 클래스와 시간적 중첩이 없는 시각 클래스(즉, 가청 신호가 없어 무음 시각 행동으로 간주되는 경우)의 비율(하단)을 보여주는 막대 차트.

우리는 또한 Figure 8 (하단)에서 시간적으로 중첩되는 오디오 이벤트가 없는 시각적 행동의 비율을 시각화한다. 우리는 오디오 클래스와 시간적 중첩이 없다는 것이 무음 시각 행동에 해당하며, 시간적 중첩이 있다는 것은 가청 시각 행동을 나타낸다고 가정한다. 여기서는 다양한 무음 인스턴스 비율에 걸쳐 대표적인 시각적 행동 샘플을 플로팅한다. 우리는 오디오 클래스와 시간적 중첩이 없는 비율(0-to-1)이 가장 높은 상위 3개 시각 클래스가 다음과 같음을 확인했다: insert mixture (84.0%), fold dough (50.0%), hang cloth (41.4%). 실제로 이들은 거의 식별 가능한 소리를 내지 않는 행동들이다. 반대로, 오디오 클래스와 빈번하게 시간적 중첩이 있는 상위 3개 시각 행동은 wash spoon (98.2%), wash glass (97.0%), **pour water (95.3%)**이며, 이 경우 물은 쉽게 인식할 수 있는 명확한 오디오 신호를 생성할 것이다.

Fig. 9: 오디오-시각 중첩 사전 정보를 사용할 때 검증 세트의 정확도를 시각화한 막대 차트. 시각 동사, 명사 및 행동 정확도(왼쪽)와 행동 사전 정보를 사용한 모든 오디오 클래스의 클래스별 정확도(오른쪽)를 보고한다.

우리는 단일 시각적 행동 내에서 반복되는 소리를 조사한다. 우리는 반복되는 오디오 소리를 포함하는 상위 3개 다대일(many-to-1) 오디오-비디오 클래스가 (평균적으로) 다음과 같음을 발견했다: cut / chop (2.28-to-1), beep (1.47-to-1), metal / wood collision (1.24-to-1). 이들은 '멈춤-시작' 패턴을 가진 행동과 관련이 있다. 예를 들어, 자르는 동작 사이의 일시 정지, 가전제품의 버튼 누름, 또는 수저 서랍이나 싱크대에서 반복적으로 물건을 움직이는 것 등이다.

B. Audio-Visual Prior Analysis

이 섹션에서는 시각 레이블과 청각 레이블 간의 상관관계를 조사한다. 시각 및 청각 이벤트는 시작-종료 시간과 레이블이 다르지만, 일부 상관관계는 본질적으로 결정적이다. 예를 들어, 시각 이벤트가 'wash plate'라면, 오디오 모달리티에서 'water' 소리가 있을 것이라고 추측할 수 있다. 우리는 사전 분석(prior analysis)을 사용하여 이러한 상관관계를 연구한다. 우리는 학습 세트에서 사전 확률(priors)을 계산하고, 검증 세트에서 오디오 클래스를 예측하는 데 있어 그 효과를 확인한다. 구체적으로, 학습 세트의 각 시각 클래스에 대해, 학습 세트 전반에 걸쳐 겹치는 모든 오디오 인스턴스를 찾는다. 이를 통해 시각 레이블이 주어졌을 때 오디오 클래스를 예측할 사전 확률을 얻는다. 예를 들어, 시각 클래스 'wash plate'의 경우, 학습 세트에서 $p\left(\text { audio }=\text { ' water }{ }^{\prime} \mid \text { visual }={ }^{\prime} \text { wash plate }{ }^{\prime}\right)=0.8$ 이다.

사전 확률이 계산되면, 이를 사용하여 검증 세트의 정확도를 다음과 같이 계산한다. 시각 이벤트의 경우, 겹치는 오디오 인스턴스와 그 ground truth 클래스를 고려한 다음, 학습 세트에서 계산된 오디오 클래스 예측이 주어졌을 때 최대 확률을 가진 시각 클래스를 해당 시각 이벤트에 할당한다. 이를 ground truth 시각 클래스와 비교하여 예측이 올바른지/틀렸는지 또는 겹치는 오디오 이벤트가 없는지 평가한다. Figure 9 (왼쪽)은 동사, 명사 및 행동 예측에 대한 전체 정확도를 보고한다.

유사하게, 오디오 클래스에 대한 정확도를 다음과 같이 계산한다. 각 오디오 이벤트에 대해, 겹치는 시각 행동과 그 ground truth 클래스를 고려한다. 우리는 사전 분석에서 가장 높은 확률을 가진 클래스를 해당 오디오 이벤트에 할당한다. Figure 9 (오른쪽)은 이러한 결과를 제시한다. 우리는 오디오 정보를 아는 것이 시각 도메인에서 높은 정확도를 생성하지 못함을 확인한다. 동사의 정확도는 18%, 명사는 20%이다. 동사와 명사(행동)의 조합으로 계산된 사전 확률을 사용하면 성능이 약간 향상된다 (26.2%). 그러나 모달리티는 상당히 독립적이며 사전 분석만으로는 예측할 수 없음이 분명하다.

시각 행동 사전 확률로부터 오디오 클래스 정확도를 살펴보면, 상위 3개로 올바르게 분류된 오디오 클래스는 **물(62.0%), 열기/닫기(50.6%), 바스락거림(50.2%)**이다. 이들은 설거지할 때의 싱크대, 찬장과 서랍, 종이/비닐봉투와 같이 명확한 시각 신호를 가진 클래스들이다. 44개 클래스 중 31개 클래스에서 시각 클래스로부터 오디오 클래스를 예측하는 정확도는 0이다.

사전 분석은 일부 레이블이 상관관계가 있지만, 한 모달리티로 다른 모달리티를 예측하는 것은 불가능하다는 것을 보여준다.

C. Material Analysis

이 섹션에서는 충돌음 어노테이션을 사용하여 재료 소리에 대한 인간의 인식을 조사한다. 우리는 'Others' 또는 'Can't tell'로 분류된 것을 제외하고 Table III에 나열된 8가지 특정 재료에서 발생하는 소리로 범위를 제한한다.

우리는 재료별로 두 가지 지표를 계산하고 그 결과를 Figure 10에 보고한다. 빨간색 막대는 오디오만으로 인식된 재료의 비율 대 시각적으로 검증된 재료의 비율을 나타낸다 (시각적으로 재료 X로 검증된 것 중, 몇 개가 재료 X로 미리 레이블링되었는가?). 파란색 막대는 오디오만으로 인식된 재료가 시각적으로 검증된 비율을 나타낸다 (오디오만으로 재료 X로 레이블링된 것 중, 몇 개가 시각적으로 재료 X로 검증되었는가?). 결과는 금속(metal)이 두 지표 모두에서 높은 성능을 보임을 보여주는데, 이는 금속이 부딪혔을 때 발생하는 독특하고 공명하는 소리가 다른 재료와 쉽게 구별되기 때문이다. 천(cloth)은 낮은 성능을 보이는데, 특히 시각적으로 검증된 천 소리 대 오디오만으로 인식된 천 소리의 비율에서 두드러진다. 천은 일반적으로 충격 시 둔탁하고 부드러운 소리를 내며, 이는 특징이 덜하고 다른 재료나 주변 소음과 쉽게 혼동될 수 있다.

또한, 우리의 분석에 따르면 어노테이터들은 48.8%의 경우에 "소리 어노테이션이 정확했습니까?"라는 질문에 '예'라고 응답했다. 이는 샘플의 거의 절반에 대해 어노테이터들이 오디오 단서만으로 충돌음을 생성하는 모든 재료를 정확하게 식별했음을 나타낸다.

Figure 11은 인간 어노테이터의 재료 인식에 대한 confusion matrix를 보여준다. 어노테이터는 여러 재료를 레이블링할 수 있으므로, 우리는 [28]에서 제안한 **Multi-Label Confusion Matrix (MLCM)**를 채택한다. **NPL (No Predicted Label)**은 ground truth에 존재하는 재료가 어노테이터에 의해 예측되지 않은 경우를 나타낸다.

Fig. 10: 충돌음에서 재료의 인식 정확도. 빨간색 막대는 오디오만으로 인식된 재료의 비율 대 시각적으로 검증된 재료의 비율을 나타낸다. 파란색 막대는 시각적으로 검증된 재료 소리 중 오디오에서 올바르게 미리 인식된 재료의 비율을 나타낸다.

Fig. 11: 재료 인식 confusion matrix. [28]에서 제안한 Multi-label confusion matrix를 채택했다. NPL (No Predicted Label)은 ground truth에 존재하는 재료 레이블을 모델이 예측하지 못한 경우를 나타낸다.

예를 들어, 실제 레이블이 metal / plastic이고 어노테이터가 metal만 예측한 경우, plastic에 대한 NPL 열이 증가한다. 어노테이터는 metal (80%), paper (50%), plastic (49%)을 가장 정확하게 식별한다. 반면, stone/marble (18%)과 cloth (8%)는 인식하기 더 어렵다. 특히, glass는 metal로 자주 오분류되며 (42%), ceramic 및 plastic과 같은 다른 단단한 재료도 metal과 자주 혼동된다.

VI. Challenges and Baseline Results

이 섹션에서는 **음향 인식(sound recognition)**과 **음향 탐지(sound detection)**라는 두 가지 과제를 정의하고 실험한다. 각 과제에 대해 **오디오 전용 모델(audio-only model)**과 **오디오-시각 모델(audio-visual model)**을 모두 평가하여 시각 양식(visual modality)의 보완적인 특성을 측정한다.

A. Challenge Definitions

Sound Recognition.
주어진 오디오 세그먼트 $S^{i}=\left[t_{i}^{s}, t_{i}^{e}\right]$ 에 대해, 우리는 해당 세그먼트 내에서 진행 중인 음향 이벤트 $c_{i}^{s} \in C$ 를 분류하는 것을 목표로 한다. 여기서 $C$ 는 EPIC-SOUNDS의 44개 클래스를 의미한다. 이 challenge에서는 모든 세그먼트의 시작 및 종료 시간이 알려져 있으며, 즉 추론 시 모든 시작 및 종료 시간이 주어지고, 모델은 단지 소리를 분류하기만 하면 된다. 이 challenge를 평가하기 위해 우리는 다음 지표들을 보고한다: top-1 및 top-5 accuracy, mean average precision (mAP), mean area under ROC curve (mAUC), mean per class accuracy (mCA).

Sound Detection.
우리는 **전체 untrimmed 비디오 $X$ **를 고려하며, 목표는 $X$ 내의 모든 음향 이벤트 인스턴스를 예측하는 것이다. 즉, $\hat{\mathbf{S}}=\left\{\hat{S}_{i}\right\}_{i=1}^{N}$ 이며, 여기서 $\hat{S}_{i}=\left(\hat{t}_{i}^{s}, \hat{t}_{i}^{e}, \hat{c}_{i}^{s}\right)$ 는 음향 이벤트의 시작 및 종료 시간 $\left(\hat{t}_{i}^{s}, \hat{t}_{i}^{e}\right)$ 과 예측된 음향 이벤트 클래스 $\hat{c}_{i}^{s}$ 를 포함하는 sound detection tuple을 나타낸다. 학습 시 모델은 $X$ 내의 groundtruth annotation에 접근할 수 있지만, recognition과 달리 추론 시에는 타임스탬프에 접근할 수 없다. 이 challenge를 평가할 때는 mean Average Precision (mAP) metric을 사용한다. mAP는 모든 클래스에 걸쳐 다양한 IoU 임계값에 대한 AP 값의 평균으로 계산된다. 예측된 세그먼트가 주어진 임계값보다 큰 **Intersection over Union (IoU)**으로 ground truth 세그먼트와 일치하면 유효한 detection으로 간주된다. mAP 계산을 위해 우리는 [0.1, 0.2, 0.3, 0.4, 0.5] 범위의 IoU 임계값에 걸쳐 AP를 평균한다.

Task Specific Test Splits.
우리는 EPIC-SOUNDS 테스트 세트를 두 가지 task-specific 하위 세트로 나눈다: i) Recognition Test split: 모든 action에 대한 타임스탬프는 공개하지만, 해당 레이블은 공개하지 않는다. ii) Detection Test split: 타임스탬프와 레이블 모두 공개하지 않고, 소리가 존재하는 비디오 ID만 공개한다. 이러한 하위 세트들은 비디오 측면에서 대략적으로 동일하고 서로 겹치지 않도록 선택되었다. 더 구체적으로, recognition 테스트 세트는 11명의 참가자로부터 얻은 44개의 비디오에 걸쳐 5131개의 소리를 포함하며, detection 테스트 세트는 9명의 참가자로부터 얻은 23개의 비디오에 걸쳐 5145개의 소리를 포함한다.

B. Audio-only Sound Recognition

여기서는 오디오 전용 state-of-the-art 음향 인식 모델이 EPIC-SOUNDS 분류를 어떻게 수행하는지를 설명한다.

Baselines.
우리는 Auditory SlowFast (ASF) [30] 및 Self-Supervised Audio Spectrogram Transformer (SSAST) [29] 오디오 인코더 네트워크를 학습하고 평가한다. 이때 **linear probe 방식(모델 가중치를 고정하고 분류 레이어만 학습)**과 fine-tuning 방식을 모두 사용한다. 또한 chance baseline과도 비교한다. ASF는 VGG-Sound로 사전학습되었고, SSAST는 AudioSet과 LibriSpeech [32]로 사전학습되었다.

Audio Processing.
두 모델 모두에 대한 입력 spectrogram을 추출하기 위해 [30]의 오디오 처리 방식을 따른다. 이 방식이 SSAST의 기본 처리 방식(16kHz로 샘플링된 2초 오디오에 대해 $200 \times 128$ spectrogram, 또는 4초 오디오에 대해 $400 \times 128$ )보다 우수한 성능을 보였기 때문이다. 구체적으로, 두 모델 모두 오디오는 24kHz로 리샘플링된다. 우리는 2초 길이의 오디오를 무작위로 샘플링하여 128 Mel 밴드를 가진 log-mel-spectrogram을 생성한다. 만약 오디오 어노테이션이 2초보다 짧으면, 생성된 spectrogram의 마지막 열을 반복하여 패딩한다. window size는 10ms, hop size는 5ms를 사용하여 $400 \times 128$ 크기의 spectrogram을 얻는다.

Training & Validation Configuration.
두 모델 모두 30 epoch 동안 학습시킨다. ASF의 초기 learning rate는 1e-3으로 설정하고 25 epoch에서 10%로 감소시킨다. SSAST의 초기 learning rate는 1e-4로 설정하고 2 epoch 동안 1e-6에서 warm-up한 후, 10 epoch에서 5%, 20 epoch에서 1%로 감소시킨다. 두 모델 모두 cross-entropy loss로 학습되며, ASF는 Nesterov momentum이 0.9인 SGD를 사용하여 최적화하고, SSAST는 $\left(\beta_{1}, \beta_{2}\right)=(0.9,0.999)$ 인 AdamW를 사용한다. 두 모델 모두 weight decay는 1e-4, batch size는 128이다. SSAST의 backbone으로는 patch size 16인 $384 \times 384$ ViT를 사용하고, ASF의 backbone으로는 $8 \times 8$ ResNet50 변형을 사용한다. 데이터 증강(data augmentation)을 위해 **SpecAugment [33]**를 사용하며, 이 역시 [30]을 따른다. F=27인 두 개의 frequency mask, T=25인 두 개의 time mask, W=5인 time warp를 적용한다. 테스트 증강(test augmentation)은 [30]과 유사하게 오디오를 5개의 동일한 크기의 sub-clip으로 나누고, 각 네트워크의 개별 예측을 평균하여 사용한다. linear probe 결과의 경우, SSAST와 ASF의 backbone을 고정하고 이전과 동일한 학습 하이퍼파라미터 및 사전학습된 backbone으로 마지막 linear layer만 학습시킨다.

Results.
두 모델에 대한 정량적 결과는 Table III에 보고되어 있다. 전반적으로 ASF는 validation, recognition test, 전체 test set에서 top-1 정확도 기준으로 SSAST보다 각각 0.28%, 0.74%, 1.11% 더 우수한 성능을 보인다. ASF는 validation set과 recognition test set에서 더 나은 mAP를 보인 반면, SSAST는 전체 test set에서 더 나은 성능을 보여, 이 모델들이 long-tailed 데이터에 대해 유사한 수준의 강건성(robustness)을 공유함을 시사한다. linear probe의 성능은 ASF의 fine-tuning 결과에 비해 크게 하락하며, SSAST의 경우 거의 절반 수준으로 감소한다. 후자의 경우, self-supervision만으로는 class-discriminative feature를 학습하지 못함을 알 수 있다.

TABLE III: EPIC-SOUNDS validation, recognition test 및 전체 test split에 대한 Baseline 모델 결과. M: Modality; L: Linear-Probe; F: Fine-Tuning. * 추가 정보 사용 (예: 인접 액션의 시작 및 종료 시간).

Split	Model	M		Top-1	Top-5	mCA	mAP	mAUC
	Chance	-	-	7.71	30.95	2.29	0.023	0.500
	SSAST [29]	A	L	28.74	64.87	7.14	0.079	0.755
	ASF [30]	A	L	45.53	79.33	13.48	0.172	0.789
	SSAST [29]	A	F	53.47	84.56	20.22	0.235	0.879
	ASF [30]	A	F	53.75	84.54	20.11	0.254	0.873
	TIM [31]	$\mathrm{A}+\mathrm{V}$	F	58.49	86.53	26.05	0.305	0.883
	MTCN* [9]	$\mathrm{A}+\mathrm{V}$	F	57.50	86.82	26.44	0.314	0.920
	Chance	-	-	7.85	31.91	2.39	0.024	0.500
	SSAST [29]	A	L	29.93	66.60	7.17	0.082	0.725
	ASF [30]	A	L	45.00	78.98	15.00	0.183	0.788
	SSAST [29]	A	F	53.71	84.54	22.28	0.223	0.820
	ASF [30]	A	F	54.45	85.17	20.41	0.254	0.852
	TIM [31]	A+V	F	55.31	85.09	24.22	0.290	0.861
	MTCN* 9	$\mathrm{A}+\mathrm{V}$	F	57.55	87.51	27.09	0.308	0.900
Entire Test	Chance	-	-	7.22	30.11	2.27	0.023	0.500
	SSAST [29]	A	L	27.50	65.55	6.68	0.080	0.741
	ASF [30]	A	L	44.55	78.44	14.49	0.145	0.772
	SSAST [29]	A	F	53.75	83.76	20.76	0.237	0.860
	ASF [30]	A	F	54.86	84.26	20.30	0.232	0.823
	TIM [31]	A+V	F	55.53	85.35	23.72	0.319	0.882
	MTCN* [9]	$\mathrm{A}+\mathrm{V}$	F	57.96	87.55	26.52	0.308	0.908

Figure 12a와 Figure 12b는 각각 fine-tuned ASF와 SSAST의 validation confusion matrix를 보여준다. 두 모델 모두 rustle, water, beep와 같이 독특하고 구별되는 소리의 일부를 감지할 수 있음을 확인했다. 충돌 기반(collision-based) 클래스에 관해서는, 두 모델 모두 두 가지 재료의 충돌(bi-material collisions)보다 단일 재료의 충돌(unimaterial collisions)을 더 성공적으로 분류하는 경향이 있지만, 일반적으로 금속 전용 충돌 클래스에 대해 오탐(false positive) 예측을 생성한다. 이는 모델이 재료 특성이 충돌로 인해 발생하는 소리를 어떻게 변화시키는지 감지하는 데 어려움을 겪을 수 있음을 시사한다.

Fig. 12: validation set에 대한 Confusion Matrices: a) ASF, b) SSAST, c) TIM 및 d) MTCN.

TABLE IV: EPIC-SOUNDS validation set의 하위 집합에 대한 오디오 전용 인식 baseline과 인간 성능 비교. 전체 성능과 충돌 및 비충돌 사운드에 대한 성능을 모두 보고한다.

	Total	Collision	Non-collision
Human	$20.8 \%$	$9.4 \%$	$36.2 \%$
ASF [30]	$21.1 \%$	$11.6 \%$	$34.5 \%$
SSAST [29]	$19.7 \%$	$9.8 \%$	$32.7 \%$

우리는 또한 오디오 전용 음향 인식에 대한 인간 성능의 소규모 평가를 수행하여 인간의 인식을 계산 모델과 비교했다. EPIC-SOUNDS validation set에서 클래스당 최대 10개의 클립을 샘플링하여 거의 균형 잡힌 412개의 클립 하위 집합을 구성했다. **LISA 인터페이스(Figure 6)**를 사용하여 어노테이터(즉, 논문의 저자들)는 비디오에 접근하지 않고 EPIC-SOUNDS 레이블 세트를 사용하여 각 클립을 분류했다. Table IV는 그 결과를 보여준다. 인간은 20.8%의 정확도를 달성했으며, 이는 ASF(21.1%)에 근접하고 SSAST(19.7%)보다 높다. 이는 균형 잡힌 샘플링으로 인해 Table III의 mCA와 일치한다. 특히, 인간은 비충돌 사운드 인식에 특히 효과적이며, 36.2%의 정확도를 달성하여 ASF보다 1.7%, SSAST보다 3.5% 더 우수한 성능을 보인다.

C. Audio-Visual Sound Recognition

여기서는 **시각 양식(visual modality)**을 도입하고 음향 인식 성능에 미치는 영향을 평가한다.

Baselines. Audio-Visual baseline으로는 **MTCN [9]과 TIM [31]**을 사용한다.

Audio-Visual Processing. TIM의 경우, ASF를 backbone으로 사용하여 밀집되고 겹치는 feature를 추출한다. 먼저, 인식(recognition)을 위해 backbone을 fine-tuning한다. 이때 1초 길이의 오디오를 무작위로 샘플링하여 $200 \times 128$ 형태의 log-mel spectrogram을 생성하고, EPIC-SOUNDS의 각 비디오에서 0.2초마다 1초 길이의 오디오를 나타내는 feature를 추출한다. 시각 양식의 경우, **EPIC-KITCHENS-100으로 사전학습된 Omnivore [34]**를 backbone으로 사용하여 오디오와 동일한 밀도로 feature를 추출한다. 이 feature들은 모델의 Transformer 입력 시퀀스를 생성하는 데 사용된다. MTCN의 경우, TIM과의 공정한 비교를 위해 시각 feature에는 동일한 Omnivore backbone을, 청각 feature에는 ASF backbone을 사용한다. 각 동작의 시간적 구간(temporal segment) 내에서 오디오와 시각 모두 10개의 feature를 추출한다.

Training & Validation Configuration. TIM은 [31]과 동일한 방식으로 학습시키지만, augmentation 전략을 수정하여 주어진 window에 대한 모든 입력 feature를 동일한 augmented feature set에서 샘플링하도록 변경하였다. 이는 성능 향상을 보였기 때문이다. MTCN의 경우, 원본 논문 [9]에 설명된 것과 동일한 구성을 따른다.

Results. 오디오-시각 결과는 Table III에 보고되어 있다. 여기서 우리는 시각 양식이 오디오 기반 상호작용 인식에 도움이 되며, 두 오디오-시각 baseline 모두 모든 지표에서 일관되게 성능이 향상됨을 확인할 수 있다. TIM은 validation set의 Top-1 정확도와 전체 test set의 mAP에서 MTCN보다 우수한 성능을 보였고, MTCN은 나머지 지표에서 더 나은 성능을 보였다. MTCN은 추론 시 인접한 동작의 시작-종료 시간을 제공받기 때문에, 특히 반복적인 소리에 대해 인접한 소리 동작 간의 관계를 활용할 수 있다.

또한 Figure 12c와 Figure 12d에 confusion matrix를 제시하였다. 시각 양식을 도입했을 때, 충돌(collision) 클래스에 대한 정확도가 향상되었음을 확인할 수 있다. 이는 모델이 충돌하는 물체의 시각적 외형을 활용하여 소리를 더 잘 구별할 수 있게 되었기 때문이다. 특히 MTCN은 hoover / fan, kneading, ceramic / wood 충돌과 같은 tail 클래스도 더 잘 분류할 수 있었는데, 이는 이러한 가청 동작이 생성하는 명확한 시각적 지표 덕분이다.

D. Audio-only Sound Detection

이 섹션에서는 EPIC-SOUNDS 데이터셋에 대해 오디오 전용(audio-only) state-of-the-art 사운드 감지 모델을 학습하고 평가한다.

Baselines. 우리는 **ActionFormer [35]**와 **TriDet [36]**을 사용한다.

Audio Processing. 두 모델 모두 TIM baseline에 사용된 것과 동일한 오디오 feature를 사용한다.

Training & Validation Configuration. 각 모델은 16 epoch 동안 학습되며, 1e-4의 learning rate를 사용한다. 이 learning rate는 5 epoch 동안 warm-up된 후 cosine annealing decay scheduler를 따른다. 모델은 **분류(classification)를 위해 sigmoid focal loss [37]**를, **회귀(regression)를 위해 centralised distance IoU loss [38]**를 사용하여 학습된다. 옵티마이저는 AdamW를 사용하며, $\left(\beta_{1}, \beta_{2}\right)=$ (0.9, 0.999), weight decay는 0.05, batch size는 2로 설정한다.

TABLE V: EPIC-SOUNDS의 validation, detection test 및 전체 test split에 대한 Baseline 모델 결과. 우리는 IoU 임계값 [0.1, 0.2, 0.3, 0.4, 0.5]에서의 평균 정밀도(Average Precision)와 모든 임계값에 대한 평균을 보고한다.

Split	Method	Average Precision (AP)
		@0.1	@0.2	@0.3	@0.4	@0.5	Avg.
Validation	ActionFormer	16.5	15.2	13.7	12.0	10.1	13.5
	TriDet 36	16.1	14.9	13.6	11.9	10.0	13.3
	ActionFormer-AV	18.2	17.1	15.1	12.1	10.0	14.5
	TriDet-AV [36	18.6	17.3	15.1	12.7	10.2	14.8
Detection Test	ActionFormer	16.4	14.6	12.6	10.6	8.5	12.5
	TriDet [36]	16.6	14.7	12.7	10.6	8.3	12.6
	ActionFormer-AV	17.3	15.7	13.7	11.8	9.7	13.6
	TriDet-AV [36	17.1	15.3	13.2	11.0	8.6	13.0
Entire Test	ActionFormer 35	15.2	13.4	11.6	9.6	7.6	11.5
	TriDet [36]	15.4	13.7	11.8	9.8	7.5	11.6
	ActionFormer-AV	16.0	14.5	12.6	10.7	8.6	12.5
	TriDet-AV 36	15.8	14.2	12.3	10.2	7.9	12.1

결과. 감지 결과는 Table V에 보고되어 있다. 오디오 전용(audio-only) 설정에서 TriDet은 detection test set과 전체 test set 모두에서 ActionFormer보다 0.1 average mAP 더 높은 성능을 보였다. 반면, validation set에서는 ActionFormer가 TriDet보다 0.2 average mAP 더 높은 성능을 기록했다. 일반적으로 ActionFormer는 회귀된(regressed) proposal에서 더 정확한 경향을 보이며, 모든 split에서 가장 엄격한 0.5 IoU 임계값에서 더 높은 average precision을 나타낸다. Figure 13에서는 TriDet과 ActionFormer의 두 비디오에 대한 정성적(qualitative) 결과를 보여주며, 비디오 내 20초 길이의 밀집된(dense) 구간에 대한 확대된(zoomed-in) 이미지도 함께 제시한다. 여기서는 두 비디오에서 가장 빈번하게 나타나는 상위 10개 오디오 클래스에 대한 예측을 보여주며, 감지 baseline이 잠재적으로 겹치는 여러 사운드를 어떻게 구별하는지를 강조한다.

E. Audio-Visual Sound Detection

다시 한번, 우리는 오디오-비주얼 모델에 대한 평가를 통해 이전의 도전을 확장한다.

Baselines. baseline으로는 ActionFormer와 TriDet의 visual-counterpart를 학습시키고, 이들의 예측을 오디오 버전과 결합하여 **액션 경계(action boundaries)를 회귀(regress)**하고 이 경계 내에서 진행 중인 사운드를 분류한다.

Audio-Visual Processing. 이는 TIM 인식 baseline에 설명된 방법과 일치한다.

Training & Validation Configuration. visual 모델은 visual input feature를 사용하여 오디오-counterpart와 동일한 방식으로 학습된다. 단일 proposal 세트를 생성하기 위해, 우리는 오디오 및 visual 모델의 각 시간 단계 예측을 결합한다.

우리는 [35]를 따라 각 proposal의 **confidence $\mathbf{p}(\cdot)$ **와 **action boundaries $\mathbf{d}(\cdot)$ **를 다음과 같이 **재가중(re-weight)**한다:

\begin{aligned} \mathbf{p}(\text { interaction }) & =\mathbf{p}(\text { audio })^{\alpha} \mathbf{p}\left(\text { visual }^{(1-\alpha)}\right. \\ \mathbf{d}(\text { interaction }) & =\omega \mathbf{d}(\text { audio })+(1-\omega) \mathbf{d}(\text { visual }) \\ \omega & =\mathbf{p}(\text { audio }) /(\mathbf{p}(\text { audio })+\mathbf{p}(\text { visual })) \end{aligned}

여기서 ActionFormer의 경우 $\alpha=0.8$ 이고, TriDet의 경우 $\alpha=0.7$ 이다. 이 하이퍼파라미터들은 최고의 성능을 달성한다. $\alpha$ 의 높은 값은 모델이 주로 오디오 modality에 의해 안내되도록 하지만, 필요한 경우 visual modality의 도움을 받도록 한다.

Results. 우리는 Table V에 오디오-비주얼 감지 결과도 보고한다. 오디오-only 모델과 달리, TriDet-AV는 이제 validation set에서 ActionFormer-AV를 0.3 average mAP 차이로 능가하는 반면, ActionFormer-AV는 detection test set에서 0.6 average mAP, 전체 test set에서 0.4 average mAP로 능가한다.

Fig. 13: EPIC-SOUNDS에 대한 정성적 사운드 감지 결과. 여기서는 validation set에서 선택된 두 비디오 P08_10 (왼쪽)과 P07_12 (오른쪽)에서 가장 많이 발생하는 상위 10개 사운드 클래스만 보여준다. 상단에는 선택된 오디오 상호작용에 대한 파형(waveform)을 표시한다. 아래에는 ground-truth (GT)와 오디오-only Actionformer (AF), 오디오-only TriDet (TD) 및 이들의 오디오-비주얼 counterpart (AF-AV, TD-AV)에 대한 전체 비디오 (하단) 및 20초 확대 영역 (중간) 예측을 보여준다.

오디오-only 버전과 비교하여, TriDet-AV는 validation set에서 1.5, detection test set에서 0.4, 전체 test set에서 0.5 average mAP의 추가적인 성능 향상을 보이며, ActionFormer-AV는 동일한 분할에서 1.0, 1.1, 1.0 average mAP의 증가를 나타낸다. visual modality를 통합했을 때 두 모델의 추가적인 성능 향상은 두 modality 간에 공유되는 유익한 정보를 강조한다. 다시 한번, 우리는 Figure 13에서 baseline의 오디오-비주얼 확장에 대한 정성적 결과를 보여준다. 우리는 visual modality의 포함이 오탐(false positive) 예측을 제거하고 회귀된 경계(regressed boundaries)를 개선하는 데 도움이 될 수 있음을 확인한다.

VII. Summary and Impact

본 논문에서는 EPICSOUNDS라는 대규모 데이터셋을 소개한다. 이 데이터셋은 78.4k개의 분류된(categorised) 세그먼트와 39.2k개의 분류되지 않은(non-categorised) 세그먼트로 구성되며, 총 117.6k개의 세그먼트가 100시간 분량의 오디오를 포함한다. 이 오디오는 가정 주방에서 발생하는 다양한 소리 기반의 행동들을 담고 있다. 사운드 카테고리는 오디오에 대한 사람의 설명(human descriptions)을 기반으로 주석되었다. 우리는 또한 state-of-the-art 사운드 인식 및 탐지 네트워크를 사용하여 벤치마크 성능을 제공한다. 이 데이터셋의 오디오 주석은 오디오 분류 및 탐지 모델의 실제적인(veridical) 평가를 가능하게 하며, 시각적 주석에 기반한 현재의 평가 방식을 대체할 수 있다. 우리는 멀티모달 접근 방식이 이러한 오디오 레이블로부터 이점을 얻을 것으로 기대한다.

영향 (Impact)
2023년 EPIC-SOUNDS가 소개된 이후, 여러 연구들이 이 데이터셋을 기반으로 진행되었다. 주요 연구들을 요약하면 다음과 같다.

[39]는 LLM을 사용하여 비디오 텍스트 데이터셋으로부터 오디오 중심의 캡션을 자동으로 생성하는 방법을 소개한다. 이들은 EPIC-SOUNDS에서 제공하는 오디오 레이블을 prompt로 사용하여 오디오 설명을 생성한다.
[40]은 행동이 어떻게 소리 나는지를 학습하기 위한 self-supervised 접근 방식을 제안한다. 이를 위해 오디오, 비디오, 텍스트 모달리티 간의 상관관계를 강화하는 새로운 embedding을 사용한다. 이들의 방법은 EPIC-SOUNDS 인식 챌린지에서 평가되었다.
[41]은 latent diffusion model에서 영감을 받은 비디오-오디오 합성 방법을 활용하여 고품질의 동기화된 오디오를 생성한다. 이들은 EPIC-SOUNDS에서 자신들의 방법을 fine-tuning하고 평가하여, 'open drawer' 및 'plate clinking'과 같은 샘플에 대해 정확한 오디오를 생성하는 능력을 보여주었다.
[42]는 오디오-시각 정보를 공동으로 모델링하고 두 모달리티 간의 학습 균형을 맞춰 효율적인 표현을 생성하는 멀티모달 autoregressive 모델을 제안한다. 이들은 EPIC-SOUNDS validation set에서 모델을 평가하여 **현재 SOTA 인식 결과(79.4%)**를 달성했다.

챌린지 (Challenges)
인식(recognition) 및 탐지(detection) 챌린지 모두 Codalab [43]에서 제출 가능하다. 인식 챌린지는 첫 해에 14개의 제출을 받았다. 우승팀은 InceptionNext [44]에서 영감을 받은 AudioInceptionNeXt를 소개했으며, 이 모델은 병렬 멀티스케일 depthwise separable convolutional kernel을 포함한다. 이들은 55.43%의 top-1 정확도를 달성했으며, 이는 SSAST 및 ASF baseline 대비 각각 +1.46% 및 +0.63% 향상된 수치이다. 2024년에는 39개의 제출이 있었고, 최고 점수는 56.57%로 향상되어 추가로 +1.13%의 개선을 보였다. 이 최고 성능 팀은 Auditory SlowFast [30], SSAST [29], AudioInceptionNext의 앙상블을 사용했다. 이들은 56.57%의 top-1 정확도를 달성했으며, 이는 전년도 우승자보다 +1.14% 향상된 수치이다. 이 챌린지는 다음 링크에서 확인할 수 있다: https://codalab.lisn.upsaclay.fr/competitions/9729

오디오 탐지 챌린지는 2024년에 시작되었으며 34개의 제출을 받았다. 최고 팀은 mAP 14.82점을 기록하여 baseline 대비 +2.28 mAP 향상을 보였다. 이들은 ActionFormer [35] 기반으로 모델을 학습시켰지만, 장거리 관계를 포착하기 위한 새로운 hybrid temporal causal blocking을 도입했다. 이 모델은 OpenTAD [45] 프레임워크 하에 구현되었다. 이 탐지 챌린지는 다음 링크에서 확인할 수 있다: https://codalab.lisn.upsaclay.fr/competitions/17921.

감사의 글 (Acknowledgements)
본 연구는 새로운 공개 데이터셋을 제안하며, 기존의 공개 데이터셋인 EPIC-KITCHENS를 기반으로 한다. 연구는 EPSRC Doctoral Training Program, EPSRC UMPIRE (EP/T004991/1) 및 EPSRC Programme Grant VisualAI (EP/T028572/1)의 지원을 받았다. 이 프로젝트는 EPSRC가 자금을 지원한 Tier 2 시설인 JADE-II의 사용에 감사를 표한다. 또한 Elancer의 Rajan과 그의 팀이 주석 작업에 크게 기여해 주신 것에 감사드린다.