Chalk, Jacob, et al. "Tim: A time interval machine for audio-visual action recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

TIM: A Time Interval Machine for Audio-Visual Action Recognition

Jacob Chalk ${ }^{1 *}$ Jaesung Huh ${ }^{2 *}$ Evangelos Kazakos ${ }^{3}$ <br>Andrew Zisserman ${ }^{2}$ Dima Damen ${ }^{1}$ <br> ${ }^{1}$ 브리스톨 대학교 ${ }^{2}$ VGG, 옥스퍼드 대학교 ${ }^{3}$ 프라하 체코 공과대학교

Abstract

다양한 행동들은 긴 비디오에서 풍부한 오디오-시각 신호를 발생시킨다. 최근 연구들은 오디오와 비디오라는 두 가지 양상이 이벤트의 서로 다른 시간적 범위와 고유한 레이블을 나타낸다는 것을 보여준다. 우리는 오디오 및 시각 이벤트의 시간적 범위를 명시적으로 모델링함으로써 긴 비디오에서 두 양상 간의 상호작용을 다룬다. 우리는 **Time Interval Machine (TIM)**을 제안하는데, 여기서 **양상별 시간 간격(modality-specific time interval)**은 긴 비디오 입력을 받아들이는 Transformer encoder에 대한 query 역할을 한다. 그러면 encoder는 진행 중인 행동을 인식하기 위해 지정된 간격뿐만 아니라 두 양상 모두에서 주변 context에도 attend한다.

우리는 EPIC-KITCHENS, Perception Test, AVE의 세 가지 긴 오디오-시각 비디오 데이터셋에서 TIM을 테스트하여 인식 분야에서 **state-of-the-art (SOTA)**를 보고한다. EPIC-KITCHENS에서는 LLM과 훨씬 더 큰 사전학습을 활용하는 이전 SOTA를 top-1 행동 인식 정확도에서 2.9% 능가한다. 또한, TIM이 dense multi-scale interval query를 사용하여 행동 감지(action detection)에 적용될 수 있음을 보여주며, EPIC-KITCHENS-100에서 대부분의 지표에서 SOTA를 능가하고 Perception Test에서 강력한 성능을 보여준다. 우리의 ablation 연구는 이러한 성능 달성에 있어 두 양상을 통합하고 시간 간격을 모델링하는 것의 결정적인 역할을 보여준다. 코드 및 모델은 다음에서 확인할 수 있다: https://github.com/JacobChalk/TIM.

1. Introduction

긴 비디오는 청각 및 시각 이벤트가 빠르게 연속적으로 발생하는 특징을 보인다. 이 두 가지 모달리티에서 이벤트를 개별적으로 주석 처리하려는 최근 시도들 [21, 38]은 시간적 범위(temporal extents)와 클래스 레이블(class labels)이 서로 다르다는 것을 보여준다. 그러나 이러한 이벤트들은 여전히 상관관계를 유지한다. 즉, 두 모달리티에서 시간적으로 가까운 이벤트를 식별하는 것은 시각 및 청각 모두에서 액션 인식을 향상시킬 수 있다.

더 나아가, 현재까지 대부분의 방법들은 일반적으로 액션의 정확한 시간적 범위만을 활용한다. 즉, 액션의 정밀하게 잘린(trimmed) 클립이 convolutional [6, 10, 50] 또는

Figure 1. Time Interval Machine (TIM): 상단: 시각 및 청각 스트림 입력을 받으면, 특정 시간 간격 내에서 진행 중인 액션은 해당 간격의 시작 및 종료 시간과 관심 모달리티를 지정하는 query를 통해 결정된다. 하단: TIM은 시각(예: 'Rinse Sponge') 및 청각(예: 'Water') 액션 클래스를 query할 수 있으며, 동일한 모달리티 내에서 겹치는 액션('Glass Collision' 및 'Scrub / Scrape')도 구별할 수 있다.

Transformer 기반 [1, 14, 30] backbone에 입력되어 발생하는 액션을 예측한다. 주변 컨텍스트를 활용하여 액션 인식을 개선하는 경우에도 [25, 40, 54], 이 컨텍스트는 트림되지 않은 긴 입력 비디오가 아닌, 인접 액션의 정확한 클립 형태로 제공된다.

본 논문에서는 긴 비디오 입력의 시각 및 청각 스트림에서 발생하는 여러 이벤트를 인코딩하는 접근 방식을 제안한다. 우리는 시간 간격(time intervals)을 일등 시민(first-class citizens)으로 격상시켜, 이를 동반 모달리티 내에서 query를 지정하는 데 활용함으로써 이를 달성한다. 우리는 이 메커니즘을 **Time Interval Machine (TIM)**이라고 명명한다. TIM은 긴 비디오 입력을 받아, query된 모달리티의 query된 간격 내에서 발생하는 액션들을 출력할 수 있다.

Figure 1의 예시를 살펴보자. 입력에는 스펀지를 헹구는 동안 물이 흐르는 소리가 포함되어 있으며, 이 스펀지는 나중에 표면을 닦는 데 사용된다. 이러한 개별 이벤트들은 지속 시간이 크게 다를 수 있으며, 오디오 또는 시각 모달리티에서 더 두드러질 수 있다. 이러한 이벤트들 간의 차이에도 불구하고, 이들 사이에는 많은 상관관계와 주변 컨텍스트와의 연관성이 있을 가능성이 높으며, 이는 주어진 이벤트를 인식하는 데 유익할 수 있다 (예: 물 소리는 스펀지를 헹구는 것과 관련이 있어, 시각적 액션을 인식하는 데 유용한 정보를 제공한다). TIM은 두 모달리티 내의 컨텍스트(이벤트가 발생하지 않는 배경 포함)에 접근함으로써 이를 활용할 수 있다. 그런 다음, 주어진 모달리티 내에서 특정 이벤트의 시간 간격을 query하여, 동일한 입력 내에서 잠재적으로 겹치는 다른 이벤트들을 구별할 수 있다.

우리는 TIM을 긴 비디오로 구성된 세 가지 도전적인 오디오-시각 인식 데이터셋에서 테스트한다: 최근 EPIC-SOUNDS [21]를 통해 별도의 오디오 주석을 제공한 EPIC-KITCHENS [9], Perception Test [38], 그리고 AVE [47]이다. 우리는 TIM이 긴 입력 내에서 시각 및 청각 클래스를 효과적으로 학습할 수 있음을 보여주며, EPIC-KITCHENS에서 현재 SOTA top-1 정확도를 2.9% 능가하고, EPIC-SOUNDS에서는 1.4% 능가한다. 이는 전자의 경쟁 방법들이 훨씬 더 큰 사전학습 데이터셋, 대형 language model 또는 더 높은 해상도 입력을 사용했음에도 불구하고 달성된 결과이다. 또한 우리는 AVE에서 공개 데이터셋으로 사전학습된 모델보다 0.6% 더 나은 성능을 보였고, Perception Test에서 시각 및 청각 액션 인식에서 각각 9.9% 및 3.2% 향상된 강력한 baseline보다 더 나은 성능을 달성했다.

추가적으로, 우리는 interval regression loss를 추가한 고정된 multi-scale dense querying을 통해 TIM을 액션 감지(action detection)에 적용한다. 우리는 EPIC-KITCHENS 및 Perception Test에서 강력한 감지 결과를 보고하며, Action Former [61]를 각각 1.6 및 4.3 mAP 능가한다.

우리의 기여는 다음과 같이 요약된다: (i) 우리는 긴 비디오에서 모달리티별 간격에 attend하기 위한 TIM query 메커니즘을 제안한다. (ii) 우리는 시간 간격을 사용하여 여러 오디오-시각 액션을 인코딩/query하기 위해 TIM을 효율적으로 학습시킨다. (iii) 우리는 시각 및 청각 액션 인식 모두에서 TIM의 가치를 보여주고, interval regression loss를 추가하여 감지(detection)에 적용한다. (iv) 우리는 여러 데이터셋에서 비디오 및 멀티모달 인식 모두에서 새로운 SOTA를 달성한다.

시청각 행동 인식 (Audio-visual action recognition)
많은 연구들이 행동 인식을 위해 오디오 및 시각 모달리티를 활용해왔다 [12, 24, 25, 34, 52, 56]. 일부는 모달리티를 효과적으로 융합하기 위한 새로운 아키텍처를 도입했고 [24, 25, 34, 56], 다른 연구들은 **Gradient Blending [52]**과 같이 멀티모달 모델 학습 시 발생하는 문제, 예를 들어 각 모달리티별로 다른 속도로 발생하는 overfitting을 해결하거나, **cross-modal discrimination을 위한 contrastive learning [33]**과 같은 독특한 학습 기법을 제안했다. 그러나 이러한 연구들은 두 모달리티에 대해 동일한 semantic 및 temporal label 세트를 사용한다. 최근 연구들은 이벤트의 temporal interval과 semantics가 모달리티마다 다를 수 있음을 보여주었다 [21, 38]. [48]은 시각 및 청각 이벤트를 독립적으로 temporal annotation하지만, 동일한 label 세트를 공유한다. 본 연구에서는 각 모달리티에 대해 별개의 label을 사용하여 discriminative한 오디오 및 시각 행동을 활용한다.

Temporal context 활용 (Leveraging temporal context)
여러 연구들이 temporal context를 통합하는 방식을 고려해왔으며 [25, 35, 54, 55, 60], 이는 여러 모달리티를 활용하는 것과 직교하는 방향으로, 특히 untrimmed video에서 유용하다. [35]에서는 행동 시퀀스 분류를 위해 auto-regressive LSTM 기반 encoder-decoder를 제안하여, 과거 행동 context를 효과적으로 활용하여 현재 행동을 예측한다. **Temporal Query Network [60]**는 긴 비디오의 특정 속성에 해당하는 학습 가능한 query vector를 사용하여, 모델이 비디오의 특정 측면과 주변 context에 attend하여 각 속성에 대한 응답을 생성하도록 한다. [54]는 Long-Term Feature Bank와 attention mechanism을 사용하여 인접한 행동 클립으로부터 temporal context를 집계함으로써 행동 표현을 강화하는 방법을 제안한다. [55]는 Transformer의 모든 중간 layer의 key와 value를 저장하여 과거 context를 집계하는 더 정교한 memory bank를 구축한다. 마지막으로, [25]는 vision, audio, language를 사용하여 주변 행동으로부터 멀티모달 temporal context를 활용한다.
[25, 54, 55]는 인접한 클립이 아닌 untrimmed video의 주변 context를 사용하여 관심 있는 행동의 표현을 풍부하게 하는 공통 목표를 가진다는 점에서 우리의 접근 방식과 가장 유사하다. 그럼에도 불구하고, [54, 55]는 단일 모달리티 모델로, 시각적 행동만을 인식한다. [25]는 테스트 세트를 포함한 모든 행동의 temporal extent가 알려져 있다고 가정하는데, 이는 제한적이다.

Visual model의 Query (Queries in visual models)
Transformer 아키텍처를 사용한 visual query 학습은 최근 주목을 받고 있다 [5, 20, 22, 31, 60]. 일반적으로, 접근 방식들은 입력에서 특정 개념의 존재 여부를 묻는 데 사용되는 학습 가능한 벡터 세트를 활용한다. 예를 들어, [5, 31]에서는 학습 가능한 query가 다른 객체에 해당하며, [20]에서는 multi-task learning에 사용되어 각 학습 가능한 query가 다른 task에 해당한다. [22]는 사전학습된 모델을 적응시키면서 나머지 파라미터는 고정시키는 데 학습 가능한 query를 통합했다. 우리의 동기와 가장 가까운 것은 [60]으로, query가 비디오에서 세분화된 행동 인식을 위한 이벤트 및 해당 속성에 해당한다. 저자들은 query가 untrimmed video에서 이벤트를 temporal localization하는 역할도 한다고 언급한다.

[60] 및 다른 연구들과 달리, 우리의 query는 주로 semantic 해석이 없는 temporal query이며, 여러 모달리티에 적용된다. 중요하게도, 시간은 연속적이므로 미리 정의된 query 세트를 사용할 수 없다. 대신, 우리는 universal clock과 유사한 형태로 시간을 인코딩하기 위해 MLP 아키텍처를 사용한다. 다음으로 우리의 접근 방식을 제시한다.

3. Time Interval Machine

이 섹션에서는 **Time Interval Machine (TIM)**에 대해 설명한다. TIM은 멀티모달 Transformer encoder 아키텍처로, feature와 query를 포함한 모든 입력이 해당 시간 간격(time interval)과 함께 인코딩된다. 시간 간격은 각 오디오 및 시각 feature의 지속 시간(duration)과 위치(position)를 통합하며, 주어진 시간 간격 내에서 발생하는 모든 action을 네트워크에 query하는 데에도 사용된다.

Figure 2. Time Interval Machine (TIM) 개요. 이 모델은 비디오로부터 오디오 및 시각 feature 시퀀스를 입력받으며, 각 feature는 해당 feature가 포함하는 시간 간격(temporal interval)과 모달리티(modality)로 타임스탬프가 찍혀 인코딩된다. 특정 시간 간격(시각 또는 오디오 이벤트) 동안 발생하는 action을 추론하기 위해, 관심 있는 간격과 모달리티를 지정하는 query가 형성된다.

TIM의 아키텍처는 Figure 2에 나타나 있다. 이 모델은 오디오 및 시각 feature 시퀀스로 표현된 대규모 비디오 입력을 받아, 제공된 query 시간 간격에 해당하는 진행 중인 청각 또는 시각 action label을 출력한다.

3.1. Model architecture

입력 (Input)
TIM의 입력은 추출된 feature로 표현되는 untrimmed 비디오의 긴 crop이다. 비디오와 오디오와 같이 두 가지 모달리티 입력을 고려할 때, 각 모달리티는 다음과 같이 개별적으로 임베딩된다: 각 모달리티 $m$ 에 대해, $\mathbf{X}^{m}=\left[X_{1}^{m}, \cdots, X_{N^{m}}^{m}\right]$ 는 사전학습된 feature extractor $S^{m}(\cdot)$ 로부터 얻은, 입력 비디오의 $N^{m}$ 개 시간 순서 feature 표현이다. 우리는 이 feature들을 모달리티별 임베딩 layer $g^{m}(\cdot)$ 를 통해 모든 모달리티에 걸쳐 더 낮은 공통 차원 $D$ 로 투영한다. 임베딩된 feature들은 모달리티 인코딩과 시간 간격 인코딩으로 태그되어 Transformer encoder의 입력으로 사용된다. 이제 시간 간격을 어떻게 인코딩하는지 자세히 설명한다.

시간 간격 인코딩 (Encoding Time Intervals)
본 연구에서는 주어진 시간 간격을 나타내는 단일 $D$ -차원 벡터를 생성하는 새로운 유형의 학습된 쿼리 네트워크인 Time Interval MLP를 소개한다. 이 네트워크는 TIM 내에서 입력 feature의 시간 간격과 쿼리 및 분류하고자 하는 시간 간격을 인코딩하는 데 사용된다. Figure 3은 이 네트워크의 개념을 보여준다.

**Time Interval MLP $I(\cdot): \mathbb{R}^{2} \rightarrow \mathbb{R}^{D}$ **는 시작 시간과 종료 시간으로 표현되는 시간 간격을 입력으로 받아 단일 $D$ -차원 인코딩을 생성한다. 이는 시작 시간과 종료 시간을 개별적으로 인코딩하는 것과는 다르다. 구체적으로, $t_{s}$ 와 $t_{e}$ 를 관심 있는 시간 간격의 시작 시간과 종료 시간이라고 할 때, 이들은 긴 비디오 입력의 길이에 의해 정규화된다.

Figure 3. Time Interval MLP $I(\cdot)$ 의 개념도. 이 네트워크는 간격의 시작 시간과 종료 시간이라는 2차원 벡터를 입력으로 받아 단일 벡터를 생성하며, 이 벡터는 채널 차원을 따라 입력 feature 또는 [CLS] 토큰에 연결될 수 있다. 그림은 세 가지 시간 간격 입력과 세 가지 해당 출력을 보여준다. 실제로는 시간 간격이 동시에 처리된다.

$I(\cdot)$ 는 간격 $\tilde{t}=\left[t_{s}, t_{e}\right]$ 를 입력으로 받아 해당 간격의 $D$ -차원 벡터 인코딩을 출력한다. 이 벡터는 입력 내 시간 간격의 상대적 위치와 지속 시간을 모두 인코딩한다. 이 벡터는 해당 간격 내에서 발생하는 동작에 대한 모델의 쿼리 역할을 한다. 또한, 각 feature $\left\{X_{i}^{m}\right\}$ 는 입력 내에서 특정 시간 간격을 포함한다. 따라서 feature의 시간 간격을 인코딩하는 것도 중요하다.

요약하자면, Time Interval MLP는 입력 내에서 어떤 모달리티에서든 feature의 시간적 범위를 인코딩하는 범용적인 시계(universal clock) 역할을 한다. 입력 feature와 쿼리의 모든 시간 간격을 인코딩하기 위해 동일한 Time Interval MLP를 두 모달리티에 걸쳐 사용하는 것이 정확한 범용 시간 인코딩을 위해 중요하다. 또한, Time Interval MLP는 연속적인 시간 간격을 다룰 수 있는 반면, 전통적인 positional encoding은 입력 feature의 고정된 위치 집합만 다룬다는 점도 중요하다. Time Interval MLP는 Transformer와 함께 end-to-end로 학습된다.

Transformer Feature Inputs
모달리티 $m$ 의 비디오 feature $\mathbf{X}^{m}$ 에 해당하는 시간 간격을 $\tilde{\mathbf{t}}^{m}=\left[\tilde{t}_{1}^{m}, \cdots, \tilde{t}_{N^{m}}^{m}\right]$ 이라고 하자. 우리는 인코딩된 시간 간격 $I\left(\widetilde{\mathbf{t}}^{m}\right)$ 를 채널별 연결(channelwise concatenation)을 통해 임베딩된 feature에 주입한다. 그런 다음 학습 가능한 모달리티별 인코딩 $e^{m} \in \mathbb{R}^{2 D}$ 가 시간적으로 인코딩된 feature에 더해져 각 모달리티를 구별한다. 요약하면, TIM의 feature 입력 $\mathbf{E}^{m}$ 는 다음과 같이 계산된다:

E_{i}^{m}=\left[g^{m}\left(X_{i}^{m}\right), I\left(\tilde{t}_{i}^{m}\right)\right]+e^{m} \quad \forall i \in\left[1, \ldots, N^{m}\right]

여기서 $[\cdot, \cdot]$ 는 연결(concatenation)을 나타낸다.

Transformer Query Inputs
관심 있는 간격 내의 동작을 쿼리하기 위해, 우리는 학습 가능한 분류 토큰 $\mathrm{CLS}{ }^{m}$ 를 입력 시퀀스에 추가하는 표준 접근 방식을 채택한다. 만약 $\tilde{t}_{Q}$ 가 관심 있는 간격이라면, 우리는 이 분류 토큰에 시간 간격 표현 $I\left(\tilde{t}_{Q}\right)$ 를 채널 차원을 따라 연결한다. 이는 $\tilde{t}_{Q}$ 내에서 발생하는 해당 동작을 예측하기 위한 네트워크의 쿼리 역할을 한다. 또한, 각 분류 토큰에 모달리티별 인코딩 $e^{m}$ 를 추가하여 어떤 모달리티를 쿼리하는지 구별하는 플래그 역할을 한다. 인코딩된 $[\mathrm{CLS}]^{m}$ 토큰은 다음과 같이 더 공식적으로 정의될 수 있다:

[\mathrm{CLS}]^{m}=\left[\mathrm{CLS}^{m}, I\left(\tilde{t}_{Q}\right)\right]+e^{m}

학습 중에는 입력 비디오 내의 각 동작에 대해 분류 토큰을 추가하여, 두 모달리티에 걸쳐 여러 [CLS] 토큰이 생성된다.

Transformer Encoder
우리는 Transformer encoder를 사용하여 입력 시퀀스에 self-attention을 수행하여 관련 시간적 맥락과 교차 모달 관계를 집계한다.

우리는 인코딩된 feature 입력 $\mathbf{E}^{m}$ 와 하나 이상의 분류 토큰 $[\mathrm{CLS}]^{m}$ (각 시간 간격 쿼리를 나타냄)으로 Transformer 입력 시퀀스를 구성하고, 이를 encoder에 입력한다. 우리는 여러 $\mathrm{CLS}^{m}$ 토큰을 입력에 추가하여 어떤 모달리티에서든 모든 동작을 동시에 인식한다. $[\mathrm{CLS}]^{m}$ 의 Transformer 출력 표현, 즉 $Z_{\mathrm{CLS}}^{m}$ 는 해당 선형 분류기에 전달되어 동작 레이블을 예측한다.

중요하게도, 우리는 attention mask를 사용하여 쿼리들이 서로를 attend하는 것을 방지하며, 유사하게 입력 feature들이 쿼리를 attend하는 것을 방지한다. 이는 추론 시 각 쿼리가 다른 쿼리나 동작 경계에 대한 특권적인 지식 없이 인식되도록 보장한다.

3.2. Training and Testing in TIM

TIM을 학습시키기 위해, 우리는 untrimmed video 전체에 걸쳐 $W$ 초 길이의 모든 긴 세그먼트를 고려하고, $H_w$ 의 stride를 적용한다. 이 세그먼트들로부터 배치를 무작위로 선택한다. 각 window에 대해, $\delta=0.2$ 초 이상 겹치는 모든 annotated audio 및 visual action을 쿼리한다.

window 내의 모든 쿼리는 인코딩되어 별도의 CLS token에 연결된다. 쿼리를 분류하기 위해, modality $m$ 에 대한 선형 분류기를 $h_{\mathrm{CLS}}^{m}(\cdot)$ 라고 하고, 출력 표현 $Z_{\mathrm{CLS}}^{m}$ 의 예측된 action을 $\hat{y}_{\mathrm{CLS}}^{m}=h^{m}\left(Z_{\mathrm{CLS}}^{m}\right)$ 라고 하자. 우리는 ground truth $y_{\mathrm{CLS}}^{m}$ 에 대해 cross-entropy classification loss $C E(\cdot)$ 를 사용하여 TIM을 다음과 같이 학습시킨다:

L^{m}=\frac{1}{N_{Q}} \sum^{N_{Q}} C E\left(\hat{y}_{\mathrm{CLS}}^{m}, y_{\mathrm{CLS}}^{m}\right)

여기서 $N_Q$ 는 배치 내 쿼리의 수이다. Temporal Distance Loss. 표준 분류 손실 외에도, 우리는 TIM 학습을 위한 보조 손실로 Temporal Distance (TD) loss를 도입한다. [29]에서 self-supervision을 사용하여 token embedding 내의 상대적인 patch 위치를 학습한 것에서 영감을 받아, 우리는 유사하게 두 Transformer 출력을 받아 해당 시간 간격 사이의 경과 시간을 예측하도록 네트워크를 학습시킨다.

모든 modality의 feature로부터 얻은 Transformer 출력을 $\mathbf{Z}_{1: \sum_{m} N^{m}}$ 라고 하자. 이 출력들로부터 feature 쌍의 집합 $\mathbb{B} \subset \mathbf{Z}_{1: \sum_{m} N^{m}}$ 를 무작위로 샘플링하고, 채널 차원을 따라 연결한 후, temporal distance regression head $h_{\tilde{t}}(\cdot): \mathbb{R}^{4 D} \rightarrow \mathbb{R}^{1}$ 에 입력하여 각 쌍 사이의 시간 간격 차이를 예측한다. feature 쌍은 동일한 modality 내에서 또는 여러 modality에 걸쳐 샘플링될 수 있다. 우리의 경우, 하나의 visual feature와 다른 audio feature를 짝지어 modality 간에 샘플링한다. 이는 모델이 modality 간의 시간적 관계를 학습하는 데 도움이 된다.

공식적으로, TD loss $L^{t d}$ 는 다음과 같이 계산된다:

L^{t d}=\sum_{\left\{Z_{i}, Z_{j}\right\} \in \mathbb{B}}\left|h_{\tilde{t}}\left(Z_{i}, Z_{j}\right)-d_{i j}\right|

여기서 $d_{i j}$ 는 간격 $\tilde{t}_{i}, \tilde{t}_{j}$ 사이의 시간적 거리이다. 학습 목표 및 방식 (Training objective and regime). 최종 학습 손실은 TD loss와 함께 각 modality의 손실을 합산한다:

L^{\text {total }}=\left(\sum_{m \in \mathbb{M}} \lambda^{m} L^{m}\right)+\lambda^{t d} L^{t d}

여기서 $\mathbb{M}$ 은 modality 집합이고, $\lambda^{m}$ 은 각 modality 손실의 강도를 제어하며, $\lambda^{t d}$ 는 TD loss의 강도를 제어하는 하이퍼파라미터이다. Test-Time Augmentation. 우리는 test-time augmentation을 사용하는데, 이는 일반적으로 예측의 견고성과 성능을 향상시킨다 [37, 41]. TIM에서는 untrimmed video에 걸쳐 sliding window를 사용하므로, 동일한 간격 쿼리에 다양한 context를 제공한다. 그런 다음, 동일한 간격 쿼리에 대한 예측을 window들 간에 집계하여 최종 예측을 수행한다.

3.3. Adapting for Detection

주로 인식(recognition)을 위해 설계되었지만, 우리는 TIM을 detection task에 맞게 조정할 수 있다. backbone은 인식 모델과 크게 다르지 않지만, 두 가지 주요 차이점이 있다. 첫째, 우리는 각 스케일에서 비디오 입력 전체에 걸쳐 조밀한 multi-scale interval query를 구성한다. 이 query들은 학습 및 detection 추론 모두에서 interval query로 사용된다. Multi-scale interval은 길거나 짧은 action 모두를 감지할 수 있도록 한다. 둘째, 우리는 추가적인 interval regression head를 도입하여, **query interval을 action의 정확한 시간적 지속 시간으로 회귀(regress)**시킨다.

학습 중에는 multi-scale pyramid 내의 어떤 query라도 ground truth action과 특정 IoU 임계값 이상으로 겹치면 긍정적인 query(positive query)로 간주한다. query를 분류하는 것 외에도, 우리는 DIOU regression loss [64]를 훈련하여 action의 정확한 interval을 예측한다. 분류 및 interval regression loss는 모두 함께 훈련된다. 자세한 내용은 ArXiv appendix에 제공되어 있다.

4. Experiments

이 섹션에서는 모델 평가에 사용된 데이터셋, 구현 세부사항, 결과 및 state-of-the-art 방법들과의 비교에 대해 설명한다.

4.1. Dataset

EPIC-KITCHENS-100 [9]은 주방에서의 행동을 기록한 700개의 1인칭 시점(egocentric) 비디오를 포함하는 대규모 비디오 데이터셋이다. 이 데이터셋은 89,977개의 세분화된(fine-grained) 행동 세그먼트로 구성되어 있다. 우리는 이전 연구들 [14, 45, 46]에서 영감을 받아, 유효하지 않은 행동 예측을 피하기 위해 train 및 validation 세트에 존재하는 3806개의 클래스 중 하나로 직접 행동을 예측한다.

EPIC-SOUNDS [21]는 EPIC-KITCHENS-100의 오디오 스트림 내에서 시간적 범위(temporal extents)와 클래스 레이블을 포착하는 오디오 어노테이션을 제공한다. 이 어노테이션은 78,366개의 레이블링된 오디오 이벤트를 포함한다. 우리는 EPIC-KITCHENS의 시각 어노테이션과 EPIC-SOUNDS의 오디오 어노테이션을 결합하여 오디오-비주얼 모델을 학습시킨다. TIM은 단일 모델을 사용하여 두 데이터셋의 행동을 모두 인식할 수 있다.

AVE [47]는 교회 종소리(church bell), 남성 말하기(male speaking), 개 짖는 소리(dog barking)와 같은 27가지 카테고리로 레이블링된 다양한 실제 장면을 담은 4,143개의 비디오를 포함한다. 각 비디오는 1초 길이의 10개 세그먼트로 균등하게 분할된다. 우리는 supervised audio-visual event localisation task에서 TIM을 평가한다. 1초 세그먼트가 주어졌을 때, 우리는 27개 카테고리와 배경(background) 클래스 중 현재 진행 중인 행동을 인식한다.

Perception Test [38]는 평균 길이가 23초인 11,620개의 비디오로 구성된 최신 멀티모달 비디오 벤치마크이며, 시간적 행동(temporal action) 및 사운드 어노테이션을 모두 제공한다. 이 데이터셋에는 63개 클래스에 걸쳐 73,503개의 시각 어노테이션이 있으며, 16개 클래스에 걸쳐 137,128개의 사운드 어노테이션이 있다.

4.2. Implementation Details

아키텍처 세부 사항 (Architectural Details)
시각 및 오디오 임베딩 layer $g_m$ 은 단일 512-D feed-forward layer로 구성되며, 그 뒤에 **GELU [18] 활성화 함수와 layer normalisation [2]**이 적용되어 feature들을 공통 공간으로 투영한다.
Time Interval MLP는 512D hidden dimension을 가진 세 개의 linear layer로 구성되며, 그 뒤에 ReLU 활성화 함수가 적용되고, 마지막 linear layer의 출력 뒤에는 layer normalisation이 적용된다.
우리는 512-D의 학습 가능한 [CLS] 토큰을 포함한다: 각 modality의 각 query에 대해 [CLS] action 토큰이 사용되며, 이는 인코딩된 time interval과 연결된 후 1024-D가 된다. 이들은 1024-D modality encoding $e^m$ 과 합산된다.

audio-visual Transformer는 4개의 encoder layer를 포함하며, 각 layer는 8개의 attention head, GELU 활성화 함수, 1024-D key, query, value로 구성된다. encoder layer 내에서는 $p=0.1$ 의 dropout rate가 적용된다. 또한, 우리는 raw input feature와 인코딩된 Transformer 입력에 직접 $p=0.5$ 의 channel-wise dropout을 적용한다.
temporal distance head는 1024의 hidden dimension을 가진 두 개의 linear layer와, 각 time interval 사이의 경과 시간에 해당하는 단일 숫자를 출력하는 세 번째 linear layer로 구성된다.
encoder layer와 temporal distance head에 대한 아키텍처 ablation은 ArXiv appendix에 포함되어 있다.

학습 / 검증 세부 사항 (Training / Validation Details)
각 모델은 100 epoch 동안 학습되며, AdamW [32] optimizer를 사용하고 batch size는 64, weight decay는 1e-4로 설정한다.
선형 learning rate warm-up은 처음 두 epoch 동안 적용되며, 1e-6에서 시작하여 목표 learning rate에 도달한다. 이후에는 cosine learning rate scheduler를 사용한다.
TD loss weight $\lambda^{td}$ 는 0.3으로 설정한다.
batch 내 각 window의 query는 각 데이터셋의 단일 window 내 최대 query 수에 맞춰 padding된다.
각 데이터셋별 구현 세부 사항은 ArXiv appendix에 제공되어 있다.

4.3. Results

우리는 각 데이터셋에 대해 TIM을 SOTA 모델들과 비교한다.

EPIC-KITCHENS / EPIC-SOUNDS 결과. 우리는 EPIC-KITCHENS 비디오의 시각 및 오디오 레이블 모두에 대해 단일 모델을 학습시키고, 두 데이터셋 모두에 대한 결과를 보고한다.

시각 feature의 경우, Omnivore [14]와 VideoMAE-L [49] feature를 채널 차원을 따라 연결하여 2048-D feature를 형성한다. 오디오 feature의 경우, **다양한 오디오 도메인에서 잘 일반화되는 Auditory SlowFast [26]**를 사용한다 [51]. 두 modality 모두에 대해 0.2초마다 1초 길이의 feature를 추출한다. 학습을 위해 추가적인 증강(augmented) feature 세트를 추출하는데, 시각 feature에는 **RandAugment [8]**를, 오디오 feature에는 **SpecAugment [36]**를 사용한다.

Table 1은 EPIC-KITCHENS-100에서 TIM을 SOTA 모델들과 비교한다. 우리는 M&M Mix [57]보다 verb에서 5.1%, noun에서 0.9%, action에서 3.9% 더 우수한 성능을 보인다. 우리 모델과 비교했을 때, MTV와 M&M Mix는 7천만 개의 비디오에서 194K 시간 분량의 추가적인 비공개 데이터셋 [44]으로 학습되었지만, 우리는 공개 데이터셋으로 사전학습된 오픈소스 시각 backbone만 사용한다. 또한 우리는 사전학습된 LLM을 활용하여 비디오 표현을 학습하는 LaViLa [63]와 AVION [62]보다도 우수한 성능을 보인다.

우리는 성능을 향상시키는 추가적인 기술 없이도 모든 이전 연구들보다 우수한 성능을 보인다는 점에 주목한다. 예를 들어, 우리는 짧은 변을 기준으로 $224 \times 224$ 크기로 자른 이미지를 사용하는 반면, [57]은 $420 \times 420$ 크기를 사용하여 1인칭 비디오 내 객체의 공간 해상도를 확대함으로써 더 나은 noun 인식을 가능하게 한다.

Model	xp	LLM	Verb	Noun	Action
Visual-only models
MFormer-HR [37]	336p	$x$	67.0	58.5	44.5
MoViNet-A6 [27]	320 p	$\times$	72.2	57.3	47.7
MeMViT [55]	224 p	$\times$	71.4	60.3	48.4
Omnivore [14]	224 p	$\times$	69.5	61.7	49.9
MTV [59]	280p	$\times$	69.9	63.9	50.5
LaViLa (TSF-L) [63]	224 p	$\checkmark$	72.0	62.9	51.0
AVION (ViT-L) [62]	224 p	$\checkmark$	73.0	65.4	54.4
TIM (ours)	224p	$\chi$	76.2	66.4	56.4
Audio-visual models
TBN [24]	224p	$x$	66.0	47.2	36.7
MBT [34]	224 p	$\times$	64.8	58.0	43.4
MTCN [25]	336p	$\times$	70.7	62.1	49.6
M&M [57]	420 p	$\times$	72.0	66.3	53.6
TIM (ours)	224 p	$\times$	77.1	67.2	57.5

Table 1. EPIC-KITCHENS validation set에서 state-of-the-art 인식 모델들과의 비교. verb, noun, action에 대한 top-1 정확도(%)를 보고한다. LLM: 사전학습 시 대규모 언어 모델이 사용되었는지 여부. $x \mathrm{p}$ : $x \times x$ 의 입력 해상도.

Model	SSAST [15]	ASF [26]	DiffSED [3]	TIM (A)	TIM (A+V)
Top-1 acc	53.5	53.8	56.9	55.7	$\mathbf{5 8 . 3}$

Table 2. EPIC-SOUNDS에서 state-of-the-art 사운드 인식 모델들과의 비교. Val. 세트에서 top-1 정확도(%)를 보고한다. SSAST와 ASF의 성능은 [21]에서 가져왔다.

Model	V	A	Average Precision (AP)
			Task	@0.1	@0.2	@0.3	@0.4	@0.5	Avg.
G-TAD [58]	$\checkmark$ x		Verb	12.1	11.0	9.4	8.1	6.5	9.4
			Noun	11.0	10.0	8.6	7.0	5.4	8.4
ActionFormer [61]	$\checkmark$ <br> $x$		Verb	26.6	25.4	24.2	22.3	19.1	23.5
			Noun	25.2	24.1	22.7	20.5	17.0	21.9
ActionFormer - Our Features	$\checkmark$	$\times$	Verb	29.6	28.8	26.9	24.4	21.6	26.3
			Noun	34.3	32.6	30.2	27.4	22.6	29.4
TIM			Verb	32.9	31.6	29.6	27.0	22.2	28.6
	$\checkmark$	$\checkmark$	Noun	36.4	34.8	32.1	28.7	22.7	31.0

Table 3. EPIC-KITCHENS validation set에서 state-of-the-art detection 모델들과의 비교. verb, noun에 대한 IOU 임계값 [0.1, 0.2, 0.3, 0.4, 0.5]에서의 평균 정밀도(Average Precision)와 모든 임계값에 대한 평균을 보고한다.

우리는 더 높은 해상도의 feature extractor, 추가적인 대규모 사전학습, LLM 도입 중 하나를 구현할 경우 추가적인 성능 향상을 기대한다. 이는 향후 연구 과제로 남겨둔다.

Table 2는 EPIC-SOUNDS에서 TIM을 이전 결과들과 비교하며, TIM은 SOTA보다 1.4% 더 우수한 성능을 보인다.

detection의 경우, Table 3에서 TIM이 이 task를 위해 주로 설계된 모델들과 비교했을 때 경쟁력 있는 결과를 낼 수 있음을 보여준다. detection에 맞게 조정된 TIM은 동일한 feature 세트를 사용하여 ActionFormer [61]보다 verb에서 2.3 mAP, noun에서 1.6 mAP 더 우수한 성능을 보인다.

AVE 결과. 이 데이터셋은 오디오-시각 공동 레이블을 포함하므로, 우리는 쿼리를 복제하여 TIM을 학습시킨다. 즉, 각 modality에 대해 [CLS]를 사용하고, 학습 및 추론 중에 이들의 logits을 결합한다. 다른 연구들과 공정한 비교를 위해 [47]의 사전학습된 공개 모델을 사용한다. 또한 VGG-19의 공간 시각 feature에 AVGA [47]를 적용한 후 Transformer에 입력한다.

Table 4는 AVE 데이터셋에 대한 우리의 결과를 보여준다. 오디오와 비디오를 결합하면 TIM의 성능이 크게 향상된다. [11]의 결과가 가장 좋지만, 재현할 수 없었다. 우리는 또한 EPIC-KITCHENS에 사용된 Omnivore 시각 feature와 Auditory Slowfast feature를 사용한 TIM 결과도 보고하며, 이는 0.6%의 성능 향상을 달성한다.

Model	PSP	CPSP	CSSNet	TIM
	$[65]$	$[66]$	$[11] \dagger$	V	A	AV	AV $\star$
Top-1 acc	77.8	78.6	$\mathbf{8 0 . 5}$	62.8	65.5	79.2	79.8

Table 4. AVE Test set에서 top-1 이벤트 분류 정확도(%)를 보고한다. $\dagger$ : 결과를 재현할 공식 코드 또는 공개 모델이 제공되지 않음. 공개적으로 사용 가능한 데이터셋으로만 학습된 모델을 보여준다. $\star$ : Omni+ASF feature를 사용한 결과.

Perception Test Action
Model <br> Top-1 acc	MLP $(\mathrm{V})$	MTCN $[25](\mathrm{A}+\mathrm{V})$	TIM $(\mathrm{V})$	TIM $(\mathbf{A}+\mathrm{V})$
Perception Test Sound	51.2	56.1	$\mathbf{6 1 . 1}$
Model <br> Top-1 acc	MLP $(\mathrm{A})$	MTCN $[25](\mathrm{A}+\mathrm{V})$	TIM $(\mathbf{A})$	TIM $(\mathbf{A}+\mathrm{V})$

Table 5. Perception Test validation split에서 학습된 인식 baseline과의 비교. action 및 sound 인식 모두를 보여주며, 두 challenge 모두에서 TIM에 오디오-시각 정보를 포함하는 것의 이점을 보여준다. $\mathbf{V}$ : 시각 입력 feature, $\mathbf{A}$ : 오디오 입력 feature. MLP는 feature를 직접 사용하여 MLP classifier를 학습시킨 결과이다.

Model	Average Precision (AP)
	$@ 0.1$	$@ 0.2$	$@ 0.3$	$@ 0.4$	$@ 0.5$	Avg.
Perception Test Action
ActionFormer [61]	27.8	27.6	25.2	23.0	20.0	24.5
TIM	$\mathbf{3 3 . 5}$	$\mathbf{3 2 . 2}$	$\mathbf{2 9 . 8}$	$\mathbf{2 6 . 4}$	$\mathbf{2 2 . 0}$	$\mathbf{2 8 . 8}$
Perception Test Sound
ActionFormer [61]	34.7	31.3	27.5	22.7	$\mathbf{1 7 . 7}$	26.8
TIM	$\mathbf{3 7 . 5}$	$\mathbf{3 3 . 1}$	$\mathbf{2 7 . 9}$	$\mathbf{2 2 . 8}$	17.2	$\mathbf{2 7 . 7}$

Table 6. Perception Test validation set에서 action 및 sound localization을 위한 강력한 detection 모델들과의 비교. IOU 임계값 [0.1, 0.2, 0.3, 0.4, 0.5]에서의 평균 정밀도(Average Precision)와 모든 임계값에 대한 평균을 보고한다.

Perception Test 결과. 우리는 Omnivore feature와 Auditory Slowfast feature에 동일한 backbone을 사용하고, 시각 및 오디오 레이블 모두를 사용하여 단일 모델을 학습시킨다. Table 5는 새로 도입된 Perception Test에 대한 결과를 비교한다. 우리는 baseline으로 두 개의 선형 layer와 ReLU 활성화 함수를 가진 MLP classifier를 feature에 직접 학습시킨다. 또한 MTCN을 사용하여 context를 활용하는 오디오-시각 모델에 대해서도 평가한다. 이러한 방법들과 비교했을 때 TIM은 분명히 상당한 개선을 보여준다. 시각 및 오디오 인식 task에서 MTCN보다 각각 9.9% 및 3.2% 성능이 향상되었다. Table 6에는 detection 결과도 제공한다. TIM은 동일한 feature를 사용할 때 ActionFormer [61]보다 시각 action에서 3.3 평균 mAP, 사운드에서 0.9 평균 mAP 더 우수한 성능을 보인다.

Figure 4. 모든 데이터셋에 대한 정성적 결과. PRED: TIM의 예측, TIQ: 시간 간격 쿼리, V/AGT: 시각/오디오 Ground Truth.

TIM의 Cross-Modality. 이전 결과를 참조하면, 추가 modality를 포함하는 것이 모든 경우에 성능 향상을 제공하며, 이는 TIM이 다른 modality를 활용하고 구별하는 능력을 강조한다. 예를 들어, EPIC-KITCHENS-100에서 오디오를 포함하면 시각 action 정확도가 0.9% 향상된다. EPIC-SOUNDS의 경우, 시각 modality가 정확도를 2.6% 더 향상시킨다. Perception Test에서는 오디오 modality를 포함하면 시각 인식 정확도가 5.0% 향상되고, 시각 modality는 사운드 인식 정확도를 1.3% 증가시킨다. 마지막으로, AVE의 경우 오디오-시각 모델이 오디오 전용 모델보다 정확도를 13.7% 증가시키는 상당한 개선을 보인다.

정성적 결과. Figure 4에 정성적 결과를 제시한다. EPIC-KITCHENS에서 TIM은 겹치는 쿼리를 포함하여 두 modality에 걸쳐 action을 능숙하게 인식할 수 있음을 확인한다. 또한, 0.2초에서 4.5초 사이의 'open / close' 오디오 action과 같이 다양한 간격 길이로 연속적인 action이 올바르게 인식된다. AVE의 경우, TIM은 시간 간격 쿼리를 기반으로 배경과 'barking' 오디오-시각 이벤트를 구별할 수 있다. Perception Test의 경우, TIM은 'break', 'human speech', 'hit', 'put something'과 같이 두 modality에 걸쳐 심하게 겹치는 action을 구별할 수 있음을 확인한다. 그러나 실패 사례도 있는데, 예를 들어 EPIC-KITCHENS에서 'take washing up liquid' action이 'wash hand'로 인식되는 경우이다. 이는 모델이 'wash hand' action과 주로 겹치는 context로 인해 혼란을 겪었을 가능성이 있다.

4.4. Analysing Time Intervals

우리는 시간 간격을 효과적으로 인코딩하는 것의 중요성과, 다른 대안적인 전략들과 어떻게 다른지를 보여준다. 이 분석은 EPIC-KITCHENS100 및 EPIC-SOUNDS 인식 task에서 수행되었다.

Figure 5. 모든 데이터셋에 대한 시간 인코딩 $I(\cdot)$ 의 TSNE 플롯. 각 플롯에서 색상 맵은 시간 간격의 지속 시간(duration, 왼쪽), 시작 시간(start time, 중앙), 종료 시간(end time, 오른쪽) 인코딩을 나타낸다.

시간 인코딩 표현 (Time Encoding Representation)
TIM이 모든 데이터셋에 걸쳐 시간 간격을 어떻게 인코딩하는지 Figure 5에서 보여준다. 우리는 **동일한 TSNE projection에 세 가지 색상 맵을 사용하여 인코딩된 간격의 세 가지 속성(duration, start time, end time)**을 나타낸다. 흥미롭게도, 1D 시간 인코딩은 이 세 가지 속성을 모든 데이터셋에서 완벽하게 포착한다. 인코딩은 데이터셋마다 다르지만(액션의 위치와 지속 시간이 다르기 때문), 학습된 시간 인코딩 projection에서 명확한 유사성을 볼 수 있다. 예를 들어, duration은 TSNE 플롯의 x축을 따라 완벽하게 포착되며, 낮은 값은 더 긴 시간 간격을 나타낸다.

Figure 6. EPIC-KITCHENS에서 무작위로 선택된 두 개의 30초 클립에 대한 두 번째 encoder layer의 attention heatmap. x축: 입력 feature 시간 간격; y축: 위치와 지속 시간이 다양한 query 시간 간격. attention 크기는 query CLS token과 관련이 있다.

간격 쿼리 어텐션 (Interval Query Attention)
Figure 6에서는 EPIC-KITCHENS-100에서 위치와 스케일이 다양한 5개의 개별 query에 대한 두 개의 attention heatmap을 플롯한다. 우리는 두 번째 Transformer encoder layer에서 attention 가중치를 추출하는데, 이 layer가 간격 query와 가장 관련이 있는 것으로 보인다. 학습된 attention은 query 내에 포함된 feature 시간 간격에 명확하게 적용된다. 무작위로 선택된 두 창에서 attention의 유사성을 주목한다.

간격 이동 (Shifting Intervals)
TIM이 액션의 시간 간격을 얼마나 효과적으로 인코딩하는지 보여주기 위해, 우리는 시간 간격 query를 올바른 액션 간격에서 -1.5초에서 1.5초까지 이동시키고, 이러한 조정이 성능에 미치는 영향을 평가한다.

Figure 7은 그 결과를 보여준다. query 간격이 올바른 액션 간격에서 멀어질수록 시각 및 오디오 성능 모두 점진적으로 하락하는 것을 볼 수 있다. 하락은 또한 대칭적으로 나타나 편향이 없음을 보여준다. 놀랍지 않게도, 짧은 액션의 경우 비디오(-57.9%)와 오디오(-35.2%) 모두에서 이동 시 성능이 크게 하락하는 반면, 긴 액션에서는 덜 극단적이다(-14.5% 및 -11.2%). 시간 간격 스케일링의 영향은 ArXiv 부록에서 평가한다.

Figure 7. 시간 간격 query를 이동시켰을 때 시각 성능(상단) 및 오디오 성능(하단)에 미치는 영향. EPIC-KITCHENS-100 및 EPIC-SOUNDS의 짧은 액션( $<2 \mathrm{sec}$ )과 긴 액션( $>2 \mathrm{sec}$ ) 및 전체 validation set(all)에 대해 모두 표시된다.

	EPIC-KITCHENS			EPIC-SOUNDS
Encoding	Verb	Noun	Action	Audio Actions
Learned	43.8	44.3	29.6	23.7
Sinusoidal	43.8	44.6	30.0	13.4
Centre	74.3	65.8	55.6	56.4
Separate-add	76.0	66.2	56.4	57.7
Interval-add	76.3	66.5	56.9	58.8
Separate-cat	76.8	67.4	57.1	58.4
Interval-cat (proposed)	77.1	67.2	57.5	58.3

Table 7. 시간 간격 인코딩 방식 선택에 대한 ablation.

시간 간격 인코딩 (Time Interval Encodings)
Time Interval MLP는 query의 시간 간격을 인코딩한다. 여기서 우리는 이를 **전통적인 positional encoding(sinusoidal 및 learned)**과 비교한다. 또한 Time Interval MLP의 다섯 가지 다른 변형에 대해서도 실험한다: (i) Centre: 간격의 중심 timestamp만 인코딩한다. (ii) Separate-Add/Cat: 간격의 시작 시간과 종료 시간을 개별적으로 인코딩하고, 인코딩된 출력 벡터를 함께 더하거나(Add), 채널 차원을 따라 연결한다(Cat). (iii) Interval-Add/Cat: 시작 시간과 종료 시간을 동일한 벡터 내에서 인코딩하고, 인코딩된 출력을 입력 시퀀스에 더하거나(Add), 연결한다(Cat).

결과는 Table 7에 나와 있다. 모든 경우에, 최종 인코딩은 비교 가능한 결과를 위해 동일한 차원을 가진다. sinusoidal 또는 learned positional encoding은 중첩되는 액션의 복잡성을 포착할 수 없기 때문에 성능이 현저히 나쁘다. 시간 간격의 중심만 인코딩할 때도 성능 하락이 있다.

Separate-Add/Cat은 간격을 인코딩하는 대안적인 방법(따라서 duration 정보를 포함)이며, Interval 방식과 유사한 성능을 보인다. MLP에 간격을 인코딩하는 우리의 제안 방식은 시각 성능에서 가장 우수하며, 강력한 청각 성능을 유지한다.

5. Conclusions

본 논문에서는 **액션의 시간 간격(time interval)**을 audio-visual Transformer의 query로 활용하여, 해당 간격과 변형되지 않은 주변 context로부터 액션을 인식하도록 학습하는 방법을 제안한다. 우리는 modality-specific 시간 간격과 레이블 세트에 대해 모델을 공동으로 학습시켜, **Time Interval Machine (TIM)**이 시각 및 청각 modality 모두에서 여러 이벤트를 인식할 수 있도록 한다.

TIM은 간격의 위치와 지속 시간에 민감하다. 이를 통해 모델은 multi-scale dense querying을 통해 액션 감지(action detection)에서 경쟁력 있는 결과를 도출할 수 있다.

감사의 글 (Acknowledgements). 본 연구는 공개 데이터셋을 사용한다. 이 연구는 EPSRC Doctoral Training Program, EPSRC UMPIRE EP/T004991/1 및 EPSRC Programme Grant VisualAI EP/T028572/1의 지원을 받았다. 또한 EPSRC가 자금을 지원한 Tier 2 시설 JADE-II의 사용에 감사를 표한다.

TIM: A Time Interval Machine for Audio-Visual Action Recognition

Supplementary Material

Appendix

A. 시간 간격에 대한 추가 분석 - 스케일링 ..... 1 B. 테스트 세트 결과 ..... 1 B.1. EPIC-KITCHENS-100 테스트 세트 ..... 1 B.2 EPIC-Sounds 테스트 세트 ..... 2 C. Ablation 연구 ..... 3 D. Detection을 위한 TIM ..... 4 D.1. Detection을 위한 Multi-scale Queries ..... 4 D.2 Detection 학습 ..... 5 E. 추가 구현 세부 사항 ..... 5

A. Further analysis of time intervals - scaling

우리는 Section 4.4 (Figure 7)에서 쿼리 시간 간격을 실제 action 간격으로부터 이동시켰을 때의 영향을 보여준다. Figure 8에서는 ground truth로부터 중앙화된 쿼리의 스케일을 변경했을 때의 유사한 영향을 보여준다. 시간 간격 이동과 유사하게, 쿼리의 스케일을 변경했을 때도 성능이 감소함을 확인했다.

Visual 쿼리의 경우, 쿼리를 축소(contracting)하면 성능이 57.5%에서 54.9%로 하락하고, 확장(expanding)하면 55.3%로 하락한다.
Audio 쿼리의 경우, 쿼리를 축소하면 58.3%에서 56.5%로 하락하고, 확장하면 56.3%로 하락한다.

Figure 7과 Figure 8은 TIM이 action의 시간 간격을 정확하게 모델링하는 능력을 종합적으로 보여준다. 쿼리가 ground truth로부터 변경될 때(이동되거나 스케일이 변경되거나), 성능은 꾸준히, 그러나 부드럽게 하락한다.

B. Test Set Results

이 섹션에서는 EPIC-KITCHENS-100 recognition, EPIC-Sounds recognition, EPIC-KITCHENS-100 detection, EPIC-Sounds detection 등 EPIC의 여러 챌린지와 테스트 세트에서 TIM의 결과를 보여준다.

B.1. EPIC-KITCHENS-100 Test Set

메인 논문에서 TIM은 EPIC-KITCHENS-100 validation set에서 평가되었다. 이는 대부분의 state-of-the-art 결과가 validation set에 대해서만 보고하기 때문에 직접적인 비교를 위해 동일하게 진행한 것이다. 여기서는 동일한 모델을 test set에 대해 평가하고, 그 결과를 리더보드에 제출하였다.

Figure 8. action을 중심으로 한 query의 스케일링이 시각 및 오디오 성능에 미치는 영향. 0.0초의 shift, 즉 1x 스케일은 원본 시간 간격으로 query하는 것을 의미한다. query가 원본 시간 간격에서 멀어질수록 시각 및 오디오 성능 모두 점진적으로 하락한다.

우리의 최고 성능 모델 결과는 Table 8에 보고되어 있다. 우리는 입력 윈도우 길이 $W=15, 30, 36, 40, 45, 60$ 초를 가진 6개의 TIM 모델을 각각 [1.0, 0.9, 0.9, 0.9, 0.9, 0.9]의 가중치로 앙상블하였다. 다른 모든 파라미터/아키텍처 세부 사항은 변경되지 않았다. 우리 모델은 **SOTA action 성능(우승자를 결정하는 기준)**과 verb 성능을 달성하였다. TIM은 noun 성능에서 SOTA보다 0.6% 뒤처진다. 또한, 앙상블하지 않은 단일 TIM 모델의 결과도 보고하였는데, 이 모델은 단일 모델임에도 불구하고 이전 연도 우승자들과 경쟁할 만한 성능을 보여준다. test set 리더보드에서 1위를 차지한 제출 결과는 Figure 9에 나타나 있다.

또한 Table 9에서는 detection 결과도 제공한다. 이 챌린지는 action 예측, 즉 verb 예측과 noun 예측의 조합도 요구한다. 이를 달성하기 위해, 우리는 verb 및 noun 모델에서 각 query의 예측을 결합하여 two-stream 아키텍처를 구성한다. 그런 다음 [61]을 따라 각 proposal의 confidence와 action boundary를 다음과 같이 재가중한다:

\begin{aligned} & \mathbf{p}(\text { action })=\mathbf{p}(\text { ver } b)^{\alpha} \mathbf{p}(\text { noun })^{(1-\alpha)} \\ & \mathbf{d}(\text { action })=\omega \mathbf{d}(\text { verb })+(1-\omega) \mathbf{d}(\text { noun }) \end{aligned}

여기서 $\alpha=0.45$ 이고 $\omega=\mathbf{p}(\text { verb }) /(\mathbf{p}(\text { verb })+\mathbf{p}(\text { noun }))$ 이다.

Method	Ensemble	Verb	Noun	Action
ctai	$\checkmark$	69.4	63.3	50.0
hrgdscs	$\checkmark$	71.0	61.3	50.4
Jaesung	$\checkmark$	70.6	63.9	52.3
xxiong	$\checkmark$	70.9	$\mathbf{66 . 2}$	52.8
TIM (ours)	$\boldsymbol{x}$	73.1	64.1	53.0
yzhao	$\checkmark$	71.7	65.8	54.3
TIM (ours)	$\checkmark$	$\mathbf{7 3 . 8}$	65.6	$\mathbf{54 . 5}$

Table 8. EPIC-KITCHENS test set에서 state-of-the-art recognition 모델들과의 비교. verb, noun, action에 대한 top-1 정확도(%)를 보고한다.

Figure 9. EPIC-KITCHENS Action Recognition 리더보드 (2024년 3월) 스크린샷으로, 우리의 TIM_method가 1위를 차지했음을 보여준다.

Method	Average Precision (AP)
	Task	@0.1	@ 0.2	@0.3	@0.4	@0.5	Avg.
lijun	Verb	30.7	29.4	26.8	24.3	20.5	26.4
	Noun	31.0	29.4	26.8	23.3	18.8	25.8
	Action	24.6	23.5	21.9	19.7	16.7	21.3
mzs	Verb	31.1	28.0	26.5	25.4	22.3	27.3
	Noun	30.3	28.8	27.2	24.3	20.7	26.3
	Action	25.5	24.5	23.2	21.0	18.4	22.5
TIM	Verb	32.1	30.0	27.8	25.2	20.4	27.1
	Noun	34.9	33.0	30.6	26.6	21.8	29.4
	Action	28.1	26.7	25.0	22.3	18.9	24.2

Table 9. EPIC-KITCHENS test set에서 state-of-the-art visual action detection 모델들과의 비교. IOU 임계값 [0.1, 0.2, 0.3, 0.4, 0.5]에서의 average precision과 모든 임계값에 대한 평균을 verb, noun, action에 대해 보고한다.

TIM은 noun 및 action detection에서 각각 3.1 mAP와 1.7 mAP로 새로운 SOTA를 달성했으며, verb에서는 약간 뒤처지는 결과를 보였다. 이 방법에서는 verb 및 noun stream 모두에 대해 context window $W=15, 30, 45$ 를 사용하는 6개 모델을 앙상블하였다. 우리의 새로운 SOTA 방법의 증거는 Figure 10에 나타나 있다.

B.2. EPIC-Sounds Test Set

여기서는 리더보드에 제출하여 테스트 세트에서 TIM을 평가한다. Table 10에서는 EPIC-KITCHENS-100에서 이전에 설명한 것과 동일한 구성을 사용하여 단일 모델과 앙상블 모델 모두에 대한 결과를 다시 보여준다.

Figure 10. EPIC-KITCHENS Action detection 리더보드 스크린샷 (2024년 4월), TIM_method가 1위를 차지했음을 보여준다.

Method	Ensemble	Top-1 Acc.	PCA	mAP
TIM (ours)	$\boldsymbol{x}$	54.9	22.8	31.9
Yuqi_Li	$\checkmark$	55.1	21.0	26.2
audi666	$\boldsymbol{x}$	55.1	21.1	26.0
stevenlau	$\boldsymbol{x}$	55.4	21.8	27.0
TIM (ours)	$\checkmark$	$\mathbf{5 5 . 9}$	$\mathbf{23 . 0}$	$\mathbf{3 2 . 2}$

Table 10. EPIC-Sounds 테스트 세트에서 state-of-the-art 오디오 인식 모델과의 비교. 오디오 상호작용에 대한 top-1 accuracy와 함께 per-class accuracy (PCA) 및 **mean average precision (mAP)**을 보고한다.

Figure 11. EPIC-Sounds Audio-Based Interaction Recognition 리더보드 스크린샷 (2024년 4월), TIM_method가 1위를 차지했음을 보여준다.

Method	Average Precision (AP)
	$@ 0.1$	$@ 0.2$	$@ 0.3$	$@ 0.4$	$@ 0.5$	Avg.
ActionFormer Baseline	9.6	8.5	7.4	6.2	5.1	7.4
TIM	$\mathbf{15 . 7}$	$\mathbf{13 . 3}$	$\mathbf{11 . 4}$	$\mathbf{9 . 3}$	$\mathbf{7 . 3}$	$\mathbf{11 . 4}$

Table 11. EPIC-Sounds 테스트 세트에서 state-of-the-art 오디오 감지 모델과의 비교. IOU 임계값 [0.1, 0.2, 0.3, 0.4, 0.5]에서의 average precision과 모든 임계값에 대한 평균을 보고한다.

Action Recognition Challenge. 우리 모델은 모든 지표에서 SOTA 성능을 달성한다. 우리 단일 모델은 top-1 accuracy에서 시각 모델만큼 좋은 성능을 보이지는 않지만, mean average precision과 per-class accuracy 측면에서는 다른 모든 방법을 능가한다. 또한, 모델 선택이 시각적으로 편향되었다는 점, 즉 오디오 모델 대신 가장 성능이 좋은 시각 모델을 선택했다는 점도 주목할 만하다. 다시 한번, Figure 11에서 테스트 세트 리더보드에서 1위를 차지한 제출 결과를 보여준다.

또한 Table 11에서 감지 결과를 제공하는데, 여기서 우리는 모든 지표에서 ActionFormer baseline을 압도적으로 능가하며, 특히 4.2 mAP로 새로운 SOTA를 달성한다.

Figure 12. EPIC-Sounds Audio-Based Interaction Detection 리더보드 스크린샷 (2024년 4월), TIM_method가 1위를 차지했음을 보여준다.

	EPIC-KITCHENS			EPIC-SOUNDS
Depth	Verb	Noun	Action	Audio Actions
1 Layer	75.8	65.0	55.4	58.4
2 Layers	76.5	66.2	56.5	58.4
3 Layers	77.0	66.9	57.2	$\mathbf{5 9 . 3}$
4 Layers	$\mathbf{77 . 1}$	$\mathbf{6 7 . 2}$	$\mathbf{5 7 . 5}$	58.3
5 Layers	76.6	66.7	56.9	58.2
6 Layers	76.9	66.6	57.0	57.5

Table 12. Transformer encoder layer 수 변경의 영향. Transformer head 수는 16으로 고정된다. 강조 표시된 행은 본 논문에서 보고하는 성능이다.

C. Ablation studies

이 섹션에서는 제안된 TIM 아키텍처의 다양한 측면과 손실 함수에 대한 ablation study를 다룬다. 모든 ablation은 EPIC-KITCHENS (시각적 행동 인식) 및 EPIC-SOUNDS (오디오 행동 인식) 데이터셋에서 수행되었다. 모든 표에서 주요 결과는 회색으로 강조 표시되어 있다.

Encoder layer 수
여기서는 TIM의 Transformer encoder layer 수를 1개부터 6개까지 변화시키면서 성능에 미치는 영향을 분석한다. 다른 하이퍼파라미터와 모델 구성은 본 논문에 설명된 대로 고정한다. Table 12는 그 결과를 보여준다.

최고의 시각적 행동 인식 성능은 4개의 layer를 사용했을 때 얻어지며, verb 및 noun 성능은 3개의 layer를 사용한 모델과 유사하다. 흥미롭게도, 오디오 성능은 3개의 layer를 사용했을 때 가장 좋다. 이는 시각 입력에 비해 오디오 입력이 과적합(overfitting)되기 쉬운 경향 때문일 수 있다. 멀티모달 학습은 두 모달리티 간의 차이에 민감하다는 것은 잘 알려져 있다 [52]. 그러나 우리의 학습 방식은 두 모달리티 간에 비교적 안정적으로 유지된다. 최고 성능의 오디오 결과(3개 layer)와 본 논문에서 보고된 결과(4개 layer) 간의 차이는 단 1.0%에 불과하다.

Transformer head 수
우리는 또한 Transformer head의 수에 대한 ablation을 수행했다. 다른 하이퍼파라미터를 고정한 채 2, 4, 8, 16개의 head로 실험했다. Table 13은 이 ablation의 결과를 보여준다.

최고의 시각 및 오디오 성능은 8개의 head를 사용했을 때 얻어진다. 이 성능이 본 논문에서 보고하는 결과이다. 흥미롭게도, head 수를 변경하는 것은 Table 12에서 보고된 layer 수를 변경하는 것과 유사한 수준의 성능 영향을 미친다.

	EPIC-KITCHENS			EPIC-SOUNDS
# Head	Verb	Noun	Action	Audio Actions
2	77.0	65.9	56.6	$\mathbf{58 . 3}$
4	76.7	66.7	56.9	57.9
8	$\mathbf{77 . 1}$	$\mathbf{6 7 . 2}$	$\mathbf{5 7 . 5}$	$\mathbf{58 . 3}$
16	77.0	$\mathbf{6 7 . 2}$	57.1	58.1

Table 13. Transformer에서 head 수를 변경했을 때의 영향. Transformer layer 수는 4로 고정되어 있다. 강조 표시된 행은 본 논문에서 보고하는 성능이다.

Temporal distance regression head 아키텍처
우리는 또한 Eq 4의 Temporal distance regression head $h_{\tilde{t}}$ 의 구조에 대해 ablation을 수행했으며, layer 수를 1개부터 4개까지 변화시켰다. 결과는 Table 14에 나와 있다. 모든 깊이에서 결과는 유사하지만, 3개의 layer를 사용하는 것이 모든 지표에서 가장 좋은 절충점을 제공하며, 이 결과가 본 논문에서 보고하는 내용이다.

	EPIC-KITCHENS			EPIC-SOUNDS
Depth	Verb	Noun	Action	Audio Actions
1 Layer	77.0	66.8	57.3	58.1
2 Layers	$\mathbf{77 . 2}$	66.9	56.9	58.4
3 Layers	77.1	$\mathbf{6 7 . 2}$	$\mathbf{5 7 . 5}$	58.3
4 Layers	76.8	66.9	$\mathbf{57 . 5}$	$\mathbf{58 . 7}$

Table 14. Temporal distance head 구조의 영향. 강조 표시된 행은 본 논문에서 보고하는 성능이다.

입력 길이 및 feature 밀도
우리는 $W \geq 10$ 초로 설정했다. untrimmed 비디오에서 추출된 이러한 긴 세그먼트는 복잡하며 여러 겹치는 행동을 포함한다. 예를 들어 EPIC-KITCHENS-100에서 30초 창은 평균 16개의 오디오-시각 주석 이벤트와 훈련 세트에서 최대 81개의 쿼리를 포함한다. 또한, 모든 행동의 28.1%가 겹친다.

Table 15는 TIM의 입력 시각 및 오디오 feature를 변경했을 때의 영향을 보여준다. 우리는 **창 크기 $W$ **를 실험했는데, 이는 **창 내 feature 수( $N^{m}$ )**와 **feature 간의 stride( $H_{f}$ )**에 의해 영향을 받는다. 또한 **창 stride( $H_{w}$ )**도 실험했는데, 이는 전체 untrimmed 비디오 내에 얼마나 많은 창이 들어갈 수 있는지, 즉 주어진 행동 주변의 시간적 맥락의 범위를 결정한다. 우리는 다양한 변형을 보여주기 위해 표를 가로선으로 구분된 4개의 섹션으로 나누었다.

먼저, feature hop size를 일정하게 유지하면서 feature 수에 대한 ablation을 수행했다. feature 수를 늘리면 창 크기가 증가한다. 우리는 0.6초의 stride로 50개의 feature를 사용하는 것이 가장 좋으며, 이는 30초의 창 크기를 초래함을 확인했다. 이 시간 프레임은 행동으로부터 너무 멀리 떨어진 추가 feature를 통해 중복 정보를 주입하지 않으면서도 행동에 충분한 관련 맥락을 제공하는 것으로 보인다.

다음으로, feature 수를 일정하게 유지하면서 feature stride에 대한 ablation을 수행했다. 이 경우, 더 큰 hop size는 더 큰 입력 창을 초래한다. 우리는 0.6초의 stride가 30초 창을 생성하며 가장 좋은 성능을 보임을 확인했다. 이는 0.4초 stride로 75개의 feature를 사용한 30초 창보다 우수한데, 더 희소한 샘플링이 중복 정보를 제거하기 때문인 것으로 보인다.

또한, 창 크기를 30초로 고정하고 feature 수와 feature stride를 모두 변경하여 feature 밀도를 실험했다. 이 경우, 우리가 제안한 $N^{m}=50$ 의 feature 밀도가 가장 좋은 성능을 보임을 확인했다. feature 수를 늘리면 중복성이 증가하는 반면, 더 희소한 수는 충분한 인접 맥락의 이점을 얻지 못한다.

마지막으로, 입력 창의 stride에 대해 실험했다. 더 작은 stride는 입력 feature 간의 겹침을 증가시킨다. 우리 결과에서 사용된 1.0의 stride와 비교했을 때, stride를 늘리면 시각 성능이 분명히 저하된다.

EPIC-KITCHENS							EPIC-SOUNDS
W	$\mathrm{N}^{\mathrm{m}}$	$\mathbf{H}_{\mathbf{f}}$	$\mathbf{H}_{\mathbf{w}}$	Verb	Noun	Action	Audio Actions
15.0	25	0.6	1.0	76.8	67.0	57.3	59.0
45.0	75	0.6	1.0	76.6	67.1	57.0	57.4
60.0	100	0.6	1.0	76.5	66.8	57.1	57.3
10.0	50	0.2	1.0	76.2	66.1	55.9	58.4
20.0	50	0.4	1.0	76.7	66.7	56.8	58.7
30.0	50	0.6	1.0	77.1	67.2	57.5	58.3
40.0	50	0.8	1.0	76.5	66.8	56.8	58.0
50.0	50	1.0	1.0	75.5	65.9	56.2	56.5
30.0	25	1.2	1.0	76.5	66.1	56.4	57.3
30.0	75	0.4	1.0	76.8	66.5	57.3	58.0
30.0	50	0.6	2.0	76.7	66.8	57.2	58.7
30.0	50	0.6	5.0	76.4	66.1	56.4	58.6
30.0	50	0.6	10.0	75.5	65.4	55.6	57.6

Table 15. EPIC-KITCHENS 및 EPIC-SOUNDS에서 TIM에 대한 feature 입력을 변경하는 파라미터의 영향. W: 창 크기(초), $\mathbf{N}^{\mathbf{m}}$ : feature 수, $\mathbf{H}_{\mathbf{f}}$ : feature stride(초), $\mathbf{H}_{\mathbf{w}}$ : 창 stride(초).

Time Interval MLP 구조
우리는 또한 Time Interval MLP $I(.)$ 의 구조에 대해 ablation을 수행했다. 선형 layer 수를 변화시키면서 실험했다. Table 16에서 보듯이, TIM은 Time Interval MLP 내에서 3개의 깊이를 선호하는 것으로 보이며, 2개의 layer보다 시각 성능에서 1.0%, 오디오 성능에서 0.5% 향상을 얻는다.

	EPIC-KITCHENS		EPIC-SOUNDS
Depth	Verb	Noun	Action	Audio Actions
1 Layer	75.5	66.3	56.0	57.2
2 Layers	76.6	66.5	56.5	57.8
3 Layers	$\mathbf{7 7 . 1}$	$\mathbf{6 7 . 2}$	$\mathbf{5 7 . 5}$	58.3
4 Layers	76.5	66.9	57.3	58.0
5 Layers	76.6	67.0	57.2	$\mathbf{5 8 . 4}$

Table 16. Time Interval MLP $I(\cdot)$ 구조의 영향. 강조 표시된 행은 본 논문에서 보고하는 성능이다.

Loss ablation
우리는 $\lambda^{t d}$ 값과 **within-modal 및 cross-modal 샘플링 변형(Eq. 4)**을 변화시키면서 실험했다. 결과는 Table 17에 나와 있다. Temporal Distance loss ( $\lambda^{t d}>0$ )를 도입하면 시각 성능은 전반적으로 향상되지만, 오디오 성능에는 부정적인 영향을 미친다. 또한, cross-modal 샘플링과 함께 $\lambda^{t d}=0.3$ 을 사용했을 때 시각 행동 지표에서 가장 높은 성능을 보임을 관찰했다. cross-modal 샘플링 전략은 within-modal 전략보다 시각 성능에서 약간 더 나은 결과를 보여주는데, 이는 거리 손실이 오디오보다 비디오에 더 유익함을 시사한다.

		EPIC-KITCHENS			EPIC-SOUNDS
$\lambda^{t d}$	Sampling	Verb	Noun	Action	Audio Actions
0.0	-	76.9	66.7	57.2	$\mathbf{58 . 4}$
0.1	cross-modal	77.0	66.7	57.1	58.1
0.3	cross-modal	77.1	$\mathbf{6 7 . 2}$	$\mathbf{5 7 . 5}$	58.3
0.3	within-modal	$\mathbf{7 7 . 3}$	67.0	57.4	$\mathbf{58 . 4}$
0.5	cross-modal	76.9	66.8	57.3	58.2

Table 17. Temporal Distance loss가 성능에 미치는 영향. Sampling은 쌍 $\mathbb{B}$ 를 샘플링하는 두 가지 다른 방식을 나타내며, cross-modal은 모달리티 간에 쌍을 샘플링하는 것을 의미하고, within-modal은 동일한 모달리티 내에서만 쌍을 샘플링하는 것을 나타낸다. 강조 표시된 행은 본 논문에서 보고하는 내용이다.

D. TIM for Detection

이 섹션에서는 Table 3에 보고된 액션 감지(action detection) task를 위해 TIM을 어떻게 적용했는지 설명한다. **백본(backbone)**은 인식(recognition) task와 비교하여 대부분 변경되지 않았다. 하지만, 쿼리를 얻는 방식과 추가적인 interval regression head에서 차이가 있다.

D.1. Multi-scale Queries for Detection

인식(recognition) task에서는 입력에 대한 쿼리를 위해 액션의 ground-truth 타임스탬프를 활용할 수 있지만, 탐지(detection) task에서는 쿼리 피라미드(query pyramid)를 구성하여 dense proposal query를 얻는다. 이 쿼리들은 여러 고정된 크기의 스케일을 커버하며, 짧고 dense한 시간 간격 쿼리부터 긴 쿼리까지 각 레벨에서 긴 비디오 전체를 포괄한다. 이 피라미드 구조는 모델이 입력 내에서 길고 짧은 액션 모두를 분류하고 회귀(regress)할 수 있도록 해준다.

실제로 쿼리 피라미드를 구성할 때, 우리는 $0.005 * W$ (W=30초 윈도우의 경우 0.15초) 크기의 쿼리 간격으로 시작하며, 전체 윈도우를 포괄하는 dense query를 사용한다. 그 다음 레이어에서는 쿼리 크기를 두 배로 늘리고, 이 해상도에서도 전체 윈도우를 포괄하도록 한다. 이 과정을 쿼리 크기가 전체 윈도우 크기와 같거나 초과하기 전까지 반복한다. 30초 윈도우의 경우, 이 방법은 8개 레이어로 구성된 쿼리 피라미드를 생성하며, 해상도는 다음과 같다: [0.15s, 0.3s, 0.6s, 1.2s, 2.4s, 4.8s, 9.6s, 19.2s].

우리는 이러한 쿼리들을 인식(recognition)과 동일한 방식으로 분류한다. 하지만, 우리는 또한 회귀 헤드(regression head)를 도입하여, 쿼리가 할당된 액션의 시작 및 종료 시간을 예측하도록 한다. 이 회귀 헤드는 proposal 간격보다 시간적 지역화(temporal localization)를 개선하고 ground truth와의 겹침(overlap)을 증가시킬 수 있도록 해준다.

최종 탐지(detection) 세트를 얻을 때, 우리는 untrimmed 비디오의 모든 입력 윈도우에 걸쳐 피라미드 내의 모든 쿼리를 분류하고 회귀시킨다. 그 다음, 신뢰도 임계값(confidence threshold) 미만의 예측들을 필터링한다. 이후, 정밀도 점수(precision score)를 계산하기 전에, 필터링된 예측들에 클래스 의존적인 Soft-NMS [4]를 적용하여 과도하게 겹치는 proposal들을 제거한다.

D.2. Detection Training

학습 시, 우리는 고정된 피라미드(multi-scale) 쿼리 세트에서 어떤 ground truth action과도 temporal IOU가 0.6 이상인 쿼리를 positive query로 간주한다. 만약 하나의 쿼리가 여러 ground truth action과 임계값 이상의 temporal overlap을 가질 경우, 가장 높은 IOU를 가진 action label만 고려한다. 모든 positive query에 대해, 우리는 할당된 action의 시작 및 종료 시간 $\left(t_{s}^{m}, t_{e}^{m}\right)$ 을 직접 예측하고 해당 action label을 분류한다. negative query의 경우, 구간의 지속 시간을 회귀하지 않으며, 모든 클래스(예: background)에 대해 label을 zero-vector로 설정한다.

인식(recognition)과 마찬가지로, 우리는 모든 쿼리를 $h_{\mathrm{CLS}}^{m}(\cdot)$ 로 분류하고 예측값 $\hat{y}_{\mathrm{CLS}}^{m}=h_{\mathrm{CLS}}^{m}\left(Z_{\mathrm{CLS}}^{m}\right)$ 을 얻는다. 쿼리를 분류하기 위해, 우리는 positive 및 negative 샘플의 균형을 맞추기 위해 Sigmoid Focal Loss [28] $F(\cdot)$ 를 사용하여 TIM을 학습시킨다:

L_{\text {det_CLS }}^{m}=\frac{1}{B} \sum^{B} F\left(\hat{y}_{\text {CLS }}^{m}, y_{\text {CLS }}^{m}\right)

positive query의 경우, 인코딩된 CLS token을 별도의 **regression head $h_{\text {REG }}^{m}$ **를 통해 전달하여 쿼리와 관련된 ground truth action의 시작 및 종료 시간 $\left(\hat{t}_{s}^{m}, \hat{t}_{e}^{m}\right)=h_{\mathrm{REG}}^{m}\left(Z_{\mathrm{CLS}}^{m}\right)$ 을 예측한다. 우리는 이를 **DIOU regression loss [64]**를 통해 학습시킨다:

L_{\mathrm{det} \_\mathrm{REG}}^{m}=\frac{1}{Q_{P}} \sum^{Q_{P}} \operatorname{DIOU}\left(\left(\hat{t}_{s}^{m}, \hat{t}_{e}^{m}\right),\left(t_{s}^{m}, t_{e}^{m}\right)\right)

여기서 $Q_{P}$ 는 positive query의 수이다. 마지막으로, 두 loss를 결합하여 detection loss를 구성한다:

L_{\text {det }}^{m}=L_{\text {det_CLS }}^{m}+\lambda_{\text {det_REG }} L_{\text {det_REG }}^{m}

여기서 $\lambda_{\text {det_REG }}$ 는 regression loss의 가중치를 조절하는 파라미터이다. 우리는 이 값을 0.5로 설정한다.

E. Further Implementation Details

Feature Extraction
사용된 Omnivore 모델은 ImageNet [39], Kinetics [23], SUN RGBD [43] 데이터셋으로 사전학습되었다. EPIC 실험의 경우, EPIC-KITCHENS100 시각 레이블로 모델을 fine-tuning한다. VideoMAE-L feature는 Kinetics [23], Something-Something V2 [16], AVA [17], WebVid2M으로 사전학습되었으며, 이 또한 EPIC-KITCHENS 시각 레이블로 fine-tuning하였다. Omnivore의 상세 학습 절차는 [14]에서, VideoMAE는 [49, 53]에서 확인할 수 있다. 우리는 겹치는(overlap) dense feature를 추출하여, fine-grained 시간 간격을 쿼리로 사용할 수 있도록 한다. 각 1초 Omnivore feature는 [30]에 설명된 temporal segment sampling을 통해 32프레임을 입력하여 계산되며, 각 VideoMAE feature는 [49, 53]에 설명된 sampling을 사용하여 16프레임을 입력한다.

Auditory SlowFast [26]의 경우, 사전학습된 VGGSound [7] 모델을 활용하고, 시각 feature의 시간적 범위와 일치시키기 위해 입력 길이를 2초에서 1초로 변경한다. EPIC 실험에 한해서만, EPIC-SOUNDS 오디오 레이블로 모델을 fine-tuning한다. 데이터 증강에 사용되는 추가 세트에는 $\mathrm{F}=27$ 인 두 개의 주파수 마스크와 $\mathrm{T}=25$ 인 두 개의 시간 마스크를 적용하는 SpecAugment가 사용된다. 이 또한 오디오 데이터 증강을 가능하게 한다.

AVE 시각 feature의 경우, ImageNet [39]으로 사전학습된 VGG-19 [42] 모델을 사용한다. 각 프레임당 공간 feature map을 얻기 위해 VGG-19의 pool5 layer에서 feature를 추출한다. 이 feature map들은 global pooling을 통해 초당 평균화된다. 오디오 feature의 경우, AudioSet [13]으로 사전학습된 VGG-like [19] 네트워크를 채택한다. 시각 및 오디오 feature는 모두 시각 또는 오디오 스트림의 1초를 커버한다. 또한, AVE 데이터셋의 크기가 현저히 작기 때문에, 이 데이터셋에 대해서는 모든 linear layer의 hidden dimension을 절반(512D)으로 줄이고, raw input feature에 채널별 dropout $p=0.1$ 을 적용하며, 인코딩된 Transformer 입력에는 $p=0.5$ 의 dropout을 유지한다.

Model selection scheme.
시각 및 오디오 레이블 세트가 명확히 구분되는 데이터셋(EPIC 및 Perception Test)의 경우, 우리는 두 레이블 세트에 대해 단일 모델을 동시에 학습시킨다. 이러한 경우, 최고의 시각 성능을 보인 epoch에 대해 두 모달리티의 모든 지표에 걸친 결과를 보고한다. 우리는 하이퍼파라미터(예: $\lambda^{a}$ )를 오디오에 더 편향되도록 조정함으로써 추가적인 오디오 성능을 얻을 수 있음을 언급한다. 그러나 결과를 보고할 때는 최고 성능의 시각 모델에서 얻은 오디오 성능을 사용하며, 오디오-시각 TIM에 대해 단일 모델을 보고한다.

EPIC Details.
EPIC-KITCHENS-100 및 EPIC-SOUNDS의 경우, 각 시각 쿼리에 대해 두 개의 추가 CLS 토큰인 $[\mathrm{CLS}]_{\text {verb }, \text { noun }}^{v}$ 를 포함하며, 분류기 $h_{\mathrm{CLS}_{\text {verb }}}^{v}(\cdot)$ 및 $h_{\mathrm{CLS}_{\text {noun }}}^{v}(\cdot)$ 도 함께 사용한다. 학습률은 $1 \mathrm{e}-4$ 로 설정하고, raw input feature와 인코딩된 Transformer 입력 모두에 채널별 dropout $p=0.5$ 를 직접 적용한다. $\lambda^{a}=0.01$ 및 $\lambda^{v}=1.0$ 으로 설정한다. $\lambda^{a}$ 값이 낮은 것은 다른 연구들 [56]에서도 관찰된 바와 같이 오디오 데이터의 조기 과적합을 완화하기 위함이다.

AVE Details.
AVE 데이터셋의 크기가 현저히 작기 때문에, 이 데이터셋에 대해서는 모든 linear layer의 hidden dimension을 절반(512-D)으로 줄여 모델 크기를 축소한다. 초기 학습률은 $5 \mathrm{e}-4$ 를 사용한다. 모델의 모든 dropout은 $p=0.1$ 로 설정한다. 다른 연구들과 일관성을 유지하기 위해 $N^{m}=10$ 및 $H_{f}=1.0$ 으로 설정한다. 이는 이 데이터셋의 비디오 전체 길이인 $W=10$ 초의 윈도우 크기를 의미한다. 따라서 이 데이터셋에는 윈도우 stride ( $H_{w}$ )를 사용하지 않는다. VGG-19의 공간 시각 feature를 Transformer에 입력하기 전에 AVGA [47]를 적용한다. 이 데이터셋은 오디오와 시각에 대한 별도의 레이블을 포함하지 않으므로, 모델이 두 모달리티에 대해 단일 레이블 세트를 학습하도록 장려하기 위해 쿼리를 복제한다. 즉, 각 모달리티에 대해 $[\mathrm{CLS}]$ 를 사용하고, 학습 및 추론을 위해 이들의 logits을 결합한다. $\lambda^{a}=1.0$ 및 $\lambda^{v}=1.0$ 으로 설정한다.

Perception Test Details.
학습률은 $1 \mathrm{e}-4$ 로 설정하고, raw input feature와 인코딩된 입력 시퀀스 모두에 채널별 dropout $p=0.1$ 을 적용한다. $W=20$ 초, $\lambda^{a}=1.0$ , $\lambda^{v}=1.0$ 으로 설정한다.

Detection Details.
메모리 제약으로 인해, 인식(시각 및 오디오 또는 EPIC의 verb, noun, action 및 오디오)의 모든 하위 task를 공동으로 학습하기 위해 단일 모델을 사용하는 대신, 각 개별 하위 task에 대해 별도의 모델을 사용한다. 이로 인해 detection과 recognition에 대해 두 가지 다른 모델 가중치 세트가 생성된다. 또한 Transformer encoder의 layer 수를 4개에서 6개로 확장한다. 회귀 헤드는 hidden dimension이 $D/2$ 인 2개의 layer로 구성되며, 그 뒤에 ReLU 활성화 함수가 오고, 마지막 layer는 회귀된 경계와 관련된 2개의 숫자를 출력하며, Sigmoid 활성화 함수를 통해 출력을 $[0,1]$ 범위로 스케일링한다.

Perception Sound 및 Action의 경우, 100 epoch 동안 학습하고 0.01의 confidence threshold와 NMS $\sigma=0.1$ 을 사용한다. EPIC의 경우, 35 epoch 동안 학습하고 0.03의 confidence threshold와 NMS $\sigma=0.25$ 를 사용한다. 다른 모든 하이퍼파라미터는 recognition 모델과 일치한다.

TIM: 오디오-비주얼 행동 인식을 위한 시간 간격 머신

TIM: A Time Interval Machine for Audio-Visual Action Recognition

Abstract

1. Introduction