He, Bo, et al. "Asm-loc: Action-aware segment modeling for weakly-supervised temporal action localization." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization

Bo He ${ }^{1}$ , Xitong Yang ${ }^{1}$ , Le Kang ${ }^{2}$ , Zhiyu Cheng ${2}$ , Xin Zhou ${2}$ , Abhinav Shrivastava ${1}$ <br> ${ }^{1}$ University of Maryland, College Park ${2}$ Baidu Research, USA<br>{bohe, xyang35, abhinav}@cs.umd.edu, {kangle01, zhiyucheng, zhouxin16}@baidu.com

Abstract

**Weakly-supervised temporal action localization (WTAL)**은 학습 시 비디오 수준의 action label만 주어진 상태에서, untrimmed 비디오 내의 action segment를 인식하고 위치를 파악하는 것을 목표로 한다. action segment의 경계 정보가 없는 상황에서, 기존 방법들은 대부분 **Multiple Instance Learning (MIL)**에 의존한다. MIL은 레이블이 없는 instance(즉, 비디오 스니펫)의 예측을, 레이블이 있는 bag(즉, untrimmed 비디오)을 분류하는 방식으로 감독한다. 그러나 이러한 공식화는 일반적으로 비디오 내의 스니펫을 독립적인 instance로 취급하여, action segment 내부 및 segment 간의 내재된 시간적 구조를 무시한다.

이러한 문제를 해결하기 위해 우리는 ASM-Loc을 제안한다. ASM-Loc은 표준 MIL 기반 방법을 넘어, 명시적인 action-aware segment modeling을 가능하게 하는 새로운 WTAL 프레임워크이다. 우리의 프레임워크는 세 가지 segment 중심 구성 요소를 포함한다: (i) 짧은 action의 기여도를 보상하기 위한 dynamic segment sampling, (ii) action dynamics를 모델링하고 시간적 종속성을 포착하기 위한 intra- 및 inter-segment attention, (iii) action 경계 예측을 개선하기 위한 pseudo instance-level supervision.

나아가, 모델 학습 과정에서 action proposal을 점진적으로 개선하기 위한 multistep refinement 전략을 제안한다. THUMOS-14 및 ActivityNetv1.3에 대한 광범위한 실험은 우리 접근 방식의 효과를 입증하며, 두 데이터셋 모두에서 새로운 state of the art를 달성한다. 코드와 모델은 https://github. com/boheumd/ASM-Loc에서 공개적으로 이용 가능하다.

1. Introduction

**Weakly-supervised temporal action localization (WTAL)**은 최근 몇 년간 점점 더 많은 주목을 받고 있다. WTAL은 fully-supervised 방식과 달리, 비디오 수준의 action category annotation만을 요구하는데, 이는 수집하기 훨씬 쉽고 대규모 데이터셋 구축에 더 확장성이 좋다. 이 문제를 해결하기 위해 최근 연구들 [1-12]은 대부분 MIL (Multiple Instance Learning) 프레임워크 [13]에 의존한다. 이 프레임워크에서는 전체 untrimmed 비디오가 여러 개의 unlabeled instance(즉, 비디오 프레임 또는 스니펫)를 포함하는 labeled bag으로 간주된다. 개별 스니펫의 action classification 점수는 먼저 **temporal class activation sequences (CAS)**를 형성하기 위해 생성된 다음, top-k mean 메커니즘에 의해 집계되어 최종 비디오 수준 예측을 얻는다 [3, 6, 8, 14].

Figure 1. WTAL을 위한 Action-aware segment modeling. 우리의 ASM-Loc은 action proposal과 제안된 segment-centric module을 활용하여 기존 MIL 기반 방법의 일반적인 실패를 해결한다.

이전 연구에서 상당한 개선이 이루어졌음에도 불구하고, weakly-supervised 설정과 fully-supervised 설정 사이에는 여전히 큰 성능 격차가 존재한다. 주요 과제 중 하나는 localization completeness인데, 이는 action boundary의 부정확한 예측으로 인해 모델이 불완전하거나 과도하게 완전한 action segment를 생성하는 경향이 있기 때문이다. 또 다른 과제는 짧은 action segment의 missed detection이다. 이는 모델이 더 긴 duration을 가진 segment에 편향되어 짧은 action에 대해 낮은 신뢰도의 예측을 생성하기 때문이다. Figure 1은 이러한 두 가지 일반적인 오류의 예시를 보여준다. 이러한 과제들은 segment-level annotation의 부족으로 인해 본질적으로 어렵지만, 우리는 기존 MIL 기반 방법에서 segment-based modeling의 부재가 열등한 결과의 핵심 원인이라고 주장한다. 특히, 이러한 MIL 기반 방법들은 비디오 내의 스니펫을 독립적인 instance로 취급하여, feature modeling 또는 prediction 단계에서 그들의 내재된 temporal structure를 무시한다.

본 논문에서는 weakly-supervised temporal action localization을 위한 명시적인 action-aware segment modeling을 가능하게 하는 새로운 프레임워크인 ASM-Loc을 제안한다. segment modeling을 부트스트랩하기 위해, 우리는 먼저 표준 MIL 기반 방법을 사용하여 action proposal을 생성한다. 이러한 proposal은 untrimmed 비디오 내 action 위치와 duration에 대한 초기 추정치를 제공한다. action proposal을 기반으로, 우리는 WTAL 파이프라인의 세 가지 단계(즉, feature extraction 단계, feature modeling 단계, prediction 단계)에 해당하는 세 가지 segment-centric module을 도입한다.

첫째, short-range 및 long-range action segment의 기여도를 균형 있게 조절하기 위해 dynamic segment sampling module을 제안한다. Figure 1에서 보듯이, 짧은 duration을 가진 action proposal은 temporal dimension을 따라 up-sampling되며, scale-up ratio는 proposal의 길이에 따라 동적으로 계산된다. 둘째, feature modeling 단계에서 action segment 내부 및 간의 temporal structure를 포착하기 위해 intra-segment 및 inter-segment attention module을 제시한다. 구체적으로, intra-segment attention module은 action proposal 내에서 self-attention을 활용하여 action dynamics를 모델링하고 foreground 및 background 스니펫을 더 잘 구별한다. 반면에, inter-segment attention module은 서로 다른 action proposal 간의 self-attention을 활용하여 관계를 포착함으로써, temporal dependency를 포함하는 action segment(예: Figure 1에서 "CricketBowling" 다음에 "CricketShotting")의 localization을 용이하게 한다. 두 attention module 모두 segment-centric이며, 이는 untrimmed 비디오에서 noisy background 스니펫의 부정적인 영향을 억제하는 데 중요하다. 셋째, fine-grained supervision을 제공하여 localization 결과를 개선하기 위해 pseudo instance-level loss를 도입한다. pseudo instance-level label은 action proposal에서 파생되며, label noise 효과를 완화하는 불확실성 추정 점수와 결합된다. 마지막으로, multi-step proposal refinement가 채택되어 action proposal의 품질을 점진적으로 향상시키고, 이는 최종 모델의 localization 성능을 향상시킨다.

우리의 주요 기여는 다음과 같이 요약할 수 있다:

우리는 segment-based modeling이 weakly-supervised 설정과 supervised 설정 간의 성능 격차를 좁히는 데 활용될 수 있음을 보여준다. 이는 기존 MIL 기반 WTAL 방법에서 간과되었던 부분이다.
우리는 WTAL 파이프라인의 다른 단계에서 action-aware segment modeling을 가능하게 하는 세 가지 새로운 segment-centric module을 도입한다.
우리는 설계의 각 구성 요소의 효과를 입증하기 위한 광범위한 실험을 제공한다. 우리의 ASM-Loc은 THUMOS-14 및 ActivityNet-v1.3 데이터셋 모두에서 새로운 state of the art를 수립한다.

Temporal Action Localization (TAL). Action recognition [15-21]과 비교할 때, TAL은 비디오 이해에 있어 더 도전적인 task이다. 현재의 fully-supervised TAL 방법론은 크게 두 가지 그룹으로 나눌 수 있다:

Anchor-based 방법론 [22-25]: 미리 정의된 action proposal을 기반으로 boundary regression을 수행한다.
Anchor-free 방법론 [26-28]: 비디오 내 각 snippet에 대해 boundary probability 또는 actionness score를 직접 예측한 후, bottom-up grouping 전략을 사용하여 각 action segment의 시작과 끝 쌍을 매칭한다.

이러한 모든 방법론은 각 action instance에 대한 정밀한 시간적 annotation을 요구하며, 이는 노동 집약적이고 시간이 많이 소요된다.

Weakly-supervised Temporal Action Localization. 최근에는 학습 시 비디오 수준의 카테고리 레이블만 요구되는 weakly supervised 설정이 커뮤니티의 주목을 받고 있다 [1-12, 29-35]. 특히, UntrimmedNet [1]은 이 문제를 해결하기 위해 Multiple Instance Learning (MIL) 프레임워크를 처음으로 도입했으며, 이는 foreground snippet을 선택하고 이를 action segment로 그룹화한다. STPN [2]은 선택된 snippet의 희소성(sparsity)을 강화하기 위해 sparsity loss를 추가하여 UntrimmedNet을 개선했다. CoLA [9]는 contrastive learning을 활용하여 foreground와 background snippet을 구별한다. UGCT [10]는 uncertainty-aware learning 메커니즘을 포함한 온라인 pseudo label 생성을 제안하여 attention weight에 pseudo label supervision을 부여한다. 이러한 MIL 기반 방법론들은 비디오 내 각 snippet을 개별적으로 처리하여, segment 수준의 풍부한 시간적 정보를 간과한다. 이와 대조적으로, 우리의 ASM-Loc는 WTAL을 위한 segment 수준의 시간적 구조 모델링에 초점을 맞추고 있으며, 이는 이전 연구에서 거의 탐구되지 않은 부분이다.

Pseudo Label Guided Training. Pseudo label을 사용하여 모델 학습을 유도하는 방식은 약하거나 제한된 supervision을 사용하는 vision task에서 널리 채택되어 왔다. weakly supervised object detection 분야에서 중요한 방향 중 하나는 self-training [36-39]이다. 이는 먼저 teacher model을 학습시킨 다음, 높은 confidence를 가진 예측을 instance-level pseudo label로 사용하여 최종 detector를 학습시키는 방식이다. 유사하게, semi-supervised learning [40-44] 및 domain adaptation [45-47]에서는 모델을 먼저 labeled / source dataset으로 학습시킨 다음, unlabeled / target dataset에 대한 pseudo label을 생성하여 학습 과정을 유도하는 데 사용된다.

이러한 연구들과 유사하게, 우리의 ASM-Loc는 pseudo segment-level label (즉, action proposal)을 활용하여 WTAL task의 학습 과정을 유도한다. 그러나 우리는 pseudo label을 supervision 용도로만 사용하는 것에 국한하지 않는다. 대신, 우리는 dynamic segment sampling, intra- 및 inter-segment attention과 같은 다양한 segment-centric 모듈에서 action proposal을 활용한다.

3. WTAL Base Model

**WTAL(Weakly Supervised Temporal Action Localization)**은 학습 시 비디오 수준의 action label만 주어진 상태에서, untrimmed 비디오 내의 action segment를 인식하고 위치를 파악하는 것을 목표로 한다.
정식으로, untrimmed 학습 비디오를 $V$ 로, 해당 비디오의 ground-truth label을 $y \in \mathbb{R}^{C}$ 로 표기한다. 여기서 $C$ 는 action category의 수이다. 비디오에 여러 action이 존재할 경우 $y$ 는 multi-hot vector가 될 수 있으며, $l_1$ normalization으로 정규화된다.
Temporal action localization의 목표는 테스트 비디오에 대해 action segment 집합 $\mathcal{S}=\left\{\left(s_{i}, e_{i}, c_{i}, q_{i}\right)\right\}_{i=1}^{I}$ 를 생성하는 것이다. 여기서 $s_i, e_i$ 는 $i$ -번째 segment의 시작 및 종료 시간이며, $c_i, q_i$ 는 해당 class 예측 및 confidence score이다.

대부분의 기존 WTAL 방법들 [1-12]은 MIL(Multiple Instance Learning) formulation을 사용한다. MIL 기반 방법들의 일반적인 파이프라인은 세 가지 주요 단계로 구성된다 (Figure 2 참조):
(i) Feature extraction 단계: untrimmed RGB 비디오와 optical flow를 입력으로 받아, 사전학습된 backbone network를 사용하여 snippet-level feature를 추출한다.
(ii) Feature modeling 단계: 추출된 feature를 temporal modeling을 통해 task-oriented feature로 변환한다.
(iii) Prediction 단계: 각 time step에 대한 class probability와 attention weight를 생성하고, 학습 중 MIL formulation에 따라 비디오 수준의 loss를 계산한다.
다음 하위 섹션에서는 이 세 단계의 일반적인 관행을 검토하고, 우리의 base model을 자세히 설명한다.

3.1. Feature Extraction and Modeling

최근의 WTAL(Weakly-supervised Temporal Action Localization) 방법들 [2,4,10,32,34]을 따라, 우리는 먼저 각 untrimmed video를 겹치지 않는 16프레임 스니펫(snippet)으로 나눈다.
그 다음, Kinetics-400으로 사전학습된 I3D 모델 [15]을 적용하여 RGB 및 optical flow 입력에 대한 feature를 추출한다.
이후, RGB와 optical flow feature를 채널 차원을 따라 연결(concatenate)하여 스니펫 수준의 표현 $F \in \mathbb{R}^{T \times D}$ 를 형성한다. 여기서 $T$ 는 비디오 내 스니펫의 수이고, $D=2048$ 은 feature의 차원이다.
[4, 6, 9, 48]의 방식을 따라, 이 feature들은 temporal convolution layer와 ReLU 활성화 함수를 거쳐 feature modeling에 사용된다: $X=\operatorname{ReLU}(\operatorname{conv}(F))$ .

3.2. Action Prediction and Training Losses

주어진 임베딩 feature $X$ 에 대해, fully-connected (FC) layer를 적용하여 temporal class activation sequence (CAS) $P \in \mathbb{R}^{T \times(C+1)}$ 를 예측한다. 여기서 $C+1$ 은 액션 카테고리 수에 배경 클래스를 더한 값이다. 전경(foreground)과 배경(background) 스니펫을 더 잘 구분하기 위해, 일반적인 전략 [2,4,7]은 untrimmed video의 각 시간 단계에 대한 attention 가중치를 출력하는 추가적인 attention module을 도입하는 것이다. [34, 48]을 따라, 우리는 FC layer를 사용하여 attention 가중치 $A \in \mathbb{R}^{T \times 2}$ 를 생성한다. 여기서 각 시간 단계의 두 가중치 값은 softmax 연산을 통해 정규화되어 각각 전경 및 배경 attention 가중치를 얻는다. 마지막으로, CAS와 attention 가중치를 결합하여 attention 가중치가 적용된 CAS를 얻는다: $\hat{P}^{m}(c)=P(c) \odot A^{m}, m \in\{\mathrm{fg}, \mathrm{bg}\}$ , 여기서 $c$ 는 클래스 인덱스를 나타내고 $\odot$ 는 element-wise 곱셈을 나타낸다.

MIL(Multiple Instance Learning) 공식화에 따라, 비디오 레벨 분류 점수는 top- $k$ mean 전략 [3,6,8]에 의해 생성된다. 각 클래스 $c$ 에 대해, 우리는 attention 가중치가 적용된 CAS의 $k$ 개 최댓값을 취하고 그 평균값을 계산한다: $\hat{p}^{m}(c)=\frac{1}{k} \sum \operatorname{Top}-\mathrm{k}\left(\hat{P}^{m}(c)\right)$ . 그런 다음 모든 클래스에 걸쳐 softmax 정규화를 수행하여 attention 가중치가 적용된 비디오 레벨 액션 확률을 얻는다. 우리는 이러한 약한 지도(weakly-supervised) 설정에서 세 가지 비디오 레벨 loss를 채택한다.

전경 loss (Foreground loss). 비디오 레벨 액션 분류 학습을 유도하기 위해, 우리는 전경 attention 가중치가 적용된 액션 확률 $\hat{p}^{\mathrm{fg}}$ 과 비디오 레벨 액션 레이블 $y^{\mathrm{fg}}=[y ; 0]$ 사이의 cross-entropy loss를 적용하며, 이는 다음과 같이 표현된다:

\mathcal{L}^{\mathrm{fg}}=-\sum_{c=1}^{C+1} y^{\mathrm{fg}}(c) \log \hat{p}^{\mathrm{fg}}(c)

배경 loss (Background loss). untrimmed video의 음성(negative) 인스턴스가 배경 클래스로 예측되도록 보장하기 위해, 우리는 배경 attention 가중치가 적용된 액션 확률 $\hat{p}^{\text {bg }}$ 을 추가적인 배경 loss [32, 48]로 정규화한다. 구체적으로, 우리는 $\hat{p}^{\text {bg }}$ 과 배경 클래스 레이블 $y^{\text {bg }}$ 사이의 cross-entropy를 계산한다:

\mathcal{L}^{\mathrm{bg}}=-\sum_{c=1}^{C+1} y^{\mathrm{bg}}(c) \log \hat{p}^{\mathrm{bg}}(c),

여기서 $y^{\mathrm{bg}}(C+1)=1$ 이고 다른 모든 $c$ 에 대해서는 $y^{\mathrm{bg}}(c)=0$ 이다.

액션 인지 배경 loss (Action-aware background loss). 배경 스니펫에서는 액션이 발생하지 않지만, 우리는 풍부한 문맥 정보가 여전히 실제 액션 카테고리 레이블을 반영하는 데 사용될 수 있다고 주장한다. Figure 3(c)의 예시처럼, 배경 프레임이 당구대만 있는 정지된 장면이더라도, 비디오 어딘가에 "Billiard" 액션 카테고리가 존재할 것이라고 예상할 수 있다. 따라서 배경 인스턴스는 배경 클래스 레이블뿐만 아니라 액션 클래스 레이블과도 관련이 있다.

이러한 관찰을 바탕으로, 우리는 액션 인지 배경 loss를 배경 attention 가중치가 적용된 액션 확률 $\hat{p}^{\text {bg }}$ 과 비디오 레벨 액션 레이블 $y^{\mathrm{fg}}$ 사이의 cross-entropy loss로 공식화한다:

\mathcal{L}^{\mathrm{abg}}=-\sum_{c=1}^{C+1} y^{\mathrm{fg}}(c) \log \hat{p}^{\mathrm{bg}}(c)

우리 기본 모델의 총 비디오 레벨 loss는 이 세 가지 loss의 가중 조합이다:

\mathcal{L}^{\mathrm{vid}}=\lambda_{\mathrm{fg}} \mathcal{L}^{\mathrm{fg}}+\lambda_{\mathrm{bg}} \mathcal{L}^{\mathrm{bg}}+\lambda_{\mathrm{abg}} \mathcal{L}^{\mathrm{abg}},

여기서 $\lambda_{\mathrm{fg}}, \lambda_{\mathrm{bg}}$ 및 $\lambda_{\text {abg }}$ 는 세 가지 loss의 기여도를 균형 있게 조절하기 위한 trade-off 파라미터이다.

Figure 2. (a) 프레임워크 개요. 회색 모듈은 **기본 모델의 구성 요소(예: conv 및 FC)**를 나타내며, 다른 모듈은 우리의 액션 인지 세그먼트 모델링 모듈이다. (b) 동적 세그먼트 샘플링은 샘플링 가중치 벡터 $W$ 의 누적 분포를 기반으로 한다. $T$ -축의 빨간색 점은 최종 샘플링된 시간 단계를 나타낸다. 짧은 액션 세그먼트일수록 더 높은 scale-up 비율을 가진다. (c) Intra-segment attention은 각 액션 제안(proposal) 내에서 self-attention을 적용한다. (d) Inter-segment attention은 비디오 내의 모든 제안들 사이에서 self-attention을 적용한다. $\odot, \otimes$ 및 $\bigoplus$ 는 각각 element-wise 곱셈, 행렬 곱셈, element-wise 덧셈을 나타낸다. $T, N$ 은 각각 스니펫 수와 액션 제안 수이다.

3.3. Discussion

Section 1에서 논의했듯이, 우리의 기반 모델(base model)은 MIL(Multiple Instance Learning) formulation을 따르며 비디오 스니펫 간의 시간적 구조를 무시한다. 그럼에도 불구하고, 기반 모델이 생성한 예측 결과는 untrimmed 비디오 내에서 액션의 위치와 지속 시간에 대한 괜찮은 추정치를 제공하며, 이는 우리의 segment modeling 프로세스를 위한 bootstrap 역할을 할 수 있다.
특히, 우리는 기반 모델의 예측 결과( $\mathcal{S} \mapsto \tilde{\mathcal{S}}=\left\{\left(s_{n}, e_{n}, c_{n}\right)\right\}_{n=1}^{N}$ )를 기반으로 초기 액션 proposal을 생성한다. 여기서 $s_{n}, e_{n}, c_{n}$ 은 각각 $n$ -번째 액션 proposal의 시작 시간, 종료 시간, 그리고 예측된 카테고리 레이블을 나타낸다. 액션 proposal 생성에 대한 더 자세한 내용은 supplementary material에서 확인할 수 있다.
본 연구의 주요 초점은 다음 섹션에서 설명할 segment-level temporal modeling을 위해 이러한 액션 proposal을 활용하는 것이다.

4. Action-aware Segment Modeling

Figure 2(a)는 우리의 ASM-Loc 프레임워크의 개요를 보여준다. 기반 모델(base model)이 생성한 action proposal이 주어졌을 때, 우리는 WTAL(Weakly Supervised Temporal Action Localization) 파이프라인의 세 가지 단계 모두에 action-aware segment modeling을 도입한다:

Feature extraction 단계에서의 dynamic segment sampling (Sec. 4.1),
Feature modeling 단계에서의 intra- 및 inter-segment attention (Sec. 4.2),
Prediction 단계에서의 pseudo instance-level supervision (Sec. 4.3).

Sec. 4.4에서 논의된 바와 같이, action proposal과 localization 결과를 점진적으로 개선하기 위해 multi-step proposal refinement가 적용된다.

4.1. Dynamic Segment Sampling

트리밍되지 않은 비디오 내의 액션 세그먼트는 2초 미만에서 1분 이상까지 다양한 길이를 가질 수 있다. 직관적으로, 짧은 액션은 시간적 스케일이 작기 때문에, feature 모델링 단계에서 정보 손실이나 왜곡이 발생하기 쉽다. Table 5에서 볼 수 있듯이, 모델이 실제로 길이가 긴 세그먼트에 편향되어 있으며, 짧은 세그먼트에 대해서는 낮은 confidence score를 생성하여 탐지 누락(missed detection) 또는 열악한 localization 결과를 초래함을 확인하였다. 유사한 관찰은 객체 탐지에서도 나타나는데, 작은 객체가 큰 객체보다 탐지 성능이 좋지 않다 [49, 50].

WTAL(Weakly-supervised Temporal Action Localization) 설정에서 이 문제를 해결하기 위해, 우리는 추정된 길이에 따라 액션 proposal을 동적으로 up-sampling하는 새로운 세그먼트 샘플링 모듈을 제안한다.
정식으로, 우리는 먼저 모든 시간 단계에서 값이 1인 샘플링 가중치 벡터 $W \in \mathbb{R}^{T}$ 를 초기화한다. 그런 다음, 사전 정의된 임계값 $\gamma$ 보다 길이가 짧은 proposal에 대한 업데이트된 샘플링 가중치를 다음과 같이 계산한다:

W\left[s_{n}: e_{n}\right]=\frac{\gamma}{e_{n}-s_{n}}, \quad \text { if }\left(e_{n}-s_{n}\right) \leq \gamma,

여기서 $s_{n}, e_{n}$ 은 $n$ -번째 액션 proposal의 시작 및 종료 시간을 나타낸다.
샘플링 절차는 Figure 2(b)에 나타난 Inverse Transform Sampling 방법을 기반으로 한다. 직관적으로, 이는 샘플링 가중치 $W$ 에 비례하는 프레임 속도로 스니펫을 샘플링하는 것이다. 우리는 먼저 샘플링 가중치의 누적 분포 함수(CDF) $f_{W}=\operatorname{cdf}(W)$ 를 계산한 다음, CDF의 역함수에서 $T$ 개의 시간 단계를 균일하게 샘플링한다: $\left\{x_{i}=f_{W}^{-1}(i)\right\}_{i=1}^{T}$ . 이러한 방식으로, 각 proposal의 scale-up 비율은 추정된 길이에 따라 동적으로 계산된다. up-sampling이 필요한 경우 **선형 보간(linear interpolation)**을 적용한다.

4.2. Intra- and Inter-Segment Attention

Intra-Segment Attention (세그먼트 내 어텐션)
액션 모델링은 정확한 액션 분류 및 시간적 경계 예측에 매우 중요하다. 최근 연구 [18, 51]는 액션 인식을 위해 trimmed video에 전역적으로 temporal attention을 적용하여 인상적인 성능을 달성했다. 그러나 untrimmed video는 일반적으로 관련 없는 배경 스니펫이 지배적이어서 액션 세그먼트 모델링 과정에 추가적인 노이즈를 유발한다. 이러한 관찰에 동기를 받아, 우리는 각 액션 제안(action proposal) 내에서 self-attention을 수행하는 intra-segment attention 모듈을 제안한다.

이 모듈은 Figure 2(c)에 나타난 바와 같이 masked attention 메커니즘을 사용하여 공식화된다. 구체적으로, **어텐션 마스크 $M \in \mathbb{R}^{T \times T}$ **는 서로 다른 액션 제안에 해당하는 전경(foreground) 스니펫을 나타내기 위해 정의된다. 어텐션 마스크는 먼저 모든 항목이 0으로 초기화된 후, 모든 제안에 대해 $M\left[s_{n}: e_{n}, s_{n}: e_{n}\right]=1$ 로 할당된다. 이 어텐션 마스크는 표준 self-attention 방식 [52, 53]으로 계산된 어텐션 행렬에 적용된다:

\begin{aligned} Q & =X W_{Q}, K=X W_{K}, V=X W_{V} \\ A_{i, j} & =\frac{M_{i, j} \exp \left(Q_{i} K_{j}^{T} / \sqrt{D}\right)}{\sum_{k} M_{i, k} \exp \left(Q_{i} K_{k}^{T} / \sqrt{D}\right)} \\ Z & =X+\operatorname{BN}\left(A V W_{O}\right) \end{aligned}

여기서 $W_{Q}, W_{K}, W_{V}, W_{O} \in \mathbb{R}^{D \times D}$ 는 query, key, value 및 출력을 생성하기 위한 선형 투영 행렬이다. Multi-head attention [52] 또한 어텐션 모듈의 용량을 향상시키기 위해 채택되었다. 이러한 방식으로 우리는 각 액션 제안 내의 시간적 구조를 명시적으로 모델링하여, 관련 없는 노이즈가 많은 배경 스니펫의 부정적인 영향을 피한다.

Inter-Segment Attention (세그먼트 간 어텐션)
untrimmed video 내의 액션 세그먼트들은 일반적으로 서로 시간적 종속성을 가진다. 예를 들어, "CricketBowling"은 "CricketShotting" 뒤에 오는 경향이 있으며, "VolleyballSpiking"은 비디오에서 여러 번 반복되는 경우가 많다. 따라서 액션 세그먼트 간의 이러한 종속성과 상호작용을 포착하는 것은 인식 및 localization 성능을 향상시킬 수 있다.

intra-segment attention 모듈과 유사하게, 우리는 여러 액션 제안 간의 관계를 모델링하기 위해 self-attention 메커니즘을 활용한다. Figure 2(d)에 나타난 바와 같이, 우리는 먼저 각 액션 제안 내의 스니펫 수준 feature를 시간 차원( $\hat{X}_{n}=\frac{1}{e_{n}-s_{n}+1} \sum_{t=s_{n}}^{e_{n}} X(t)$ )에 대해 평균 풀링(average pooling)하여 집계한다. 그런 다음, multi-head self-attention은 모든 세그먼트 수준 feature $\left\{\hat{X}_{n}\right\}_{n=1}^{N}$ 에 적용되어 서로 다른 액션 제안 쌍 간의 상호작용을 모델링한다. 출력 feature는 시간 축을 따라 복제되어 원래 feature $X$ 에 residual 방식으로 추가된다.

4.3. Pseudo Instance-level Loss

segment-level annotation의 부재로 인해, 표준 MIL(Multiple Instance Learning) 기반 방법들은 비디오-레벨 액션 카테고리 레이블이 제공하는 비디오-레벨 supervision에만 의존한다. 액션 경계의 localization을 더욱 정교하게 다듬기 위해, 우리는 액션 proposal이 제공하는 pseudo instance-level label을 활용하고, 비디오-레벨 loss보다 더 fine-grained한 supervision을 제공하는 pseudo instance-level loss를 제안한다.

액션 proposal $\tilde{\mathcal{S}}=\left\{s_{n}, e_{n}, c_{n}\right\}_{n=1}^{N}$ 이 주어졌을 때, 우리는 액션 proposal에 속하는 snippet에는 액션 레이블을 할당하고, 다른 모든 snippet에는 배경 클래스 레이블을 할당하여 pseudo instance-level label $\tilde{Q} \in \mathbb{R}^{T \times(C+1)}$ 을 구성한다:

\tilde{Q}_{t}(c)=\left\{\begin{array}{l} 1, \text { if } \exists n, t \in\left[s_{n}, e_{n}\right] \text { and } c=c_{n} \\ 1, \text { if } \forall n, t \notin\left[s_{n}, e_{n}\right] \text { and } c=C+1 \\ 0, \text { otherwise } \end{array}

$\tilde{Q}$ 는 $l_1$ normalization으로 정규화된다는 점에 유의하라. 액션 proposal은 모델 예측으로부터 생성되기 때문에, 부정확한 pseudo instance-level label이 생성되는 것은 불가피하다. 레이블 노이즈 효과를 처리하기 위해, 우리는 최근 연구 [10, 54-56]를 따라 불확실성 예측 모듈(uncertainty prediction module)을 도입하여 모델이 노이즈가 있는 pseudo label로부터 학습하도록 유도한다. 구체적으로, 우리는 FC layer를 사용하여 불확실성 점수 $U \in \mathbb{R}^{T}$ 를 출력하며, 이 점수는 각 시간 단계에서 pseudo instance-level loss의 가중치를 재조정하는 데 사용된다. 직관적으로, 불확실성 점수가 높은 instance는 loss에 너무 많이 기여하는 것을 제한받는다. 불확실성 점수와 결합하여, pseudo instance-level loss는 temporal CAS $P$ 와 pseudo instance-level label $\tilde{Q}$ 간의 평균 cross-entropy로 다음과 같이 작성될 수 있다:

\mathcal{L}_{\mathrm{ins}}=\frac{1}{T} \sum_{t=1}^{T} \exp \left(-U_{t}\right)\left(-\sum_{c=1}^{C+1} \tilde{Q}_{t}(c) \log \left(P_{t}(c)\right)\right)+\beta U_{t}

여기서 $\beta$ 는 weight decay term을 위한 하이퍼파라미터로, 불확실성 예측 모듈이 모든 시간 단계에 대해 무한한 불확실성(따라서 0의 loss)을 예측하는 것을 방지한다.

Action proposal은 action-aware 모델링에서 중요한 역할을 한다. Section 5.3에서 논의했듯이, proposal의 품질은 우리 접근 방식의 여러 구성 요소 성능과 양의 상관관계를 가진다. 초기 action proposal은 base model에서 얻지만, ASM-Loc이 생성하는 우수한 예측 결과를 활용하여 더 정확한 action proposal을 생성하는 것이 직관적이다. 이러한 동기를 바탕으로, 우리는 여러 단계를 통해 action proposal을 점진적으로 개선하는 다단계 학습 프로세스를 제안한다.

segment modeling의 bootstrap으로서, 우리는 먼저 base model (Section 3)을 $E$ epoch 동안 학습하여 초기 action proposal $\tilde{\mathcal{S}}_{0}$ 를 얻는다. 그 후, ASM-Loc을 $E$ epoch 동안 추가 학습하여 action의 위치와 지속 시간에 대한 더 정확한 추정치를 가진 정제된 action proposal $\tilde{\mathcal{S}}_{1}$ 을 얻는다. 동일한 프로세스는 action proposal의 품질이 수렴할 때까지 여러 단계에 걸쳐 적용될 수 있다. 완전한 다단계 proposal 정제 프로세스는 Alg. 1에 요약되어 있다. 마지막으로, 우리는 정제된 proposal $\tilde{\mathcal{S}}$ 를 사용하여 모델이 수렴할 때까지 ASM-Loc을 학습시킨다.

5. Experiment

5.1. Experimental Setup

Dataset. We evaluate our method on two popular action localization datasets: THUMOS-14 [60] and ActivityNetv1.3 [61]. THUMOS-14 contains untrimmed videos from 20 categories. The video length varies from a few seconds to several minutes and multiple action instances may exist in a single video. Following previous works [1,3,7,9], we use the 200 videos in the validation set for training and the 213 videos in the testing set for evaluation. ActivityNet-v1.3 is a large-scale dataset with 200 complex daily activities. It has 10,024 training videos and 4,926 validation videos. Following [10,35], we use the training set to train our model and the validation set for evaluation. Implementation Details. We employ the I3D [15] network pretrained on Kinetics-400 [15] for feature extraction. We apply TVL1 [62] algorithm to extract optical flow from RGB frames. The Adam optimizer is used with the learning rate of 0.0001 and with the mini-batch sizes of 16, 64 for THUMOS-14 and ActivityNet-v1.3, respectively. The number of sampled snippets $T$ is 750 for THUMOS-14 and 150 for ActivityNet-v1.3. For the multi-step proposal refinement, $E$ is set to 100 and 50 epochs for THUMOS-14 and ActivityNet-v1.3, respectively. Action proposals are generated at the last epoch of each refinement step. More dataset-specific training and testing details are available in the supplementary material.

5.2. Comparison with the State of the Art

Table 1에서 우리는 THUMOS-14 데이터셋에서 우리의 ASM-Loc과 state-of-the-art WTAL(Weakly Supervised Temporal Action Localization) 방법들을 비교한다. 참고를 위해 선택된 fully-supervised 방법들도 함께 제시하였다.

Algorithm 1: Multi-step Proposal Refinement
    Input: Training epochs \(E\), refinement steps \(L\)
    Output: Action proposals \(\tilde{\mathcal{S}}\)
    Train the base model for \(E\) epochs.
    Get initial action proposals: \(\tilde{\mathcal{S}}_{0}\).
    for \(l\) in \(\{1, \ldots, L\}\) do
        Train ASM-Loc for \(E\) epochs with \(\tilde{\mathcal{S}}_{l-1}\).
        Update action proposals with \(\tilde{\mathcal{S}}_{l}\).
    end

우리는 ASM-Loc이 이전의 모든 WTAL 방법들을 능가하며, IoU 임계값 0.1:0.7에 대해 45.1%의 평균 mAP로 THUMOS-14에서 새로운 state of the art를 달성했음을 확인하였다. 특히, 우리의 접근 방식은 pseudo label을 활용하여 모델 학습을 유도하지만 명시적인 segment modeling이 없는 UGCT [10]보다 우수한 성능을 보인다. 심지어 fully supervised 방법들과 비교했을 때도, ASM-Loc은 SSN [25]과 TAL-Net [22]을 능가하며, IoU 임계값이 낮을 때는 GTAN [57] 및 P-GCN [58]과 비슷한 결과를 얻는다. 이러한 결과는 action-aware segment modeling을 통한 우리 접근 방식의 우수한 성능을 입증한다.

우리는 또한 ActivityNet-v1.3 데이터셋에서도 실험을 수행했으며, 비교 결과는 Table 2에 요약되어 있다. 다시 한번, 우리의 ASM-Loc은 25.1%의 평균 mAP로 새로운 state-of-the-art 성능을 달성했으며, 이는 최신 연구들(예: UGCT [10], FAC-Net [12])을 능가하는 결과이다. 두 데이터셋 모두에서 일관되게 우수한 결과는 우리의 ASM-Loc의 효과를 정당화한다.

5.3. Ablation Studies on THUMOS-14

각 구성 요소의 기여도. Table 3에서는 ASM-Loc의 각 구성 요소의 기여도를 조사하기 위한 ablation study를 수행한다. 먼저, **배경 손실 $\mathcal{L}_{\text {bg }}$ **와 **액션 인지 배경 손실 $\mathcal{L}_{\text {abg }}$ **를 추가하면 기본 모델의 성능이 크게 향상됨을 확인했다. 이 두 손실은 배경 스니펫에서 배경 attention 가중치를 1로 밀어냄으로써 전경 attention 가중치의 희소성(sparsity)을 유도하고, 이를 통해 전경-배경 분리 성능을 향상시킨다.

**액션 인지 세그먼트 모델링(action-aware segment modeling)**의 경우, 우리가 제안한 모듈 중 어느 것을 추가하더라도 **일관된 성능 향상( $\geq 1 \%$ )**이 달성될 수 있음이 분명하다. 특히, feature modeling 단계에서 세그먼트 모델링(즉, intra- 및 inter-segment attention)을 도입하면 성능이 2.4% 크게 증가한다. 두 attention 모듈은 액션 세그먼트 내 및 세그먼트 간의 시간적 구조를 모델링하는 데 중점을 두며 서로 보완적이다. 모든 액션 인지 세그먼트 모델링 모듈을 함께 통합했을 때, 우리 접근 방식은 최종 성능을 40.3%에서 45.1%로 향상시킨다.

self-attention에 액션 제안(action proposal)이 필요한가? 우리는 액션 제안 내에서 self-attention을 수행하여 배경 스니펫의 노이즈를 억제하는 intra-segment attention 모듈을 제안한다. 우리 설계의 효과를 검증하기 위해 Table 4에서 self-attention에 대한 다양한 설정을 비교한다. 구체적으로, "Global" 설정은 self-attention 연산이 untrimmed 비디오의 모든 스니펫에 직접 적용됨을 나타낸다. 이 설정은 기준선(baseline)에 어떠한 이득도 제공하지 않음을 관찰할 수 있는데, 이는 관련 없는 노이즈가 많은 배경 스니펫의 존재로 인해 모델이 의미 있는 시간적 구조를 포착하지 못하기 때문이다. 또한, **배경 스니펫에만 self-attention을 수행하는 "BG" 설정은 부정적인 영향을 미치며 더 나쁜 localization 결과를 얻는다. 마지막으로, 우리의 intra-segment attention은 이 두 설정보다 큰 차이로 우수한 성능을 보이며, 이는 액션 제안 내에서 self-attention을 적용하는 것의 중요성을 나타낸다. 우리는 또한 ground-truth 액션 세그먼트를 intra-segment attention을 위한 제안으로 사용하는 설정도 제시한다. 이 설정은 우리 접근 방식의 **상한선(upper bound)**으로 볼 수 있으며, 기준선 대비 훨씬 더 큰 이득을 제공한다. 이러한 관찰은 다단계 정제(multi-step refinement)를 통해 액션 제안을 더욱 개선하도록 영감을 주었다.

Table 1. THUMOS-14 데이터셋에서 state-of-the-art 방법들과의 비교. 평균 mAP는 IoU 임계값 [0.1,0.1,0.7]에서 계산되었다. UNT와 I3D는 각각 UntrimmedNet feature와 I3D feature의 약어이다.

Supervision	Method	Publication	mAP@IoU (%)
			0.1	0.2	0.3	0.4	0.5	0.6	0.7	AVG
Full <br> (-)	SSN [25]	ICCV 2017	66.0	59.4	51.9	41.0	29.8	-	-	-
	TAL-Net [22]	CVPR 2018	59.8	57.1	53.2	48.5	42.8	33.8	20.8	45.1
	GTAN [57]	CVPR 2019	69.1	63.7	57.8	47.2	38.8	-	-	-
	P-GCN [58]	ICCV 2019	69.5	67.8	63.6	57.8	49.1	-	-	-
	VSGN [59]	ICCV 2021	-	-	66.7	60.4	52.4	41.0	30.4	-
Weak (UNT)	AutoLoc [30]	ECCV 2018	-	-	35.8	29.0	21.2	13.4	5.8	-
	CleanNet [31]	ICCV 2019	-	-	37.0	30.9	23.9	13.9	7.1	-
	Bas-Net [6]	AAAI 2020	-	-	42.8	34.7	25.1	17.1	9.3	-
	STPN [2]	CVPR 2018	52.0	44.7	35.5	25.8	16.9	9.9	4.3	27.0
	CMCS [4]	CVPR 2019	57.4	50.8	41.2	32.1	23.1	15.0	7.0	32.4
	WSAL-BM [32]	ICCV 2019	60.4	56.0	46.6	37.5	26.8	17.6	9.0	36.3
	DGAM [33]	CVPR 2020	60.0	54.2	46.8	38.2	28.8	19.8	11.4	37.0
Weak (I3D)	TSCN [7]	ECCV 2020	63.4	57.6	47.8	37.7	28.7	19.4	10.2	37.8
	ACM-Net [48]	TIP 2021	68.9	62.7	55.0	44.6	34.6	21.8	10.8	42.6
	CoLA [9]	CVPR 2021	66.2	59.5	51.5	41.9	32.2	22.0	13.1	40.9
	UGCT [10]	CVPR 2021	69.2	62.9	55.5	46.5	35.9	23.8	11.4	43.6
	AUMN [35]	CVPR 2021	66.2	61.9	54.9	44.4	33.3	20.5	9.0	41.5
	FAC-Net [12]	ICCV 2021	67.6	62.1	52.6	44.3	33.4	22.5	12.7	42.2
	ASM-Loc (Ours)	-	71.2	65.5	57.1	46.8	36.6	25.2	13.4	45.1

Table 2. ActivityNet-v1.3 데이터셋에서 state-of-the-art 방법들과의 비교. AVG 열은 IoU 임계값 [0.5:0.05:0.95]에서 평균 mAP를 보여준다.

Method	Publication	mAP@IoU (%)
		0.5	0.75	0.95	AVG
STPN [2]	CVPR 2018	29.3	16.9	2.6	16.3
ASSG [63]	MM 2019	32.3	20.1	4.0	18.8
CMCS [4]	CVPR 2019	34.0	20.9	5.7	21.2
Bas-Net [6]	AAAI 2020	34.5	22.5	4.9	22.2
TSCN [7]	ECCV 2020	35.3	21.4	5.3	21.7
A2CL-PT [64]	ECCV 2020	36.8	22.0	5.2	22.5
ACM-Net [48]	TIP 2021	37.6	24.7	6.5	24.4
TS-PCA [10]	CVPR 2021	37.4	23.5	5.9	23.7
UGCT [10]	CVPR 2021	39.1	22.4	5.8	23.8
AUMN [35]	CVPR 2021	38.3	23.5	5.2	23.5
FAC-Net [12]	ICCV 2021	37.6	24.2	6.0	24.0
ASM-Loc (ours)		41.0	24.9	6.2	25.1

동적 세그먼트 샘플링(dynamic segment sampling)의 영향. Table 5에서는 다양한 지속 시간을 가진 액션 세그먼트에 대한 동적 세그먼트 샘플링의 영향을 평가한다. 모든 액션 세그먼트를 지속 시간(초)에 따라 5개 그룹으로 나누고, 각 그룹에 대해 평균 mAP [65]를 개별적으로 평가한다. 서론에서 언급했듯이, 짧은 액션(XS, S)에 대한 localization 성능은 긴 액션(M, L, XL)보다 훨씬 나쁘다. 우리의 동적 세그먼트 샘플링 모듈을 사용하여 짧은 액션을 up-sampling함으로써, 모델은 짧은 액션에서 상당한 이득(XS의 경우 +4.9%, S의 경우 +1.2%)을 달성하고 전반적인 성능을 1.1% 향상시킨다. 마찬가지로, 동적 세그먼트 샘플링을 위해 ground-truth 세그먼트 주석을 사용한 결과를 제시하는데, 이는 기준선 대비 훨씬 더 큰 개선을 달성한다.

불확실성 추정(uncertainty estimation)의 영향. 우리는 pseudo instance-level supervision에서 발생하는 노이즈 레이블 문제를 완화하기 위해 불확실성 추정 모듈을 제안한다. Table 6은 불확실성 추정을 사용하면 다양한 IoU 임계값에서 localization 성능이 일관되게 향상되고, 평균 mAP가 1% 증가함을 보여준다.

다단계 정제(multi-step refinement)의 영향. Table 7은 다단계 제안 정제를 위한 정제 단계 수 증가에 따른 결과를 보여준다. 단계 수가 증가함에 따라 성능이 향상됨을 알 수 있으며, 이는 정제된 제안을 통해 더 나은 localization 결과를 얻을 수 있음을 나타낸다. 성능이 그 이후로 포화되기 때문에 우리는 3단계 정제를 기본 설정으로 채택한다.

Table 3. 각 구성 요소의 기여도. $\mathcal{L}_{\mathrm{fg}}, \mathcal{L}_{\mathrm{bg}}$ 및 $\mathcal{L}_{\text {abg }}$ 는 각각 전경, 배경 및 액션 인지 배경 손실을 나타내며, 이는 비디오 수준 레이블을 가진 MIL을 기반으로 한다. DSS, Intra, Inter 및 $\mathcal{L}_{\text {ins }}$ 는 각각 동적 세그먼트 샘플링, intra-segment attention, inter-segment attention 및 pseudo instance-level loss를 나타내며, 이는 세그먼트 수준 정보를 활용한다.

	Base model		ASM-Loc				AVG
$\mathcal{L}_{\text {fg }}$	$\mathcal{L}_{\text {bg }}$	$\mathcal{L}_{\text {abg }}$	DSS	Intra	Inter	$\mathcal{L}_{\text {ins }}$	0.1:0.7
$\checkmark$							24.3
$\checkmark$	$\checkmark$						36.6
$\checkmark$	$\checkmark$	$\checkmark$					40.3
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$				41.4
$\checkmark$	$\checkmark$	$\checkmark$		$\checkmark$			41.8
$\checkmark$	$\checkmark$	$\checkmark$			$\checkmark$		42
$\checkmark$	$\checkmark$	$\checkmark$				$\checkmark$	41.3
$\checkmark$	$\checkmark$	$\checkmark$		$\checkmark$	$\checkmark$		42.7
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$		43.7
$\checkmark$	$\checkmark$	$\checkmark$		$\checkmark$	$\checkmark$	$\checkmark$	44.3
$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	$\checkmark$	45.1

Table 4. 다른 설정에서의 self-attention에 대한 ablation. "Global", "BG"는 각각 모든 스니펫과 배경 스니펫에 대한 self-attention을 나타낸다.

Label	Setting	mAP@IoU (%)
		0.1	0.3	0.5	0.7	AVG
	Base	67.8	51.8	30.7	10.1	40.3
	Global	67.3	50.8	30.2	10.5	40.1
Action	BG	66	50.1	30.6	10.4	39.6
Proposal	Ours	68.6	53.4	32.5	11.8	$\mathbf{41 . 8}$
Ground	BG	64.7	49.6	30.3	9.7	38.8
Truth	Ours	73.3	56.2	33.6	13.2	44.3

Table 5. 동적 세그먼트 샘플링(DSS)의 영향. 액션은 5가지 지속 시간 그룹(초)으로 나뉜다: XS (0, 1], S (1, 2], M (2, 4], L (4, 6], 및 XL (6, inf).

Label	Setting	Averaged mAP (%)
		XS	S	M	L	XL	AVG
	Base	10.6	33.7	45.9	48.3	38.3	40.3
Action	+ DSS	15.5	34.9	47.1	48.6	38.5	$\mathbf{4 1 . 4}$
Proposal	$\triangle$	$\mathbf{+ 4 . 9}$	+1.2	+1.2	+0.3	+0.2	+1.1
Ground	+ DSS	20	38	47.6	49.7	38.8	43
Truth	$\triangle$	+9.4	+4.3	+1.7	+1.4	+0.5	+2.7

Table 6. 불확실성 추정 모듈의 효과.

Uncer.	$\mathbf{m A P} @ \mathbf{I o U}(\mathbf{\%})$
	0.3	0.5	0.7	$\mathbf{A V G}$
	55.5	35.5	13.8	44.1
$\checkmark$	57.1	36.6	13.4	$\mathbf{4 5 . 1}$

Table 7. 정제 단계 수에 대한 ablation. "0"은 액션 인지 세그먼트 모델링이 없는 기본 모델을 나타낸다.

Num.	mAP@IoU (%)
	0.3	0.5	0.7	AVG
0	51.8	30.7	10.1	40.3
1	54.4	34.1	12.5	43.1
2	56.2	35.4	13.8	44.7
3	57.1	36.6	13.4	$\mathbf{4 5 . 1}$
4	57.3	36.7	14.1	$\mathbf{4 5 . 1}$

5.4. Qualitative Results

Figure 3는 베이스 모델과 우리의 ASM-Loc 간의 시각화 비교를 보여준다. 우리는 기존 MIL 기반 방법론의 일반적인 오류들이 우리의 action-aware segment modeling 방법에 의해 부분적으로 해결될 수 있음을 관찰한다. 예를 들어, 짧은 action의 놓친 감지(missed detection)나 "VolleySpiking" action의 불완전한 localization (Figure 3(a)), 그리고 "BaseballPitch" action의 과도하게 완전한 localization (Figure 3(b))과 같은 오류들이 개선되었다. 또한 Figure 3(c)에서는 실패 사례를 제시한다. 이 경우, 베이스 모델이 생성한 action proposal이 크게 잘못 정렬(misaligned)되어 첫 번째 action segment를 localization하는 데 실패했다. 이는 action proposal의 품질을 향상시키는 것의 중요성을 다시 한번 입증하며, 향후 연구에서 더 깊이 다루어져야 할 부분이다.

6. Conclusion

본 논문에서는 기존의 MIL 기반 방법론을 넘어 명시적인 action-aware segment modeling을 가능하게 하는 새로운 WTAL 프레임워크인 ASM-Loc을 제안한다. 우리는 WTAL 파이프라인의 세 단계에 해당하는 세 가지 새로운 segment-centric 모듈을 도입하여, 약지도(weakly-supervised) 설정과 완전지도(fully-supervised) 설정 간의 성능 격차를 좁힌다. 또한, action proposal을 점진적으로 개선하여 localization 성능이 포화될 때까지 다단계 학습 전략을 도입한다. 우리의 ASM-Loc은 두 가지 WTAL 벤치마크에서 state-of-the-art 결과를 달성한다.

Figure 3. Ground-truth, 예측 및 action proposal의 시각화. 가장 높은 confidence score를 가진 상위 2개의 예측이 base model과 우리의 ASM-Loc에 대해 선택되었다. 투명한 프레임은 배경 프레임을 나타낸다.

감사의 글 (Acknowledgements). 본 연구는 공군(STTR awards FA865019P6014, FA864920C0010)과 Amazon Research Award (AS)의 지원을 받았다.

Appendix

Sec. A에서는 추가 실험 및 분석을 보고한다. Sec. B에서는 action proposal 생성 절차에 대해 자세히 설명한다. Sec. C에서는 데이터셋별 구현 세부 사항 및 학습과 테스트를 위한 하이퍼파라미터를 제공한다. 또한 Sec. D에서는 더 많은 정성적 결과를 제공한다. Sec. E와 Sec. F에서는 본 연구의 한계점과 광범위한 영향에 대해 논의한다.

A. Additional Experiments and Analysis

오류 분석 (Error analysis)
ASMLoc의 효과를 분석하기 위해, 우리는 어떠한 action-aware segment modeling 모듈도 없는 기본 모델과 우리의 ASM-Loc에 대해 DETAD [66] false positive 분석을 수행하였다. 결과는 Figure 4에 제시되어 있다. 이 그림은 false positive 오류의 상세한 분류를 보여주며, 이러한 오류의 분포를 요약한다. $G$ 는 THUMOS-14 데이터셋의 ground truth segment 수를 나타낸다.
우리는 ASM-Loc이 높은 confidence score를 가진 true positive 예측을 더 많이 생성하고, localization error와 confusion error를 더 적게 발생시킨다는 것을 관찰할 수 있다 (상위 1G 점수 예측에서). 이는 ASM-Loc이 우리의 action-aware segment modeling 모듈을 통해 더 정확한 action 경계를 예측함으로써 detection 결과를 향상시킨다는 것을 입증한다.

수용장(receptive field) 증가에 대한 Ablation
우리의 intra- 및 inter-segment attention 모듈의 효과가 수용장 증가 때문이 아니라 segment-centric 설계 때문임을 추가적으로 입증하기 위해, 우리는 intra- 및 inter-segment attention 모듈을 convolutional layer로 대체하고 실험 결과를 비교하였다. Table 8에서 볼 수 있듯이, attention 모듈을 convolutional layer로 대체하면 성능이 최소 3.3% 하락하며, 심지어 기본 모델보다도 낮아진다. 우리는 convolutional layer의 kernel size를 증가시키는 것이 특히 action 경계 근처에서 foreground와 background snippet 간의 혼란을 야기할 수 있다고 가정한다.
이와 대조적으로, 우리의 segment-centric attention 설계는 action segment 내부 및 segment 간의 시간적 구조를 모델링하고 action을 더 정확하게 localize할 수 있다. 이 결과는 segment-centric 설계가 우리의 intra- 및 inter-segment attention 모듈의 핵심임을 입증한다.

B. Action Proposal Generation

Alg. 2에서는 action localization 결과(즉, action segment) $\mathcal{S}$ 로부터 action proposal $\tilde{\mathcal{S}}$ 를 생성하는 상세 과정을 제시한다. 구체적으로, 우리는 먼저 각 ground-truth class $c$ 에 대해 집합 $\mathcal{S}(c)$ 내의 모든 segment score를 정렬한다. 그 다음, 모든 action segment의 confidence score를 합산하여 $q_{\text{sum}}$ 을 출력하고, confidence score 합계가 $\alpha * q_{\text{sum}}$ 과 같아지는 상위 $K$ 개의 action segment를 선택하여 action proposal을 형성한다. $\alpha$ 는 모든 비디오에 대해 공유되지만, action proposal의 개수는 비디오에 따라 적응적이며 콘텐츠에 의존적이라는 점에 유의해야 한다. 마지막으로, temporal action localization의 일반적인 관행 [26, 28, 58, 67]에 따라, 각 proposal의 양 끝을 proposal 길이의 $\delta$ 만큼 확장하여 더 긴 temporal duration을 가진 확장된 proposal을 얻는다. 이는 더 많은 context 관련 snippet을 고려할 수 있게 한다.

Figure 4. 탐지 결과 진단. 기본 모델과 우리의 ASM-Loc의 DETAD [66] false positive 프로파일을 제시한다.

우리의 proposal 생성 설계의 효과를 검증하기 위해, segment 선택 절차의 세 가지 다른 설정을 비교한다: (a) 선택된 action segment의 고정된 개수: 각 클래스에 대해 $K$ 가 고정된 값이며, 비디오 적응적이지 않고 콘텐츠에 의존적이지 않다. (b) $\mathcal{S}(c)$ 내 예측된 action segment 수에 비례하는 $K$ : $K=\alpha *|\mathcal{S}(c)|$ 이다. (c) 우리의 설계. Table 9에서 우리의 설계가 세 가지 설계 중 가장 좋은 결과를 달성함을 확인할 수 있다.

C. Experiment Details

하이퍼파라미터의 경우, THUMOS-14에 대해서는 $\lambda_{\mathrm{fg}}=1, \lambda_{\mathrm{bg}}=0.5, \lambda_{\mathrm{abg}}=0.5, \beta=0.2, \gamma=6, H=8, \delta=0.5, \alpha=0.7$ 로 설정했으며, ActivityNet-v1.3에 대해서는 $\lambda_{\mathrm{fg}}=5, \lambda_{\mathrm{bg}}=0.5, \lambda_{\mathrm{abg}}=0.5, \beta=0.2, \gamma=10, H=8, \delta=0, \alpha=0.3$ 으로 설정했다.

[9, 48]을 따라, 추론 시에는 일련의 임계값(threshold)을 사용하여 예측된 action instance를 얻은 다음, 중복되는 segment를 제거하기 위해 non-maximum suppression(NMS)을 수행한다. 구체적으로, THUMOS-14의 경우 foreground attention threshold를 0.1에서 0.9까지 0.025 간격으로 설정하고, t-IOU threshold 0.45로 NMS를 수행한다. ActivityNet-v1.3의 경우 foreground-attention threshold를 0.005에서 0.02까지 0.005 간격으로 설정하고, t-IoU threshold 0.9로 NMS를 적용한다.

우리는 PyTorch [68]로 우리 방법을 구현했으며, 단일 NVIDIA RTX1080Ti GPU에서 학습시켰다.

Algorithm 2: Action Proposal Generation
    Input: Predicted Action Segments \(\mathcal{S}=\left\{\left(s_{i}, e_{i}, c_{i}, q_{i}\right)\right\}_{i=1}^{I}\), selection ratio \(\alpha\), segment extension parameter \(\delta\)
    Output: Action Proposals \(\mathcal{S}=\left\{\left(\tilde{s}_{n}, \tilde{e}_{n}, \tilde{c}_{n}\right)\right\}_{n=1}^{N}\)
    for ground-truth class \(c\) do
        \(\mathcal{S}(c)_{\text {sorted }} \leftarrow \operatorname{SORT}(\mathcal{S}(c)) \quad / /\) sort segments by scores of class \(c\)
        \(q_{\text {sum }}=\sum q_{i} \quad / /\) sum confidence scores for all segments
        Select \(K\), s.t. \(\max _{K} \sum_{i=1}^{K} q_{i} \leq \alpha * q_{\text {sum }} \quad / /\) select top- \(K\) segments from \(\mathcal{S}(c)_{\text {sorted }}\)
        \(\tilde{\mathcal{S}}(c):\left\{\tilde{s}_{i}, \tilde{e}_{i}, \tilde{c}_{i}\right\}_{i=1}^{K}=\left\{s_{i}-\delta\left(e_{i}-s_{i}\right), e_{i}+\delta\left(e_{i}-s_{i}\right), c_{i}\right\}_{i=1}^{K} / /\) extend selected segments on both sides
    end

Table 8. 수용 필드(receptive field) 증가에 대한 Ablation

Modeling	Kernel Size	mAP@IoU (%)
		0.1	0.2	0.3	0.4	0.5	0.6	0.7	AVG
Base	-	67.8	60.7	51.8	41.3	30.7	19.9	10.1	40.3
Conv	3	66.2	59.3	50.5	39.9	29.9	19.2	9.1	39.2
	5	66.5	58.9	51.0	40.0	29.7	19.3	9.8	39.3
	9	67.1	59.8	50.4	40.1	29.1	19.2	10.2	39.4
Attention	-	68.9	63.1	54.9	44.5	34	22.0	11.9	42.7

Table 9. 다양한 action proposal 선택 방법에 대한 Ablation

Method	mAP@IoU (%)
	0.1	0.2	0.3	0.4	0.5	0.6	0.7	AVG
(a)	69.9	63.8	56	45.8	36.6	25.0	13.5	44.4
(b)	70.5	64.6	57.3	46.8	35.7	24.3	14.2	44.8
(c)	71.2	65.5	57.1	46.8	36.6	25.2	13.4	$\mathbf{4 5 . 1}$

D. More Qualitative Results

Figure 5에서 더 많은 정성적 결과를 제공한다. 첫 번째 "HammerThrow" 액션 예시는 짧은 액션의 탐지 실패와 과도한 완전성(over-completeness) 오류를 보여준다. 두 번째 "Shotput" 액션과 세 번째 "CleanAndJerk" 액션 예시는 불완전성(incompleteness) 오류를 보여준다. 이는 우리의 ASM-Loc이 더 정확한 액션 경계 예측을 통해 이러한 오류를 해결하는 데 도움이 될 수 있음을 명확히 보여준다.

E. Limitation

우리의 ASM-Loc의 주요 한계점은 action-aware segment modeling 모듈의 성능이 생성된 action proposal에 의존한다는 것이다. Figure 3에서 보여지듯이, action proposal이 ground-truth action segment와 크게 어긋날 경우, 우리의 ASM-Loc은 오류를 수정하고 올바른 예측을 생성할 수 없다.

F. Broader Impacts

오늘날 가장 인기 있는 미디어 형식인 비디오는 대부분의 정보가 확산되는 매체이다. Temporal Action Localization (TAL) task는 편집되지 않은(untrimmed) 비디오에서 관심 있는 action의 시간적 경계(temporal boundaries)를 찾고 해당 action의 카테고리 레이블을 분류하는 것을 목표로 한다.

Figure 5. Ground-truth, 예측, 그리고 action proposal의 시각화. 가장 높은 confidence score를 가진 상위 2개의 예측이 base model과 우리의 ASM-Loc에 대해 선택되었다. 투명한 프레임은 배경 프레임을 나타낸다.

밀도 높은 segment-level annotation이 필요한 supervised learning 기반 접근 방식과 달리, 우리가 제안하는 약지도 학습(weakly-supervised) 기반 temporal action localization 모델인 ASM-Loc은 비디오-레벨 레이블(video-level labels)만을 요구한다. 따라서 **WTAL(Weakly-supervised Temporal Action Localization)**은 수십억 개의 비디오가 비디오-레벨의 사용자 생성 태그만을 가지고 있는 인기 있는 비디오 공유 소셜 네트워크 서비스와 같은 실제 애플리케이션에서 훨씬 더 가치가 있다. 또한 WTAL은 이벤트 감지, 비디오 요약, 하이라이트 생성, 비디오 감시 등 다양한 분야에서 폭넓게 응용될 수 있다.

ASM-Loc: 약지도 시간적 행동 탐지를 위한 행동 인식 세그먼트 모델링

논문 요약: ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성

5. 추가 참고 자료

ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization

Abstract

1. Introduction