Curriculum-Listener: 일관성과 상보성을 고려한 오디오 강화 Temporal Sentence Grounding
본 논문은 자연어 쿼리를 통해 비디오의 특정 순간을 찾는 Temporal Sentence Grounding (TSG) 작업을 위해 오디오 정보를 효과적으로 활용하는 Adaptive Dual-branch Promoted Network (ADPN)를 제안합니다. ADPN은 visual-only 브랜치와 audio-visual 브랜치를 함께 학습하여 모달리티 간 간섭을 줄이고, 텍스트 의미를 가이드로 오디오와 비전의 일관성 및 상보성을 탐색하는 Text-Guided Clues Miner (TGCM)을 도입합니다. 또한, 자체 인식 방식으로 샘플의 난이도를 평가하여 노이즈를 줄이는 curriculum learning 기반 최적화 전략을 사용하여 오디오 정보 활용 성능을 극대화합니다. 논문 제목: Curriculum-Listener: Consistency- and Complementarity-Aware Audio-Enhanced Temporal Sentence Grounding
논문 요약: Curriculum-Listener: Consistency- and Complementarity-Aware Audio-Enhanced Temporal Sentence Grounding
- 논문 링크: Proceedings of the 31st ACM International Conference on Multimedia (MM '23), October 29-November 3, 2023
- 저자: Houlun Chen, Xin Wang, Xiaohan Lan, Hong Chen, Xuguang Duan, Jia Jia, Wenwu Zhu (Tsinghua University)
- 발표 시기: 2023년 (ACM International Conference on Multimedia)
- 주요 키워드: Temporal Sentence Grounding, Audio-visual Learning, Curriculum Learning
1. 연구 배경 및 문제 정의
- 문제 정의:
자연어 쿼리가 주어졌을 때 정리되지 않은 비디오에서 의미적으로 일치하는 특정 순간을 검색하는 Temporal Sentence Grounding (TSG) 작업에서, 기존 연구들이 시각 정보에만 초점을 맞추고 풍부한 의미를 포함할 수 있는 오디오 정보를 간과하는 문제를 해결하고자 한다. 오디오를 활용할 때 발생하는 두 가지 주요 도전 과제는 다음과 같다:- 오디오와 시각 정보 간의 일관성(consistency)과 상보성(complementarity)을 효과적으로 탐색하기 어렵다.
- 두 모달리티 간의 정보 밀도 및 노이즈 수준 차이를 처리해야 한다 (오디오는 일반적으로 정보량이 적고 노이즈가 포함될 수 있음).
- 기존 접근 방식:
대부분의 기존 TSG 연구는 비디오의 시각 정보(RGB, optical flow, depth 등)에만 초점을 맞추고, Attention Mechanism, Hadamard Product, CNN, GNN과 같은 기술을 사용하여 쿼리와 비디오 간의 상호작용을 모델링했다. 오디오 모달리티를 고려한 소수의 연구(PMI-LOC, UMT)는 오디오를 단순히 추가적인 모달리티로 취급하여, 오디오와 시각 간의 일관성 및 상보성을 충분히 탐구하지 못했으며, 오디오-시각 상호작용 모델링 시 텍스트 쿼리의 중요성을 간과했다.
2. 주요 기여 및 제안 방법
- 논문의 주요 기여:
- Audio-enhanced Temporal Sentence Grounding (ATSG) 문제를 연구하고, 오디오를 효과적으로 도입하기 위한 Adaptive Dual-branch Promoted Network (ADPN)를 제안했다.
- 텍스트 의미에 의해 유도되는 오디오-시각 상호작용 과정에서 일관성과 상보성을 모두 고려하여 중요한 위치 파악 단서(locating clues)를 발견하는 Text-Guided Clues Miner (TGCM)를 설계했다.
- 학습 샘플의 난이도를 노이즈 강도의 척도로서 self-aware 방식으로 적응적으로 평가하고, 오디오 모달리티의 노이즈를 제거하기 위해 최적화 프로세스를 적응적으로 조정하는 새로운 커리큘럼 학습 전략을 제안했다.
- 광범위한 실험을 통해 ADPN이 기존 SOTA 방법들과 비교하여 경쟁력 있는 성능을 달성하며, 오디오 모달리티의 도움으로 상당한 성능 향상을 얻음을 입증했다.
- 제안 방법:
논문은 **Adaptive Dual-branch Promoted Network (ADPN)**를 제안한다.- 듀얼 브랜치 아키텍처: 시각적 단서를 유지하면서 오디오-시각 상호작용의 이점을 활용하기 위해, visual-only branch와 audio-visual branch를 공동으로 학습시킨다. 이는 모달리티 간 간섭을 억제하고 오디오가 중복되거나 노이즈가 많을 때 시각 정보로부터 유효한 정보를 유지하는 데 기여한다.
- Text-Guided Clues Miner (TGCM): 텍스트 의미론에 의해 유도되는 오디오-시각 상호작용을 모델링하기 위해 Transformer 기반의 TGCM을 제안한다. TGCM은 텍스트의 semantic entity-level feature를 사용하여 오디오와 시각에서 공유된 의미론을 추출하고, 이를 다시 오디오 및 시각 feature로 전파하여 일관되고 보완적인 구성 요소를 통합한다.
- Curriculum Optimization Strategy: 오디오 모달리티의 노이즈로 인해 발생하는 결함 있는 gradient가 네트워크에 역전파되는 것을 방지하기 위해 커리큘럼 학습 전략을 설계한다. 오디오-시각 및 시각-전용 브랜치의 출력으로부터 샘플의 난이도 등급을 평가하고, 오디오 도입이 학습을 더 어렵게 만들 때 (즉, 오디오에 노이즈가 많을 가능성이 높을 때) 오디오-시각 브랜치로부터의 gradient를 제거하여 손실 함수를 조정한다.
3. 실험 결과
- 데이터셋:
Charades-STA [11] 및 ActivityNet Captions [19] 벤치마크 데이터셋을 사용했다.- Charades-STA: 실내 활동 비디오, 원본 사운드트랙 동반. 학습 12,408개, 테스트 3,720개 annotation. 시각 feature는 I3D, 오디오 feature는 PANN을 사용.
- ActivityNet Captions: 사용자 생성 비디오, 오디오 동반 (일부 배경 음악 대체). 학습 33,721개, 테스트 15,753개 annotation. 시각 feature는 C3D, 오디오 feature는 VGGish를 사용.
- 주요 결과:
- 전반적인 성능: Charades-STA 데이터셋에서 대부분의 지표에서 SOTA 성능을 달성했으며, 특히 R1@0.7과 mIoU에서 높은 성능을 보였다. ActivityNet Captions 데이터셋에서도 R1@0.7과 mIoU에서 최고 성능을 기록하여 일관성을 유지했다. 기존 오디오 활용 모델(PMI-LOC, UMT) 대비 더 높은 성능 향상을 보이며, ADPN이 오디오의 잠재력을 더 잘 활용함을 입증했다.
- Ablation Studies:
- 공동 학습 전략: 시각 전용 및 오디오-시각 브랜치 모두 개별 학습보다 함께 학습할 때 예측 정확도가 크게 향상되어, 정보 격차 완화 및 시각 정보 유효성 유지에 기여함을 확인했다.
- TGCM: 텍스트 guidance 제거 시 성능이 급격히 하락하고, TGCM이 없을 경우 성능이 더욱 저하되어, 텍스트, 오디오, 시각 모달리티 간 공유되는 중요한 위치 단서 발견 및 증폭에 필수적임을 입증했다.
- Curriculum Learning 전략: 적용 시 모든 지표에서 성능이 향상되었으며, 적절한 하이퍼파라미터 설정에서 안정적인 성능 향상을 보였다.
- 오디오의 보완적 역할: 시각 입력의 ground truth 순간이 부분적으로 마스킹된 상황에서도 오디오-시각 브랜치가 시각 전용 브랜치보다 우수한 성능을 보여, ADPN이 오디오 모달리티로부터 보완적인 단서를 포착하며, 일부 시나리오에서는 시각 정보 없이도 작동함을 시사했다.
- 정성적 분석: "laugh", "discuss"와 같이 오디오와 두드러지게 상관관계가 있는 쿼리 단어에 대해 오디오-시각 상호작용이 정확한 예측을 생성하는 데 도움을 주었다. 시각 정보가 부족할 때 오디오에 대한 attention이 핵심적인 보완 단서를 제공하며, 모델이 텍스트와 비디오 간의 미세한 상관관계를 포착할 수 있음을 보여주었다.
4. 개인적인 생각 및 응용 가능성
- 장점:
오디오 모달리티가 지닌 노이즈 특성과 시각 정보와의 정보 격차를 효과적으로 다루기 위해 듀얼 브랜치 구조와 커리큘럼 학습 전략을 도입한 점이 매우 인상 깊다. 특히, 시각 정보가 불완전하거나 부족할 때 오디오가 보완적인 역할을 수행할 수 있음을 실험적으로 명확히 입증한 부분이 강점이다. 텍스트 쿼리를 가이드로 활용하여 오디오-시각 상호작용의 일관성과 상보성을 탐색하는 TGCM의 설계는 멀티모달 학습의 깊이를 더했다. - 단점/한계:
오디오의 도움이 모든 활동 카테고리에서 효과적인 것은 아니며, 음향적 의미가 약하거나 패턴이 모호한 활동에서는 성능 향상에 한계가 있었다. 이는 오디오 모달리티의 본질적인 특성에서 기인하는 것으로 보인다. 또한, 커리큘럼 학습 전략의 하이퍼파라미터(임계값) 설정이 성능에 영향을 미치므로, 최적의 값 탐색이 중요하며, 이는 실제 적용 시 추가적인 튜닝을 요구할 수 있다. - 응용 가능성:
본 연구에서 제안된 방법론은 비디오 검색, 이벤트 감지, 비디오 요약 등 다양한 멀티모달 비디오 분석 태스크에 적용될 수 있다. 특히, 시각 정보만으로는 파악하기 어려운 미묘한 활동이나 소리 기반의 이벤트(예: 웃음소리, 대화, 특정 기계음)를 정확하게 탐지하는 데 유용할 것이다. 사용자 생성 콘텐츠(UGC)와 같이 노이즈가 많거나 불완전한 비디오 데이터에서 특정 순간을 찾는 데 효과적인 솔루션을 제공할 잠재력이 있다.
Chen, Houlun, et al. "Curriculum-listener: Consistency-and complementarity-aware audio-enhanced temporal sentence grounding." Proceedings of the 31st ACM International Conference on Multimedia. 2023.
Curriculum-Listener: Consistency- and Complementarity-Aware Audio-Enhanced Temporal Sentence Grounding
Houlun Chen<br>chenhl23@mails.tsinghua.edu.cn<br>DCST, Tsinghua University
Xin Wang*<br>xin_wang@tsinghua.edu.cn<br>DCST, BNRist, Tsinghua University
Xiaohan Lan<br>lanxh20@tsinghua.org.cn<br>DCST, Tsinghua University
Hong Chen<br>h-chen20@mails.tsinghua.edu.cn<br>DCST, Tsinghua University
Xuguang Duan<br>duan_xg@outlook.com<br>DCST, Tsinghua University
Jia Jia*<br>Wenwu Zhu*<br>{jjia,wwzhu}@tsinghua.edu.cn<br>DCST, BNRist, Tsinghua University
Abstract
Temporal Sentence Grounding은 자연어 쿼리가 주어졌을 때 비디오 순간을 검색하는 것을 목표로 한다. 대부분의 기존 연구는 비디오의 시각 정보에만 초점을 맞추고, 풍부한 의미를 포함할 수 있는 자연스럽게 동반되는 오디오를 고려하지 않는다. 오디오를 고려하는 소수의 연구들은 단순히 오디오를 추가적인 modality로 간주하며 다음을 간과한다: i) 오디오와 시각 정보 간의 일관성(consistency)과 상보성(complementarity)을 탐색하는 것이 쉽지 않다는 점, ii) 이러한 탐색은 두 modality에서 서로 다른 수준의 정보 밀도와 노이즈를 처리해야 한다는 점.
이러한 도전 과제를 해결하기 위해, 우리는 **Adaptive Dual-branch Promoted Network (ADPN)**를 제안하여 오디오와 시각 정보 간의 일관성과 상보성을 활용한다: i) visual-only branch와 audio-visual branch를 공동으로 학습하여 inter-modal interference를 동시에 제거할 수 있는 dual-branch pipeline을 도입한다. ii) **Text-Guided Clues Miner (TGCM)**를 설계하여 텍스트 의미에 의해 유도되는 audio-visual interaction 과정에서 일관성과 상보성을 모두 고려함으로써 중요한 위치 파악 단서(locating clues)를 발견한다. iii) 새로운 curriculum-based denoising optimization 전략을 제안한다. 이 전략에서는 샘플 난이도를 노이즈 강도의 척도로서 self-aware 방식으로 적응적으로 평가한다.
광범위한 실험 결과는 우리 방법의 state-of-the-art 성능을 보여준다.
CCS CONCEPTS
- Computing methodologies Artificial intelligence.
KEYWORDS
audio-visual; temporal sentence grounding; curriculum learning
ACM Reference Format:
Houlun Chen, Xin Wang, Xiaohan Lan, Hong Chen, Xuguang Duan, Jia Jia, and Wenwu Zhu. 2023. Curriculum-Listener: Consistency- and Comp-lementarity-Aware Audio-Enhanced Temporal Sentence Grounding. In Proceedings of the 31st ACM International Conference on Multimedia (MM '23), October 29-November 3, 2023, Ottawa, ON, Canada. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3581783.3612504
Figure 1: TSG에서 (a) **일관성(consistency)**과 (b) **상보성(complementarity)**에 대한 예시.
(a) 시각적 내용과 발소리(footsteps) 소리가 "계단을 내려간다(walks down stairs)"는 문장과 일관되게 일치한다.
(b) "웃는(laughing)" 동작을 시각적으로 구별하여 위치를 파악하기는 어렵지만, 웃음소리(laughter)는 보완적인 위치 단서를 제공한다.
1 INTRODUCTION
Temporal Sentence Grounding (TSG) [1, 11]은 정리되지 않은(untrimmed) 비디오에서 설명적인 자연어 쿼리와 의미적으로 일치하는 특정 순간을 검색하는 것을 목표로 한다 [21]. 오랫동안 기존의 TSG 연구들 [39, 46, 60, 61]은 비디오 내의 정적인 프레임만을 고려했다. 멀티모달 학습에서 영감을 받아, 최근 TSG 연구들 [1, 9, 26]은 비디오 내의 여러 modality를 통합하고 융합하여 더 나은 성능을 달성하고 있다. 여기서 모든 modality는 RGB 이미지, optical flow, depth 등을 포함하지만 이에 국한되지 않는 시각 정보에서 파생된다. 그러나 이러한 연구들은 비디오에 자연스럽게 동반되는 오디오 신호를 무시하는데, 오디오 신호 또한 유용하고 풍부한 의미론적 정보를 포함할 수 있다. 오디오 신호는 시간적으로나 의미적으로 시각 신호와 일관성을 가지며, 시각 정보가 없거나 인식 불가능할 때 보완적인 식별 단서를 제공한다. 비디오 객체 분할 및 비디오 이벤트 인식과 같은 다른 많은 비디오 분석 task에 대한 연구 [2, 17, 37, 38, 40, 41]는 오디오가 비디오 내 객체 및 활동에 대한 더 깊은 이해에 기여한다는 것을 입증했다. Figure 1에서 보듯이, TSG 또한 오디오로부터 이점을 얻으므로, 더 나은 순간 localization을 위해 시각 및 오디오 modality를 결합하는 것은 탐구할 가치가 있다.
비록 몇몇 연구들 [8, 31]이 TSG를 위해 오디오 modality를 고려했지만, 다음과 같은 한계점을 가지고 있다. 첫째, 이들은 오디오를 다른 modality와 동질적인 추가 modality로만 취급하고, 서로 다른 modality를 고려하지 않고 신경망 아키텍처를 사용하여, 오디오와 시각 간의 일관성 및 상보성을 충분히 탐구하지 못했다. 게다가, 이들은 오디오-시각 상호작용을 모델링할 때 텍스트의 중요성을 무시하는데, 텍스트 쿼리는 다른 modality와 공유되는 localization을 위한 의미론적 정보를 포함할 수 있다.
따라서 본 논문에서는 이러한 한계점을 극복하기 위해 **Audio-enhanced Temporal Sentence Grounding (ATSG)**을 연구한다. 여기서 오디오는 보조 modality 역할을 하며, 시각 정보가 부족하거나 손상되었을 때 특히 시각과 오디오를 모두 포괄적으로 활용하여 더 정확한 localization 단서를 포착하는 것을 목표로 한다. 그러나 ATSG를 다루는 것은 두 가지 도전 과제를 제기한다: i) 오디오와 시각 간의 일관성 및 상보성을 탐구하는 것이 쉽지 않다. ii) 이러한 탐구는 두 modality 간의 정보 밀도 및 노이즈 수준의 차이를 다룰 수 있는 능력을 요구한다. 오디오는 일반적으로 정보량이 적고 노이즈가 포함된 정보를 포함하기 때문이다.
이러한 도전 과제를 해결하기 위해, 우리는 오디오 도입을 통해 localization 단서를 더 잘 포착하기 위한 ATSG용 **Adaptive Dual-branch Promoted Network (ADPN)**를 제안한다. i) 더 많은 modality가 도입될 때 modality 간 간섭을 억제하면서 오디오로부터 추가적인 의미론적 정보를 활용하기 위해, 우리는 visual-only branch와 audiovisual branch를 공동으로 학습시키는 dual-branch pipeline을 설계하여 정보 격차를 메운다. 이는 오디오가 중복되거나 노이즈가 많을 때 시각 정보로부터 유효한 정보를 유지하는 데 기여한다. ii) 오디오-시각 상호작용을 더 잘 모델링하기 위해, 우리는 Transformer 기반의 Text-Guided Clues Miner (TGCM)를 설계하여 텍스트 쿼리의 의미론적 정보를 가이드로 삼아 오디오와 시각 간의 일관성 있는(consistent) 구성 요소와 상보적인(complementary) 구성 요소를 모두 활용한다. 이 과정에서 텍스트는 공유된 의미론적 정보를 오디오 및 시각 feature로 전달하는 다리 역할을 하며, 이 과정에서 중요한 localization 단서를 발견한다. iii) 노이즈 정보를 효과적으로 분리하고 제거하기 위해, 우리는 denoising 프로세스를 modality 불균형 문제로 간주하고 curriculum learning 전략을 설계한다. 더 구체적으로, 우리는 두 branch의 출력으로부터 노이즈 강도를 근사적으로 측정하기 위한 일련의 난이도 평가 기준을 개발하고, 특정 loss function에 가중치를 재조정하여 이 두 branch의 최적화 프로세스를 적응적으로 조정한다.
우리는 Charades-STA [11] 및 ActivityNet Captions [19] 벤치마크 데이터셋에 대해 광범위한 실험을 수행하여, 우리의 ADPN이 baseline 방법들에 비해 state-of-the-art 성능을 달성함을 보여준다. 또한, ablation study는 우리의 ADPN이 시각 정보의 중요한 의미론적 정보를 유지함으로써 오디오의 노이즈를 제거할 수 있으며, 특히 시각 정보가 손상되었을 때 오디오로부터 핵심 localization 단서를 포착할 수 있음을 나타낸다. 마지막으로, 우리는 ADPN이 오디오와 시각 간의 일관성 및 상보성으로부터 어떻게 이점을 얻는지를 설명하기 위해 case study를 수행하여 우리 방법의 **해석 가능성(interpretability)**을 제공한다.
요약하자면, 우리의 기여는 다음과 같이 요약될 수 있다: (1) 우리는 **Audio-enhanced Temporal Sentence Grounding (ATSG)**을 연구하고, 오디오를 도입하기 위한 **Adaptive Dual-branch Promoted Network (ADPN)**를 제안한다. (2) 우리는 **Text-Guided Clues Miner (TGCM)**를 설계하여 텍스트, 오디오, 시각 간의 상호작용 과정에서 일관성(consistency)과 상보성(complementarity)을 모두 고려하여 중요한 단서를 발견한다. (3) 우리는 새로운 curriculum learning 전략을 설계하여, 학습 샘플의 난이도를 self-aware 방식으로 측정하고, 오디오 modality의 노이즈를 제거하기 위해 최적화 프로세스를 적응적으로 조정한다. (4) 광범위한 실험을 통해 우리의 ADPN이 baseline에 비해 경쟁력 있는 성능을 달성하고, 오디오 modality의 도움으로 상당한 성능 향상을 얻음을 입증한다.
2 RELATED WORKS
Temporal Sentence Grounding (TSG). TSG [1, 11]는 자연어 쿼리가 주어졌을 때 비디오 세그먼트를 검색하는 것을 목표로 하며, 이는 다중 모달리티 간의 상관관계를 이해해야 한다. 기존의 supervised TSG 방법들은 크게 두 가지 범주로 나눌 수 있다: (1) Proposal-based methods [4, 11, 58, 61, 64]는 후보 세그먼트를 검색하고 쿼리와 매칭한다. (2) Proposal-free methods [24, 39, 59, 60]는 시작 및 종료 타임스탬프 예측을 회귀 문제로 모델링한다. 이 외에도, 몇몇 연구들은 성능과 효율성의 균형을 맞추기 위해 이 두 패러다임을 결합하는 것을 탐구한다 [27, 54]. 이 모든 방법에서 중요한 부분은 쿼리와 비디오 간의 상호작용 또는 융합이다. 대부분의 TSG 연구는 비디오의 RGB 정보에만 초점을 맞추고, Attention Mechanism [4, 10, 39, 56, 58, 62, 63], Hadamard Product [39, 64], Convolutional Neural Networks (CNN) [39, 58], Graph Neural Networks (GNN) [7, 28, 49]와 같은 기술을 사용하여 쿼리와 비디오 내의 상호작용 또는 융합을 모델링한다. 보다 합리적인 쿼리-비디오 의미 정렬을 위해 일부 연구 [51, 60, 63]는 다단계(multi-level/-stage) 상호작용 방식을 채택하는 것을 탐구한다.
RGB 정보만으로는 복잡하고 미묘한 의미를 포착하기 어렵기 때문에, 최근 TSG 연구들은 더 많은 모달리티를 통합하고 있다. MCN [1]은 RGB 이미지와 optical flow를 late fusion 전략으로 통합한다. Chen et al. [9]은 RGB의 중복성을 발견하고 transformers를 이용한 동적 융합 메커니즘으로 비디오의 RGB 이미지, optical flow, depth 모달리티를 통합한다. Liu et al. [26, 29]는 연속적인 RGB 프레임에서 얻는 저수준 정보만으로는 복잡한 활동을 설명하기에 부족하다고 주장하며, 움직임 인식을 위해 RGB 이미지 외에 optical flow 정보 [26]와 객체 feature [26, 29]를 도입한다.
그러나 이러한 모달리티들은 여전히 시각 정보에서 파생되며 유사한 의미를 공유하므로, 순간 위치 파악을 위한 포괄적인 단서를 제공하지 못한다. 따라서 몇몇 TSG 연구들은 오디오를 고려하기 시작했다. PMI-LOC [8]는 RGB, motion, audio를 채택하고 시퀀스 및 채널 수준에서 쌍별 모달리티 상호작용을 설계한다. UMT [31]는 시각 및 오디오를 융합하기 위한 통합 멀티모달 Transformer 프레임워크를 제안한다. 그러나 이들은 오디오와 시각 모달리티 간의 정보 격차를 무시한다. 우리는 이 격차를 메우기 위해 신중하게 설계된 Text-Guided Clues Miner (TGCM)를 포함하는 이중 분기 상호 촉진 파이프라인을 제안한다.
Curriculum Learning. Bengio et al. [3]에 의해 처음 제안된 Curriculum learning은 인간의 교육 과정에서 영감을 받은 학습 전략으로, 쉬운 데이터부터 어려운 데이터로 모델을 학습시키는 것을 의미한다. 이는 난이도 측정에 따라 학습 과정을 조절하는 것으로 일반화될 수 있으며, 학습 데이터의 노출 순서를 변경하는 것에만 국한되지 않는다. Wang et al. [53]은 curriculum learning이 Difficulty Measurer + Training Scheduler의 일반적인 프레임워크로 통합될 수 있으며, 이 프레임워크를 기반으로 Pre-defined Curriculum Learning [3, 44], Self-paced Learning [20, 36], Transfer Teacher [14, 65], Reinforcement Learning Teacher [13, 35] 등 다양한 curriculum learning 전략으로 분류될 수 있다고 주장한다. 노이즈가 있는 샘플은 어려운 샘플로 간주될 수 있으므로, curriculum learning은 많은 머신러닝 문제에서 학습 과정의 노이즈를 제거하는 데 사용되어 왔다 [6, 34, 45].
Figure 2: (a) ATSG를 위한 우리가 제안하는 **Adaptive Dual-branch Promoted Network (ADPN)**의 개요. 이 네트워크에서는 visual-only branch와 audio-visual branch 두 개가 함께 학습된다. audio-visual branch의 출력은 시작 및 종료 타임스탬프를 예측하는 데 사용된다. (b) **Text-Guided Clues Miner (TGCM)**의 상세 다이어그램. 여기서는 텍스트가 오디오 및 시각 모달리티로 공유 정보를 전달하는 다리 역할을 한다. (c) 우리의 self-aware difficulty evaluator는 두 branch의 시작 및 종료 타임스탬프 확률 분포를 입력으로 받아 세 가지 난이도 등급을 생성하여 최적화 과정을 조절한다.
Imbalanced Multimodal Learning. 오디오는 오디오-시각 일관성 및 상보성을 파괴할 수 있는 노이즈 정보를 동반할 수 있다. 예를 들어, 일부 사용자 생성 비디오의 배경 음악은 시각 콘텐츠와 의미론적 상관관계가 약하여, 모델이 이 노이즈로부터 학습하고 시각 모달리티의 유효한 정보를 잊게 만들 수 있다. 그러나 기존 TSG 방법들 [8, 31]은 오디오 모달리티를 도입할 때 이 문제를 간과한다. 유사한 문제 중 하나는 **모달리티 불균형 문제(modality imbalance problem)**로, 이는 다른 모달리티의 간섭으로 인해 일부 모달리티가 완벽하게 학습되지 않는 것을 의미한다. 이는 멀티모달 및 머신러닝 분야에서 많은 주목을 받아왔다 [16, 52]. 많은 연구들이 서로 다른 모달리티의 학습 과정을 조율하기 위해 최적화 관점에서 이를 완화하려고 노력한다. Wu et al. [55]은 각 모달리티에 대한 Conditional Learning Speed를 정의하고 이에 따라 최적화 단계를 재조정한다. Jiang et al. [17]은 단일 모달리티의 판별적 지식을 멀티모달 학습 branch로 전달하기 위해 추가적인 Unidirectional Guiding Loss를 설계한다. Peng et al. [42]은 각 모달리티에 대한 최적화를 적응적으로 제어하기 위해 On-the-fly Gradient Modulation을 제안한다.
이러한 아이디어에서 영감을 받아, 우리는 self-aware difficulty evaluator의 안내를 받아 결함 있는 gradient를 제거하는 curriculum learning 전략을 설계하여 오디오-시각 학습을 조율한다.
3 PROPOSED METHOD
이 부분에서는 Adaptive Dual-branch Promoted Network (ADPN) (Figure 2 (a))에 대해 자세히 설명한다. 문제 정의(Section 3.1)를 제시한 후, feature encoding(Section 3.2) 및 text-audio / visual fusion(Section 3.3)의 기술적 세부 사항을 설명한다. 그런 다음, **공동 학습 전략(jointly-training strategy)**을 통해 오디오-비주얼 학습을 향상시키는 듀얼 브랜치 아키텍처(Section 3.4)를 설명한다. 오디오-비주얼 브랜치 내에서, 텍스트, 오디오 및 시각 모달리티 내의 **공유된 핵심 위치 단서(shared key locating clues)**를 발견하기 위해, 텍스트 의미론에 의해 유도되는 오디오-비주얼 상호작용을 모델링하는 Text-Guided Clues Miner (TGCM)(Section 3.5)를 설계한다. 마지막으로, 최적화 프로세스를 적응적으로 조정하는 커리큘럼 학습 전략(Section 3.6)을 소개한다.
3.1 Problem Formulation
ATSG에서 학습 데이터는 로 형식화될 수 있으며, 여기서 는 쿼리 입력, 는 비디오 입력, 는 ground truth 시작 및 종료 타임스탬프를 나타낸다. 쿼리 입력은 로 형식화되며, 비디오 입력 는 오디오 및 시각 모달리티로 나눌 수 있다. 즉, 이며, 여기서 이고 이다. 목표는 ground truth 어노테이션이 인 시작 및 종료 타임스탬프를 예측하는 것이며, 이는 로 표기된다.
3.2 Feature Encoding
쿼리(Queries)
우리는 쿼리를 여러 세분화된(granularities) 수준으로 인코딩한다.
단어 수준(word-level) feature인 는 단어 임베딩과 문자 임베딩으로부터 생성된다.
그 다음, 를 self-weighted pooling layer에 통과시켜 문장 수준(sentence-level) feature인 를 얻는다.
두 feature 간의 표현력(expressiveness)과 계산 비용의 균형을 맞추기 위해, 우리는 [39]에서 영감을 받은 recurrent 방식을 채택하여 문장을 여러 semantic entity-level feature인 로 압축한다. 여기서 이다.
우리는 recurrent 방식으로 서로 다른 초점(focus)을 가진 개의 guidance vector 를 계산하고, 를 query vector로 사용하여 attention mechanism을 통해 semantic entity-level feature 를 추출한다.
-번째 단계에서, 우리는 먼저 을 다음과 같이 계산한다:
여기서 와 는 학습 가능한 파라미터이며, 는 단계별(step-specific) 파라미터이다. [;]
는 concatenation 연산을 나타낸다.
이전 단계의 semantic entity 은 recurrent 과정에서 과거 정보(historical information)를 도입하기 위해 통합된다.
그 다음, 우리는 단어 수준 feature 에 additive attention을 사용하여 을 생성한다:
여기서 , , 는 학습 가능한 파라미터이며, 이다.
더욱 다양한(diversified) semantic entity-level feature를 추출하기 위해, 우리는 [25, 39]의 정규화(regularization) 기법을 손실 함수 로 사용하여 attention 가중치들이 서로 덜 유사하도록 강제한다:
여기서 는 를 생성할 때의 attention 가중치이며, 는 Frobenius norm을 나타낸다. 는 **항등 행렬(identity matrix)**이며, 는 서로 다른 가중치 분포 간의 중첩 정도(overlapping extent)를 제어하는 하이퍼파라미터이다.
비디오(Videos)
우리는 사전학습된 모델을 통해 오디오 및 시각 feature를 추출하고, 이들을 **동일한 차원으로 투영(project)**한다.
그 후, 이들에 위치 임베딩(positional encoding)을 추가하여 최종적으로 와 를 얻는다.
3.3 Text-Audio/Visual Fusion
쿼리에 의미론적으로 관련된 오디오/시각 부분에 초점을 맞추기 위해, 우리는 [58]에서 영감을 받아 쿼리 의미론(query semantics)에 의해 오디오/시각 feature를 fine-grained 방식으로 조절한다. 우리는 오디오/시각의 각 temporal feature unit에 의해 attend되는 동적으로 계산된 문장 표현(sentence representation)을 통해 오디오/시각 feature를 선형적으로 스케일링하고 시프트한다. 효율성을 높이기 위해 단어 수준(word-level) feature 대신 의미론적 엔티티 수준(semantic entity-level) feature를 사용한다. 표기상의 편의를 위해, 본 섹션에서는 텍스트-오디오(T-A) 및 텍스트-시각(T-V) 상호작용을 동일한 방식으로 모델링하므로, 위첨자/아래첨자 를 생략한다.
자세히 설명하면, 우리는 의 -번째 feature unit에 의해 attend되는 의미론적 엔티티 수준 feature 로부터 응축된 표현(condensed representation) 를 계산한다:
여기서 및 는 학습 가능한 파라미터이며, 이다.
그 다음, 우리는 계수 와 를 사용하여 를 스케일링하고 시프트한다:
여기서 및 는 학습 가능한 파라미터이다. 우리는 를 로 표기한다.
그 후, 우리는 Context-Query Attention [47, 57, 62]을 채택하여 텍스트-오디오/-시각 상호작용을 추가로 모델링한다. 우리는 먼저 [62]와 동일한 방식으로 유사도 행렬(similarity matrix) 를 계산하는데, 여기서 는 -번째 오디오/시각 feature와 -번째 의미론적 엔티티 수준 feature 간의 유사도를 나타낸다.
여기서 및 는 학습 가능한 파라미터이며, 는 Hadamard product를 나타낸다. 는 계산 시 차원 확장을 통해 계산된다.
그 다음, 우리는 context-to-query () 및 query-to-context () attention 가중치를 다음과 같이 계산한다:
여기서 및 는 의 row-wise 및 column-wise softmax 정규화이다.
그 다음, 우리는 텍스트와 융합된 오디오/시각 feature 를 계산한다:
여기서 FFN은 feed-forward network이며, 는 Hadamard product를 나타낸다.
마지막으로, 우리는 문장 수준 임베딩(sentence-level embedding) 를 에 연결(concatenate)하고 선형 레이어를 통과시켜 동일한 차원을 유지한다. 편의를 위해, 여전히 를 표기법으로 사용한다.
3.4 Dual-Branch Architecture
시각적 단서들을 유지하면서 오디오-시각 상호작용의 이점을 활용하기 위해, 우리는 데이터 흐름을 오디오-시각(audio-visual) 브랜치와 시각-전용(visual-only) 브랜치의 두 가지로 나누어 공동으로 학습시킨다. 오디오-시각 브랜치는 오디오, 시각, 텍스트를 입력으로 받아 이들을 융합하여 예측을 수행하는 반면, 시각-전용 브랜치는 시각 feature만을 사용하여 예측을 수행한다.
와 를 얻으면, 우리는 를 와 동일한 길이로 **재샘플링(re-sample)**하고, 오디오-시각 브랜치에서 TGCM을 통해 이들을 통과시켜 상호작용을 수행한다. 이에 대한 자세한 내용은 Section 3.5에서 설명할 것이다. 그 후, 인 오디오-시각 융합 feature 를 얻는다.
다음 연산들은 두 브랜치에 대해 동일하므로, 이 섹션의 나머지 부분에서는 위첨자/아래첨자 를 생략한다. 우리는 에 대해서는 오디오와 시각 간의 **전역 상관관계(global correlations)**를 포착하고, 에 대해서는 시각 내 **모달 내 상관관계(intra-modal correlations)**를 포착하기 위해 residual connection이 있는 self-attention을 사용한다.
여기서 self-attn은 self-attention layer를 나타낸다. 마지막으로, [62]를 따라 Transformer 기반의 predictor를 사용하여 시작 및 종료 타임스탬프의 확률 분포, 즉 를 생성하며, 이는 다음과 같이 상세화될 수 있다:
\begin{aligned} \mathbf{H}^{s} & =\text { multi-head_self-attn }(\operatorname{conv} 1 \mathrm{~d}(\widetilde{\mathbf{X}})) \\ \mathbf{H}^{e} & =\text { multi-head_self-attn }\left(\operatorname{conv} 1 \mathrm{~d}\left(\mathbf{H}^{s}\right)\right) \\ \hat{P}^{s / e} & =\operatorname{softmax}\left(\mathrm{FFN}\left(\left[\mathbf{H}^{s / e} ; \widetilde{\mathbf{X}}\right]\right)\right) \end{aligned}여기서 multi-head_self-attn, conv1d, FFN은 각각 multi-head self-attention layer, channel-wise separable 1D convolution, feed-forward network를 나타낸다. 는 융합된 feature 또는 시각 feature로부터 예측된 시작/종료 지점의 확률 분포이다. 우리는 [62]를 따라 moment localization loss를 채택한다:
여기서 CE는 cross-entropy loss를 나타낸다. 는 시작/종료 지점에서만 가 1로 설정되는 supervision을 나타낸다. 두 브랜치를 결합한 예측의 moment localization loss는 다음과 같다:
총 손실(total loss)은 다음과 같이 표현될 수 있다:
추론(inference) 시에는 **Maximum Likelihood Estimation (MLE)**을 사용하여 오디오-시각 브랜치로부터 제약 조건 하에 예측된 를 얻는다.
3.5 Text-Guided Clues Miner (TGCM)
오디오와 시각 간의 복잡한 상관관계를 포착하기 위해, 우리는 텍스트 의미론(text semantics)에 의해 유도되는 오디오-시각 상호작용을 모델링하기 위한 TGCM을 제안한다. TGCM은 **추출(extracting)**과 **전파(propagating)**의 두 단계로 구성된다. 자세한 내용은 Figure 2 (b)를 참조하라.
먼저, 우리는 semantic entity-level feature를 사용하여 attention mechanism을 통해 오디오와 시각에서 공유된 의미론(shared semantics)을 추출한다. 이때 는 query로, 는 key 및 value vector로 사용된다.
\mathrm{Q}^{e(a / v)}=\text { multi-head_attn }\left(q=\mathrm{Q}^{e}, k=\overline{\mathrm{X}}^{a / v}, v=\overline{\mathrm{X}}^{a / v}\right)여기서 multi-head_attn은 지정된 query , key , value 를 사용하는 multi-head attention layer를 나타낸다. 추출 후, 우리는 일관되고 보완적인 구성 요소를 통합하기 위해 와 를 residual connection과 함께 더한다:
그 다음, 우리는 를 query로, 를 key 및 value vector로 사용하여 를 오디오 및 시각 feature로 **전파(propagate)**한다.
\overline{\mathrm{X}}^{q(a / v)}=\text { multi-head_attn }\left(q=\overline{\mathrm{X}}^{a / v}, k=\overline{\mathrm{Q}}^{e}, v=\overline{\mathrm{Q}}^{e}\right)+\overline{\mathrm{X}}^{a / v}마지막으로, 와 를 더하여 **융합된 feature **를 얻는다:
3.6 Curriculum Optimization Strategy
이 섹션에서는 Figure 2 (c)에 나타난 바와 같이, 오디오 양식(modality)의 노이즈 강도 측정치로서 각 샘플의 난이도를 평가한다. **오디오-시각(audio-visual) 및 시각-전용(visual-only) 브랜치의 출력 및 **를 고려하여, 우리는 경계 수준(boundary-level) supervision 를 로 확장한다. 이때 이며, 은 일 때이다. 여기서 는 **확장 계수(expansion coefficient)**이다. 오디오-시각 브랜치()와 시각-전용 브랜치()에 대한 각 샘플의 난이도 등급은 다음과 같다:
여기서 값이 낮을수록 해당 브랜치에 대해 더 어려운 샘플임을 의미한다. 이 두 브랜치 간의 **상대적 난이도 등급 **는 다음과 같이 계산할 수 있다:
여기서 는 sigmoid 함수를 나타낸다. 는 오디오 양식이 도입될 때 샘플의 난이도를 반영하며, 값이 낮을수록 오디오 도입이 시각 정보만으로 학습하는 것보다 학습을 더 어렵게 만든다는 것을 의미한다. 이는 모델이 충분히 학습되었을 때 오디오의 노이즈 측정치로 근사할 수 있다. 우리는 를 로 표기한다.
오디오의 노이즈로 인해 발생하는 결함 있는 gradient가 네트워크에 역전파되는 것을 방지하기 위해, 우리는 의 안내에 따라 손실 함수를 조정한다. Equation (12)의 를 각 샘플에 대해 다음과 같이 수정한다:
여기서 는 **지시 함수(indicator function)**이며, 즉 이고 일 때 이고, 다른 상황에서는 이다. 와 는 임계값 하이퍼파라미터이다. 이 조건은 모델이 시각-전용 브랜치에서 충분히 좋은 성능을 보이고, 오디오-시각 브랜치보다 훨씬 더 나은 성능을 보일 때 오디오-시각 브랜치로부터의 gradient를 제거한다는 것을 의미한다. 이는 오디오 양식에 상당한 노이즈가 있을 가능성이 높다는 것을 나타낸다. 오디오에 노이즈가 있을 때 오디오-시각 브랜치에서 gradient를 제거하면 모델이 시각 양식의 유효한 정보를 더 잘 기억하게 된다.
4 EXPERIMENTS
4.1 Datasets and Metrics
우리는 TSG task를 위한 벤치마크 데이터셋인 **Charades-STA [11]**와 **ActivityNet Captions [19]**를 사용하여 실험을 수행한다.
Charades-STA. Charades-STA [11]는 실내 활동에 대한 짧은 비디오를 포함한다. 이 비디오들은 후반 작업(post-edited)을 거치지 않았으며, 원본 사운드트랙이 함께 제공된다. 우리는 학습용으로 12,408개, 테스트용으로 3,720개의 annotation을 사용한다.
ActivityNet Captions. ActivityNet Captions [19]는 Charades-STA보다 훨씬 긴 사용자 생성 비디오를 포함한다. 이 비디오들은 오디오를 동반하지만, 일부는 원본 사운드트랙을 배경 음악으로 대체하는 등 후반 작업이 이루어졌다.
Table 1: Charades-STA 및 ActivityNet Captions 데이터셋에서의 성능(%) 비교.
"w/o audio"는 모델이 오디오 modality 없이 학습되었음을 의미하며, ". "는 오디오 modality가 도입되었을 때의 성능 향상을 나타낸다. 굵은 글씨와 밑줄로 강조된 값은 상위 2개 방법을 나타낸다 ("w/o audio" 변형은 비교 범위에 포함되지 않는다).
Method | Charades-STA | ActivityNet Captions | ||||||
---|---|---|---|---|---|---|---|---|
R1@0.3 | R1@0.5 | R1@0.7 | mIoU | R1@0.3 | R1@0.5 | R1@0.7 | mIoU | |
CTRL | - | 23.63 | 8.89 | - | - | 29.01 | 10.34 | - |
ACRN | - | 20.26 | 7.64 | - | - | 31.67 | 11.25 | - |
SCDM | - | 54.44 | 33.43 | - | 54.80 | 36.75 | 19.86 | - |
BPNet | 65.48 | 50.75 | 31.64 | 46.34 | 58.98 | 42.07 | 24.69 | 42.11 |
DEBUG | 54.95 | 37.39 | 17.69 | - | 55.91 | 39.72 | - | 39.51 |
GDP | 54.54 | 39.47 | 18.49 | - | 56.17 | 39.27 | - | 39.80 |
PfTML-GA | 67.53 | 52.02 | 33.74 | - | 51.28 | 33.04 | 19.26 | 37.78 |
DRN | - | 53.09 | 31.75 | - | - | 42.49 | 22.25 | - |
Moment-DETR | - | 55.65 | 34.17 | - | - | - | - | - |
CPNET | - | 60.27 | 38.74 | 52.00 | - | 40.56 | 21.63 | 40.65 |
PMI-LOC w/o audio | 56.84 | 41.29 | 20.11 | - | 60.16 | 39.16 | 18.02 | - |
PMI-LOC | - | - | ||||||
UMT | - | 48.31 | 29.25 | - | - | - | - | - |
ADPN w/o audio | 70.35 | 55.32 | 37.47 | 51.13 | 55.72 | 39.56 | 25.20 | 41.55 |
ADPN |
우리는 학습/테스트 분할을 위해 일반적으로 채택된 설정 [59]을 따른다. 실제로, 우리는 원본 비디오에서 오디오 feature를 추출하기 때문에 YouTube에 없는 일부 비디오로 인해 학습 세트에 33,721개, 테스트 세트에 15,753개의 annotation을 사용한다.
평가 지표 (Metrics)
우리는 "R{n}@{m}" (%)와 "mIoU" (%)를 평가 지표로 사용한다.
"R{n}@{m}"은 상위 개의 예측 결과 중, ground truth와의 IoU(Intersection-over-Union)가 보다 큰 결과가 하나 이상 있는 쿼리의 비율로 정의된다.
우리는 실험에서 "R1@0.3", "R1@0.5", "R1@0.7"을 사용한다.
"mIoU"는 테스트 시 ground truth와의 평균 IoU로 정의된다.
4.2 Implementation Details
텍스트 쿼리의 경우, 초기 단어 임베딩으로 300차원 GloVe [43] 벡터를 사용한다. Charades-STA의 경우, 시각 feature로는 I3D [5] feature를, 오디오 feature로는 PANN [18] feature를 적용한다. PANN은 AudioSet [12] 데이터셋으로 사전학습된 네트워크이다. ActivityNet Captions의 경우, 시각 feature로는 C3D [50] feature를, 오디오 feature로는 VGGish [15] feature를 적용한다. VGGish feature는 YouTube-100M [15] 데이터셋으로 사전학습된 VGG [48] 네트워크에 의해 추출된다.
초기 learning rate는 Charades-STA에 대해 0.00015, ActivityNet Captions에 대해 0.0005로 설정하고, AdamW [32] optimizer를 사용하며, 선형 learning rate decay와 1.0의 gradient clipping을 적용한다. 3개의 semantic entity가 추출되며, 와 는 0.3과 25로 고정된다. 는 3, 0.3으로 설정하고, 는 Charades-STA에 대해 0.25, ActivityNet Captions에 대해 0.5로 설정한다. 모델은 Charades-STA에 대해 batch size 32, ActivityNet Captions에 대해 batch size 64로 300 epoch 동안 학습하며, early stopping 전략을 채택한다. 모든 실험은 단일 NVIDIA TITAN X GPU에서 구현되었다.
4.3 Overall Performance
Table 1에서 우리는 ADPN을 두 가지 벤치마크 데이터셋에서 평가하고 다음 모델들과 비교한다: (1) Proposal-based: CTRL [11], ACRN [30], SCDM [58], BPNet [56]. (2) Proposal-free: DEBUG [33], GDP [7], PfTMLGA [46], DRN [60], Moment-DETR [22], CPNET [23]. 특히, 우리는 오디오를 TSG(Temporal Sentence Grounding) 솔루션에 통합한 UMT [31] 및 PMI-LOC [8]와도 ADPN을 비교한다. 또한, 오디오 없이 학습했을 때의 PMI-LOC 및 ADPN 결과도 제시하는데, 이 경우 ADPN은 visual-only branch만 학습한다.
Charades-STA 데이터셋에서 우리의 ADPN은 대부분의 metric에서 최고의 성능을 달성한다. 더 나아가, ADPN이 더 어려운 metric에서 훨씬 더 좋은 성능을 보인다는 점은 주목할 만하다. R1@0.7에서는 CPNET보다 2.36% 우수한 성능을 달성했지만, R1@0.5에서는 상대적으로 낮은 결과를 보였다. 또한, R1@0.5에서는 SCDM과 Moment-DETR보다 각각 3.25%, 2.04% 더 나은 성능을 보였고, R1@0.7에서는 각각 7.67%, 6.93% 더 우수한 성능을 기록했다. R1@0.7에서의 더 큰 성능 향상은 ADPN이 정확한 moment retrieval을 위해 미묘한 단서를 포착하는 데 탁월함을 증명한다. ActivityNet Captions 데이터셋에서도 우리의 방법은 여전히 비교할 만한 성능을 달성했으며, R1@0.7과 mIoU에서 최고 성능을 기록하여 Charades-STA에서의 성능과 일관성을 보였다.
PMI-LOC 및 UMT와 비교했을 때, ADPN은 오디오가 도입되었을 때 더 높은 성능 향상을 보인다. 특히 더 어려운 metric인 R1@0.5와 R1@0.7에서 두드러지는데, Charades-STA에서는 PMI-LOC 대비 176.87%, 300.00%의 향상을, ActivityNet Captions에서는 202.20%, 411.11%의 향상을 보였다. 이는 ADPN이 오디오의 잠재력을 더 잘 활용할 수 있음을 나타낸다. 우리는 visual modality만 개별적으로 사용했을 때 그리 어렵지 않은 샘플들에서 더 큰 성능 향상을 관찰했으며, 이는 오디오의 역할이 교정(rectifying)보다는 정제(refining)에 가깝다고 판단하게 한다. 이는 모델이 주로 오디오와 시각 정보 간의 상관관계를 통해 예측을 정제함으로써 더 나은 성능을 달성한다는 것을 의미한다. 따라서, 오디오는 종종 희소하고 노이즈가 많은 정보를 포함하며 보조적인 modality 역할을 하므로, 단순히 오디오에서 추가 정보를 개별적으로 활용하는 것보다 오디오-시각 상호작용에 더 많은 주의를 기울이는 것이 중요하다.
4.4 Ablation Studies
Table 2: Charades-STA에 대한 Ablation 연구.
""는 동일 모델 내에서 오디오-시각(audio-visual) 브랜치가 시각 전용(visual-only) 브랜치에 비해 성능이 향상되었음을 나타낸다.
Method | |R1@0.3 | R1@0.5 | R1@0.7 | mIoU |
---|---|---|---|---|
(1) ADPN w/ V-only | 70.35 | 55.32 | 37.47 | 51.13 |
(2) ADPN w/ F-only | 72.02 | 56.34 | 39.30 | 52.04 |
(3) ADPN w/o TG | 70.62 | 39.41 | 51.74 | |
(4) ADPN w/o TGCM | 70.65 | 56.26 | 38.41 | 51.30 |
(5) ADPN w/o CL | 70.67 | 56.72 | 39.62 | |
(6) ADPN-V (m) | 32.39 | 20.81 | 10.46 | 23.78 |
(7) ADPN-F (m) | ||||
(8) ADPN-V | 70.81 | 56.72 | 39.46 | 51.68 |
(9) ADPN-F |
우리는 제안하는 ADPN의 핵심 요소들을 평가하기 위해 Charades-STA에서 ablation 연구를 수행했으며, 그 결과는 Table 2에 제시되어 있다. 다음은 몇 가지 구현 세부 사항이다. (1) "w/ V-only": 를 사용하여 시각 전용(visual-only) 브랜치만 학습하고, 추론 시 이 브랜치의 예측을 사용한다. (2) "w/ F-only": 를 사용하여 오디오-시각(audio-visual) 브랜치만 학습하고, 추론 시 이 브랜치의 예측을 사용한다. (3) "w/o TG": TGCM에서 텍스트의 guidance를 제거하기 위해 텍스트 feature 를 와 동일한 형태의 무작위로 초기화된 학습 가능한 텐서 로 대체한다. (4) "w/o TGCM": TGCM을 제거하고, 를 재샘플링한 후 로 설정한다. (5) "w/o CL": 최적화 과정에서 adaptive adjustment를 수행하는 curriculum learning 전략을 제거한다. 즉, 로 설정한다. (6) "-V (m)": 시각 전용 브랜치와 오디오-시각 브랜치를 함께 학습하고, 추론 시 시각 전용 브랜치의 예측을 사용한다. 특히, 추론 시 시각 입력의 ground truth 부분에 해당하는 시각 feature와 동일한 평균 및 표준 편차를 가진 Gaussian noise로 마스킹한다. (7) "-F (m)": (6)과 동일한 작업을 수행하되, 추론 시 오디오-시각 브랜치의 예측을 사용한다. (8) "-V": 시각 전용 브랜치와 오디오-시각 브랜치를 함께 학습하고, 추론 시 시각 전용 브랜치의 예측을 사용한다. (9) "-F" (우리의 표준 모델): (8)과 동일한 작업을 수행하되, 추론 시 오디오-시각 브랜치의 예측을 사용한다.
공동 학습 전략 (Jointly-Training Strategy)
(1,2,8,9)를 비교해보면, 시각 전용 브랜치와 오디오-시각 브랜치 모두 개별적으로 학습했을 때보다 함께 학습했을 때 예측 정확도가 크게 향상됨을 알 수 있으며, 이는 우리의 공동 학습 전략의 유효성을 입증한다. 더 나아가, (9)는 (2)에 비해 R1@0.5에서 1.35%, R1@0.7에서 1.80%, mIoU에서 0.82%의 성능 향상을 달성했으며, 이는 (1)에서 (2)로의 향상 폭인 1.02%, 1.83%, 0.91%와 유사하다. 이는 우리의 공동 학습 전략이 오디오와 시각 정보 간의 정보 격차를 완화하고 시각 정보 내에 더 유효한 정보를 유지하여, 오디오-시각 협업을 통한 성능을 더욱 향상시킬 수 있음을 나타낸다. 이는 단순히 오디오 모달리티를 도입하는 것만큼이나 중요하다.
텍스트-가이드 단서 탐색기 (Text-Guided Clues Miner, TGCM)
(3)과 (9)를 비교하면, 텍스트 guidance를 제거했을 때 R1@0.3에서 1.37%, R1@0.5에서 0.38%, R1@0.7에서 1.69%의 급격한 성능 하락이 발생하며, 이는 더욱 정확한 예측을 위한 텍스트 guidance의 중요성을 입증한다. (4)에서 보듯이, TGCM이 없을 경우 R1@0.5와 R1@0.7에서 성능이 더욱 저하되는데, 이는 텍스트, 오디오, 시각 모달리티 내에서 공유되는 중요한 위치 단서를 발견하고 증폭시키는 것이 필수적임을 나타낸다.
커리큘럼 학습 전략 (Curriculum Learning Strategy)
(5)와 (9)를 비교하면, 우리의 curriculum learning 전략을 적용했을 때 네 가지 지표에서 성능이 R1@0.3에서 1.32%, R1@0.5에서 0.97%, R1@0.7에서 1.48%, mIoU에서 0.62% 향상된다. 우리의 curriculum learning 전략의 효과를 더욱 입증하기 위해, 두 가지 임계값 하이퍼파라미터 와 에 대한 추가 실험을 수행했으며, 그 결과는 Figure 3에 제시되어 있다. 보시다시피, 적절한 하이퍼파라미터에서는 성능 향상이 안정적이다. 흥미롭게도, 최적화 과정에서 불충분한( 가 높거나 가 작을 때) 또는 과도한( 가 작거나 가 높을 때) 조정은 모두 성능을 약화시킨다. 불충분한 조정은 노이즈로부터 발생하는 결함 있는 gradient를 완전히 억제하지 못하는 반면, 과도한 조정은 모델이 충분히 학습되지 않은 학습 초기 단계에서 일부 유효한 오디오 정보를 버리게 된다.
Figure 3: 우리의 curriculum learning 전략에서 서로 다른 와 에 대한 ablation 결과. 주황색 점선은 curriculum learning 전략이 비활성화되었을 때의 baseline 성능을 나타낸다. (a)에서 는 0.3이고, (b)에서 는 0.25이다.
우리의 ADPN이 오디오로부터 위치 단서를 실제로 포착하는지를 추가로 검증하기 위해, 추론 시 시각 입력의 ground truth 순간이 부분적으로 마스킹되는 실험을 설계하고, 시각 전용 브랜치와 오디오-시각 브랜치의 성능 차이를 관찰했다. Table 2의 (6)~(9)에서 보듯이, 시각 정보가 손상되었음에도 불구하고 오디오-시각 브랜치가 여전히 시각 전용 브랜치보다 우수한 성능을 보인다. 이는 우리의 ADPN이 오디오 모달리티로부터 localization을 위한 보완적인 단서를 포착하며, 일부 시나리오에서는 시각 정보 없이도 작동함을 나타낸다.
우리의 핵심 구성 요소 중 어느 하나라도 제거했을 때 성능이 일관되게 유사한 양만큼 하락하는 것은, 우리의 모든 설계가 효과적인 오디오-시각 공동 학습에 똑같이 필수적임을 시사한다. 핵심 유닛들은 다양하고 불균형한 모달리티를 다룰 때 개별적으로 그리고 유연하게 더 일반적인 시나리오로 전이될 수 있다. 이는 특히 특정 하이퍼파라미터에 의존하지 않는 공동 학습 전략과 TGCM에 적합하며, 이러한 기술들을 쉽게 적용하는 데 대한 장벽을 크게 낮춘다.
4.5 Qualitative Analysis
우리는 Figure 4에서 보여지는 바와 같이 사례 연구를 수행하여 몇 가지 흥미로운 발견을 얻었다. 오디오-시각 상호작용은 특히 "laugh"나 "discuss"와 같이 쿼리 단어가 오디오와 두드러지게 상관관계가 있을 때 정확한 예측을 생성하는 데 도움이 된다. 우리는 텍스트의 semantic entity가 attend하는 오디오/시각 feature에 대한 attention weight 분포를 시각화하고 (Equation (14) 참조), 다음과 같은 사실을 발견했다:
Figure 4: Charades-STA (왼쪽) 및 ActivityNet Captions (오른쪽)의 샘플 결과.
주황색, 노란색, 녹색 직사각형 막대는 각각 ground truth, visual-only branch의 예측, audio-visual branch의 예측을 나타낸다.
"T V/A weights"는 TGCM 내 모든 semantic entity에 대한 시각/오디오 feature의 attention weight 분포를 보여준다. 색이 어두울수록 가중치가 높다.
시각 및 오디오에 대한 attention은 일반적으로 일관적이지만 (샘플 (1)), 시각 정보가 부족할 때 오디오에 대한 attention이 핵심적인 보완 단서를 제공하기도 한다 (샘플 (2)). 예를 들어, "Person laughs at it" 샘플에서 모델은 시각 정보로부터 비디오의 초반부에 잘못 더 집중했지만, 오디오의 안내를 받아 ground truth 세그먼트 주변에 더 많은 attention을 기울여 오디오와 시각 정보를 결합하여 올바른 예측을 수행했다.
더 많은 해석 가능성을 제공하기 위해, ActivityNet Captions의 샘플 (2)에 대해 semantic entity-level feature를 추출할 때 (Equation (2) 참조) 쿼리 단어에 대한 가중치 분포를 Figure 5와 같이 시각화했다. 우리는 우리 모델이 텍스트와 비디오 간의 미세한 상관관계를 포착할 수 있음을 발견했다. 쿼리 "The guy sits and discusses"에서, 첫 번째 semantic entity는 "discusses" 단어에 가장 많은 attention을 기울이며, 이는 모델이 다른 두 semantic entity에 비해 오디오 모달리티에서 ground truth 주변 영역에 더 많은 attention을 기울이도록 유도하여, 시각 정보의 부족한 attention 문제를 어느 정도 보정한다. 이는 우리 모델이 "discuss"라는 단어의 의미와 사람들의 음성 오디오 신호 간의 상관관계를 포착한다는 것을 시사한다.
The guy sits and discusses The guy sits and discusses . The guy sits and discusses.
Figure 5: 샘플 "v_z3xkE5Ox-2A"-(2)에서 모든 semantic entity에 대한 단어별 가중치 분포. 색이 어두울수록 가중치가 높다.
5 CONCLUSION
우리는 Audio-enhanced Temporal Sentence Grounding (ATSG) 문제를 해결하기 위해 새로운 **Adaptive Dual-branch Promoted Network (ADPN)**를 소개한다. 우리는 시각 전용(visual-only) 브랜치와 오디오-시각(audio-visual) 브랜치를 공동으로 학습시키는 듀얼 브랜치 파이프라인을 설계하여, 오디오와 시각 정보 간의 정보 격차를 메우고자 하였다. 이 방식은 각 브랜치를 개별적으로 학습시켰을 때보다 더 나은 성능을 보인다.
나아가, 우리는 텍스트 의미를 가이드로 삼아 오디오-시각 상호작용을 모델링하는 **Text-Guided Clues Miner (TGCM)**를 제안한다. 이는 오디오와 시각 정보 간의 일관성(consistency)과 상호보완성(complementarity)을 활용하여 이점을 얻는 것으로 입증되었다.
마지막으로, 우리는 노이즈를 추가적으로 제거하기 위한 커리큘럼 기반 최적화 전략을 설계하였다. 이 전략에서는 샘플 난이도를 노이즈 강도의 척도로 자체적으로 평가하고, 이에 따라 최적화 프로세스를 적응적으로 조정한다.
우리는 실제 오디오 인지(audio-awareness)를 통해 ATSG를 처리한 최초의 연구이며, 우리의 방법은 state-of-the-art 방법들과 비교하여 경쟁력 있는 성능을 달성한다. 향후에는 이 분야에서 더 심도 있는 연구를 장려하기 위해 ATSG 벤치마크에 더 적합한 데이터셋을 구축하고자 한다.
ACKNOWLEDGMENTS
본 연구는 중국 국가 핵심 연구 개발 프로그램(No. 2020AAA0106300), NSFC(No. 62250008, 62222209, 6210-2222), BNRist(Grant No. BNR2023RC01003, BNR2023TD03006), 그리고 베이징 네트워크 멀티미디어 핵심 연구소(Beijing Key Lab of Networked Multimedia)의 지원을 받아 수행되었다.
Table 3: Charades-STA 데이터셋에서 다양한 활동 유형에 대한 audio-visual branch의 visual-only branch 대비 성능(mIoU) 향상률. 상위 20개 및 하위 20개 활동을 보여준다.
Activity Category | mIoU Gain (%) |
---|---|
Throwing food somewhere | 53.72 |
Laughing at television | 49.77 |
Fixing a doorknob | 38.15 |
Washing a window | 34.97 |
Throwing a broom somewhere | 27.61 |
Watching something/someone/ themselves in a mirror | 22.76 |
Taking shoes from somewhere | 17.27 |
Holding a picture | 16.71 |
Putting a blanket somewhere | 13.97 |
Tidying some clothes | 12.34 |
Taking a blanket from somewhere | 12.02 |
Holding some food | 11.94 |
Putting a cup/glass/bottle somewhere | 11.08 |
Washing a dish/dishes | 10.70 |
Turning off a light | 10.61 |
Throwing a book somewhere | 10.18 |
Playing with a phone/camera | 9.98 |
Throwing shoes somewhere | 9.94 |
Holding some clothes | 9.75 |
... | ... |
Holding a box | -4.25 |
Sitting in a bed | -4.30 |
Sitting on the floor | -4.45 |
Taking a laptop from somewhere | -4.63 |
Sitting on sofa/couch | -4.84 |
Tidying up a table | -6.06 |
Putting a picture somewhere | -6.10 |
Closing a box | -6.57 |
Taking a box from somewhere | -7.31 |
Watching a laptop or | |
something on a laptop | -7.67 |
Holding a bag | -9.54 |
Washing some clothes | -9.95 |
Taking a bag from somewhere | -11.80 |
Fixing a door | -12.72 |
Taking/consuming some medicine | -14.20 |
Holding a mirror | -14.25 |
Taking a dish/es from somewhere | -15.06 |
Working on paper/notebook | -17.31 |
Holding a dish | -18.91 |
Holding a vacuum | -42.96 |
A SUPPLEMENTARY MATERIAL
이 자료는 제안된 방법에 대한 추가 실험을 제시하며, 이는 ActivityNet Captions 데이터셋에 대한 ablation study (A.1), 다양한 활동 카테고리 관점에서의 정성적 분석 (A.2), 그리고 **일관성 및 상보성을 위한 Charades-STA의 더 대표적인 사례 시연 (A.3)**으로 구성된다.
A. 1 Ablation Studies on ActivityNet Captions
제안하는 ADPN의 핵심 기여가 전반적으로 효과적임을 추가적으로 검증하기 위해, Table 4에 나타난 바와 같이 Charades-STA와 동일한 설정으로 더 도전적인 ActivityNet Captions 데이터셋에 대한 보충 ablation study를 수행하였다.
이전과 동일한 분석 접근 방식을 따르면, 공동 학습(jointly-training) 전략, Text-Guided Clues Miner (TGCM), 그리고 curriculum optimization 전략의 유효성을 입증하는 유사한 결론을 도출할 수 있다. 그럼에도 불구하고, 우리의 연구 결과에 대한 추가적인 논의를 촉발하고 영감을 주는 통찰력을 제공할 수 있는 몇 가지 주목할 만한 점들을 언급해야 한다.
우리의 공동 학습 전략은 visual-only branch에 비해 audiovisual branch에서 더 나은 효과를 보인다. 특히 R1@0.5 및 R1@0.7에서 두드러지며, 이는 지배적인 양식(modality)과 약한 양식(즉, 우리의 설정에서는 시각 및 오디오) 간의 정보 격차를 다룰 때 멀티모달 학습의 중요성을 강조한다. 이러한 전략은 단일 양식 학습을 희생하지 않으면서 양식 간 간섭(inter-modal interference)을 제거할 수 있다.
Table 4의 (6)~(9)에서 오디오 양식의 도움이 약화되었음에도 불구하고, R1@0.5 및 R1@0.7에서 성능 향상이 여전히 유지된다. ActivityNet Captions에서는 Charades-STA에 비해 오디오에 더 많은 노이즈 정보가 동반된다. 이는 오디오가 일반적으로 다른 데이터셋에서 보완적인 정보를 제공하며, 더 깨끗한 양식과의 상호작용 시 노이즈가 있는 양식을 활용하는 것이 중요함을 시사한다. 흥미롭게도, 추론 시 시각 feature의 ground truth moment가 마스킹될 때 전체 성능이 Charades-STA에서만큼 극적으로 떨어지지 않는다. ActivityNet Captions의 비디오 평균 길이가 Charades-STA보다 훨씬 길기 때문에, ActivityNet Captions의 ground truth moment는 상대적으로 짧다. 우리는 마스킹되지 않은 더 많은 시각 feature가 경계 예측에 더 유효한 정보를 제공한다고 추측하며, 따라서 여러 양식의 문맥적 일관성을 더 잘 활용하기 위해 intra- 및 inter-modal에 대한 ATSG의 문맥 추론(context reasoning)을 탐구하는 것이 유망할 수 있다.
Table 4: ActivityNet Captions에 대한 Ablation Study. ". "는 공동 학습 시 visual-only branch에 비해 audio-visual branch의 성능 향상을 의미한다.
Method | R1@0.3 | R1@0.5 | R1@0.7 | mIoU |
---|---|---|---|---|
(1) ADPN w/ V-only | 55.72 | 39.56 | 25.20 | 41.55 |
(2) ADPN w/ F-only | 57.23 | 40.67 | 25.69 | |
(3) ADPN w/o TG | 56.45 | 41.90 | ||
(4) ADPN w/o TGCM | 56.26 | 40.15 | 25.58 | 41.65 |
(5) ADPN w/o CL | 57.13 | 40.80 | 25.34 | 42.01 |
(6) ADPN-V (m) | 52.80 | 38.15 | 24.54 | 39.26 |
(7) ADPN-F (m) | ||||
(8) ADPN-V | 56.32 | 39.66 | 24.93 | 41.50 |
(9) ADPN-F |
A. 2 Category-Wise Analysis
우리는 오디오 모달리티가 우리 방법론에 어떻게 기여하는지 추가적으로 분석하기 위해, 이중 브랜치 파이프라인에 대해 활동 카테고리별 분석을 수행하여 두 브랜치 간의 학습 차이를 세분화된 방식으로 관찰하였다. 구체적으로, 우리는 원본 Charades 데이터셋의 활동 카테고리 어노테이션을 사용하여 각 활동 카테고리에서 visual-only 브랜치 대비 audio-visual 브랜치의 평균 성능(mIoU) 향상을 관찰하였다. 우리는 총 3,720개의 테스트 샘플 중 3,080개 샘플에서 142가지 유형의 활동을 포착하였다. 이러한 분류는 쿼리-비디오 쌍에 대한 포괄적인 정보를 포함하지 않으므로 엄격하다고 볼 수는 없지만, 직관적인 분석을 위한 간단하고 효과적인 접근 방식을 제공한다는 점에 주목할 필요가 있다.
우리는 오디오의 도움이 모든 시나리오에서 효과적인 것은 아니지만, 142가지 활동 중 88가지에서 audio-visual 브랜치가 훨씬 더 나은 성능을 달성했음을 관찰하였다. 특히, 성능 향상이 가장 큰 상위 20개 및 가장 낮은 하위 20개 활동 카테고리를 Table 3에 제시하였다. 보시다시피, 오디오 모달리티는 "무언가를 던지는(throwing something)", "무언가를 비웃는(laughing at something)", "무언가를 놓는(putting something)" 등과 같이 직관적으로 자연스러운 오디오 신호와 연관되는 활동에서 잘 작동하며, 모델은 오디오 모달리티의 도움으로 예측을 개선한다. 그러나 오디오는 "앉는(sitting)", "무언가를 가져가는(taking something)", "무언가를 잡는(holding something)" 등과 같은 활동에서는 성능 향상에 실패하는데, 이는 이러한 활동들이 "앉는(sitting)"과 같이 음향적 의미가 약하거나, "무언가를 가져가거나 잡는(taking or holding something)" 활동처럼 오디오와 시각 간의 패턴이 모델이 학습하기에 너무 모호하기 때문이다. 두 브랜치 간의 학습 차이는 다양한 모달리티의 신뢰도 인식을 바탕으로 모달리티 선택 전략을 설계하는 것이 가치 있는 탐구임을 시사한다.
A. 3 More Case Study on Charades-STA
우리의 방법이 일관성(consistency)과 상보성(complementarity)을 깊이 있게 탐색할 수 있음을 추가적으로 보여주기 위해, CharadesSTA에 대한 더 많은 사례를 제시한다. 이 비디오들은 다양한 시나리오, 길이, 그리고 순간의 시간적 위치를 가지며, 이는 어느 정도 대표성을 띤다. 원본 비디오를 포함한 자세한 내용은 여기에서 확인할 수 있다.