Efficient AttentionVideo Retrieval
PRVR을 위한 효율적인 어텐션: 정확도와 효율성 벤치마킹 연구
긴 비디오 시퀀스를 처리할 때 Transformer 기반 모델의 표준 어텐션 메커니즘이 갖는二次 복잡도는 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR) 분야의 주요 병목 현상입니다. 이 논문은 PRVR을 위한 효율적인 어텐션 메커니즘에 대한 최초의 체계적인 연구로, Linear Attention, Agent Attention, FFT Attention 세 가지 대표적인 접근 방식을 Charades-STA 벤치마크에서 평가합니다. 또한, 정확도와 계산 비용 간의 상충 관계를 정량화하기 위해 새로운 Harmonic Performance-Efficiency Score (HPES)를 제안합니다. 실험 결과, FFT Attention이 가장 높은 HPES를 달성하며 Softmax 베이스라인보다 1.3배 빠른 속도와 더 높은 SumR을 보여, 효율성과 글로벌 컨텍스트 모델링 능력의 균형에서 우수함을 입증했습니다. 논문 제목: Efficient Attention in Partially Relevant Video Retrieval: A Benchmarking Study on Accuracy-Efficiency Trade-offs