SA-DETR: Span Aware Detection Transformer를 이용한 Moment Retrieval
본 논문은 주어진 텍스트와 관련된 비디오 세그먼트를 찾는 Moment Retrieval 문제를 해결하기 위해 Span Aware DEtection TRansformer (SA-DETR)를 제안합니다. 기존 DETR 기반 방법들이 Query Initialization에서 비디오-텍스트 인스턴스 관련 정보를 간과하고 Query Refinement에서 span anchor의 역할을 충분히 활용하지 못하는 문제를 지적합니다. SA-DETR은 인스턴스에 관련된 span anchor의 중요성을 활용하여, 학습 가능한 파라미터 대신 비디오-텍스트 쌍을 기반으로 span anchor를 생성하고 GT 레이블로 감독합니다. 또한, denoise learning을 적용하여 모델의 span 인지 능력을 향상시킵니다. 논문 제목: SA-DETR:Span Aware Detection Transformer for Moment Retrieval