DETR
4개의 포스트
DETRDistill: DETR 계열을 위한 범용 Knowledge Distillation 프레임워크
DETRDistill은 Transformer 기반 detector (DETR) 계열을 위해 특별히 설계된 새로운 Knowledge Distillation (KD) 프레임워크입니다. 기존 KD 방법들이 DETR의 집합 예측 (set prediction) 방식에 적용하기 어려운 문제를 해결하기 위해, 이 논문은 세 가지 주요 구성 요소를 제안합니다: (1) Hungarian-matching logits distillation은 student 모델이 teacher 모델의 예측과 정확히 일치하도록 유도합니다. (2) Target-aware feature distillation은 student가 teacher의 객체 중심적 (object-centric) feature로부터 학습하도록 돕습니다. (3) Query-prior assignment distillation은 잘 학습된 teacher의 query와 안정적인 할당(assignment) 정보를 활용하여 student 모델의 수렴 속도를 높입니다. 이 프레임워크는 COCO 데이터셋에서 다양한 DETR 모델의 성능을 크게 향상시키며, 때로는 teacher 모델을 능가하는 결과를 보여줍니다. 논문 제목: DETRDistill: A Universal Knowledge Distillation Framework for DETR-families
LA-DETR: 짧은 영상 순간을 정확하게 포착하는 Length-Aware DETR
LA-DETR은 기존 DETR 기반 Video Moment Retrieval (MR) 모델들이 짧은 길이의 순간(moment)을 정확히 찾아내지 못하는 문제를 해결하기 위해 제안된 프레임워크입니다. 데이터 관점에서 짧은 순간의 feature 다양성이 부족하다는 점에 착안하여, ForegroundMix와 BackgroundMix 두 전략으로 구성된 MomentMix 데이터 증강 기법을 도입했습니다. 또한, 모델 관점에서 짧은 순간의 중심점 예측 정확도가 낮다는 문제를 해결하기 위해, 길이를 조건으로 부여하는 새로운 양분 매칭(bipartite matching) 프로세스를 포함한 Length-Aware Decoder를 제안합니다. 이 방법론들을 통해 LA-DETR은 짧은 순간 탐색 성능을 크게 향상시켰으며, QVHighlights, TACoS, Charades-STA와 같은 벤치마크 데이터셋에서 SOTA DETR 기반 모델들을 능가하는 성능을 달성했습니다. 논문 제목: Length-Aware DETR for Robust Moment Retrieval
SA-DETR: Span Aware Detection Transformer를 이용한 Moment Retrieval
본 논문은 주어진 텍스트와 관련된 비디오 세그먼트를 찾는 Moment Retrieval 문제를 해결하기 위해 Span Aware DEtection TRansformer (SA-DETR)를 제안합니다. 기존 DETR 기반 방법들이 Query Initialization에서 비디오-텍스트 인스턴스 관련 정보를 간과하고 Query Refinement에서 span anchor의 역할을 충분히 활용하지 못하는 문제를 지적합니다. SA-DETR은 인스턴스에 관련된 span anchor의 중요성을 활용하여, 학습 가능한 파라미터 대신 비디오-텍스트 쌍을 기반으로 span anchor를 생성하고 GT 레이블로 감독합니다. 또한, denoise learning을 적용하여 모델의 span 인지 능력을 향상시킵니다. 논문 제목: SA-DETR:Span Aware Detection Transformer for Moment Retrieval
DEIM: DETR의 빠른 수렴을 위한 개선된 매칭 기법
DEIM은 Transformer 기반 객체 탐지 모델(DETR)의 느린 수렴 문제를 해결하기 위한 효율적인 훈련 프레임워크입니다. 이 방법은 Dense O2O 매칭 전략을 사용하여 훈련 중 양성 샘플 수를 늘리고, Matchability-Aware Loss(MAL)라는 새로운 손실 함수를 도입하여 다양한 품질의 매칭을 최적화합니다. 이를 통해 RT-DETR과 같은 기존 모델의 훈련 시간을 절반으로 줄이면서도 성능을 향상시킵니다. 논문 제목: DEIM: DETR with Improved Matching for Fast Convergence