DETR

5개의 포스트

Object DetectionDETR

Rank-DETR: 고품질 객체 탐지를 위한 순위 지향 DETR 모델

Rank-DETR는 기존 DETR 기반 객체 탐지 모델에서 발생하는 분류 점수와 위치 정확도 간의 불일치 문제를 해결하여 높은 품질의 객체 탐지를 목표로 합니다. 이 모델은 순위 지향(rank-oriented) 아키텍처 설계와 순위 지향 손실 함수 및 매칭 비용 설계를 도입합니다. 아키텍처 측면에서는 rank-adaptive classification head와 query rank layer를 통해 거짓 양성(false positive)을 억제하고, 최적화 측면에서는 GIoU-aware classification loss와 high-order matching cost를 사용하여 높은 IoU 임계값에서 AP 성능을 크게 향상시킵니다. 이를 통해 H-DETR, DINO-DETR과 같은 SOTA 모델의 성능을 개선하며, 특히 AP75에서 눈에 띄는 성능 향상을 보여줍니다. 논문 제목: Rank-DETR for High Quality Object Detection

DETRKnowledge Distillation

DETRDistill: DETR 계열을 위한 범용 Knowledge Distillation 프레임워크

DETRDistill은 Transformer 기반 detector (DETR) 계열을 위해 특별히 설계된 새로운 Knowledge Distillation (KD) 프레임워크입니다. 기존 KD 방법들이 DETR의 집합 예측 (set prediction) 방식에 적용하기 어려운 문제를 해결하기 위해, 이 논문은 세 가지 주요 구성 요소를 제안합니다: (1) Hungarian-matching logits distillation은 student 모델이 teacher 모델의 예측과 정확히 일치하도록 유도합니다. (2) Target-aware feature distillation은 student가 teacher의 객체 중심적 (object-centric) feature로부터 학습하도록 돕습니다. (3) Query-prior assignment distillation은 잘 학습된 teacher의 query와 안정적인 할당(assignment) 정보를 활용하여 student 모델의 수렴 속도를 높입니다. 이 프레임워크는 COCO 데이터셋에서 다양한 DETR 모델의 성능을 크게 향상시키며, 때로는 teacher 모델을 능가하는 결과를 보여줍니다. 논문 제목: DETRDistill: A Universal Knowledge Distillation Framework for DETR-families

Video Moment RetrievalDETR

LA-DETR: 짧은 영상 순간을 정확하게 포착하는 Length-Aware DETR

LA-DETR은 기존 DETR 기반 Video Moment Retrieval (MR) 모델들이 짧은 길이의 순간(moment)을 정확히 찾아내지 못하는 문제를 해결하기 위해 제안된 프레임워크입니다. 데이터 관점에서 짧은 순간의 feature 다양성이 부족하다는 점에 착안하여, ForegroundMix와 BackgroundMix 두 전략으로 구성된 MomentMix 데이터 증강 기법을 도입했습니다. 또한, 모델 관점에서 짧은 순간의 중심점 예측 정확도가 낮다는 문제를 해결하기 위해, 길이를 조건으로 부여하는 새로운 양분 매칭(bipartite matching) 프로세스를 포함한 Length-Aware Decoder를 제안합니다. 이 방법론들을 통해 LA-DETR은 짧은 순간 탐색 성능을 크게 향상시켰으며, QVHighlights, TACoS, Charades-STA와 같은 벤치마크 데이터셋에서 SOTA DETR 기반 모델들을 능가하는 성능을 달성했습니다. 논문 제목: Length-Aware DETR for Robust Moment Retrieval

Moment RetrievalDETR

SA-DETR: Span Aware Detection Transformer를 이용한 Moment Retrieval

본 논문은 주어진 텍스트와 관련된 비디오 세그먼트를 찾는 Moment Retrieval 문제를 해결하기 위해 Span Aware DEtection TRansformer (SA-DETR)를 제안합니다. 기존 DETR 기반 방법들이 Query Initialization에서 비디오-텍스트 인스턴스 관련 정보를 간과하고 Query Refinement에서 span anchor의 역할을 충분히 활용하지 못하는 문제를 지적합니다. SA-DETR은 인스턴스에 관련된 span anchor의 중요성을 활용하여, 학습 가능한 파라미터 대신 비디오-텍스트 쌍을 기반으로 span anchor를 생성하고 GT 레이블로 감독합니다. 또한, denoise learning을 적용하여 모델의 span 인지 능력을 향상시킵니다. 논문 제목: SA-DETR:Span Aware Detection Transformer for Moment Retrieval

Object DetectionDETR

DEIM: DETR의 빠른 수렴을 위한 개선된 매칭 기법

DEIM은 Transformer 기반 객체 탐지 모델(DETR)의 느린 수렴 문제를 해결하기 위한 효율적인 훈련 프레임워크입니다. 이 방법은 Dense O2O 매칭 전략을 사용하여 훈련 중 양성 샘플 수를 늘리고, Matchability-Aware Loss(MAL)라는 새로운 손실 함수를 도입하여 다양한 품질의 매칭을 최적화합니다. 이를 통해 RT-DETR과 같은 기존 모델의 훈련 시간을 절반으로 줄이면서도 성능을 향상시킵니다. 논문 제목: DEIM: DETR with Improved Matching for Fast Convergence