Chang, Jiahao, et al. "Detrdistill: A universal knowledge distillation framework for detr-families." Proceedings of the IEEE/CVF international conference on computer vision. 2023.

DETRDistill: A Universal Knowledge Distillation Framework for DETR-families

Jiahao Chang ${ }^{1 *}$ Shuo Wang ${ }^{1 *}$ Hai-Ming Xu ${ }^{2 *}$ Zehui Chen ${ }^{1}$ Chenhongyi Yang ${3}$ Feng Zhao ${ }^{1 \dagger}$ <br> ${ }^{1}$ 중국과학기술대학교 (University of Science and Technology of China)<br> ${ }^{2}$ 애들레이드 대학교 (University of Adelaide)<br> ${ }^{3}$ 에든버러 대학교 (University of Edinburgh)

Abstract

Transformer 기반 detector(DETR)는 간단한 프레임워크로 인해 인기를 얻고 있지만, 큰 모델 크기와 높은 시간 소모는 실제 배포를 어렵게 한다. **Knowledge Distillation(KD)**은 거대한 detector를 작은 detector로 압축하여 유사한 탐지 성능과 낮은 추론 비용을 달성할 수 있는 매력적인 기술이다. DETR은 객체 탐지를 **집합 예측 문제(set prediction problem)**로 공식화하기 때문에, 기존의 convolution 기반 detector를 위해 설계된 KD 방법들은 직접적으로 적용하기 어려울 수 있다.

본 논문에서는 DETR 계열 모델을 위한 새로운 knowledge distillation 방법인 DETRDistill을 제안한다. 구체적으로,

첫째, 우리는 Hungarian-matching logits distillation을 설계하여 student 모델이 teacher DETR과 정확히 동일한 예측을 하도록 유도한다.
둘째, 우리는 target-aware feature distillation을 제안하여 student 모델이 teacher 모델의 객체 중심(object-centric) feature로부터 학습하도록 돕는다.
마지막으로, student DETR의 수렴 속도를 향상시키기 위해, 우리는 query-prior assignment distillation을 도입하여 student 모델이 teacher 모델의 **잘 학습된 query와 안정적인 할당(assignment)**으로부터 빠르게 학습하도록 돕는다.

COCO 데이터셋에 대한 광범위한 실험 결과는 우리 접근 방식의 효과를 입증한다. 특히, DETRDistill은 다양한 DETR 모델의 성능을 2.0 mAP 이상 꾸준히 향상시키며, 심지어 teacher 모델의 성능을 능가하기도 한다.

1. Introduction

**객체 탐지(Object detection)**는 입력 이미지에서 시각적 객체를 찾아내고 분류하는 것을 목표로 한다. 초기 연구에서는 이 task가 주로 **CNN(Convolution Neural Network)**을 활용하여 입력 이미지의 지역적 feature를 처리하는 방식으로 이루어졌으며 [26, 19], 여기에는 anchor [26], label assignment [40], duplicate removal [1]과 같은 여러 inductive bias가 포함되었다. 최근에는 DETR [2]과 같은 Transformer 기반 객체 탐지기가 제안되었는데, 이들은 탐지를 집합 예측(set prediction) task로 처리하여 탐지 파이프라인을 크게 단순화하고, anchor 크기 및 비율 [26]과 같은 수작업 구성 요소의 번거로운 튜닝에서 사용자를 해방시켜 주었다.

Figure 1. 세 가지 Transformer 기반 탐지기(Conditional DETR [25], Deformable DETR [42], AdaMixer [11])에 대한 DETRDistill의 성능. Teacher 모델에는 ResNet-101을, Student 모델에는 ResNet-50을 각각 사용하였다. DETRDistill은 Student baseline에 비해 상당한 성능 향상을 보였으며, 심지어 Teacher 모델보다도 우수한 성능을 달성하였다.

Transformer 기반 탐지기들은 state-of-the-art 성능을 달성했지만 [21, 17, 11], 높은 계산 비용 문제로 인해 실시간 애플리케이션에 배포하기 어렵다는 단점이 있다. 빠르고 정확한 탐지기를 얻기 위해 지식 증류(Knowledge Distillation, KD) [14]는 매력적인 기술이다. 일반적으로 KD 방법은 무겁지만 강력한 Teacher 모델로부터 작고 효율적인 Student 네트워크로 지식을 전달하는데, 이는 Teacher의 예측(prediction) [14] 또는 feature 분포 [27]를 모방하는 방식으로 이루어진다.

객체 탐지 연구 분야에서는 다양한 종류의 KD 방법들이 발표되었다 [36, 35, 38, 27, 4, 18, 12, 41, 37, 31, 28]. 그러나 이들 대부분은 Convolution 기반 탐지기를 위해 설계되었으며, 탐지 프레임워크의 차이로 인해 Transformer 기반 DETR에는 직접 적용하기 어려울 수 있다. 적어도 두 가지 주요 도전 과제가 있다: (1) Logits-level distillation 방법 [14, 41]은 DETR에 사용할 수 없다. Anchor 기반 [40] 또는 anchor-free [30] Convolution 기반 탐지기의 경우, box 예측은 feature map grid와 밀접하게 관련되어 있어 Teacher와 Student 간의 box 예측에 대한 엄격한 공간적 대응(spatial correspondence)을 자연스럽게 보장하여 지식 증류를 가능하게 한다. 그러나 DETR의 경우, decoder에서 생성된 box 예측은 순서가 없으며(unordered), logits-level distillation을 위한 Teacher와 Student 간의 예측된 box에 대한 자연스러운 일대일 대응이 존재하지 않는다. (2) Feature-level distillation 접근 방식은 DETR에 적합하지 않을 수 있다. Convolution과 Transformer 간의 feature 생성 메커니즘이 다르기 때문에 [27], 관심 객체에 대한 feature 활성화 영역이 크게 달라진다. Figure 2에서 보듯이, Convolution 기반 탐지기의 활성 영역은 거의 ground truth box 내부에 제한되는 반면, DETR 탐지기는 배경 영역까지 활성화시킨다. 따라서 기존의 feature-level KD 방법을 DETR에 직접 사용하면 성능 향상을 가져오지 못할 수 있으며, 때로는 Table 1에서 제시된 것처럼 Student 탐지기의 성능을 저해할 수도 있다.

Method	#Epoch4 <br> AP	#Epoch8 <br> AP	#Epoch12 <br> AP
Baseline w/o KD	35.0	38.7	42.3
FGD [36]	$34.4(-0.6)$	$39.1(+0.4)$	$40.7(-1.6)$
FKD [39]	$35.9(+0.9)$	$39.5(+0.8)$	$42.2(-0.1)$
MGD [37]	$36.3(+1.3)$	$39.8(+1.1)$	$42.3(+0.0)$
FGFI [33]	$35.6(+0.6)$	$39.3(+0.6)$	$42.6(+0.3)$
FitNet [27]	$36.4(+1.4)$	$39.6(+0.9)$	$42.9(+0.6)$

Table 1. AdaMixer [11]에 대한 여러 CNN 기반 영역 가중치 feature distillation 방법 비교.

위의 도전 과제들을 해결하기 위해, 우리는 DETR 계열의 탐지기를 위해 특별히 설계된 지식 증류 프레임워크인 DETRDistill을 제안한다. 구체적으로 DETRDistill은 주로 세 가지 구성 요소로 이루어져 있다: (1) Hungarian-matching logits distillation: 도전 과제 (1)을 해결하기 위해, 우리는 Hungarian 알고리즘을 사용하여 Student와 Teacher의 예측 간에 최적의 이분 매칭(bipartite matching)을 찾고, 그 다음 logits-level에서 KD를 수행한다. 그러나 Teacher 모델에서 긍정(positive)으로 예측된 box의 수가 매우 제한적이므로, 긍정 예측에 대해서만 KD를 수행하는 것은 큰 성능 향상을 가져오지 못한다. 대신, 우리는 Teacher 탐지기에 내재된 지식을 최대한 활용하기 위해 Teacher와 Student 모델 간의 대량의 부정(negative) 예측에 대한 증류 손실(distillation loss)을 도입할 것을 제안한다. 또한, DETR 방법들이 일반적으로 다단계 예측 정제를 위해 여러 decoder layer를 포함한다는 점을 고려하여, 각 단계에서 KD 손실을 생성하여 점진적인 증류를 수행한다. (2) Target-aware feature distillation: 도전 과제 (2)의 분석에 따라, 우리는 object query와 Teacher 모델 feature를 활용하여 soft activation mask를 생성할 것을 제안한다. 잘 학습된 Teacher query는 다양한 객체 대상과 밀접하게 관련되어 있으므로, 이렇게 생성된 soft mask는 **객체 중심적(object-centric)**이 될 것이며, 따라서 soft-mask 기반 feature-level 증류를 target-aware하게 만든다.

Figure 2. Ground truth box (a)와 ATSS [40] (b) 및 AdaMixer [11] (c)의 활성 영역 시각화.

(3) Query-prior assignment distillation: Student 모델에서 query와 decoder 파라미터가 무작위로 초기화되기 때문에, Student 모델의 불안정한 이분 매칭 할당(bipartite assignment)은 수렴 속도를 늦춘다 [17]. 반면, 우리는 Teacher 모델의 잘 학습된 query가 항상 일관된 이분 매칭 할당을 생성한다는 것을 경험적으로 발견했다 (Figure 7 참조). 따라서 우리는 Student 모델이 Teacher의 query를 추가적인 prior query 그룹으로 받아들이고, Teacher 네트워크의 안정적인 이분 매칭 할당을 기반으로 예측을 생성하도록 유도할 것을 제안한다. 이러한 제안된 증류 방식은 Student 모델이 빠르게 수렴하고 더 나은 성능을 달성하는 데 성공적으로 기여한다.

요약하자면, 우리의 기여는 세 가지이다:

우리는 기존 Convolution 기반 탐지기와 비교하여 DETR이 증류 task에서 겪는 어려움을 자세히 분석한다.
우리는 logits-level, feature-level, 그리고 수렴 속도 관점에서 DETR을 위한 다중 지식 증류 방법을 제안한다.
우리는 COCO 데이터셋에서 다양한 설정으로 광범위한 실험을 수행했으며, 그 결과는 제안된 방법의 효과성과 일반화 능력을 입증한다.

2.1. Transformer-based Object Detectors

Transformer [32]가 자연어 처리 분야에서 뛰어난 성능을 보이면서, 연구자들은 Transformer 구조를 시각 task에 적용하는 연구도 시작했다 [23, 7, 24]. 그러나 DETR의 학습 과정은 매우 비효율적이어서, 많은 후속 연구들이 수렴 속도를 가속화하기 위해 노력해왔다.
한 가지 연구 방향은 attention 메커니즘을 재설계하는 것이다. 예를 들어, Dai et al. [42]은 Deformable DETR을 제안하여, reference point 주변의 가변 샘플링 지점 feature들과만 상호작용함으로써 sparse attention 메커니즘을 구축한다. SMCA [10]는 Gaussian prior를 도입하여 cross-attention을 제한한다. AdaMixer [11]는 어떠한 encoder도 없이 새로운 adaptive 3D feature 샘플링 전략을 설계한 다음, 샘플링된 feature들을 채널 및 공간 차원에서 adaptive 가중치와 함께 혼합한다.

Figure 3. 우리 접근 방식의 전체 아키텍처. 이 아키텍처는 대형 backbone을 가진 Transformer 기반 teacher detector, 경량 backbone을 가진 congener detector, 그리고 제안된 distillation 모듈들로 구성된다: (i) Hungarian-matching Logits Distillation, (ii) Target-aware Feature Distillation, (iii) Query-prior Assignment Distillation. 명확한 설명을 위해 원래의 학습 supervision은 생략하였다.

또 다른 연구 방향은 query의 의미를 재고하는 것이다. Meng et al. [25]은 DETR이 cross-attention에서 content embedding에 의존하여 객체의 극단점(extremity)을 찾는 것이 비효율적임을 시각적으로 보여주며, 이에 따라 query를 content 부분과 position 부분으로 분리할 것을 제안한다. Anchor-DETR [34]는 query의 2D reference point를 직접적으로 position embedding으로 간주하여 attention을 유도한다. DAB-DETR [22]는 위치 정보 외에 너비(width)와 높이(height) 정보를 attention 메커니즘에 도입하여 다양한 스케일의 객체를 모델링한다. DN-DETR [17]은 query denoising task를 도입하여 학습 속도를 가속화한다. Group-DETR [6] 및 H-DETR [15]은 decoder 학습 시 보조 그룹으로 positive sample을 늘려 성능을 향상시킨다. 이전 연구들과 달리, 우리는 distillation을 통해 소형 모델의 성능을 향상시키고자 한다.

2.2. Knowledge Distillation in Object Detection

Knowledge distillation은 모델 압축에 흔히 사용되는 방법이다. [14]는 이 개념을 처음 제안하고 이미지 분류에 적용하였다. 그들은 teacher 모델이 출력하는 soft label이 one-hot encoding에 비해 **카테고리 간 유사성에 대한 "dark knowledge"**를 포함하고 있으며, 이것이 모델의 일반화에 기여한다고 주장한다. Attention transfer [38]는 feature map에 distillation의 초점을 맞추고, 출력 logits을 distillation하는 대신 teacher와 student의 attention 분포를 좁히는 방식으로 지식을 전달한다.

FitNet [27]은 hidden layer를 통해 teacher 모델의 중간 수준 힌트(intermediate-level hints)를 모방하는 것을 제안한다. [4]는 knowledge distillation을 multi-class object detection 문제 해결에 처음 적용하였다. [18]은 배경 영역이 노이즈를 유발할 수 있다고 판단하여 RPN이 샘플링한 영역을 distillation하는 것을 제안한다. DeFeat [12]는 전경(foreground)과 배경(background)을 분리하여 distillation한다. FGD [36]는 focal region과 feature의 전역 관계(global relations) 측면에서 각각 teacher를 모방한다. LD [41]는 soft-label distillation을 positional regression으로 확장하여 student가 teacher의 경계 예측 분포에 맞추도록 한다. MGD [37]는 masked image modeling (MIM)을 사용하여 모방 task를 생성 task로 변환한다.

위의 CNN 기반 distillation 외에도, 일부 연구는 vision Transformer를 다룬다. DeiT [31]는 distillation token을 통해 CNN-teacher로부터 ViT [9]로 inductive bias를 전달하고 분류 task에서 경쟁력 있는 성능을 달성한다. ViDT [28]는 patch token에 대해 KD를 수행하고 Transformer detector의 변형을 제안한다. 그러나 이러한 distillation은 DETR 계열 모델에 직접 적용할 수 없다. 본 연구는 DETR의 다양한 구성 요소에서 나타나는 고유한 현상을 분석하고 범용적인 distillation 전략을 제안한다.

3. A Review of DETR

DETR [2]은 backbone, Transformer encoder, 학습 가능한 query embedding, 그리고 decoder를 포함하는 end-to-end object detector이다. 이미지 $I$ 가 주어지면, CNN backbone은 공간 feature를 추출하고, 이어서 Transformer encoder(일부 변형 모델은 encoder가 필요하지 않음 [11])가 feature 표현을 강화한다. 업데이트된 feature $F \in R^{H W \times d}$ 와 query embedding $Q \in R^{N \times d}$ 는 여러 Transformer decoder(일반적으로 6개)에 입력된다. 여기서 $d$ 는 feature dimension이고, $N$ 은 고정된 query의 개수이다. 각 decoder 단계의 연산은 유사하다:

첫째, self-attention을 활용하여 query 간의 관계를 설정하고 상호 정보를 포착한다. 둘째, 유연한 cross-attention을 통해 query와 이미지 feature를 상호작용시켜 유용한 semantic 정보를 query에 통합한다. 셋째, **Feed-Forward Network (FFN)**가 각 query를 $\hat{y}_{i}=\left(\hat{c}_{i}, \hat{b}_{i}\right)$ 로 디코딩하여 예측된 카테고리와 bounding box를 포함한다.

학습 단계에서 label assignment의 원칙은 모델 예측과 Ground Truth (GT) 간의 matching cost를 최소화하여 Hungarian algorithm [16]을 통해 이분 매칭(bipartite matching)을 얻는 것이다. 최적의 매칭은 다음과 같이 해결된다:

\hat{\sigma}=\operatorname{argmin}_{\sigma} \sum_{i=1}^{N} \mathcal{L}_{\operatorname{match}}\left(y_{i}, \hat{y}_{\sigma_{i}}\right),

여기서 $\sigma_{i}$ 는 $N$ 개 요소의 permutation이고 $\hat{\sigma}$ 는 최적의 assignment이다. $y_{i}=\left(c_{i}, b_{i}\right)$ 는 $i$ 번째 GT이며, $c_{i}$ 는 타겟 클래스(비어 있을 수 있음)이고 $b_{i}$ 는 GT box이다. $\mathcal{L}_{\text {match }}$ 는 pair-wise matching cost이다:

\mathcal{L}_{\text {match }}\left(y_{i}, \hat{y}_{\sigma_{i}}\right)=\mathcal{L}_{\text {cls }}\left(c_{i}, \hat{c}_{\sigma_{i}}\right)+\mathbb{1}_{\left\{c_{i} \neq \varnothing\right\}} \mathcal{L}_{\text {bbox }}\left(b_{i}, \hat{b}_{\sigma_{i}}\right),

여기서 $\mathcal{L}_{\text {cls }}$ 와 $\mathcal{L}_{\text {bbox }}$ 는 각각 classification loss와 bounding-box loss를 나타낸다. 따라서 DETR에서 각 GT는 오직 하나의 positive sample query에만 대응되며, 나머지 모든 query는 negative sample로 간주된다. 최종 detection loss 함수는 다음과 같이 정의된다:

\mathcal{L}_{\mathrm{det}}\left(y, \hat{y}_{\hat{\sigma}}\right)=\sum_{i=1}^{N} \mathcal{L}_{\mathrm{match}}\left(y_{i}, \hat{y}_{\hat{\sigma}_{i}}\right)

여기서 negative sample의 위치 회귀(location regression)는 어떠한 supervision도 받지 않는다.

4. Our Approach: DETRDistill

이 섹션에서는 우리가 제안하는 DETRDistill의 세부 사항을 소개한다. DETRDistill은 다음 세 가지 구성 요소로 이루어져 있다: (1) Hungarian-matching Logits Distillation (2) Target-aware Feature Distillation (3) Query-prior Assignment Distillation

Fig. 3은 DETRDistill의 전체 아키텍처를 보여준다.

4.1. Hungarian-matching Logits Distillation

지식 증류(knowledge distillation)를 위한 가장 일반적인 전략 중 하나는 두 모델 간의 logits-level 예측을 직접 정렬(align)하는 것이다. 그러나 DETR의 경우, **set 형태의 query-based 예측 [17]**은 교사(teacher) 모델의 결과를 학생(student) 모델의 결과와 순서대로 대응시키기 어렵게 만든다. 이 목표를 달성하기 위해 우리는 Hungarian algorithm을 재사용하여 교사 모델의 예측과 학생 모델의 예측을 일대일로 매칭시킨다.

정식으로, 교사 모델과 학생 모델의 예측을 각각 $\hat{y}^{T}$ 와 $\hat{y}^{S}$ 라고 하자. 이들은 $\hat{y}^{T}= \left\{\left\{\hat{y}_{i}^{T-p o s}\right\}_{i=1}^{M^{p o s}},\left\{\hat{y}_{j}^{T-n e g}\right\}_{j=1}^{M^{n e g}}\right\}$ 및 $\hat{y}^{S}=\left\{\hat{y}_{i}^{S}\right\}_{i=1}^{N}$ 의 형태를 따른다. 여기서 $M^{\text {pos }}$ 와 $M^{\text {neg }}$ 는 교사 모델의 긍정(positive) 예측과 부정(negative) 예측의 개수를 나타낸다. $M=M^{p o s}+M^{n e g}$ 는 교사 모델의 전체 decoder query 수이며, $N$ 은 학생 모델의 전체 decoder query 수이다. 일반적으로 $M$ 은 $N$ 보다 크거나 같다.
교사 모델의 긍정 예측은 타겟과 밀접하게 관련되어 있으므로, 이를 지식 있는 pseudo GT로 간주하고 Hungarian algorithm을 활용하여 이 긍정 예측 $\hat{y}^{T-p o s}$ 와 학생 모델의 예측 $\hat{y}^{S}$ 사이에 매칭 $\hat{\sigma}^{\text {pos }}$ 를 찾는 것이 직관적인 아이디어이다. 그러면 logits-level KD는 다음과 같이 달성될 수 있다:

\mathcal{L}_{\text {logitsKD }}^{\text {pos }}\left(\hat{y}^{T \_ \text {pos }}, \hat{y}_{\hat{\sigma}^{\text {pos }}}^{S}\right)=\sum_{i=1}^{N} \mathcal{L}_{\text {match }}\left(\hat{y}_{i}^{T \_ \text {pos }}, \hat{y}_{\hat{\sigma}_{i}^{\text {pos }}}^{S}\right) .

그러나 Tab. 6에서 제시된 바와 같이, 이러한 단순한 KD는 미미한 성능 향상만을 가져온다는 것을 경험적으로 확인했다. 우리는 **긍정 예측의 수가 매우 제한적(총 query 수가 보통 100개를 초과하는 반면, 이미지당 평균 7개에 불과)**하며, 증류된 정보가 GT와 매우 일치하기 때문이라고 추정한다. 반면에, 교사 모델의 많은 수의 부정 예측은 무시되고 있으며, 우리는 이러한 예측들이 가치 있는 정보라고 주장한다.

부정 위치 증류 (Negative Location Distillation): 교사 모델은 일반적으로 잘 최적화되어 있기 때문에, 생성된 긍정 예측과 부정 예측은 명확한 차이를 가질 수 있으며, Hungarian algorithm은 그럴듯한 할당(assignment)을 생성할 수 있다. 즉, 부정적으로 예측된 박스들은 객체 타겟에서 벗어나 있을 것이다. 반면, 무작위로 초기화된 학생 네트워크는 이러한 효과를 가지지 못할 수 있으며, 학생 모델의 부정 예측이 긍정 예측과 얽힐 수 있다. 따라서 우리는 교사 모델의 부정 예측에 담긴 지식을 활용하기 위한 증류 기법을 제안한다.

\mathcal{L}_{\text {logitsKD }}^{n e g}\left(\hat{y}^{T \_n e g}, \hat{y}_{\hat{\sigma}^{n e g}}^{S}\right)=\sum_{i=1}^{N} \mathcal{L}_{\text {match }}\left(\hat{y}_{i}^{T \_ \text {neg }}, \hat{y}_{\hat{\sigma}_{i}^{n e g}}^{S}\right),

여기서 $\hat{\sigma}^{\text {neg }}$ 는 $\hat{y}^{T \_ \text {neg }}$ 와 $\hat{y}^{S}$ 사이의 할당을 나타낸다.
점진적 증류 (Progressive Distillation): **DETR decoder는 일반적으로 여러 stage를 포함하며, stage-wise supervision이 기본적으로 포함되어 있다는 점 [2]**을 고려하여, 우리는 Eq. 2와 3의 KD loss를 각 decoder stage에 도입하여 점진적 증류(progressive distillation)를 수행할 것을 제안한다.

\mathcal{L}_{\text {logitsKD }}=\sum_{k=1}^{K} \mathcal{L}_{\text {logitsKD }}^{\text {pos }}[k]+\mathcal{L}_{\text {logitsKD }}^{\text {neg }}[k]

여기서 $K$ 는 decoder stage의 수이다. $\mathcal{L}_{\text {logitsKD }}^{\text {pos }}[k]$ 와 $\mathcal{L}_{\text {logitsKD }}^{\text {neg }}[k]$ 는 각각 $k$ -번째 decoder stage에서의 긍정 KD loss와 부정 KD loss를 나타낸다.

우리는 교사 모델의 각 stage별 출력으로부터 학생 모델의 해당 stage로 지식을 전달하며, 단순히 교사 모델의 마지막 stage 출력만을 사용하여 학생 모델의 모든 stage를 감독하지 않는다. 이는 최근 연구 [3]에서 관찰된 바와 같이 교사 모델이 다른 stage에서 다른 종류의 지식을 포함할 것이라고 생각하기 때문이며, 전자의 증류 전략이 교사 모델의 지식을 최대한 활용할 수 있게 한다. Tab. 7의 경험적 결과는 우리의 주장을 뒷받침한다.

4.2. Target-aware Feature Distillation

Detection 성능은 FPN(Feature Pyramid Network)에서 생성된 feature representation에 의해 크게 좌우되는데, 이는 객체 대상과 관련된 풍부한 semantic 정보를 포함하고 있기 때문이다. 따라서 우리는 teacher 모델의 지식을 feature-level에서 증류(distilling)하는 것이 필요하다고 주장한다.
teacher 모델의 공간적 feature를 모방하는 일반적인 방법은 다음과 같이 계산될 수 있다:

\mathcal{L}_{\text {featKD }}=\frac{1}{d H W}\left\|\psi \odot\left(\boldsymbol{F}^{T}-\phi\left(\boldsymbol{F}^{S}\right)\right)\right\|_{2}^{2}

여기서 $\boldsymbol{F}^{T} \in R^{H \times W \times d}$ 와 $\boldsymbol{F}^{S} \in R^{H \times W \times d^{S}}$ 는 각각 teacher 모델과 student 모델이 생성한 feature representation을 나타낸다. $H$ 와 $W$ 는 feature의 높이와 너비를 나타내며, $d$ 는 teacher feature의 채널 수이다. $\phi$ 는 student feature를 $d$ 차원으로 변환하는 학습 가능한 dimension adaptation layer이다. $\odot$ 는 두 행렬의 Hadamard product이다. $\psi \in \mathbb{R}^{H \times W}$ 는 다양한 KD(Knowledge Distillation) 방법에서 지식 있는(knowledgeable) 영역을 선택하기 위한 soft mask를 나타낸다. 예를 들어, Romero et al. [27]은 mask를 1로 채워진 행렬로 취급한다. Wang et al. [33]은 anchor box와 GT box 간의 IoU 점수를 기반으로 mask를 생성한다. Sun et al. [29]은 Gaussian mask를 활용하여 GT box를 덮는다.
위의 접근 방식들과 달리, 우리는 query embedding과 feature representation 간의 유사도 행렬을 계산하여 DETR을 위한 soft mask를 구성할 것을 제안한다. 공식적으로, teacher 모델의 전체 query 집합 $\boldsymbol{Q}^{T} \in R^{M \times d}$ 가 주어졌을 때, 선택 mask는 다음과 같이 얻을 수 있다:

\psi=\frac{1}{M} \sum_{i=1}^{M} \psi_{i}, \text { where } \psi_{i}=\boldsymbol{F}^{T} \cdot \boldsymbol{Q}_{i}^{T}

여기서 $\boldsymbol{Q}_{i}^{T} \in R^{1 \times d}$ 는 $i$ -번째 teacher의 query이며, $M$ 은 teacher 모델의 decoder query 수이다.

그러나 우리는 이러한 vanilla distillation 접근 방식이 Tab. 2에서 보여지듯이 성능이 좋지 않음을 경험적으로 발견했다. 우리는 그 이유가 teacher의 모든 object query가 동일하게 가치 있는 단서로 취급되어서는 안 되기 때문이라고 가정한다. teacher query에서 생성된 예측을 기반으로, Figure 4는 query 기반 mask $\left\{\psi_{i}\right\}$ 의 시각화를 보여주며, 우리는 다음을 확인할 수 있다:

Setting	AP	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
Baseline w/o KD	42.3	25.3	44.8	58.2
KD w/ Eq. 6	$41.9(-0.4)$	24.4	44.9	57.4
KD w/ Eq. 8	$\mathbf{43 . 5}(+1.2)$	$\mathbf{25 . 4}$	$\mathbf{46 . 7}$	$\mathbf{6 0 . 0}$

Table 2. Feature-level distillation에 대한 Ablation.

Figure 4. Query의 attention mask 시각화. (a)는 원본 이미지, (b)와 (c)는 각각 사람과 서핑보드 예측을 담당하는 query에 의해 생성된 attention mask이다. (d)에 해당하는 query는 사람과 서핑보드 모두와 관련이 있다. (e)와 (f)는 낮은 품질 점수를 가진 샘플에 의해 생성된 mask이다.

낮은 예측 점수를 가진 mask들이 객체 영역 밖을 attend한다는 것을 알 수 있다.

이러한 관찰에 따라, 우리는 mask $\psi$ 를 생성하기 위해 teacher query를 선택적으로 활용할 것을 제안한다. 구체적으로, 우리는 [8]에서 제안된 quality score를 측정 기준으로 사용한다:

q_{i}=\left(c_{i}\right)^{\gamma} \cdot \operatorname{IoU}\left(b_{i}^{G T}, b_{i}^{\mathrm{pred}}\right)^{1-\gamma},

여기서 $c_{i}$ 와 $b_{i}^{\text {pred }}$ 는 각각 $i$ -번째 teacher query로부터의 **분류 점수(classification score)**와 예측된 box를 나타낸다. $b_{i}^{G T}$ 는 해당 이분 매칭된(bipartite matched) GT box이다. $\gamma=$ 0.5는 분류 점수와 box IoU의 가중치를 균형 있게 조절하기 위한 하이퍼파라미터이다.
이후, target-aware quality score는 어떤 query가 knowledge distillation에 더 많이 기여해야 하는지를 안내하는 지표로 사용되며, Eq. 5의 KD loss는 다음과 같이 확장될 수 있다:

\mathcal{L}_{\text {featKD }}=\sum_{i=1}^{M} \frac{q_{i}}{M d H W}\left\|\psi_{i} \odot\left(\boldsymbol{F}^{T}-\phi\left(\boldsymbol{F}^{S}\right)\right)\right\|_{2}^{2} .

4.3. Query-prior Assignment Distillation

DETR에서 query와 decoder 파라미터는 일반적으로 모델 최적화를 위해 무작위로 초기화되기 때문에, query는 서로 다른 학습 epoch에서 다른 객체에 할당될 수 있으며, 이는 불안정한 이분 매칭(bipartite graph matching)과 느린 수렴 속도로 이어진다 [17]. KD(Knowledge Distillation) 설정에서 student DETR의 학습 또한 동일한 문제에 직면한다. 그러나 우리는 Figure 7에서 제시된 바와 같이, teacher 모델의 잘 최적화된 query들이 서로 다른 decoder stage 간에 일관되게 안정적인 이분 할당(bipartite assignment)을 달성한다는 것을 경험적으로 관찰했다. 따라서 teacher 모델의 지식을 활용하여 student 모델 학습의 안정성을 향상시키는 것이 직관적이다. 이러한 동기를 바탕으로, 우리는 Query-prior assignment distillation을 제안한다.

구체적으로, teacher query set $\boldsymbol{Q}^{T}$ 가 주어졌을 때, 우리는 주어진 input-GT 쌍에 대해 teacher로부터 해당 할당 순열(assignment permutation) $\hat{\sigma}^{T}$ 를 얻을 수 있다. 우리는 teacher query embedding $\boldsymbol{Q}^{T}$ 를 student 모델에 추가적인 prior query 그룹으로 입력하고, teacher의 할당 $\hat{\sigma}^{T}$ 를 직접 사용하여 손실 계산을 위한 detection 결과를 생성할 것을 제안한다.

\mathcal{L}_{\text {assignKD }}\left(y, \hat{y}_{\hat{\sigma}_{i}^{T}}^{S}\right)=\sum_{i=1}^{M} \mathcal{L}_{\text {match }}\left(y_{i}, \hat{y}_{\hat{\sigma}_{i}^{T}}^{S}\right) .

이 제안된 KD 손실은 student 모델이 teacher query를 prior로 간주하도록 돕고, student detector가 가능한 한 안정적인 할당을 달성하도록 유도할 것이다. Figure 7에서 보여지듯이, 제안된 distillation loss를 통해 student 모델의 매칭 안정성이 크게 향상되었다. 이러한 추가적인 teacher query 그룹은 학습 중에만 사용되며, student 모델은 최종 평가를 위해 자신의 기본 query set을 사용한다는 점에 유의해야 한다.

4.4. Overall loss

요약하자면, student DETR 학습을 위한 총 손실 함수는 Eq. 1, Eq. 4, Eq. 8, Eq. 9의 가중 조합으로 구성된다:

\mathcal{L}=\mathcal{L}_{\text {det }}+\lambda_{1} \mathcal{L}_{\text {logitsKD }}+\lambda_{2} \mathcal{L}_{\text {featKD }}+\lambda_{3} \mathcal{L}_{\text {assignKD }} .

여기서 $\lambda_{1}=1, \lambda_{2}=20, \lambda_{3}=1$ 은 제안된 세 가지 KD loss 항의 균형을 맞추는 가중치이다. 우리의 distillation 방법은 일반적인 DETR paradigm을 따르므로, DETR-families의 다양한 detector에 쉽게 적용될 수 있다.

5. Experiments

5.1. Experiment Setup and Implementation Details

데이터셋 (Dataset)
본 연구에서는 도전적인 대규모 **MS COCO 벤치마크 [20]**를 사용한다. 이 중 **train2017 (118K 이미지)**은 학습에, **val2017 (5K 이미지)**은 검증에 활용된다. 평가는 **표준 COCO-style 측정 방식인 average precision (mAP)**을 사용한다.

DETR 모델 (DETR Models)
세 가지 다른 DETR detector를 평가하였다: Deformable DETR [42], Conditional DETR [25], AdaMixer [11]. 이 세 모델은 대표적인 모델 프레임워크와 뛰어난 성능 때문에 선정되었다. ablation study에서는 AdaMixer를 쉬운 학습과 빠른 수렴을 이유로 ablation 및 분석을 위한 baseline으로 선택하였다.

Detector	Setting	Epoch	AP	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
AdaMixer (100 Queries)	Teacher	12	43.6	25.4	46.8	60.7
	Student	12	42.3	25.3	44.8	58.2
	FGD [36]	12	40.7(-1.6)	23.4	43.3	55.8
	MGD [37]	12	42.3(+0.0)	24.5	45.0	58.9
	FitNet [27]	12	42.9(+0.6)	24.7	45.8	59.4
	Ours	12	44.7(+2.4)	26.7	47.6	61.0
Deformable DETR (300 Queries)	Teacher	50	45.5	27.5	48.7	60.3
	Student	50	44.1	27.0	47.4	58.3
	FGD [36]	50	44.1(+0.0)	25.9	47.7	58.8
	MGD [37]	50	44.0(-0.1)	25.9	47.3	58.6
	FitNet [27]	50	44.9(+0.8)	27.2	48.4	59.6
	Ours	50	46.6(+2.5)	28.5	50.0	60.4
Conditional DETR (300 Queries)	Teacher	50	42.4	22.6	46.0	61.2
	Student	50	40.7	20.3	43.8	60.0
	FGD [36]	50	40.4(-0.3)	19.7	43.8	59.5
	MGD [37]	50	41.2(+0.5)	20.6	44.6	60.5
	FitNet [27]	50	41.0(+0.3)	20.2	44.3	59.9
	Ours	50	42.9(+2.2)	21.6	46.5	62.2

Table 3. Teacher 및 Student 네트워크의 encoder 및 decoder stage 수가 동일할 때의 distillation 결과.

구현 세부 사항 (Implementation Details)
우리의 코드베이스는 **MMdetection 툴킷 [5]**을 기반으로 구축되었다. 모든 모델은 8개의 NVIDIA V100 GPU에서 학습되었다. 특별한 언급이 없는 한, Teacher 모델은 ResNet-101 [13]을 backbone으로, Adam optimizer를 사용하여 $1 \times$ schedule (12 epoch) 또는 50 epoch 동안 학습된다. Student 모델은 각 baseline의 설정에 따라 ResNet-50 [13]을 backbone으로 사용하여 동일한 학습 스케줄로 학습된다.

5.2. Main Results

이 섹션에서는 주로 두 가지 설정에 대한 실험 결과를 제시한다: (1) teacher와 student의 encoder 및 decoder stage 수가 동일한 경우 (2) teacher와 student의 encoder 및 decoder stage 수가 다양한 경우

보충 자료에서는 경량 backbone으로의 distillation 및 self-distillation과 같이 우리 접근 방식의 효과를 입증하기 위한 다른 설정에 대한 추가 실험 결과를 제공한다.

동일한 encoder 및 decoder stage 수에 대한 Distillation
결과는 Table 3에 제시되어 있다. **FitNet [27]**은 모든 DETR variant에서 안정적인 성능 향상을 가져오는 반면, **MGD [37]**와 **FGD [36]**는 Transformer 기반 detector에 잘 작동하지 않거나 오히려 결과 저하를 유발할 수 있음을 확인할 수 있다. 그러나 우리 접근 방식은 student의 성능을 크게 향상시키고 다양한 detector에서 다른 모든 방법들을 큰 차이로 능가하는 것이 분명하다. 구체적으로, DETRDistill은 AdaMixer에서 2.4 AP, Deformable DETR에서 2.5 AP, Conditional DETR에서 2.2 AP를 향상시켰으며, 이는 우리 접근 방식의 효과를 입증한다.

서로 다른 encoder 및 decoder stage 수에 대한 Distillation

#Enc./Dec.	Setting	AP	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
6/6	Student	33.0	13.8	35.1	50.9
	Ours	38.1(+5.1)	18.2	41.0	58.2
6/3	Student	30.3	12.7	32.5	46.8
	Ours	36.6(+6.3)	15.2	39.8	56.0
3/6	Student	33.0	13.9	35.9	49.0
	Ours	37.7(+4.7)	17.4	40.8	57.3
3/3	Student	29.9	12.8	32.2	45.6
	Ours	35.7(+5.8)	14.4	38.7	53.8

Table 4. teacher 및 student 네트워크의 다양한 encoder 및 decoder stage 수에 대한 distillation 결과. teacher 모델의 성능은 36.2 AP이다.

decoder stage 수. student 모델은 일반적으로 teacher 모델보다 작기 때문에, teacher와 student가 동일한 수의 Transformer encoder 및 decoder stage를 가질 것이라는 보장은 없다. 따라서 우리는 teacher보다 encoder/decoder 수가 적은 student 모델에 대해서도 실험을 수행하고, 이들의 핵심 요인을 탐구한다. 이 실험을 위해 우리는 Conditional DETR with ResNet-101을 teacher 모델로, ResNet-50을 student 모델로 선택했다. 모든 모델은 1x 스케줄(12 epoch)로 학습되었다. teacher 모델의 기본 encoder 및 decoder 수는 6이며, 우리는 student 모델의 encoder 및 decoder 수를 6에서 3으로 줄였다. Section 4.1에서 제안된 기본 progressive distillation은 teacher와 student가 동일한 수의 decoder stage를 가진다고 가정하므로, 우리는 stage 불일치 문제를 처리하기 위해 Figure 5에 표시된 대로 teacher의 decoder들을 단순히 그룹화하고 progressive 전략을 따르도록 했다.

주요 결과는 Table 4에 나와 있다. Transformer encoder의 수를 줄이는 것은 성능에 큰 영향을 미치지 않지만, decoder 수를 줄이는 것은 심각한 성능 저하를 초래한다는 것을 알 수 있다. 그러나 우리가 제안한 DETRDistill은 성능 격차를 크게 보완한다. 예를 들어, 단 3개의 encoder 및 decoder stage만으로도 우리 접근 방식은 student 모델이 35.7 AP를 달성하도록 도왔으며, 이는 KD 없이 6개의 encoder 및 decoder stage를 가진 student 모델보다 우수하다.

6. Ablation Studies

이 섹션에서는 다음 관점에서 우리의 접근 방식을 ablation하고자 한다.

각 구성 요소의 효과
DETRDistill의 각 구성 요소가 미치는 영향을 연구하기 위해, 우리는 Table 5에 각 모듈의 성능을 보고한다.

Figure 5. 디코더 수가 다른 증류 다이어그램.

Distillations	AP	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
None	42.3	25.3	44.8	58.2
LD	$43.7(\mathbf{1 . 4})$	25.3	46.5	60.7
FD	$43.5(\mathbf{+ 1 . 2})$	25.4	46.7	60.0
AD	$42.9(\mathbf{+ 0 . 6})$	24.5	45.9	59.3
LD + FD	$44.3(\mathbf{+ 2 . 0})$	25.8	47.0	61.0
LD + FD + AD	$44.7(\mathbf{+ 2 . 4})$	26.7	47.6	61.0

Table 5. DETRDistill의 각 구성 요소에 대한 Ablation 연구. LD는 Hungarian-matching Logits Distillation을, FD는 Target-aware Feature Distillation을, AD는 Query-prior Assignment Distillation을 의미한다.

우리의 baseline은 42.3 AP에서 시작한다. logits-level distillation, feature-level distillation, query-prior assignment distillation을 각각 적용했을 때, 우리는 각각 1.4 AP, 1.2 AP, 0.6 AP의 성능 향상을 얻을 수 있었다. 최종적으로, 세 가지 모듈을 모두 함께 적용했을 때 AP 성능은 44.7에 도달하여 2.4 AP의 절대적인 개선을 이루었다.

logits distillation 선택
우리의 기본 logits distillation은 긍정적인 분류 예측(positive classification predictions), 긍정 및 부정 box regression에 대해 수행된다. 우리는 Table 6에서 이러한 항들의 다양한 선택에 대한 ablation을 수행했다. 긍정 예측에 대해서만 distillation을 수행하면 미미한 성능 향상만을 가져온다는 것을 알 수 있다. 반면, 부정 box regression에 대한 distillation은 성능을 크게 향상시킨다. 이는 Section 4.1에서 제안된 부정 위치 distillation의 중요성을 명확히 입증한다.

Pos. Cls.	Pos. Reg.	Neg. Reg.	AP	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
-	-	-	42.3	25.3	44.8	58.2
$\checkmark$			42.6	24.9	45.4	58.9
	$\checkmark$		42.6	24.4	45.6	58.8
		$\checkmark$	43.4	25.2	46.2	60.1
$\checkmark$	$\checkmark$		42.5	24.9	45.4	58.3
	$\checkmark$	$\checkmark$	43.6	25.2	46.3	60.6
$\checkmark$	$\checkmark$	$\checkmark$	43.7	25.3	46.5	60.7

Table 6. Distillation을 위한 logits 선택에 대한 Ablation.

점진적 증류의 필요성
Section 4.1에서 제시된 바와 같이, 우리는 교사 모델(teacher model)로부터 학생 모델(student model)로 지식을 단계별로 점진적으로 증류하는 방식을 선택했으며, 교사 모델의 마지막 단계 출력만을 사용하지 않았다. Table 7은 전자의 선택이 더 나은 성능을 보인다는 것을 보여준다.

Strategies	AP	$\mathrm{AP}_{S}$	$\mathrm{AP}_{M}$	$\mathrm{AP}_{L}$
Baseline	42.3	25.3	44.8	58.2
Last-stage Distillation	43.1	$\mathbf{2 5 . 4}$	45.9	59.7
Progressive Distillation	$\mathbf{43 . 7}$	25.3	$\mathbf{46 . 5}$	$\mathbf{6 0 . 7}$

Table 7. 점진적 증류의 필요성에 대한 Ablation 연구. Last-stage distillation은 교사 모델의 마지막 디코더 단계 출력만을 사용하여 학생 모델의 모든 디코더 단계를 감독하는 것을 의미한다.

feature level distillation에서 선택 마스크 시각화
Section 4.2에서 우리는 Figure 4에서 일부 query-based selection mask $\psi_{i}$ 를 시각화했다. 여기서는 **품질 가중 마스크(quality weighted mask) $\sum_{i}^{M}\left(q_{i} \cdot \psi_{i}\right)$ **에도 관심이 있으며, Figure 6은 다른 FPN 단계에서 이 마스크의 두 가지 시각화를 보여준다.

Figure 6. 다른 FPN 단계에서 선택 마스크 시각화.

soft mask가 객체 대상 근처에서 활성화되고 특정 contextual 정보를 유지한다는 것을 알 수 있으며, 이는 우리의 예상과 일치한다. 또한, FPN의 다른 stride를 가진 단계들이 마스크로부터 다른 지식 영역을 가진다는 것을 발견했다. 더욱이, 이는 Section 4.2에서 제안된 바와 같이, 선택 마스크 생성을 위해 ground truth를 사용하는 대신 즉각적인 query-based selection mask를 지식 증류에 사용하는 것을 시사한다.

다른 디코더 단계의 예측 간 불안정성 시각화
Section 4.3에서 우리는 학생 모델의 학습을 가속화하고 안정화하기 위해 Query-prior Assignment Distillation을 제안했다. 여기서는 제안된 증류 모듈의 효과를 조사하기 위해 다른 디코더 단계의 예측 간 불안정성 분석을 제시한다. 우리는 이분 매칭(bipartite assignment)의 불안정성을 평가하기 위해 [17]에서 제안된 동일한 metric을 활용한다. 그러나 우리의 초점은 다른 epoch 간이 아닌, 다른 디코더 단계 간의 매칭 안정성에 있다. $k$ -번째 디코더 단계의 예측은 $\mathbf{O}^{\mathbf{k}}=\left\{O_{0}^{k}, O_{1}^{k}, \ldots, O_{N-1}^{k}\right\}$ 로 표시되며, 여기서 $N$ 은 예측된 객체의 수이다. GT는 $\mathbf{T}=\left\{T_{0}, T_{1}, \ldots, T_{M-1}\right\}$ 로 표시되며, 여기서 $M$ 은 ground truth 대상의 수이다. 그런 다음 $k$ -번째 디코더 단계의 할당 결과를 저장하기 위해 인덱스 벡터 $\mathbf{V}^{\mathbf{k}}=\left\{V_{0}^{k}, V_{1}^{k}, \ldots, V_{N-1}^{k}\right\}$ 를 다음과 같이 계산한다.

V_{n}^{k}= \begin{cases}m, & \text { if } O_{n}^{k} \text { matches } T_{m} \\ -1, & \text { if } O_{n}^{k} \text { matches nothing }\end{cases}

그리고 디코더 단계 $k$ 와 단계 $k+1$ 간의 불안정성( $IS$ )은 다음과 같이 계산할 수 있다.

I S^{k}=\sum_{j=0}^{N} \mathbb{1}\left(V_{n}^{k} \neq V_{n}^{k+1}\right)

우리는 잘 학습된 교사 모델과 학생 baseline 모델에 대해 $IS$ metric을 계산한다. 우리의 Query-prior Assignment Distillation을 사용한 모델의 경우, 첫 번째 학습 epoch의 즉각적인 checkpoint에서 $IS$ metric을 계산한다. Figure 7에서 보듯이, naive student는 교사 모델보다 더 높은 불안정성을 보인다. 그러나 제안된 증류 모듈을 단 한 epoch만 학습에 사용했을 때 $IS$ 점수가 크게 감소하며, 이는 이러한 증류 모듈이 학생 모델이 더 안정적으로 학습하고 수렴 속도를 높이는 데 도움이 된다는 것을 명확히 입증한다.

Figure 7. 한 epoch 학습 후 교사, 학생, 그리고 Query-prior Assignment Distillation을 적용한 학생 모델의 불안정성( $IS$ ).

7. Conclusion

본 논문은 DETR-style detector를 위한 범용 지식 증류(knowledge distillation) 프레임워크인 DETRDistill을 소개한다. 우리의 방법은 세 가지 증류 모듈을 포함한다:

Hungarian-matching Logits Distillation
Target-aware Feature Distillation
Query-prior Assignment Distillation

경쟁력 있는 COCO 벤치마크에 대한 광범위한 실험은 우리 접근 방식의 효과성과 일반화 능력을 입증한다. 특히, 현재 state-of-the-art 지식 증류 방법들과 비교하여 다양한 Transformer 기반 detector에서 상당한 성능 향상을 달성한다. 우리는 DETRDistill이 향후 연구를 위한 DETR 기반 지식 증류의 견고한 baseline 역할을 할 수 있기를 기대한다.

DETRDistill: DETR 계열을 위한 범용 Knowledge Distillation 프레임워크

논문 요약: DETRDistill: A Universal Knowledge Distillation Framework for DETR-families

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성

DETRDistill: A Universal Knowledge Distillation Framework for DETR-families

Abstract