Kurmanji, Meghdad, et al. "Towards unbounded machine unlearning." Advances in neural information processing systems 36 (2023): 1957-1987.

Towards Unbounded Machine Unlearning

Abstract

Deep machine unlearning은 학습된 신경망에서 훈련 데이터셋의 일부를 '제거'하는 문제이다. 이 문제는 매우 시의적절하며, **편향 제거(RB), 오분류 데이터로 인한 혼란 해결(RC), 사용자 개인 정보 보호를 위한 '잊힐 권리' 행사(UP)**와 같은 핵심 task를 포함하여 다양한 응용 분야를 가지고 있다.
본 논문은 unlearning을 다양한 응용 분야(RB, RC, UP)에 대해 연구한 최초의 연구이며, 각 응용 분야가 고유한 요구 사항, '망각(forgetting)'에 대한 정의, 그리고 망각 품질(forget quality)에 대한 관련 측정 기준을 가지고 있다는 관점을 제시한다.
UP의 경우, 우리는 **unlearning을 위한 강력한 Membership Inference Attack의 새로운 적응(adaptation)**을 제안한다.
또한 우리는 새로운 unlearning 알고리즘인 SCRUB를 제안한다. SCRUB는 RB, RC, UP에 대한 다양한 응용 분야별 망각 품질 측정 기준에서 일관되게 최고의 성능을 보이는 유일한 방법이다. 동시에 SCRUB는 모델 유틸리티(즉, 유지된 데이터에 대한 정확도 및 일반화 성능)를 측정하는 지표에서도 일관되게 최고의 성능을 보이며, 이전 연구보다 효율적이다.
위의 내용은 이전 state-of-the-art 방법들과의 포괄적인 실증적 평가를 통해 입증된다.

1 Introduction

딥러닝 모델이 학습 데이터의 일부를 '잊게' 만들 수 있을까? 이는 과학적으로 흥미로운 질문일 뿐만 아니라, 실용적인 관점에서도 딥 머신 언러닝(deep machine unlearning)의 목표 달성이 점점 더 중요해지고 있으며, 최근 이 연구 방향은 상당한 주목을 받고 있다 [Triantafillou et al., 2023].
EU의 일반 데이터 보호 규정(GDPR) [Mantelero, 2013]과 같은 규제는 **개인이 자신의 데이터를 '삭제'하도록 요청할 수 있는 권리('잊힐 권리')**를 명시하고 있다. 오늘날 컴퓨터 비전, 자연어 처리, 음성 인식, 헬스케어 등 광범위한 응용 분야에서 딥러닝 시스템이 보편화됨에 따라, 개인이 이 권리를 행사할 수 있도록 하려면 새로운 기술이 필수적이다. **언러닝(unlearning)**은 이러한 필요를 충족시키는 것을 목표로 한다.

그러나 언러닝은 개별 학습 예시의 하위 집합에 대한 프라이버시가 반드시 고려 사항이 아닌 경우에도 여러 중요한 응용 분야를 가진다:

오래된 예시 제거
이상치(outliers) 제거
오염된 샘플(poisoned samples) 제거 [Jagielski et al., 2018]
노이즈가 있는 레이블(noisy labels) 제거 [Northcutt et al., 2021]
유해한 편향을 포함할 수 있는 데이터 제거 [Fabbrizzi et al., 2022]

사실, 우리는 '잊기(forgetting)'의 정의가 응용 분야에 따라 다르며, 언러닝은 시나리오별로 다른 요구 사항과 우선순위를 가진다고 주장하는 최초의 연구이다. 예를 들어, 프라이버시 응용 분야에서는 삭제를 요청한 사용자의 데이터를 '잊는 것'이 주요 목표이며, 멤버십 추론 공격(Membership Inference Attacks, MIA)을 안정적으로 방어하기 위해 모델 성능을 어느 정도 희생할 의향이 있을 수 있다. 다른 경우, 예를 들어 모델을 최신 상태로 유지하기 위해 오래된 데이터를 삭제할 때는, 이러한 '정리(cleanup)' 작업 전반에 걸쳐 모델의 성능을 유지하는 것이 주요 고려 사항일 수 있으며, 오래된 데이터의 흔적이 전혀 남지 않도록 보장하는 것은 중요하지 않을 수 있다. 이전 연구에서는 이러한 구분을 설정하지 않았지만, 우리는 세 가지 시나리오를 연구하고 응용 분야 및 지표 전반에 걸쳐 가장 일관되게 최고의 성능을 보이는 방법을 제안한다.

안타깝게도, 학습된 모델의 가중치에서 학습 세트의 하위 집합의 영향을 제거하는 것은 어렵다. 딥 모델은 특정 인스턴스에 대한 정보를 기억하고 [Zhang et al., 2020, 2021. Arpit et al., 2017], 매우 비볼록적인(non-convex) 특성으로 인해 각 예시가 모델의 가중치에 미치는 영향을 추적하기 어렵기 때문이다. 물론, 잊어야 할 데이터 코호트 없이 모델을 처음부터 다시 학습시키는 naive한 해결책을 적용할 수 있다. 이 절차는 결과 모델의 가중치가 잊어야 할 인스턴스의 영향을 받지 않도록 보장하지만(**'정확한 언러닝(exact unlearning)'**을 수행), 명백한 단점은 계산 비효율성이다: 새로운 잊기 요청이 있을 때마다 딥러닝 모델을 다시 학습시키는 것은 실제로 실행 불가능하다.
이러한 비용을 완화하기 위해 최근 연구는 **근사 언러닝(approximate unlearning)**으로 전환했다 [Izzo et al., 2021, Golatkar et al., 2020ab]. 근사 언러닝의 목표는 학습된 모델의 가중치를 수정하여 정확한 언러닝을 통해 얻었을 가중치에 근사시키는 것이다. 즉, 근사 해와 정확한 해 간의 '구분 불가능성(indistinguishability)'을 달성하기 위해 노력하며, 일반적으로 해당 근사의 품질에 대한 이론적 보장이 수반된다. 이 목표는 이러한 연구에서 사용되는 지표에도 반영된다: 삭제된 데이터에 대한 모델의 오류는 '정확한' 재학습 모델(해당 데이터를 실제로 본 적이 없는 모델)의 오류만큼 높아야 한다. 그 이유는 이 기준점보다 높은 오류는 멤버십 추론 공격에 대한 취약성을 유발할 수 있기 때문이다: 예시에 대한 눈에 띄게 낮은 성능은 해당 예시가 언러닝되었음을 드러낼 수 있다.

본 연구에서는 이러한 **근사 언러닝 방법들이 실제로 종종 좋지 않은 성능을 보인다(RB, RC 및 UP 중 하나 이상에서)**는 것을 경험적으로 보여준다. 우리는 이것이 이러한 방법들이 가정한 전제 조건의 잠재적 위반 때문이라고 가정한다. 예를 들어, 언러닝의 '최적' 해가 원래 모델과 가중치 공간에서 가깝다는 가정 [Golatkar et al., 2020ab] (SGD의 안정성 및 '충분히 작은' 잊기 세트에 대한 가정으로 인해) 등이 있다. 또한, 우리는 이러한 이전 방법들이 학습 세트의 크기와 모델 크기에 따라 확장성이 좋지 않아 종종 비실용적이라는 것을 발견한다.
이러한 문제들을 해결하기 위해 우리는 **새로운 언러닝 모델인 SCalable Remembering and Unlearning unBound (SCRUB)**를 제안한다. SCRUB는 이러한 방법론에서 벗어난다. SCRUB는 학생 모델이 모든 것을 아는 교사 모델에게 선택적으로 불복종하여, 삭제될 데이터와 관련 없는 지식만을 상속받는 새로운 교사-학생(teacher-student) 형태를 취한다. 이 방법은 제한적인 가정(예: 공식적인 보장을 용이하게 하기 위한), 낮은 확장성 한계로부터 '자유로우며(unbound)', 단일 언러닝 응용 분야에 맞춰져 있지 않다. 우리는 SCRUB가 삭제된 데이터에 대해 매우 높은 오류를 생성할 수 있음을 발견했는데, 이는 일부 시나리오에서는 바람직하지만 멤버십 추론 공격에 대한 취약성을 유발할 수 있다. 관련성이 있을 때 이를 완화하기 위해, 우리는 삭제된 데이터에 대한 오류가 '충분히 높은' 기준점에 근사하도록 언러닝 프로세스의 '체크포인트'를 정확히 찾아내는 새로운 '되감기(rewinding)' 절차로 SCRUB를 확장한다.

우리는 또한 UP의 지표로서, 최신 LiRA MIA [Carlini et al. 2022]를 언러닝 프레임워크에 적용한 최초의 사례를 제안한다. 전반적으로, 우리는 다양한 baseline, 데이터셋, 아키텍처 및 세 가지 응용 시나리오를 사용하여 포괄적인 평가를 수행한다. 우리는 SCRUB가 고려된 모든 최신 방법 중에서 단연코 가장 일관되게 최고의 성능을 보인다는 것을 발견한다. SCRUB는 높은 잊기 품질을 보장하며, 다양한 응용 분야에 대한 다양한 잊기 품질 지표를 충족시키는 동시에 모델 유틸리티(유지된 데이터에 대한 정확도 및 일반화) 측면에서도 최고의 성능을 보인다. 우리의 연구 결과는 언러닝 알고리즘을 평가할 때 광범위한 응용 분야를 고려하여 그 특성과 trade-off를 더 잘 이해할 필요성을 강조한다.

2 Problem Definition for Unlearning Unbound

표기법 및 사전 정의 (Notation and preliminaries)
$N$ 개의 예시를 포함하는 학습 데이터셋을 $\mathcal{D}=\left\{x_{i}, y_{i}\right\}_{i=1}^{N}$ 라고 하자. 여기서 $i$ 번째 예시는 입력 feature 벡터 $x_{i}$ 와 해당 클래스 레이블 $y_{i}$ 로 표현된다. 학습 가능한 가중치 $w$ 로 매개변수화된 함수를 $f(\cdot ; w)$ 라고 하자. 본 연구에서는 $f$ 가 심층 신경망(deep neural network)으로 표현되며, 경험적 위험 최소화(empirical risk minimization)를 통해 supervised 방식으로 학습되는 경우를 다룬다. 구체적으로, 손실 함수는 $\mathcal{L}(w)=\frac{1}{N} \sum_{i=1}^{N} l\left(f\left(x_{i} ; w\right), y_{i}\right)$ 로 정의되며, 여기서 $l$ 은 cross entropy loss를 나타낸다.

심층 기계 망각 (Deep Machine Unlearning)
이제 심층 기계 망각 문제를 공식화한다. 우리는 $\mathcal{D}$ 로 학습된 모델 $f\left(\cdot ; w^{o}\right)$ 가 주어졌다고 가정한다. 여기서 $f$ 는 신경망을 나타내고, $w^{o}$ 는 위 손실 함수를 최소화하여 얻은 학습된 파라미터이다. 우리는 이를 '원본 모델(original model)'(즉, 망각 개입이 수행되기 전)이라고 부를 것이다. 또한, $\mathcal{D}$ 에서 $N_{f}$ 개의 예시로 구성된 '망각 세트(forget set)' $\mathcal{D}_{f}=\left\{x_{i}, y_{i}\right\}_{i=1}^{N_{f}} \subset \mathcal{D}$ 와, 모델이 정보를 유지하도록 허용된 $N_{r}$ 개의 학습 예시로 구성된 '유지 세트(retain set)' $\mathcal{D}_{r}$ 가 주어진다. 단순화를 위해, $\mathcal{D}_{r}$ 이 $\mathcal{D}_{f}$ 의 여집합, 즉 $\mathcal{D}_{f} \cup \mathcal{D}_{r}=\mathcal{D}$ 인 표준 시나리오를 고려한다.

$f\left(\cdot ; w^{o}\right)$ , $\mathcal{D}_{f}$ 및 $\mathcal{D}_{r}$ 이 주어졌을 때, 심층 기계 망각의 목표는 새로운 가중치 $w^{u}$ 를 생성하여 '망각된 모델(unlearned model)' $f\left(\cdot ; w^{u}\right)$ 이 원본 모델의 '유용성(utility)'(유지된 데이터 $D_{r}$ 에 대한 성능 및 $D$ 외부 데이터에 대한 일반화 능력)을 손상시키지 않으면서 $D_{f}$ 를 '잊어버리도록' 하는 것이다. 우리는 '망각(forgetting)'을 정의(및 측정)하는 것이 응용 분야에 따라 다르다고 주장한다. 본 연구는 우리가 아는 한, 세 가지 다른 응용 시나리오에서 망각 알고리즘에 대한 철저한 실증적 평가를 수행한 최초의 연구이며, 각 시나리오마다 망각에 대한 고유한 정의와 관련 메트릭을 가지고 있다.

'망각'의 정의 및 측정 (Defining and measuring 'forgetting')
본 연구에서는 각각 고유한 망각 정의와 관련 메트릭을 가진 세 가지 다른 응용 시나리오를 고려한다.

편향 제거 (Removing biases): 우리는 $\mathcal{D}_{f}$ 에 대해 **최대 오류(maximal error)**를 원한다. 즉, 모델은 망각 예시의 할당된 레이블을 예측해서는 안 된다. 이는 의도하지 않은 동작을 반영하기 때문이다.
혼란 해결 (Resolving confusion): 모델은 데이터셋의 잘못된 레이블로 인해 '혼란스러울' 수 있다. 잘못 레이블링된 예시가 망각 세트에 포함될 경우, 성공적인 망각 알고리즘은 이를 해결한다 (Section 5의 메트릭 참조).
사용자 프라이버시 (User privacy): 프라이버시 관점에서의 성공은 재학습(retraining-from-scratch)과 동일한 수준의 망각 오류와 관련된다. 더 높은 망각 오류는 **멤버십 추론 공격(Membership Inference Attacks, MIAs)**에 대한 취약성을 초래할 수 있다.
위의 모든 경우에서, 망각을 달성하는 것 외에도, 우리는 모델 유용성(즉, 유지된 데이터에 대한 정확도 및 일반화 능력)을 손상시키지 않는 망각 알고리즘을 찾고 있으며, 망각이 모델을 재학습하는 간단하고 비용이 많이 드는 해결책보다 선호될 만큼 효율적이어야 한다.

근본적인 trade-off (Fundamental trade-offs)
최고 성능의 망각 알고리즘은 동시에 세 가지 목표를 달성해야 한다: (i) **높은 '망각 품질(forget quality)'**을 얻고, (ii) 유지된 데이터 및 보지 못한 데이터에 대한 높은 정확도를 지속적으로 보장하며, (iii) 효율성/확장성을 확보해야 한다.
실제로, 두 가지 다른 차원에서 근본적인 trade-off가 존재한다.
첫 번째 차원은 (i), (ii), (iii) 사이의 trade-off를 포함한다. 예를 들어, 효율성을 희생하여 좋은 '망각 품질'을 달성하는 경우이다. 스크래치부터 재학습하는 것이 그러한 예시이지만, 나중에 보여주듯이 일부 방법은 재학습보다 훨씬 더 비효율적이다. 우리가 관찰할 또 다른 일반적인 문제는 유용성을 희생하여 좋은 '망각 품질'을 달성하는 것이다.
두 번째 차원은 응용 분야에 걸쳐 좋은 '망각 품질'을 달성하는 맥락 내에서의 trade-off를 포함한다. 이 품질에 대한 메트릭은 응용 분야별로 다르며, 어떤 알고리즘은 한 메트릭에서는 강력한 성능을 보이지만 다른 메트릭에서는 좋지 않은 성능을 보일 수 있기 때문이다. SCRUB는 이러한 trade-off를 처리하도록 설계되었으며, 모든 면에서 이전 방법들보다 일관되게 우수한 성능을 보이는 것으로 실증적으로 입증되었다.

3 SCalable Remembering and Unlearning unBound (SCRUB)

우리는 unlearning 문제를 teacher-student 프레임워크로 새롭게 재구성한 SCRUB라는 새로운 unlearning 알고리즘을 제안한다. 우리는 SCRUB를 unlearning의 목표(desiderata), 즉 모델 유틸리티를 손상시키지 않으면서 효율적으로 '잊는' 능력을 충족하도록 설계했다.
'잊는 것(forgetting)'의 정의가 애플리케이션에 따라 다르다고 판단했기 때문에, 우리는 다양한 애플리케이션에 적용 가능한 방법론을 제안한다:

우리는 먼저 SCRUB가 최대 forget error를 달성하도록 설계한다. 이는 **RB(Right to be forgotten) 및 RC(Copyright infringement)**와 같은 일부 시나리오에서는 바람직하지만, **UP(Unfairness prevention)**과 같은 다른 시나리오에서는 그렇지 않을 수 있다.
후자의 경우를 해결하기 위해, 우리는 SCRUB에 새로운 'rewinding' 절차를 보완한다. 이 절차는 필요할 때 forget set error를 적절하게 줄일 수 있다.

SCRUB는 제한적인 가정(예: 공식적인 보장을 용이하게 하기 위한 가정)이나 확장성 한계로부터 '자유로우며', 모델 유틸리티를 보존하면서도 다양한 애플리케이션에서 가장 일관된 forgetting 성능을 보여주는 방법이다.

3.1 The SCRUB

우리는 원본 모델 $w^{o}$ 를 '교사(teacher)'로 간주하고, 이 교사에게 선택적으로 순종하는 '학생(student)' $w^{u}$ 를 훈련하는 것을 목표로 한다. 직관적으로, $w^{u}$ 의 목표는 두 가지이다: $\mathcal{D}_{f}$ 를 잊으면서도 $\mathcal{D}_{r}$ 을 기억하는 것이다. 이를 위해 $w^{o}$ 는 $\mathcal{D}_{r}$ 에 대해 가르칠 때는 순종해야 하지만, $\mathcal{D}_{f}$ 에 대해 가르칠 때는 불순종해야 한다. 우리의 코드는 재현성을 위해 공개되어 있다.

학습 목표를 도출하기 전에 먼저 다음을 정의하자:

d\left(x ; w^{u}\right)=D_{\mathrm{KL}}\left(p\left(f\left(x ; w^{o}\right)\right) \| p\left(f\left(x ; w^{u}\right)\right)\right)

즉, $d\left(x ; w^{u}\right)$ 는 예시 $x$ 에 대한 학생과 교사의 출력 분포(softmax 확률) 간의 KL-divergence이다. 우리는 교사 가중치 $w^{o}$ 를 고정된 상수로 취급하고 학생 가중치 $w^{u}$ 를 최적화할 것이므로, $d$ 가 $w^{u}$ 에 의존함을 명시한다.

구체적으로, 우리는 학생 $w^{u}$ 를 교사 $w^{o}$ 의 가중치로 초기화하는 것부터 시작한다. 교사 가중치 $w^{o}$ 는 $\mathcal{D}$ 전체에 대해 학습되었으므로, 교사는 $\mathcal{D}$ 의 두 구성 요소, 즉 $\mathcal{D}_{r}$ 과 $\mathcal{D}_{f}$ 모두에서 좋은 성능을 보인다. 따라서 학생은 초기화 시 $\mathcal{D}_{r}$ 에서 좋은 성능을 보이며, 이미 우리의 목표 중 하나를 충족한다. 그렇다면 이 솔루션에서 시작하여 $\mathcal{D}_{f}$ 를 잊도록 수정할 수 있을까? 원칙적으로는 다음을 최적화하여 이를 수행할 수 있다:

\min _{w^{u}}-\frac{1}{N_{f}} \sum_{x_{f} \in \mathcal{D}_{f}} d\left(x_{f} ; w^{u}\right)

그러나 실제로는 forget set에서 학생과 교사 간의 거리를 최대화하는 이 작업을 수행할 때, $\mathcal{D}_{f}$ 에 대한 성능은 원하는 대로 저하되지만, 불행히도 $\mathcal{D}_{r}$ 에 대한 성능도 저하되는 현상을 발견했다. 이를 개선하기 위해, 우리는 학생이 retain 예시에 대해서는 교사에게 '가깝게 유지'하도록 장려하는 동시에, forget 예시에 대해서는 교사로부터 '멀어지도록' 장려하는, contrastive한 방식을 추가로 제안한다. 공식적으로 최적화 목표는 다음과 같다:

\min _{w^{u}} \frac{1}{N_{r}} \sum_{x_{r} \in \mathcal{D}_{r}} d\left(x_{r} ; w^{u}\right)-\frac{1}{N_{f}} \sum_{x_{f} \in \mathcal{D}_{f}} d\left(x_{f} ; w^{u}\right)

또한, SCRUB는 retain set에 대한 task loss도 동시에 최적화하여, 해당 부분에서 좋은 성능을 발휘하도록 하는 동기를 더욱 강화한다. 우리의 최종 학습 목표는 다음과 같다:

\min _{w^{u}} \frac{\alpha}{N_{r}} \sum_{x_{r} \in \mathcal{D}_{r}} d\left(x_{r} ; w^{u}\right)+\frac{\gamma}{N_{r}} \sum_{\left(x_{r}, y_{r}\right) \in \mathcal{D}_{r}} l\left(f\left(x_{r} ; w^{u}\right), y_{r}\right)-\frac{1}{N_{f}} \sum_{x_{f} \in \mathcal{D}_{f}} d\left(x_{f} ; w^{u}\right)

여기서 $l$ 은 cross-entropy loss를 나타내고, $\alpha$ 와 $\gamma$ 는 하이퍼파라미터로 취급되는 스칼라 값이다. 실제로 Equation 3의 목표를 최적화하는 것은 loss의 진동으로 인해 어렵다는 것을 발견했다. 직관적으로 이는 일부 데이터 포인트에서는 교사에게 가까워지려 하고, 다른 데이터 포인트에서는 멀어지려 하는 두 가지 목표를 동시에 만족시키려 하기 때문에 서로 간섭을 일으킬 수 있기 때문이다. 이를 해결하기 위해 SCRUB는 최적화를 위한 실용적인 방법을 제공하는데, 이는 **Generative Adversarial Networks [Goodfellow et al., 2014]와 같은 다른 min-max 문제에서 사용되는 '트릭'**을 연상시킨다. GAN에서는 generator를 업데이트하기 전에 discriminator를 여러 단계 학습시킨다. 구체적으로, SCRUB는 forget set에 대한 업데이트(max-step) 한 epoch와 retain set에 대한 업데이트(min-step) 한 epoch를 번갈아 수행한다. 이러한 min-step과 max-step의 교대로 인해 retain 성능이 저하되는 것을 방지하기 위해, SCRUB는 시퀀스 끝에 추가적인 min-step 시퀀스를 수행하여 손상된 retain 성능을 복구한다. SCRUB 학습은 retain set 오류를 손상시키지 않으면서 forget 오류가 증가할 때 중지된다. 우리는 실제로 이 지점이 적은 수의 epoch로 도달할 수 있음을 발견했다. 의사 코드, 학습 플롯 및 ablation은 Appendix에 제공된다.

3.2 SCRUB and Rewind (SCRUB+R)

SCRUB는 설계상 forget set에 대해 높은 오류를 유도한다. 이는 일부 애플리케이션 시나리오에서 바람직하다. 그러나 삭제된 예시에 대한 비정상적으로 높은 오류는 해당 예시를 식별 가능하게 만들어 멤버십 추론 공격(membership inference attacks)에 취약하게 만들 수 있다. SCRUB+R은 이 문제를 해결한다.

이를 위해 우리는 forget set 오류가 '충분히 높은' SCRUB 체크포인트를 선택하는 절차를 찾고 있다. 이를 위한 기준점은 forget set 없이 처음부터 재학습하여 해당 모델의 forget set 오류를 기록함으로써 얻을 수 있다. 그러나 이는 계산 비용을 피하려는 unlearning의 목적에 위배된다. 따라서 우리는 기준점을 설정하는 다른 방법을 제안한다.

첫째, forget set과 동일한 분포를 가진 validation set을 생성한다. 예를 들어, forget set에 클래스 0의 예시만 있다면, validation set에도 클래스 0의 예시만 유지한다. 다음으로, SCRUB를 평소와 같이 학습시키고, 매 epoch마다 모델 체크포인트를 저장한다. 학습이 끝날 때(forget 오류가 일반적으로 가장 높은 시점) 생성된 validation set에 대한 오류를 측정한다. 이것이 원하는 forget set 오류의 기준점이 될 것이다. 마지막으로, **forget 오류가 해당 기준점에 가장 가까운 체크포인트로 '되감기(rewind)'**한다.

Figure 1: RB 결과: SCRUB는 망각(forgetting) 및 유틸리티 보존(preserving utility) 측면에서 유일하게 일관된 최고 성능을 보인다. 또한 매우 효율적이며, Bad-T 다음으로 효율적이지만, Bad-T는 망각에 실패하고 유틸리티를 손상시킨다. 모든 하위 그림에서 각 점은 ResNet 및 All-CNN 변형에 대한 평균을 나타낸다. 대규모 결과의 경우, scale-up factor도 계산한다: 이는 처음부터 재학습하는 데 걸리는 시간 대비 주어진 unlearning 알고리즘의 실행 시간 비율이다 (여기서는 시각화를 위해 5를 곱함). 우리는 선택적 unlearning이 모든 방법, 특히 EU-k 및 Fisher에게 더 어렵다는 것을 발견했다 (Figure 1a 대 1b 참조). CF-k와 Finetuning은 모든 경우에 유사하게 (낮은 성능을) 수행하므로, 그들의 선이 서로 가려진다. 전체 표는 Appendix에 있다.

직관적으로, unlearning의 마지막 단계는 '최대한 망각하는 것'에 근접한다. 결과적으로, 동일하게 분포된 validation set에 대한 오류는 forget set으로부터 해당 분포에 대해 전혀 학습하지 않은 모델의 오류에 근접한다. 즉, held-out 예시에 대한 모든 올바른 예측은 retain set으로만 학습된 모델의 일반화 능력에 기인한다. 따라서 우리는 UP 애플리케이션에서 forget set 오류가 얼마나 높아야 하는지에 대한 기준점으로 해당 validation set 오류를 선택한다. 우리는 이 되감기(rewinding) 절차가 멤버십 추론 공격에 대한 방어력을 크게 증가시켜, SCRUB를 프라이버시가 중요한 애플리케이션에서 강력한 성능을 발휘하는 모델로 만든다는 것을 경험적으로 보여준다.

Unlearning의 정의
기존의 unlearning 연구에도 불구하고, 이 연구 문제는 아직 초기 단계에 있으며 잘 정립된 공식적인 정의가 부족하다. 'unlearning'이라는 용어는 Cao와 Yang [2015]에서 처음 사용되었는데, 특정 구조화된 문제의 맥락에서 unlearning은 예시를 삭제했을 때, 해당 예시가 처음부터 삽입되지 않았던 것과 동일한 출력을 데이터셋에 대해 생성한다면 성공적이라고 정의되었다. Ginart et al. [2019]는 Differential Privacy [Dwork et al., 2014]에서 영감을 받아 기계 unlearning에 대한 보다 완화된 확률적 정의를 도입했다. 이 정의는 unlearned 모델이 forget set 없이 처음부터 재학습된 모델이 생성했을 출력과 유사한 출력을 생성해야 한다고 요구한다. 이는 처음부터 재학습하는 것('exact unlearning')과 동일하지는 않지만 '유사한' 결과를 내는 'approximate unlearning' 방법론의 개발로 이어졌다 [Guo et al., 2019, Golatkar et al., 2020a]. Sekhari et al. [2021]과 Neel et al. [2021]은 처음부터 재학습된 모델과의 구별 불가능성(indistinguishability)을 목표로 하는 유사한 DP 기반 (approximate) unlearning 정의를 채택했다.

그러나 최근에는 처음부터 재학습된 모델과의 구별 불가능성을 기반으로 unlearning 성공을 정의하거나 측정하는 아이디어에 대한 비판이 제기되고 있다. Thudi et al. [2022b]는 겹치지 않는 두 데이터셋으로 학습했을 때 임의로 유사한 모델 가중치를 얻을 수 있음을 이론적으로 보여주었다. 이는 특정 파라미터 공간 지점에 도달하는 것이 unlearning의 충분 조건이 아님을 의미한다. 또한, Goel et al. [2022]는 필요 조건도 아님을 주장한다. 예를 들어, 하이퍼파라미터 변경 등으로 인해 처음부터 재학습하는 것이 다른 모델 분포에 도달할 수 있기 때문이다 [Yang and Shami, 2020]. 따라서 unlearning 방법이 특정 재학습 모델과 일치하지 않는다는 이유로 불필요하게 불이익을 받을 수 있다. 본 연구에서는 실용적인 관점을 취하며, unlearning을 효율적인 방식으로 모델 유틸리티를 손상시키지 않으면서 '잊는 것'으로 정의한다. 다음 섹션에서 논의할 세 가지 애플리케이션별 forgetting 측정 기준을 사용한다.

Unlearning 방법론
Cao와 Yang [2015]은 unlearning을 소개하고 통계적 쿼리 학습(statistical query learning)을 위한 정확한 forgetting 알고리즘을 제공한다. Bourtoule et al. [2021]은 데이터를 sharding하고 여러 모델을 생성하는 학습 프레임워크를 제안하여, 특정 데이터 파티션에 대한 exact unlearning을 가능하게 했다. Ginart et al. [2019]는 Differential Privacy [Dwork et al., 2014]에서 영감을 받은 기계 unlearning에 대한 확률적 정의를 도입했으며, 이는 모델 구별 불가능성(model indistinguishability) 목표 아이디어의 기원이 되었다. 최근에는 Guo et al. [2019], Izzo et al. [2021], Sekhari et al. [2021]이 이 프레임워크를 기반으로 특정 가정 하에 이론적 보장을 제공할 수 있는 unlearning 방법을 도입했다. 또한 Huang과 Canonne [2023]는 DP의 그룹 속성을 사용하여 DP 기반 unlearning 방법에서 '삭제 용량(deletion capacity)'에 대한 bound를 제공한다. Graves et al. [2021]은 딥 네트워크에 적용 가능한 두 가지 방법을 제안했다. 첫 번째는 forget set을 무작위로 재라벨링하고 적은 수의 업데이트 동안 재학습하는 방식이며, 두 번째는 각 배치에 참여한 예시의 인덱스와 배치별 파라미터 업데이트를 저장하고, 영향을 받은 업데이트를 '되돌리는(undoing)' 방식으로 unlearning을 수행한다. 이 방법은 많은 저장 공간을 필요로 하며, 특히 시퀀스가 길어질수록 해당 파라미터 업데이트가 처음부터 발생하지 않았을 때 얻었을 모델의 불완전한 근사치를 초래할 수 있다. Golatkar et al. [2020a]는 신경망 가중치에서 $\mathcal{D}_{f}$ 에 대한 정보를 제거하기 위한 정보 이론적 절차를 제안했으며, Golatkar et al. [2020b, 2021]은 NTK 이론 [Jacot et al., 2018]에서 영감을 받은 선형화를 통해 unlearning으로 얻었을 가중치를 근사하는 방법(첫 번째 경우)과 Taylor 전개를 기반으로 하는 방법(두 번째 경우)을 제안한다. 그러나 Golatkar et al. [2020ab]는 학습 데이터셋의 크기에 따라 확장성이 좋지 않다. forgetting 단계를 계산하는 데 학습 샘플 수에 대해 이차적으로 증가하기 때문이다. Golatkar et al. [2021]은 이 문제를 해결했지만, 다른 제한적인 가정 하에 있다. 즉, forgetting 작업이 적용되지 않고 '정적'으로 유지될 대규모 사전학습 데이터셋이 사용 가능해야 한다는 가정이다. 이 가정은 많은 중요한 애플리케이션(예: 헬스케어, 의료 영상)에서는 충족되지 않는다. 최근의 일부 연구들은 원래 모델 학습을 수정하여 결과 모델이 unlearning에 더 적합하도록 제안한다. Thudi et al. [2022a]는 unlearned 모델과 처음부터 재학습된 모델 간의 거리 근사치인 '검증 오류(verification error)'를 줄이기 위한 정규화 기법을 제안한다. 목표는 미래에 unlearning을 더 쉽게 만드는 것이다. 또한, 그들은 $\mathcal{D}_{f}$ 의 효과를 역전시키는 단일 gradient 업데이트를 제안한다. 그러나 이 정규화 기법은 모델 성능에 부정적인 영향을 미칠 수 있으며, 단일 gradient unlearning 단계는 $\mathcal{D}_{f}$ 가 학습의 첫 번째 반복에서 가졌던 효과만 제거한다. Zhang et al. [2022]는 gradient를 양자화하고 무작위 스무딩을 적용하는 학습 프로세스를 제시한다. 이 프로세스는 미래에 unlearning이 불필요하도록 설계되었으며, 특정 조건 하에 인증을 제공한다. 그러나 데이터 분포에 너무 큰 변화를 야기하는 삭제 요청(예: 클래스 unlearning을 수행하는 경우)은 '삭제 예산(deletion budget)'을 초과하여 가정을 무효화할 수 있다.

관련 연구 분야
Differential Privacy (DP) [Dwork et al., 2014] 및 Life-Long Learning (LLL) [Parisi et al., 2019]은 unlearning과 공통된 목표를 공유한다. DP는 학습된 모델이 어떤 학습 인스턴스에 대한 정보도 저장하지 않도록 보장하는 것을 목표로 한다. 이는 딥 신경망의 경우 달성하기 어려운 강력한 목표이다 [Abadi et al., 2016]. 대조적으로, unlearning에서는 forget set에 있는 학습 인스턴스의 영향만 제거하기를 원하며, 이는 동일한 문제의 완화된 형태로 볼 수 있다. LLL은 이전에 학습된 task를 '치명적으로 잊지 않고(catastrophically forgetting)' 새로운 task 세트를 해결하기 위해 모델을 지속적으로 업데이트하는 것을 목표로 한다. 그러나 task를 잊는다는 개념은 학습 예시를 잊는다는 개념과 구별된다. 즉, 특정 예시의 영향을 모델 가중치에서 제거하지 않고도 task 성능이 저하될 수 있다.

Teacher-student 및 contrastive 방법
Teacher-student 방법론은 self-supervised [Grill et al., 2020, Chen and He, 2021] 및 semi-supervised learning [Xie et al., 2020]과 같은 다양한 맥락에서 사용되어 왔다. Knowledge Distillation [Hinton et al., 2015]은 압축이라는 추가적인 목표를 가진 teacher-student 접근 방식으로 볼 수 있으며, 여기서 student는 teacher보다 작은 아키텍처를 갖도록 선택된다. 또한, 우리의 학습 목표는 학습 세트의 다른 부분에 대해 student를 teacher에 가깝게 끌어당기고 멀리 밀어내는 두 가지 측면 때문에 contrastive 특성을 갖는다 [Chen et al., 2020, He et al., 2020]. unlearning의 경우, Kim과 Woo [2022], Wu et al. [2022]는 '중화(neutralization)'/forgetting 단계와 '재학습(retraining)'/복원(restoring) 단계로 구성된 2단계 파이프라인을 제안한다. 이는 첫 번째 단계에서 손실될 수 있는 성능을 복원한다. 두 방법 모두 두 번째 단계에서 retain set에 대해서만 distillation을 사용한다. 대조적으로, SCRUB는 단일 단계를 사용하며, 여기서 우리는 요청된 데이터를 잊고 다른 지식을 유지하도록 동시에 장려하기 위해 teacher-student 공식을 신중하게 설계한다. 이와 관련하여 우리 연구와 가장 유사한 것은 Chundawat et al. [2022]의 방법으로, forget set에 대해 'Bad Teacher'에 가깝게 이동하도록 장려하는 관련되지만 다른 teacher-student 목표를 사용한다 (따라서 이를 'Bad-T'라고 부른다). forget 예시에 대해 다른 '나쁜' teacher에 가깝게 이동하는 것은 SCRUB에서와 같이 (단일) teacher로부터 멀어지는 우리의 목표와 근본적으로 다르다. 우리는 Bad-T가 모든 애플리케이션에서 SCRUB에 비해 forgetting 성능이 좋지 않고 모델 품질을 저하시킨다는 것을 발견했다.

	ResNet								All-CNN
Model	IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
		std	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	24.0	1.8	0.0	0.0	18.3	4.2	0.0	0.0	19.0	1.3	0.0	0.0	11.3	4.6	0.0	0.0
Original	56.0	3.0	0.0	0.0	92.0	7.9	0.0	0.0	49.0	4.8	6.0	10.39	80.7	12.6	6.0	10.4
Finetune	52.0	3.1	0.0	0.0	79.3	10.1	0.0	0.0	43.7	7.3	0.0	0.0	67.3	16.0	0.0	0.0
NegGrad+	47.5	5.3	0.0	0.0	69.0	13.5	0.0	0.0	42.3	11.3	0.0	0.0	62.0	22.6	0.0	0.0
CF-k	54.8	2.0	0.0	0.0	85.3	7.0	0.0	0.0	47.8	5.8	0.0	0.0	76.3	14.4	0.0	0.0
EU-k	47.0	4.8	8.3	4.7	63.3	9.7	3.7	2.5	59.5	5.2	38.3	6.7	68.7	15.6	19.7	10.4
Fisher	51.5	7.5	26.3	9.5	79.0	3.6	20.0	7.9	56.8	8.7	31.7	14.0	78.3	15.5	17.7	11.5
NTK	37.5	4.0	0.0	0.0	52.0	10.6	0.0	0.0	36.7	4.1	3.0	5.2	54.3	9.0	3.0	5.2
Bad-T	47.3	9.7	6.0	6.2	27.0	8.7	0.3	0.6	39.3	8.2	3.0	1.0	25.7	5.0	1.0	1.0
SCRUB	19.0	3.9	0.0	0.0	19.7	7.5	0.0	0.0	26.0	4.4	0.0	0.0	18.0	11.1	0.0	0.0

Table 1: RC-application 결과: SCRUB는 클래스 혼동 해결 측면에서 가장 강력한 성능을 보인다. 이 결과는 ResNet 및 All-CNN을 사용한 CIFAR-5 데이터셋에 대한 것으로, 클래스 0의 50개 샘플을 클래스 1로 잘못 라벨링하고, 클래스 1의 50개 샘플을 클래스 0으로 잘못 라벨링하여 혼동을 유발했다.

5 Experiments

5.1 Experimental setup

애플리케이션 및 지표 개요
우리는 다양한 애플리케이션에 대해 세 가지 종류의 forget-quality 지표를 고려한다.
첫째, 편향 제거(Removing Biases, RB) 시나리오를 고려한다. 이 경우, 우리는 가능한 한 높은 forget set 오류율을 원한다 (이는 모델이 forget set과 관련된 레이블을 예측하지 않기를 바라는 것을 반영한다. 왜냐하면 이러한 레이블은 의도치 않은 행동/편향을 포착하기 때문이다).
다음으로, Goel et al. [2022]의 연구에서 영감을 받아, 모델의 원래 학습 데이터셋 중 일부가 잘못 레이블링되어 발생한 **클래스 간 혼동 해결(Resolving Confusion, RC)**을 위한 unlearning을 고려한다.
마지막으로, **사용자 프라이버시(User Privacy, UP)**를 위한 데이터 삭제 시나리오를 고려한다. 이 경우, 우리는 **Membership Inference Attacks (MIAs)**를 사용하여 성공 여부를 측정한다 (여기에는 우리가 아는 한, state-of-the-art LiRA MIA [Carlini et al., 2022]를 unlearning에 적용한 첫 번째 사례가 포함된다). MIA를 통한 unlearning은 공격자가 잊혀진 예시와 실제로 보지 못한 예시를 구별할 수 없을 때 성공한 것으로 간주된다.
모든 경우에, 애플리케이션별 forgetting 목표 달성 외에도, **유틸리티(utility, $\mathcal{D}_r$ 및 테스트 세트 $\mathcal{D}_t$ 에서의 성능)**를 추가적인 지표로 측정한다.

실험 세부 사항
우리는 이전 연구에서 사용된 것과 동일한 두 가지 데이터셋을 활용한다: **CIFAR-10 [Krizhevsky et al., 2009]**과 VGG-Faces [Cao and Yang, 2015]에서 파생된 Lacuna-10 [Golatkar et al., 2020a]. 또한 동일한 두 가지 아키텍처를 사용한다: **All-CNN [Springenberg et al., 2014]**과 ResNet-18 [He et al., 2016].
이전 연구와의 일관성을 위해, CIFAR-10 / Lacuna-10 실험에서는 각각 CIFAR-100 / Lacuna-100으로 원본 모델을 사전학습한다 [Golatkar et al., 2020ab]. 우리는 각 실험을 3개의 무작위 시드(random seeds)로 실행하고 평균과 표준 편차를 보고한다.

우리는 본 논문 전반에 걸쳐 두 가지 설정을 고려한다: small-scale과 large-scale.
small-scale은 NTK와의 비교를 가능하게 하는데, NTK는 이 규모를 넘어서는 확장이 어렵기 때문이다. small-scale의 경우, 우리는 [Golatkar et al., 2020b]의 설정을 정확히 따르며, CIFAR와 Lacuna 각각에서 5개의 클래스만 사용한다 ('CIFAR-5' / 'Lacuna-5'). 각 클래스당 100개의 학습 예시, 25개의 검증 예시, 100개의 테스트 예시를 사용한다. forget set은 클래스 0에서 25개의 예시(5%)를 포함한다.
large-scale의 경우, 우리는 [Golatkar et al., 2020a]의 설정을 정확히 따르며, CIFAR와 Lacuna 각각의 모든 10개 클래스를 사용한다. 여기서는 두 가지 시나리오를 고려한다:

클래스 unlearning 시나리오: forget set이 클래스 5의 전체 학습 세트(10%)인 경우.
선택적 unlearning 시나리오: 클래스 5의 100개 예시가 잊혀지는 경우 (CIFAR에서는 0.25%, Lacuna에서는 2%).

Appendix에는 모든 시나리오에 대한 완전한 결과(공간 제약으로 인해 본 논문에서는 일부 생략됨)와 완전한 실험 세부 사항 및 하이퍼파라미터가 포함되어 있다.

Figure 2: RB-application에서 각 방법이 forgetting 성능에서 최고를 기록한 횟수. 모델은 95% 신뢰 구간이 최고 평균과 겹칠 경우 최고 성능자로 간주된다. Small-scale 횟수는 {ResNet, All-CNN} x {CIFAR, Lacuna} (총 4개)에 대한 것이며, large-scale은 추가적으로 x {class, selective} (총 8개)에 대한 것이다. SCRUB가 가장 일관된 최고 성능자이다.

Unlearning 알고리즘
우리는 state-of-the-art 접근 방식뿐만 아니라 다양한 baseline과 비교한다:

Retrain: forget set 없이 처음부터 다시 학습한다. 이는 실제로는 실행 불가능하다고 가정하지만, 참고용으로 포함한다.
Original: unlearning 없이 $\mathcal{D}$ 의 모든 데이터로 학습된 '원본' 모델.
Finetuning: retain set $\mathcal{D}_r$ 의 데이터로 원본 모델을 fine-tune한다.
NegGrad+: Finetuning과 유사하게 원본 모델에서 시작하여 retain set과 forget set의 데이터로 fine-tune하지만, forget set에 대해서는 gradient를 반전시킨다. 이전 연구에서는 forget set에 대해서만 negative gradient로 학습하는 더 약한 baseline (NegGrad)을 고려했다. 우리는 SCRUB와 동일한 방식으로 두 목표 사이의 좋은 균형을 달성하기 위해 더 강력한 NegGrad+를 튜닝한다.
Fisher Forgetting [Golatkar et al., 2020a].
NTK Forgetting [Golatkar et al., 2020b].
Catastrophic Forgetting-k (CF-k) 및 Exact Unlearning-k (EU-k) [Goel et al., 2022]: 이들은 원본 모델의 첫 k개 layer를 고정하고, 나머지 layer를 $\mathcal{D}_r$ 로 fine-tune하거나 (CF-k), $\mathcal{D}_r$ 로 처음부터 학습한다 (EU-k).
Bad-T: [Chundawat et al., 2022]의 동시 진행된 teacher-student 방법.

우리는 정확성을 위해 NTK와 Fisher에 대한 공개 코드를 활용한다. Bad-T는 직접 구현했다 (코드가 제공되지 않았다).

5.2 Unlearning for Removing Biases (RB)

RB 시나리오에서 우리는 $D_r$ 및 $D_t$ 의 오류를 손상시키지 않으면서 $D_f$ 에 대해 가능한 가장 높은 오류를 달성하고자 한다. 몇 가지 예시 시나리오는 학습된 모델에서 편향을 제거하거나, 오래되거나 부정확한 정보를 삭제하는 경우이다. 이 경우 $D_f$ 에 대한 **최대 망각 오류(maximal forget error)**는 모델이 유해하거나 더 이상 유효하지 않거나 정확하지 않다고 판단된 예측을 절대 하지 않기를 원한다는 것을 반영하므로 바람직하다.

우리는 이 시나리오에 대한 결과를 Figure 1과 Figure 2에 보고한다. 또한 모든 아키텍처, 데이터셋 및 baseline에 대한 전체 결과는 Appendix에 보고한다. Figure 2에서 볼 수 있듯이, SCRUB은 높은 망각 품질(가장 높은 망각 오류)을 달성하는 측면에서 가장 일관된 방법이며, retain 및 test 오류를 손상시키지 않는다.

5.3 Unlearning for Resolving Confusion (RC)

이 섹션에서는 Goel et al. [2022]를 따라, 원래 모델이 학습 데이터셋의 일부가 잘못 레이블링되어 발생한 두 클래스 간의 혼동을 해결하기 위한 unlearning을 연구한다. 구체적으로, 우리는 잘못 레이블링된 학습 예시들만을 forget set에 포함시킨다. 따라서 성공적인 unlearning 알고리즘은 모델의 혼동을 완전히 해결해야 한다. 더 자세히 설명하면, 설정은 다음과 같다:

학습 데이터셋의 일부를 잘못 레이블링한다 (우리는 CIFAR-5 및 Lacuna-5의 클래스 0과 1 사이의 예시들을 잘못 레이블링했다).
(부분적으로 잘못 레이블링된) 학습 데이터셋으로 'original model'을 학습시킨다.
혼동된 예시들을 forget set으로 사용하여 unlearning을 수행한다.

우리는 Goel et al. [2022]에서 영감을 받은 다음 지표들을 고려한다. 이 지표들은 혼동된 클래스 예시들에 대한 모델의 오류 변형이며 (두 지표 모두 낮을수록 좋다), 아래에 개요를 설명하고 부록에서 공식적으로 정의한다.

Interclass Confusion IC-Err (예: IC test error, IC retain error). 이 지표는 두 혼동된 클래스 중 하나에 속하는 예시가 다른 클래스로 잘못 예측된 경우를 계산한다.
Fgt-Err (예: Fgt test error, Fgt retain error). 이 지표는 혼동된 클래스 간의 오분류만 계산한다. 즉, 클래스 0의 예시가 클래스 1로 예측되거나 그 반대의 경우를 계산한다.

Table 1에서 볼 수 있듯이, SCRUB는 모델의 품질을 손상시키지 않으면서 (retain 및 test 세트에서) 클래스 혼동을 제거하는 측면에서 단연코 가장 일관된 방법이다.

5.4 Unlearning for User Privacy (UP)

다음으로, 우리는 개인 정보 보호에 중요한 애플리케이션인 사용자가 '잊힐 권리'를 행사하여 데이터가 삭제되는 경우를 고려한다. 우리는 **Membership Inference Attacks (MIAs)**를 지표로 사용하는데, 목표는 언러닝(unlearning)을 적용한 후 공격자가 언러닝된 예시와 실제로 한 번도 보지 못한 예시를 구별할 수 없도록 하여, 삭제를 요청한 사용자의 프라이버시를 보호하는 것이다.

이전 언러닝 논문들에서 MIA 결과를 보고했지만 [Golatkar et al., 2020a], 그러한 MIA는 단순하며 프라이버시 및 보안 논문에서 사용되는 최신 MIA와는 거리가 멀다. 실제로 그러한 MIA를 언러닝 프로토콜에 적용하는 것은 쉽지 않다. 이러한 격차를 해소하기 위해, 우리는 두 가지 MIA에 대한 결과를 보고한다:

언러닝 문헌에서 일반적으로 사용되는 MIA에 가까운 단순한 MIA,

Figure 3: ResNet을 사용한 CIFAR-10에서 forget set의 다양한 크기에 대한 MIA 결과. 오차 막대는 95% 신뢰 구간을 나타낸다. Rewinding은 더 작은 forget size에 가장 유용하다 (Section 5.4의 논의 참조). SCRUB+R은 Retrain oracle과 비교할 수 있을 정도로 MIA를 성공적으로 방어한다.

최신 LiRA 공격 [Carlini et al., 2022]을 언러닝 프로토콜에 적용한, 우리가 아는 한 최초의 MIA. 두 가지 모두 여기서는 개략적으로 설명하고, 자세한 내용은 Appendix에 기술한다.

Basic attack
우리는 언러닝된 모델의 forget 예시와 test 예시에 대한 loss를 사용하여 이진 분류기(‘공격자’)를 학습시킨다. 이 분류기의 목표는 ‘in’ (forget) 대 ‘out’ (test)을 분류하는 것이다. 그런 다음 공격자는 forget loss와 test loss가 균형을 이루는 held-out loss (공격자가 학습하지 않은 loss)에 대해 예측을 수행한다. **완벽한 방어의 경우, 공격자의 정확도는 50%**이며, 이는 두 세트를 구별할 수 없음을 나타내므로 언러닝 방법의 성공을 의미한다.

CIFAR-10에 대한 Basic MIA 결과는 Table 2에 제시되어 있다. 우리는 SCRUB+R이 강력한 성능을 보인다는 것을 관찰한다. EU-k도 이 지표에서 강력한 성능을 보일 수 있지만, 일관성은 떨어진다. 또한 rewinding은 selective unlearning에서 단 한 번만 트리거되었다는 것을 관찰한다. selective unlearning과 class unlearning 모두에서 forget set은 단일 클래스에서 온 예시를 포함하지만, 전자의 경우 해당 클래스의 모든 예시를 포함하지 않으며, 나머지는 retain set에 있다. 따라서 우리는 rewinding이 selective unlearning에 더 유용할 것으로 예상한다. 즉, forget set에 있는 클래스의 부분이 작을수록 retain set에 있는 해당 클래스의 나머지 부분이 커지고, 결과적으로 모델이 해당 클래스의 held-out 예시에 대해 더 잘 일반화될 것으로 예상한다 (더 낮은 오류). 이는 forget set 오류를 비례적으로 낮추기 위해 rewinding이 필요할 가능성이 더 높다는 것을 의미한다. Figure 3에서는 forget set에 있는 예시의 수(동일 클래스에서)가 다른 selective unlearning의 다양한 변형에 대한 결과를 보여주며, 실제로 더 적은 수의 예시에서 rewinding이 트리거된다는 것을 확인한다. 우리의 결론은 필요할 때 rewinding이 SCRUB의 MIA 결과를 크게 향상시킬 수 있다는 것이다.

	ResNet				All-CNN
Model	Class		Selective		Class		Selective
	mean	std	mean	std	mean	std	mean	std
Retrain	49.33	1.67	54.00	1.63	55.00	4.00	48.73	0.24
Original	71.10	0.67	65.33	0.47	66.50	0.50	71.40	0.70
Finetune	75.57	0.69	64.00	0.82	68.00	1.00	74.97	1.27
NegGrad+	69.57	1.19	66.67	1.70	72.00	0.00	70.03	1.92
CF-k	75.73	0.34	65.00	0.00	69.00	2.00	72.93	1.06
EU-k	54.20	2.27	53.00	3.27	66.50	3.50	51.60	1.22
Bad-T	54.00	1.10	59.67	4.19	63.4	1.2	77.67	4.11
SCRUB	52.20	1.71	78.00	2.45	52.00	0.00	54.30	2.24
SCRUB+R	52.20	1.71	58.67	1.89	52.00	0.00	54.30	2.24

Table 2: Basic MIA 결과 (UP의 경우): SCRUB는 MIA를 성공적으로 방어한다. SCRUB+R의 rewinding 절차는 한 번만 트리거되었다는 점에 유의하라. Section 5.4 및 Figure 3의 논의를 참조하라. Appendix에서는 SCRUB(+R)의 forget error가 원하는 대로 Retrain의 forget error에 가깝다는 것도 보여준다.

LiRA-for-unlearning attack
표준 프라이버시 설정에서 LiRA 공격자는 다수의 'shadow model'을 학습시킨다 [Carlini et al., 2022]. 이 모델에 대해 공격자는 각 학습 시 훈련 세트에 어떤 예시가 포함되는지 제어한다 (구성상). 그런 다음 'target example'의 멤버십 상태를 예측하기 위해 두 가지 가우시안 분포를 추정한다: 해당 예시를 학습한 shadow model에서의 confidence 분포와 학습하지 않은 shadow model에서의 confidence 분포. 전자의 가능성이 후자보다 크면 target example이 'in'이라고 예측한다.

우리는 LiRA를 언러닝에 적용한, 우리가 아는 한 최초의 방법을 제안한다. 이는 공격자가 언러닝 알고리즘에 대한 지식을 가질 수 있도록 허용하는 강력한 공격이다. 구체적으로, 각 shadow model에 대해 공격자는 주어진 언러닝 알고리즘을 여러 번 적용하여 'shadow unlearned' 모델을 생성한다. 이때 많은 수의 forget set을 사용한다 (Chen et al. [2021]과 유사). 이제 각 'target example'에 대해 이 설정은 공격자가 다른 쌍의 가우시안 분포를 추정할 수 있도록 한다: 해당 target example이 잊혀진 모델에서의 (confidence) 분포와, 이전과 같이 보이지 않은 모델에서의 (confidence) 분포. 공격자는 전자의 가능성이 후자보다 크면 해당 예시가 잊혀졌다고 예측한다. 우리는 모든 세부 사항과 발견 사항을 Appendix에 제시하며, SCRUB+R이 이 공격을 방어하는 데 다른 방법들보다 우수하다는 것을 관찰한다.

5.5 Overview of results and take-aways

Fine-tuning은 모델 유틸리티를 유지할 수는 있지만, 망각(forgetting)에는 실패하는 좋지 않은 방법이다. 기존의 state-of-the-art인 NTK 및 Fisher 모델 또한 최고 성능을 보이지 못한다. NTK는 망각 측면에서 전반적으로 성능이 좋지 않으며, 작은 데이터셋을 넘어 확장되지 않는다. Fisher는 RB(Retain-by-forgetting) 측면에서 망각 성능이 좋을 때도 있지만 항상 그런 것은 아니며, Retrain보다도 훨씬 느리다 (Figure 1 참조). 이는 [Goel et al., 2022]에서도 관찰된 바 있다.

우리가 제안하는 **NegGrad+**는 NegGrad baseline의 개선 버전으로, 망각과 유틸리티 사이의 균형을 달성하는 강력한 baseline이다 (RB 측면에서 여러 설정에서 좋은 성능을 보이지만, SCRUB만큼 일관적이지는 않다). 우리는 향후 연구에서 이 baseline을 보고하도록 권장하지만, SCRUB가 특히 RC(Retain-by-class) 측면에서 NegGrad+를 능가한다.

CF-k는 Finetune의 성능 프로필을 계승한다: 유틸리티는 유지하지만 망각 성능은 좋지 않다. 반면, EU-k는 더 안정적으로 망각한다 (UP(Unlearn-by-point)에서 강력한 성능을 보이며, RB에서도 자주 좋은 성능을 보인다). 이는 네트워크의 일부를 재학습하기 때문에 CF-k에 비해 예상되는 결과이지만, SCRUB는 RC 측면에서 EU-k를 크게 능가하며, RB에서도 더 일관적으로 최고 성능을 보인다. 우리가 EU-k에서 발견한 RB의 주목할 만한 실패 사례는 선택적 unlearning이다 (예: Figure 1a와 1b 사이의 EU-k 망각 오류 대비를 주목하라). 이 발견은 신경망에서 클래스 정보와 인스턴스 정보가 어디에 저장되는지에 대한 단서를 제공하며, 추가 조사가 필요하다.

Bad-T는 매우 효율적이지만, 모든 애플리케이션에서 망각 성능이 좋지 않으며 모델 유틸리티도 손상시킨다. 전반적으로 SCRUB는 유틸리티를 손상시키지 않고 효율적이면서도, 다양한 지표에서 성공적으로 망각하는 데 있어 단연 가장 일관적인 방법이다.

Appendix에서는 본 연구의 한계점, 광범위한 영향, 향후 연구에 대해 논의하고, 전체 실험 결과 및 하이퍼파라미터와 의사 코드(pseudocode)를 포함한 모든 세부 사항을 제시한다.

6 Discussion and Conclusion

최근 상당한 주목을 받고 있음에도 불구하고 [Triantafillou et al., 2023], unlearning은 아직 초기 연구 단계에 있는 분야이다. 본 연구에서는 제한적인 가정과 확장성 한계로부터 자유로운 unlearning 방법인 SCRUB를 제안한다. **SCRUB(+R)**은 경험적으로 매우 강력한 성능을 보이는 것으로 나타났다. 이 방법은 다양한 애플리케이션 종속적인 forgetting quality metric에 대해 일관되게 우수한 성능을 달성하면서도, utility 저하는 최소화하는 가장 일관된 방법이다. 따라서 우리는 SCRUB가 실제 여러 중요한 metric에서 잘 작동하는 확장 가능한 unlearning 방법이라는 중요한 요구를 충족시킨다고 믿는다. 그러나 미래 연구를 위해 중요한 질문들이 여전히 남아있다.

결정적으로, 이러한 방향으로 진전이 있었음에도 불구하고, unlearning 문제에 대한 잘 정립된 공식적인 정의는 여전히 모호하며, 결과적으로 unlearning 알고리즘의 품질을 측정하기 위한 (이론적 또는 경험적) 잘 정립된 metric도 부족하다. 본 연구에서는 실제 애플리케이션에서 관련성이 있다고 판단되는 다양한 애플리케이션 종속적인 forgetting quality metric에 대한 경험적 평가에 중점을 둔다. 그러나 unlearning 커뮤니티가 성숙해짐에 따라, unlearning의 (다양한 애플리케이션에 대한) 성공 기준이 공식화되고 표준화되기를 희망한다.

또한, SCRUB의 중요한 한계점은 이론적 보장이 없다는 점이며, 이는 특정 애플리케이션 시나리오에는 적합하지 않을 수 있다. 보장이 있는 방법들이 존재하지만, 이들은 deep neural network에 적용할 수 없거나, 우리의 경험적 분석을 통해 성능이 좋지 않고 작은 데이터셋을 넘어 확장되지 않음을 발견했다. 따라서 SCRUB와 같은 확장 가능한 방법에 대한 이론적 연구는 매우 가치 있을 것이다. 그러한 연구가 없는 상황에서는 다양한 방법들이 제공하는 trade-off를 계속 연구하고 더 잘 이해하는 것이 중요한 방향이다.

실용적인 측면에서, 우리는 미래 연구가 확장성의 한계를 계속 확장하고, 더 큰 모델, 다른 아키텍처, self-supervised learning과 같은 다른 학습 목표, 그리고 foundation language model을 포함한 다른 도메인 및 modality에서의 unlearning을 연구하기를 희망한다.

Broader Impact
최근 deep learning의 발전은 우리 커뮤니티에 흥미로운 기회를 제공하지만, 동시에 큰 책임도 따른다. 연구자로서 우리는 deep learning 기술의 광범위한 사용과 관련된 문제들을 이해하고 완화할 책임이 있다. 머신러닝 모델은 유해한 편향, 의도치 않은 행동을 포함하거나 사용자 프라이버시를 침해할 수 있다. 우리의 연구는 이러한 문제들을 해결하기 위한 한 걸음으로, 기존 솔루션보다 실제적으로 진보된 'unlearning' 후처리 단계를 제안한다. 이는 광범위한 경험적 조사를 통해 입증되었다. 그러나 SCRUB는 이론적 보장이 없으며, SCRUB를 적용하는 것이 이러한 문제들을 완벽하게 완화한다는 것을 증명할 수 없으므로, 실제 적용 시 주의가 필요하며 머신러닝 모델에 대한 적절한 감사(auditing)가 중요하다.

Acknowledgments and Disclosure of Funding

Fabian Pedregosa에게 특히 멤버십 추론 공격(membership inference attacks) 주제에 대한 수많은 통찰력 있는 논의에 감사드린다.

7 Appendix

본 Appendix는 다음 섹션들을 포함한다:

Section 8: 한계점 및 향후 연구 (Limitations and Future Work)
Section 9: 실험 세부사항 및 의사 코드 (Experimental Details and Pseudocode)
Section 10: 지표의 공식적 설명 (Formal Description of Metrics)
Section 11: 멤버십 추론 공격: 설명 및 추가 발견 (Membership Inference Attacks: Description and Additional Findings)
Section 12: Ablation 및 민감도 분석 (Ablations and Sensitivity Analysis)
Section 13: 대규모 설정 (Larger-scale settings)
Section 14: 편향 제거(Removing Biases, RB)에 대한 추가 결과 (Additional Results for Removing Biases (RB))
Section 15: 혼동 해결(Resolving Confusion, RC)에 대한 추가 결과 (Additional Results for Resolving Confusion (RC))
Section 16: 사용자 프라이버시(User Privacy, UP)에 대한 추가 결과 (Additional Results for User Privacy (UP))

8 Limitations and Future Work

SCRUB는 unlearning 측면에서 일관되게 최고 성능을 보였으며, 기존 연구들에 비해 성능 저하가 최소화되었다는 점에서 인상적인 결과를 보여주었다. 그러나 SCRUB에는 향후 연구에서 다루어야 할 한계점들이 있다.

향후 연구를 위한 중요한 단계는 우리의 방법론이 제공하는 이득에 대한 이론적 보장(theoretical guarantees)을 개발하는 것이다. 우리는 다음과 같은 이유로 경험적(empirical) 접근 방식에 집중하기로 결정했다: 첫째, 선형 모델에 대한 이론적 보장은 풍부하지만, 딥 네트워크는 추가적인 중대한 도전 과제를 제기한다. 둘째, 이론적 보장을 동반하는 방법들은 정확도 및/또는 확장성(scalability) 측면에서 실용적인 한계를 겪는다. 이러한 이유로 우리는 실용적인 관점에서 문제에 접근하여, 다양한 중요한 응용 시나리오, 다양한 평가 지표, 다양한 아키텍처 및 데이터셋에서 최고 성능을 발휘하는 unlearning 알고리즘을 개발함으로써 한계를 뛰어넘고자 했다. 우리는 효과적인 unlearning, 우수한 성능, 확장성, 그리고 이론적 통찰력 사이의 절충점을 찾기 위한 향후 연구를 기대한다.

SCRUB의 또 다른 한계점은 min-max objective 튜닝과 관련된 어려움과 불안정성이다. 이는 GAN과 같은 문헌에서도 나타난 바 있다. 예를 들어, Figure 6에서 보여주듯이 진동하는(oscillating) 동작으로 이어질 수 있다. 우리는 실제로 잘 작동하고 기존 연구보다 일관되게 개선된 결과를 보여주는 실용적인 알고리즘을 제공함으로써 이러한 문제를 상당 부분 해결했지만, 향후 연구를 통해 이 부분에서 개선의 여지가 있다.

SCRUB의 rewinding 절차에도 한계가 있다. 우리는 모든 실험에서 unlearning이 끝날 때 SCRUB가 얻는 forget error가 '너무 높은' 시나리오에서 MIA에 대한 SCRUB 방어의 성공률을 실질적으로 높이는 데 도움이 될 수 있음을 실제로 발견했다. 그러나 또 다른 실패 사례로 학습이 끝날 때 SCRUB의 forget error가 '너무 낮은' 경우도 발생할 수 있다. 이는 retain 및 validation 성능을 너무 많이 해치지 않도록 설계된 하이퍼파라미터 튜닝 방식 때문에 발생할 수 있으며, 따라서 어떤 경우에는 **모델이 해당 예시들을 실제로 한 번도 본 적이 없는 경우의 forget error 수준에 도달하기 전에 '조기 중단(premature stopping)'**으로 이어질 수 있다. 우리는 모든 시나리오에서 발생할 수 있는 모든 가능한 문제를 해결하고 전반적으로 강력한 성능을 발휘하는 unlearning 알고리즘을 제공하는 것이 극도로 어렵다는 점을 강조한다. SCRUB든 다른 baseline이든 각 알고리즘에서 실패 사례를 관찰했다는 사실은 우리가 수행한 실험의 광범위함을 시사한다. 우리의 연구는 일관되게 강력한 성능을 발휘하는 unlearning 방법론을 설계하는 데 중요한 진전을 이루었으며, 이 방향으로의 향후 기여를 기대한다.

우리는 향후 연구가 확장성(scalability)의 한계를 계속해서 확장하기를 바란다. 우리의 연구는 이 방향으로의 중요한 단계라고 믿는다. 그러나 우리가 고려하는 데이터셋과 모델은 더 큰 규모의 실험에서는 실행하기 어려울 수 있는 기존 연구들과의 비교를 가능하게 하기 위해 너무 크지 않다. 향후 연구의 흥미로운 주제는 SCRUB와 NegGrad+와 같은 다른 확장 가능한 알고리즘 간의 상호작용을 증가하는 규모에 따라 조사하는 것이다.

또 다른 매우 흥미로운 향후 연구 방향은 다양한 unlearning 알고리즘이 Transformer와 같은 다양한 아키텍처 및 self-supervised learning과 같은 손실 함수와 어떻게 상호작용하는지 조사하는 것이다.

9 Experimental Details and Pseudocode

데이터셋 (Datasets)
평가 목적으로 CIFAR-10 및 Lacuna-10 데이터셋을 사용하였다. CIFAR-10은 10개의 클래스로 구성되며, $32 \times 32$ 크기의 컬러 이미지 60,000장을 포함한다. 우리 실험에서 학습, 테스트, 검증 세트의 크기는 각각 40,000, 10,000, 10,000이다. Lacuna-10은 VGG-Faces [Cao and Yang, 2015]에서 파생된 데이터셋이다. Lacuna를 구축하기 위해 [Golatkar et al., 2020a]에 설명된 것과 동일한 절차를 따랐다. 최소 500개의 샘플을 가진 10명의 유명인(클래스)을 무작위로 선택한다. 각 클래스에서 100개의 샘플을 사용하여 테스트 세트를 구성하고, 나머지는 학습 세트를 구성한다. 모든 이미지는 $32 \times 32$ 로 크기가 조정된다. 또한 모델 사전학습을 위해 CIFAR-100과 Lacuna-100을 사용한다. Lacuna-100은 Lacuna-10과 유사한 방식으로 구축되었으며, 두 데이터셋 간에는 중복이 없다. 실험 전반에 걸쳐 어떠한 데이터 증강(data augmentation)도 적용하지 않았다.

Algorithm 1 SCRUB
Require: Teacher weights \(w^{o}\)
Require: Total max steps MAX-STEPS
Require: Total steps STEPS
Require: Learning rate \(\epsilon\)
    \(w^{u} \leftarrow w^{o}\)
    \(i \leftarrow 0\)
    repeat
        if \(i<\) MAX-STEPS then
            \(w^{u} \leftarrow\) DO-MAX- \(\operatorname{EPOCH}\left(w^{u}\right)\)
        end if
        \(w^{u} \leftarrow\) DO-MIN-EPOCH \(\left(w^{u}\right)\)
    until \(i<\) STEPS

소규모 데이터셋 (Small-Scale datasets)
CIFAR-10 및 Lacuna-10의 소규모 버전인 CIFAR-5 및 Lacuna-5를 생성하기 위해 [Golatkar et al., 2020b]에 설명된 것과 동일한 절차를 따랐다. 이를 위해 각 데이터셋의 첫 5개 클래스를 가져와 각 클래스당 100개의 이미지를 무작위로 샘플링한다. 학습 및 테스트 세트는 CIFAR-10 및 Lacuna-10의 해당 학습 및 테스트 세트에서 샘플링하여 구성한다. 또한 각 클래스에서 25개의 샘플을 학습 세트에서 샘플링하여 검증 세트를 생성한다.

모델 (Models)
[Golatkar et al., 2020a b]에서와 동일한 아키텍처 수정이 적용된 모델을 사용한다. All-CNN의 경우, 레이어 수가 줄어들고 각 비선형성(non-linearity) 전에 배치 정규화(batch normalization)가 추가된다. ResNet의 경우, ResNet-18 아키텍처가 사용된다. 소규모 실험의 경우, 각 블록에서 필터 수가 60% 감소된다. 대규모 실험의 경우, 정확한 아키텍처가 사용되었다.

사전학습 (Pretraining)
일관성을 위해 이전 연구를 따라 사전학습을 적용한다. 구체적으로, CIFAR 데이터셋의 경우 CIFAR-100에서 모델을 사전학습했다. Lacuna의 경우 Lacuna-100에서 모델을 사전학습했다. 모델은 SGD를 사용하여 30 epoch 동안 사전학습하며, 고정된 학습률 0.1, Cross-Entropy 손실 함수, 가중치 감쇠(weight decay) 0.0005, 모멘텀 0.9, 배치 크기 128을 사용한다.

베이스라인 (Baselines)
'Original'은 전체 데이터셋 $D$ 로 학습된 모델이다. 'Retrain'의 경우, 'original' 모델 학습 시 사용된 것과 동일한 하이퍼파라미터를 사용하여 $D_r$ 로 동일한 아키텍처를 학습한다. 'Finetune'의 경우, 'original' 모델을 $D_r$ 로 10 epoch 동안 fine-tuning하며, 고정된 학습률 0.01과 가중치 감쇠 0.0005를 사용한다. 'NegGrad+'의 경우, 'original' 모델을 다음 손실 함수를 사용하여 fine-tuning한다:

\mathcal{L}(w)=\beta \times \frac{1}{\left|D_{r}\right|} \sum_{i=1}^{\left|D_{r}\right|} l\left(f\left(x_{i} ; w\right), y_{i}\right)-(1-\beta) \times \frac{1}{\left|D_{f}\right|} \sum_{j=1}^{\left|D_{f}\right|} l\left(f\left(x_{j} ; w\right), y_{j}\right)

여기서 $\beta \in[0,1]$ 이다. 우리는 retain-error와 validation-error를 손상시키지 않으면서 높은 forget-error를 얻기 위해 $\beta$ 를 튜닝했다. 소규모 실험의 경우 $\beta=0.95$ 이며, SGD, 학습률 0.01, 가중치 감쇠 0.1로 10 epoch 동안 학습했다. 대규모 실험의 경우 $\beta=0.9999$ 이며, SGD, 학습률 0.01, 가중치 감쇠 0.0005로 5 epoch 동안 학습했다. 작은 $\beta$ 값은 빠르게 폭발(explosion)을 초래할 수 있음에 유의해야 한다. 'CF-k'의 경우, 네트워크의 첫 k개 레이어를 고정하고 나머지 레이어를 $D_r$ 로 fine-tuning한다. 'Finetune' 베이스라인과 동일한 설정을 사용한다. 'EU-k'의 경우 첫 k개 레이어를 고정하고,

model	dataset	unlearning-type	forget-set bs	retain-set bs	max steps	min steps
ResNet	CIFAR-10	class	512	128	2	3
	CIFAR-10	selective	16	64	5	5
	Lacuna-10	class	128	128	5	5
	Lacuna-10	selective	32	32	4	4
	CIFAR-5	selective	32	32	10	10
	Lacuna-5	selective	32	32	5	10
All-CNN	CIFAR-10	class	512	256	3	4
	CIFAR-10	selective	16	64	5	5
	Lacuna-10	class	32	32	4	4
	Lacuna-10	selective	8	32	2	4
	CIFAR-5	selective	16	32	5	10
	Lacuna-5	selective	32	32	5	10

Table 3: SCRUB's hyperparameters for each experiment

나머지 레이어의 가중치를 재초기화하고 $D_r$ 로 재학습한다. 모든 모델이 더 큰 데이터셋으로 사전학습되었으므로, 재초기화 시 사전학습된 모델의 가중치를 사용한다. 'EU-k'의 경우 'Retrain' 베이스라인과 동일한 설정을 사용한다. 'EU-k'와 'CF-k' 베이스라인 모두에서 ResNet과 All-CNN 모두 네트워크의 마지막 블록을 제외한 모든 레이어를 고정한다. ResNet의 경우 마지막 블록은 block4이고, All-CNN의 경우 마지막 레이어 블록은 9번째 순차 블록이다. Bad-T의 경우, Chundawat et al. [2022]에 제시된 사양을 따르며, retain-error를 손상시키지 않으면서 가장 높은 forget-error를 얻기 위해 다양한 설정에서 파라미터를 튜닝할 수 있다. 더 구체적으로, 모든 모델에 대해 Adam optimizer와 온도 스칼라 4를 사용하여 한 epoch의 unlearning을 수행한다. 또한, Bad-T에 대해 retain-set의 30%만 사용하면 높은 테스트 에러가 발생함을 경험적으로 관찰했기 때문에, 그들의 논문에서 보고된 30% 대신 전체 retain-set을 사용한다.

SCRUB 의사 코드 및 파라미터 (SCRUB pseudocode and parameters)
SCRUB는 Algorithm 1을 사용하여 학습한다.

Algorithm 3 DO-MIN-EPOCH
Require: Student weights \(w^{u}\)
Require: Learning rate \(\epsilon\)
Require: Batch size B
Require: Retain set \(D_{r}\)
Require: Procedure NEXT-BATCH
    \(b \leftarrow\) NEXT-BATCH \(\left(D_{r}, \mathrm{~B}\right)\)
    repeat
        \(w^{u} \leftarrow w^{u}-\epsilon \nabla_{w^{u}} \frac{1}{|b|} \sum_{\left(x_{r}, y_{r}\right) \in b} \alpha d\left(x_{r} ; w^{u}\right)+\)
        \(\gamma l\left(f\left(x_{r} ; w^{u}\right), y_{r}\right)\)
        \(b \leftarrow\) NEXT-BATCH \(\left(D_{r}, \mathrm{~B}\right)\)
    until \(b\)

실험 전반에 걸쳐, 우리는 원래 모델의 retain 및 validation error를 유지하면서 높은 forget-error를 얻기 위해 파라미터를 튜닝한다. min 및 max 단계 모두에 동일한 optimizer를 사용한다. 소규모 설정에서는 'Adam' optimizer가 더 잘 작동하는 반면, 대규모 설정에서는 'Adam'과 'SGD' 모두 사용할 수 있음을 관찰했다. 모든 실험에서 학습률은 0.0005로 초기화하고, 일정 수의 min 및 max 단계 후에 0.1씩 감쇠시킨다. 학습률 감쇠는 min 및 max 최적화의 진동(oscillating) 동작을 제어하는 데 중요하다. 소규모 설정에서는 가중치 감쇠 0.1을 적용하고, 대규모 실험에서는 가중치 감쇠 0.0005와 모멘텀 0.9를 적용한다. 마지막으로, 각 방향(max 및 min)의 반복 횟수를 제어하기 위해 forget-set과 retain-set에 대해 다른 배치 크기를 사용한다. 이들은 Table 3에 보고되어 있다.

시스템 사양 (System specification)
스케일업 실험의 경우, 코드는 Python 3.8, Ubuntu 20 머신(40 CPU 코어, Nvidia GTX 2080 GPU, 256GB 메모리)에서 실행된다.

10 Formal Description of Metrics

이 섹션에서는 본 논문 전반에 걸쳐 사용되는 메트릭에 대한 자세한 내용과 수학적 정의를 제공한다. 먼저 forget, retain, test error를 수학적으로 정의한 다음, Resolving Confusion (RC) 및 User Privacy (UP) 에 대한 다른 애플리케이션 종속 메트릭을 정의한다.

Forget, retain 및 test error
여기서는 retain error, forget error, test error를 정의한다. $\mathcal{D}_{r}$ , $\mathcal{D}_{f}$ , $\mathcal{D}_{t}$ 는 각각 학습 데이터셋의 retain 부분과 forget 부분, 그리고 held-out 예시로 구성된 test 데이터셋을 나타낸다. Error (Err) 는 다음과 같이 정의된다:

\operatorname{Err}(\mathcal{D})=1-\frac{1}{|\mathcal{D}|} \sum_{\left(x_{i}, y_{i}\right) \in \mathcal{D}} \mathbb{1}\left[\arg \max \left(f\left(x_{i} ; w\right)\right)==y_{i}\right]

여기서 $f$ 는 $w$ 로 parameterized된 신경망 모델(feature extractor와 softmax classifier layer로 구성됨)이며, $\arg \max \left(f\left(x_{i} ; w\right)\right)$ 는 모델이 예시 $x_{i}$ 에 대해 가장 가능성이 높다고 판단하는 레이블이고, $\mathbb{1}[x]$ 는 $x$ 가 True이면 1을, 그렇지 않으면 0을 반환하는 지시 함수(indicator function)이다.
위 정의에 따라 retain error, forget error, test error는 각각 $\operatorname{Err}\left(\mathcal{D}_{r}\right), \operatorname{Err}\left(\mathcal{D}_{f}\right), \operatorname{Err}\left(\mathcal{D}_{t}\right)$ 로 계산된다.

Resolving Confusion (RC)을 위한 Unlearning 메트릭
이제 Goel et al. [2022]에서 영감을 받은 class confusion 메트릭을 정의한다. 구체적으로, 우리는 forget set에 혼동된 레이블(confused labels)이 있는 시나리오를 탐구한다 (예: 두 클래스 A와 B에 대해, A의 예시가 B로 레이블링되고, 그 반대도 마찬가지). 여기서 아이디어는 잘못 레이블링된 예시가 forget set에만 존재하기 때문에, 성공적인 unlearning (forget set의 영향을 제거하는 것)은 클래스 A와 B 사이에서 전혀 혼동되지 않는 모델로 이어진다는 것이다.

더 자세히 설명하면, 우리가 따르는 설정은 다음과 같다:

먼저 학습 데이터셋의 일부를 잘못 레이블링한다 (실험에서는 CIFAR-5와 Lacuna-5의 클래스 0과 1 사이의 예시들을 잘못 레이블링했다).
(부분적으로 잘못 레이블링된) 학습 데이터셋으로 '원본 모델'을 학습시킨다 (클래스 0과 1에 대해서는 잘못 레이블링된 예시가 있지만, 나머지 클래스에 대해서는 올바른 레이블을 가진다).
forget set이 모든 혼동된 예시만을 포함하는 unlearning을 수행한다.
이러한 상황에서 unlearning 알고리즘의 목표는 원본 모델의 혼동을 해결하는 것이다.
우리는 다음 메트릭들을 고려한다 (Goel et al. [2022]와 일관된 용어를 사용한다). 이들은 일반성이 감소하고, 고려되는 두 클래스 간의 혼동 정도를 측정하는 데 초점이 증가하는 순서로 제시된다.

Error (예: test error, retain error, forget error). 이는 모든 실수를 계산한다. 따라서 어떤 클래스의 예시가 다른 클래스로 예측될 때마다 계산된다. 이들은 본 논문의 나머지 부분에서 사용하는 것과 동일한 메트릭이다 (Equation 5 참조). test error와 retain error의 경우 낮을수록 좋고, forget error의 경우 높을수록 좋다.
Interclass Confusion IC-Err (예: IC test error, IC retain error). 이는 혼동된 클래스 A와 B의 예시와 관련된 실수만을 계산한다. 구체적으로, 클래스 A의 어떤 예시가 다른 클래스로 예측되는 경우와 클래스 B의 어떤 예시가 다른 클래스로 예측되는 경우를 계산한다. Error와 비교할 때, 이 메트릭은 도입된 혼동의 결과를 이해하는 데 더 집중한다. 왜냐하면 혼동된 클래스와 관련된 경우만 고려하기 때문이다. 성공적인 unlearning 방법은 이러한 오류를 만들지 않으므로, IC test error와 IC retain error 모두 낮을수록 좋다.
Fgt-Err (예: Fgt test error, Fgt retain error). 이 메트릭은 혼동된 클래스 A와 B 사이의 오분류만을 계산한다. 여기서 클래스 A (또는 B)의 예시가 A 또는 B가 아닌 다른 클래스로 예측되는 실수는 계산되지 않는다. 클래스 A의 예시가 클래스 B로 예측되는 실수와 그 반대의 경우만 계산된다. 이는 두 클래스 간에 남아있는 혼동의 양을 직접적으로 측정하는 가장 집중적인 메트릭이다. 성공적인 unlearning 방법은 이러한 오류를 만들지 않으므로, Fgt test와 Fgt retain 모두 낮을수록 좋다.

더 형식적으로, Error는 Equation 5에서 정의된 것과 동일하다. 이제 IC-Err와 Fgt-Err를 수학적으로 정의한다. 우리는 데이터셋 $\mathcal{D}$ 에 대해 $w$ 로 parameterized된 모델의 confusion matrix를 $C^{w, \mathcal{D}}$ 로 나타내고, 데이터셋 $\mathcal{D}$ 중 클래스 $A$ 에 속하는 부분을 $\mathcal{D}_{A}$ 로 나타낸다. 예를 들어, $\mathcal{D}_{r_{A}}$ 는 retain set $\mathcal{D}_{r}$ 중 클래스 $A$ 에 속하는 부분을 나타내며, confusion matrix의 항목 $C_{A, B}^{w, \mathcal{D}}$ 는 $w$ 로 parameterized된 모델이 데이터셋 $\mathcal{D}$ 에서 클래스 $A$ 에 속하는 샘플을 클래스 $B$ 에 속하는 것으로 (오)분류한 횟수를 저장한다. 그러면 다음과 같다:

\operatorname{IC-ERr}(\mathcal{D}, A, B ; w)=\frac{\sum_{k} C_{A, k}^{w, \mathcal{D}}+\sum_{k^{\prime}} C_{B, k^{\prime}}^{w, \mathcal{D}}}{\left|\mathcal{D}_{A}\right|+\left|\mathcal{D}_{B}\right|}

여기서 $k \neq A, k^{\prime} \neq B$ 이다.
예를 들어, 우리 표의 'IC test error' 열은 $\operatorname{IC}-\operatorname{Err}\left(\mathcal{D}_{t}, 0,1 ; w\right)$ 를 통해 계산되며, 여기서 $\mathcal{D}_{t}$ 는 test set을 나타내고, 0과 1은 우리 실험에서 혼동된 두 클래스이다. 유사하게, 'IC retain error'는 $\operatorname{IC}-\operatorname{Err}\left(\mathcal{D}_{r}, 0,1 ; w\right)$ 로 계산된다.

마지막으로:

\operatorname{Fgt-Err}(\mathcal{D}, A, B ; w)=C_{A, B}^{w, \mathcal{D}}+C_{B, A}^{w, \mathcal{D}}

즉, Fgt-Err는 두 혼동된 클래스 A와 B 사이의 오분류만을 측정한다. 예를 들어, 우리 표의 'Fgt test error'는 $\operatorname{Fgt-Err}\left(\mathcal{D}_{t}, 0,1 ; w\right)$ 로 계산되며, 유사하게 'Fgt retain error'는 $\operatorname{Fgt-Err}\left(\mathcal{D}_{r}, 0,1 ; w\right)$ 로 계산된다.

User Privacy (UP) 메트릭
우리가 사용하는 두 가지 Membership Inference Attacks (MIAs) 와 실험 결과에 대한 자세한 내용은 다음 섹션을 참조하라.

11 Membership Inference Attacks: Description and Additional Findings

본 논문에서 언급했듯이, 우리는 두 가지 다른 **MIA(Membership Inference Attack)**를 활용한다:

'Basic MIA': 일반적으로 unlearning 관련 논문에서 사용되는 것과 유사한 MIA (하지만 privacy 및 security 분야 전문가들이 사용하는 최신 MIA와는 거리가 멀다).
'LiRA-for-unlearning' MIA': 최신 LiRA 공격 [Carlini et al., 2022]을 unlearning 프레임워크에 적용한 것으로, 우리가 아는 한 최초의 시도이다.

이 섹션에서 **'target model'**은 공격 대상이 되는 모델을 의미하며, **'target example'**은 공격자가 해당 모델의 '행동'(예: loss 값)을 기반으로 멤버십 상태('in' 또는 'out')를 예측하려는 예시를 의미한다. 우리가 고려하는 두 공격 모두에서 target model은 unlearned model이며, target example은 forget set('in') 또는 test set('out') 예시이다. unlearning 알고리즘은 공격자가 unlearning된 예시(forget set 예시)와 실제로 한 번도 본 적 없는 예시를 구별할 수 없을 때 MIA를 성공적으로 방어했다고 간주한다.

11.1 Basic MIA

이전 표기법으로 돌아가서, **학습되지 않은 모델(가중치 $w^u$ 를 가진 딥 네트워크 $f$ )**의 예시 $x$ 와 레이블 $y$ 에 대한 cross-entropy loss를 $l(f(x; w^u), y)$ 로 나타낸다. 이제부터는 $f$ 와 $w^u$ 에 대한 의존성을 생략하고 이를 $l(x, y)$ 로 줄여서 표기한다.

공격자는 forget set $\mathcal{D}_f$ 또는 held-out test set $\mathcal{D}_t$ 에서 오는 loss 값을 입력으로 받아, 해당 loss 값이 제시된 예시가 원본 모델의 학습 세트에 포함되었는지 여부를 예측하는 이진 분류기이다. 우리는 이 이진 문제에 대해 클래스 균형이 맞춰진 레이블링된 학습 세트 $\mathcal{D}_{\text{train}}^b = \{(l(x_i, y_i), y_i^b)\}$ 를 사용하여 이 공격자를 supervised learning 방식으로 학습시킨다. 여기서 각 $x_i$ 는 $\mathcal{D}_f$ 또는 $\mathcal{D}_t$ 에서 온 예시이며, 이진 레이블 $y_i^b$ 는 $x_i \in \mathcal{D}_t$ 이면 0, $x_i \in \mathcal{D}_f$ 이면 1로 정의된다. 이 이진 분류기 공격자가 학습되면, 우리는 이를 사용하여 이진 문제의 held-out 평가 세트 $\mathcal{D}_{\text{eval}}^b = \{(l(x_i, y_i), y_i^b)\}$ 에 대한 예측을 수행한다. 이 평가 세트 또한 $\mathcal{D}_f$ 와 $\mathcal{D}_t$ 에서 온 예시들 간에 균형이 맞춰져 있지만, $\mathcal{D}_{\text{train}}^b$ 와는 서로 겹치지 않는다.

공격자는 $\mathcal{D}_{\text{eval}}^b$ 에서 높은 정확도를 달성하면 성공한 것으로 간주된다. 이는 공격자가 원본 학습 세트의 일부였던 예시와 그렇지 않은 예시를 구별할 수 있다는 의미이며, 이 지표 측면에서 unlearning 모델의 실패를 나타낸다. 왜냐하면 unlearning 모델이 '흔적을 남겼기' (이 경우 loss 값 측면에서) 때문에 forget set의 멤버십에 대한 정보가 유출된 것이다. 우리는 이 MIA에 대한 최적의 방어는 50%의 공격 정확도에 해당한다고 본다. 즉, 예시가 학습되었는지 여부를 무작위로 추측하는 것보다 나을 것이 없다는 의미이다. 원칙적으로 Retrain oracle은 최적으로 방어해야 한다. Retrain은 실제로 forget set으로 학습하지 않았으므로, forget set과 test set은 이 모델에게는 단순히 두 개의 다른 held-out set이며, 이들 세트가 동일하게 분포되어 있다면 loss 값은 일반적으로 서로 구별할 수 없어야 한다. 본 논문의 주요 부분에 제시된 실험에서, 우리는 SCRUB +R이 Retrain과 비교할 수 있을 정도로 이 MIA를 방어할 수 있으며, 다른 baseline들보다 일관되게 더 우수한 성능을 보인다는 것을 발견했다.

실험 세부 사항
실제로 forget set과 test set의 분포가 서로 매우 다르다면, 그들의 loss 값은 매우 쉽게 구별될 것이다. 이는 이진 분류기가 이들을 쉽게 구별할 수 있지만, 학습 데이터셋의 멤버십을 추론하는 방법을 진정으로 학습한 것은 아니라는 의미이다. 이로 인해 공격자의 평가가 신뢰할 수 없게 된다. 이 문제를 해결하기 위해, 우리는 held-out test set을 동일한 분포에서 선택해야 한다. 더 구체적으로, forget set이 CIFAR10 데이터셋의 'cat' 클래스 예시라면, 우리는 held-out test set에도 동일한 클래스를 사용한다.

Figure 4: 강력한 LiRA-for-unlearning 공격에 대한 ROC 곡선 (각 unlearning 방법에 대한 AUC(Area Under the Curve)도 범례에 보고되어 있다). 다른 서브플롯은 다른 target model에 해당한다 (각 unlearning 방법마다 다른 random seed와 다른 forget set을 사용하여 target unlearned model을 5번 학습시켰다). Positives는 forget set의 예시이고, negatives는 test set의 예시이다. True positive는 공격자가 예시가 잊혀졌음을 올바르게 식별했음을 의미하며, False positive는 test 예시가 잊혀졌다고 잘못 예측했음을 의미한다. 우리는 주로 낮은 False Positive Rate 영역에 관심이 있으며 [Carlini et al., 2022], 좋은 unlearning 방법은 더 작은 True Positive Rate, 즉 공격자의 성공 횟수가 더 적은 것과 관련이 있다. 특히 관심 영역에서 그렇다. 우리는 SCRUB(+R)이 다른 baseline들보다 강력한 LiRA-for-unlearning 공격을 더 성공적으로 방어한다는 것을 관찰한다.

우리 실험에서는 이상치(anomalies)를 제거하기 위해 loss 값을 $[-400, +400]$ 범위로 클리핑한다. 또한, 공격 모델로 Python의 scikit-learn 라이브러리의 기본 LogisticRegression() 분류기를 사용하고, 5개의 무작위 분할(random splits)로 cross-validation을 수행한다. 우리는 5개 fold 각각의 평가 부분에 대한 평균 정확도를 MIA 점수로 보고한다. 이상적으로 (완벽한 방어를 위해), 이 점수는 50%에 가장 가까워야 하며, 이는 공격자가 forget set과 test set을 구별하는 데 실패했음을 나타낸다. Basic MIA 공격에 대한 추가 결과는 Section 16에 제시되어 있다.

11.2 LiRA-for-unlearning attack

표준 개인 정보 보호 설정에서 LiRA 공격자 [Carlini et al., 2022]는 수많은 'shadow model' [Shokri et al., 2017]을 학습시킨다. 공격자는 이 shadow model에 대해 각 학습 시 어떤 예시가 훈련 세트에 포함되는지 제어할 수 있다 (구성상).
그런 다음, 'target example'의 멤버십 상태를 예측하기 위해, 공격자는 shadow model을 사용하여 두 개의 가우시안 분포를 추정한다:

해당 예시를 학습한 shadow model에서의 예시 신뢰도 분포,
해당 예시를 학습하지 않은 shadow model에서의 예시 신뢰도 분포.

이후, 공격자는 target model에서 target example의 신뢰도를 계산하고, 전자의 가우시안 분포 하에서의 target 신뢰도 가능성(likelihood)이 후자의 가우시안 분포 하에서의 가능성보다 크면 target example이 'in'이었다고 예측한다.

LiRA를 unlearning 프레임워크에 적용하는 것은 쉽지 않으며, 우리는 이전 연구에서 이러한 시도가 이루어진 것을 알지 못한다. 우리는 우리가 아는 한, unlearning을 위한 최초의 LiRA 적용 방법을 제안한다. 이는 공격자가 unlearning 알고리즘에 대한 지식을 가질 수 있도록 허용하는 강력한 공격이다.
구체적으로, 각 shadow model에 대해 공격자는 주어진 unlearning 알고리즘을 여러 번 적용하여 'shadow unlearned' 모델을 생성한다. 이때 많은 수의 forget set을 사용한다 (Chen et al. [2021]과 유사).
이제, 각 'target example'에 대해 이 설정은 공격자가 다른 한 쌍의 가우시안 분포를 추정할 수 있도록 한다:

해당 target example이 잊혀진(forgotten) 모델에서의 신뢰도 분포,
이전과 마찬가지로, 해당 target example이 학습되지 않은(not seen) 모델에서의 신뢰도 분포.

공격자는 target model에서 target example의 신뢰도를 계산하고, 전자의 가우시안 분포 하에서의 가능성이 후자의 가우시안 분포 하에서의 가능성보다 크면 해당 예시가 잊혀졌다고(forgotten) 예측한다.

실험 설정: 개요
우리는 CIFAR-10의 선택적 unlearning에 대해 LiRA-for-unlearning 공격을 실행한다. 이 시나리오에서는 forget set의 크기가 200개이며, 클래스 5에서 추출된다.

공격자 (Attacker): 공격자를 위해 우리는 먼저 CIFAR-10 훈련 세트의 절반을 무작위로 분할하여 256개의 'shadow original' 모델을 학습시킨다. $D$ 를 원본 데이터셋이라고 하자. 각 shadow model을 학습시키기 위해 우리는 $D$ 를 절반으로 나누고, 한 절반을 해당 shadow model의 **'훈련 세트'**로, 다른 절반을 **'테스트 세트'**로 사용한다.
그런 다음, 이들 각 'shadow original' 모델에 대해 10,000개의 서로 다른 forget set에 대해 unlearning을 실행한다 (각 unlearning 방법별로). 구체적으로, forget set은 클래스 5의 200개 예시로 구성된 무작위 부분집합이며, 해당 'shadow original' 모델의 훈련 세트에서 샘플링된다.
이 절차 후, 클래스 5의 모든 예시에 대해, 훈련에 포함되지 않았을 때의 256개 shadow model과 unlearning되었을 때의 256개 shadow model을 선택한다 (즉, forget set에 포함되었을 때).
이후, LiRA 공격은 정상적으로 진행되며, 우리는 각 in/out 분포를 취하고 알 수 없는 예시에 대해 가능도비 검정(likelihood ratio test)을 적용하여 멤버십을 추론한다.

방어자 (Defender): 다음으로 우리는 target model을 학습시킨다.

Figure 5: SCRUB의 $\gamma$ 및 $\alpha$ 에 대한 민감도. 이 그래프를 생성하기 위해, 우리는 $\gamma([0.1,0.5,1,2,3])$ 및 $\alpha([0.1,0.5,1,2,3])$ 의 다른 값들에 대해 SCRUB를 여러 번 실행했다. x축은 이러한 값들의 조합을 나타낸다. t-error, f-error, r-error는 각각 test, forget, retain error를 의미한다. 우리는 SCRUB가 이러한 하이퍼파라미터에 크게 민감하지 않다는 것을 발견했다: retain error는 값 전반에 걸쳐 낮게 유지되며, test 및 forget error에 대해서도 원하는 결과를 얻을 수 있는 여러 다른 하이퍼파라미터 설정이 존재한다.

구현 참고 (Implementation note)
우리는 이 공격을 본 논문의 나머지 실험보다 훨씬 더 큰 규모로 실행한다 (256개의 'shadow original' 모델 각각에 대해 10,000번의 unlearning 실행을 서로 다른 forget set으로 수행한다).
이는 공격자의 강도가 shadow original/unlearned 모델의 수에 크게 의존하기 때문이며, 우리는 우리의 baseline들을 매우 강력한 공격자에 대해 벤치마킹하고자 했다.
따라서, 더 나은 확장을 위해, SCRUB+R을 rewinding으로 구현하는 대신, forget set error가 validation error에 가까워야 한다는 SCRUB+R의 조건을 만족하지 않는 SCRUB 실행을 필터링하는 방식으로 구현했다 (여기서 validation error는, 본 논문에서 설명했듯이, forget set과 동일한 분포를 가지도록 구성된 validation set을 의미하며, forget set과 동일한 클래스의 예시만 포함한다). 우리는 0.1을 임계값으로 사용했다.

'신뢰도' 계산 (Computing the 'confidence')
[Carlini et al., 2022]와 일관되게, 예시 $(x, y)$ (여기서 $y$ 는 ground-truth 클래스 레이블을 나타냄)의 신뢰도는 softmax $(f(x))[y]$ 로 정의된다. 즉, 신뢰도는 정확한 클래스의 softmax 확률이다. Carlini et al. [2022]를 따라, 우리는 각 신뢰도에 logit-scaling을 적용하여 분포를 가우시안으로 만들었다.

결론 및 발견 (Conclusions and findings)
Figure 4는 공격자의 False Positive Rate와 True Positive Rate를 로그-로그 스케일로 보여주는 ROC 곡선을 그린다. 다른 서브플롯은 서로 다른 target unlearned model에 해당하며, 각 모델은 다른 무작위 시드와 다른 retain/forget set 분할로 학습되었다.
성공적인 방어는 더 작은 AUC(Area Under the Curve)와 관련된다. 이는 공격자에게 더 적은 True Positive를 의미한다. 그러나 Carlini et al. [2022]는 AUC가 공격자의 강도를 나타내는 좋은 지표가 아니라고 주장하며, 대신 ROC 곡선에서 매우 작은 False Positive Rate와 관련된 영역을 주로 고려해야 한다고 주장한다.
우리는 특히 해당 영역에서 SCRUB(+R)이 LiRA-for-unlearning 공격을 방어하는 측면에서 가장 강력한 방법임을 관찰한다 (또한 SCRUB(+R)이 가장 좋은 AUC를 가진다는 것도 관찰한다). 본 논문에서 제안한 개선된 NegGrad+ baseline 또한 이 공격을 방어하는 측면에서 강력한 모델이다.

Figure 6: ResNet 모델을 사용한 CIFAR-5에서 SCRUB 변형 모델의 훈련 역학(training dynamics)을 보여주는 그림. min-step과 max-step의 적절한 interleaving은 높은 forget error와 낮은 retain 및 validation error 사이의 좋은 균형을 달성하는 데 중요하다.

우리는 CF-k가 대부분의 경우 원본 모델의 개인 정보 보호를 개선하지 못하는 반면, EU-k는 때때로 개선할 수 있지만 그 정도가 미미하고 신뢰할 수 없다는 것을 발견했다.

한계점 (Limitations)
이전 unlearning 연구와 일관성을 유지하기 위해, 앞서 언급했듯이, 우리는 데이터 증강(data augmentations)을 껐다. 결과적으로, '원본 모델' (unlearning이 적용되기 전)은 state-of-the-art CIFAR 모델보다 더 과적합되었다. 실제로, Figure 4에서 볼 수 있듯이, 'Original' 모델은 개인 정보 보호가 좋지 않다 (공격자는 높은 True Positive Rate를 가진다).
우리는 이것이 강력한 MIA를 사용하여 unlearning 알고리즘의 개인 정보 보호를 조사한 최초의 연구라고 생각하며, 향후 연구에서는 state-of-the-art에 더 가까운 모델을 사용하여 점점 더 현실적인 시나리오를 조사하고, 다양한 수준의 개인 정보 보호 및 일반화 능력을 가진 원본 모델에 대한 unlearning을 고려하기를 바란다.

12 Ablations and Sensitivity Analysis

이 섹션에서는 **SCRUB의 학습 과정(training dynamics)**과 다양한 설계 선택의 중요성을 설명한다. 다시 한번 상기하자면, student 모델은 teacher 모델로부터 초기화된 후, max-step과 min-step이 번갈아 수행되는 시퀀스를 거친다. max-step은 student가 forget set에서 teacher로부터 멀어지도록 유도하고, min-step은 student가 retain set에서 teacher에 가깝게 유지되도록 유도한다. 우리는 또한 교차 시퀀스(alternating sequence) 이후에 추가적인 min-step 시퀀스를 수행하는 것이 유용하다는 것을 발견했다. 이제 이러한 결정들의 효과를 탐구한다.

첫째, Equation 1을 최적화하여 max-step만 수행하는 것이 좋은 해결책이 아님을 보여준다. 단순히 forget set에서 student를 teacher로부터 멀어지게 하는 것은 망각(forgetting)을 달성하지만, 안타깝게도 retain set과 validation set의 성능도 저해한다 (Figure 6a). 따라서 max-step과 min-step을 번갈아 수행하는 것이 필수적이다. 그러나 올바른 균형을 찾는 것이 중요하다. 예를 들어, Figure 6b에서 볼 수 있듯이, 너무 적은 max-step을 수행하면 forget error가 감소하는 원치 않는 결과를 초래한다. 반면에, 마지막 min-step 시퀀스를 제거하는 것도 해롭다. Figure 6c는 동일한 수의 (교차) max-step과 min-step으로 더 많은 epoch 동안 학습했지만, 어떤 시점에서도 좋은 균형을 달성하지 못했음을 보여준다. 반면, SCRUB (Figure 6d)는 높은 forget error와 낮은 retain 및 validation error의 좋은 균형을 동시에 달성한다. 또한 Figure 10에서 성능 저하에 대한 작지만 일관된 추가 보호를 제공하는 Equation 3의 cross-entropy 항에 대한 ablation도 수행한다. 추가적인 학습 과정 예시들은 Figure 7, 8, 9에 제시되어 있다.

Figure 7: All-CNN을 사용한 CIFAR-5에서 SCRUB 변형 모델들의 학습 과정(training dynamics)을 보여주는 그림. min-step과 max-step을 올바르게 교차(interleaving)하는 것은 높은 forget error와 낮은 retain 및 validation error 사이의 좋은 균형을 달성하는 데 중요하다.

Table 4: 클래스-망각(class-unlearning) 결과. Cifar-100 (40k 예시)의 Class-0 (400 예시). 수치는 3회 실행의 평균이다.

Model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		Basic MIA
	mean	std	mean	std	mean	std	mean	std
Original	35.84	0.76	0.07	0.02	0.00	0.00	61.67	16.20
Retrain	36.92	1.02	0.09	0.06	100.00	0.00	55.67	34.09
NegGrad+	43.16	3.13	6.86	5.16	49.50	12.79	64.67	18.07
Bad-T@epoch1	44.14	1.84	8.78	2.08	63.83	24.64	61.67	20.57
Bad-T@epoch10	43.33	1.27	7.74	3.21	85.33	4.18	63.33	28.15
SCRUB+R	37.60	1.18	0.12	0.10	100.00	0.00	57.33	28.99
SCRUB	38.27	3.08	0.78	2.47	100.00	0.00	48.33	12.25

마지막으로, Figure 5에서 SCRUB 결과의 $\gamma$ 및 $\alpha$ 하이퍼파라미터에 대한 민감도도 조사한다. 우리는 SCRUB가 이러한 하이퍼파라미터에 크게 민감하지 않다는 것을 발견했다. retain error는 값에 관계없이 낮게 유지되며, test error와 forget error에 대해서도 원하는 결과를 얻을 수 있는 여러 다른 하이퍼파라미터 설정이 존재한다.

13 Larger-scale Settings

이 섹션에서는 더 큰 모델을 선택하고 더 큰 분류 task를 수행함으로써 더 큰 규모의 설정으로 확장한다. 여기서는 거의 1억 3,800만 개의 파라미터를 가진 VGG16+BN 모델과 CIFAR-100 데이터셋을 사용하여 다양한 forget set 크기로 실험을 진행했다. 결과는 Table 4와 Table 5에 보고되어 있다. 또한, 이 실험들을 위해 **Bad-T를 다양한 반복 횟수(Bad-T는 원래 1 epoch의 unlearning을 제안함)**로 학습시켜, 반복 횟수가 길어질수록 성능이 향상되는지 여부를 연구했다. 결과는 SCRUB가 모든 지표에서 일관되게 최고 성능을 보이는 방법 중 하나임을 다시 한번 시사한다. 또한, 결과는 더 긴 반복 횟수가 Bad-T의 어떤 지표에서도 성능을 향상시키지 못함을 보여준다.

Figure 8: ResNet을 사용한 Lacuna-5에서 SCRUB 변형 모델들의 학습 동학(training dynamics)을 보여주는 그림. min-step과 max-step의 적절한 interleaving은 높은 forget error와 낮은 retain 및 validation error 사이의 좋은 균형을 달성하는 데 중요하다.

Figure 9: All-CNN을 사용한 Lacuna-5에서 SCRUB 변형 모델들의 학습 동학(training dynamics)을 보여주는 그림. min-step과 max-step의 적절한 interleaving은 높은 forget error와 낮은 retain 및 validation error 사이의 좋은 균형을 달성하는 데 중요하다.

Figure 10: Equation 3에 cross-entropy loss를 추가했을 때의 효과. 점선은 cross-entropy를 생략한 경우이고, 실선은 cross-entropy를 사용한 경우이다. 우리는 cross-entropy의 추가가 unlearning 과정에서 모델 성능을 유지하는 데 추가적인 보호 기능을 제공한다는 것을 발견했다. 이는 때때로 cross-entropy가 loss에서 생략되었을 때 달성되었을 forget set error에 비해 더 작은 forget set error를 대가로 발생하기도 한다.

Table 5: 선택적 unlearning 결과. Cifar-100 데이터셋의 class-0에서 10개의 예시를 사용했다. 숫자는 10회 실행의 평균이다.

Forget Size	Model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		Basic MIA
		mean	std	mean	std	mean	std	mean	std
10	Original	37.46	4.99	0.54	1.74	0.00	0.00	58.00	9.10
	Retrain	37.54	5.24	0.57	1.84	19.00	15.81	45.00	19.04
	NegGrad+	45.98	6.79	11.64	12.02	44.00	11.15	55.00	23.88
	Bad-T@epoch1	47.23	5.76	13.79	10.28	66.00	18.22	62.00	30.20
	Bad-T@epoch10	47.09	5.65	13.80	9.79	96.00	8.07	77.00	17.25
	SCRUB+R	38.40	4.70	0.69	2.07	40.00	13.33	61.00	17.59
	SCRUB	38.18	4.78	0.48	1.44	45.00	13.60	56.00	19.76
20	Original	37.46	4.99	0.54	1.74	0.00	0.00	63.00	10.96
	Retrain	37.74	5.31	0.56	1.77	19.50	12.00	49.00	11.47
	NegGrad+	45.56	7.00	11.14	12.57	47.00	9.89	67.50	13.94
	Bad-T@epoch1	46.46	6.28	12.95	11.71	55.50	16.20	55.00	21.59
	Bad-T@epoch10	45.88	5.70	12.03	9.44	92.00	10.25	70.00	10.87
	SCRUB+R	38.39	4.63	0.68	2.00	23.00	8.70	49.50	11.68
	SCRUB	38.29	4.61	0.49	1.42	29.00	16.28	54.50	18.54

Model	CIFAR-10				Lacuna-10
	ResNet		All-CNN		ResNet		All-CNN
	class	selective	class	selective	class	selective	class	selective
Finetune	3.8	3.09	3.33	3.03	1.7	2.03	2.16	2.00
Fisher	0.08	0.07	0.16	0.14	0.08	0.07	0.16	0.15
NegGrad+	3.4	2.96	2.30	2.97	1.66	1.5	2.41	2.27
CF-k	3.55	3.17	3.37	2.91	3.42	3.20	3.27	3.11
EU-k	1.41	1.26	1.34	1.20	1.39	1.28	1.32	1.26
Bad-T	19.07	20.44	17.91	17.03	20.05	20.27.	16.32	16.02
SCRUB	7.84	7.41	6.36	5.33	2.17	1.95	2.81	2.48

Table 6: Scale-up factor: retrain from scratch의 런타임 대비 각 unlearning 알고리즘의 런타임 비율. 즉, unlearning 알고리즘의 scale-up 값이 X라는 것은 해당 알고리즘이 retrain from scratch보다 X배 빠르게 실행됨을 의미한다.

Model	CIFAR-5						Lacuna-5
	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	24.9	2.5	0.0	0.0	28.8	5.9	5.8	0.4	0.0	0.0	4.8	3.4
Original	24.2	2.6	0.0	0.0	0.0	0.0	5.7	0.4	0.0	0.0	0.0	0.0
Finetune	24.3	2.4	0.0	0.0	0.0	0.0	5.6	0.3	0.0	0.0	0.0	0.0
Fisher	31.6	3.4	14.0	6.0	4.8	5.2	14.0	3.6	6.7	3.3	6.4	8.3
NTK	24.4	2.6	0.0	0.0	22.4	9.2	5.6	0.5	0.0	0.0	0.0	0.0
NegGrad+	25.5	1.1	0.0	0.0	41.3	6.1	6.1	0.7	0.0	0.0	1.3	2.3
CF-k	22.6	1.9	0.0	0.0	0.0	0.0	5.8	0.4	0.0	0.0	0.0	0.0
EU-k	23.5	1.1	0.0	0.0	10.7	2.3	5.9	0.6	0.0	0.0	0.0	0.0
Bad-T	27.73	1.89	5.12	1.56	8.00	8.64	5.00	0.33	0.14	0.10	0.00	0.00
SCRUB	24.2	1.6	0.0	0.0	40.8	1.8	6.2	0.73	0.0	0.0	24.8	5.2

Table 7: Removing Biases (RB) 애플리케이션에 대한 ResNet을 사용한 소규모 결과. SCRUB는 최소한의 성능 저하로 forgetting 측면에서 최고의 성능을 보인다.

14 Additional Results for Removing Biases (RB)

이 섹션에서는 Removing Biases (RB) 애플리케이션에 대해 ResNet 및 All-CNN 모델을 사용하여 CIFAR 및 Lacuna 데이터셋에서 수행한 모든 시나리오의 결과를 small-scale 및 large-scale 모두에 대해 Table 7, 8, 9, 10, 11, 12에 완전하게 제시한다.

Model	CIFAR-5						Lacuna-5
	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	24.36	1.61	0.13	0.28	28.8	9.12	4.6	0.38	0.0	0.0	4.67	6.41
Original	24.08	1.86	0.17	0.38	0.0	0.0	4.53	0.47	0.0	0.0	0.0	0.0
Finetune	23.48	1.91	0.04	0.09	0.0	0.0	9.77	10.76	6.63	13.22	19.33	40.03
Fisher	42.64	6.56	31.83	10.47	15.2	16.83	52.53	13.87	51.09	14.54	39.33	40.43
NTK	24.16	1.77	0.17	0.38	13.6	8.29	4.47	0.47	0.0	0.0	3.33	4.68
NegGrad+	26.07	1.21	0.56	0.49	36.00	10.58	5.27	0.76	0.14	0.12	12.00	13.86
CF-k	22.67	1.55	0.00	0.00	0.00	0.00	4.67	0.70	0.00	0.00	0.00	0.00
EU-k	25.87	0.64	3.23	1.69	8.00	6.93	5.20	0.20	0.00	0.00	0.00	0.00
Bad-T	25.87	1.80	9.68	0.45	10.67	4.99	8.87	0.66	2.32	0.79	0.00	0.00
SCRUB	23.88	1.78	0.08	0.12	40.8	8.2	3.87	0.72	0.0	0.0	25.33	4.13

Table 8: Removing Biases (RB) 애플리케이션에 대한 All-CNN 모델의 small-scale 결과.
SCRUB는 성능 저하를 최소화하면서 forgetting 측면에서 가장 우수한 성능을 보인다.

Model	CIFAR-10						Lacuna-10
	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	14.72	0.16	0.0	0.0	100.0	0.0	2.87	0.34	0.0	0.0	99.75	0.56
Original	16.56	0.1	0.0	0.0	0.0	0.0	3.07	0.26	0.0	0.0	0.0	0.0
Finetune	16.41	0.09	0.0	0.0	0.0	0.0	3.02	0.37	0.0	0.0	0.0	0.0
Fisher	26.42	1.41	2.45	0.84	100.0	0.0	3.33	0.54	0.0	0.0	100.0	0.0
NegGrad+	17.84	1.46	1.74	2.55	91.26	7.73	3.41	0.17	0.00	0.00	14.90	1.78
CF-k	15.31	0.12	0.00	0.00	0.03	0.01	2.89	0.22	0.00	0.00	0.00	0.00
EU-k	18.73	0.42	0.00	0.00	98.79	0.18	3.19	0.17	0.01	0.02	4.06	0.83
Bad-T	19.56	1.44	11.34	1.82	94.67	6.12	3.37	0.50	1.06	0.47	67.60	24.26
SCRUB	15.73	0.17	0.51	0.02	100.0	0.0	3.69	0.36	0.28	0.23	100.0	0.0

Table 9: Removing Biases (RB) 애플리케이션에 대한 ResNet 모델의 large-scale, class unlearning 결과.
SCRUB와 EU-k는 성능 저하를 최소화하면서 forgetting 측면에서 가장 우수한 성능을 보인다. 그러나 EU-k는 전반적으로 강력한 성능을 보이지 않으며, 특히 선택적 unlearning에서는 매우 저조한 성능을 보인다 (Figure 1a와 1b에서 EU-k의 forget error를 비교하여 확인). Fisher 또한 이 설정에서 forget error 측면에서는 우수한 성능을 보이지만, CIFAR에서는 test error가 크게 저하되는 경향이 있으며, 이는 이 방법에서 흔히 관찰되는 현상이다.

Model	CIFAR-10						Lacuna-10
	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	13.97	0.19	0.0	0.0	100.0	0.0	1.59	0.36	0.0	0.0	100.0	0.0
Original	15.56	0.25	0.0	0.0	0.0	0.0	1.56	0.33	0.0	0.0	0.0	0.0
Finetune	15.39	0.22	0.0	0.0	0.0	0.0	1.67	0.44	0.0	0.0	0.0	0.0
Fisher	27.4	2.28	3.66	1.03	99.0	0.0	1.78	0.29	0.0	0.0	89.0	0.0
NegGrad+	17.87	0.31	0.58	0.13	87.22	1.67	1.63	0.17	0.00	0.00	6.56	1.13
CF-k	14.99	0.23	0.00	0.00	0.00	0.00	1.48	0.36	0.00	0.00	0.00	0.00
EU-k	15.30	0.69	0.13	0.14	100.00	0.00	1.74	0.45	0.00	0.00	77.19	39.51
Bad-T	16.98	0.40	5.84	0.43	81.93	3.50	2.56	0.09	0.37	0.18	38.65	36.80
SCRUB	15.06	0.14	0.12	0.03	100.0	0.0	2.0	0.4	0.0	0.0	100.0	0.0

Table 10: Removing Biases (RB) 애플리케이션에 대한 All-CNN 모델의 large-scale, class unlearning 결과.
SCRUB는 성능 저하를 최소화하면서 forgetting 측면에서 가장 우수한 성능을 보인다.

Model	CIFAR-10						Lacuna-10
	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	17.4	0.14	0.0	0.0	29.67	3.21	2.7	0.2	0.0	0.0	1.0	1.0
Original	17.36	0.14	0.0	0.0	0.0	0.0	2.73	0.15	0.0	0.0	0.0	0.0
Finetune	17.37	0.11	0.0	0.0	0.0	0.0	2.63	0.12	0.0	0.0	0.0	0.0
Fisher	21.23	0.27	2.88	0.54	3.0	2.65	3.1	0.35	0.0	0.0	0.0	0.0
NegGrad+	22.7	0.6	4.1	0.5	53.7	6.8	4.7	0.2	0.9	0.1	13.0	1.0
CF-k	17.4	0.1	0.0	0.0	0.0	0.0	2.7	0.2	0.0	0.0	0.0	0.0
EU-k	21.8	0.2	0.4	0.6	23.7	3.5	2.9	0.1	0.0	0.0	0.0	0.0
Bad-T	23.47	1.57	14.53	1.65	34.67	1.70	7.30	2.20	3.26	1.83	0.33	0.47
SCRUB	18.04	0.2	0.0	0.0	70.33	4.16	3.0	0.0	0.0	0.0	4.67	3.06

Table 11: Removing Biases (RB) 애플리케이션에 대한 ResNet 모델의 large-scale, selective unlearning 결과.
SCRUB와 **NegGrad+**는 forgetting 측면에서 가장 우수한 성능을 보이지만, NegGrad+는 두 경우 모두 SCRUB보다 test 성능이 좋지 않다. 또한, NegGrad+는 SCRUB만큼 다양한 설정에서 일관된 forgetting 성능을 보이지 않는다.

Model	CIFAR-10						Lacuna-10
	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	16.47	0.21	0.0	0.0	25.67	2.31	1.6	0.44	0.0	0.0	0.67	0.58
Original	16.43	0.08	0.0	0.0	0.0	0.0	1.53	0.31	0.0	0.0	0.0	0.0
Finetune	16.5	0.18	0.0	0.0	0.0	0.0	1.43	0.21	0.0	0.0	0.0	0.0
Fisher	21.39	1.22	4.0	1.44	13.0	11.27	1.87	0.21	0.01	0.02	0.0	0.0
NegGrad+	21.36	0.34	3.23	0.37	45.33	2.89	2.77	0.25	0.40	0.07	8.67	0.58
CF-k	16.29	0.07	0.00	0.00	0.00	0.00	1.53	0.31	0.00	0.00	0.00	0.00
EU-k	17.62	0.61	0.11	0.11	0.33	0.58	1.83	0.47	0.00	0.00	0.00	0.00
Bad-T	22.43	0.37	10.13	0.15	1.67	1.25	4.90	2.10	1.34	1.20	0.67	0.94
SCRUB	16.55	0.11	0.0	0.0	29.33	3.21	2.07	0.31	0.0	0.0	1.67	0.58

Table 12: Removing Biases (RB) 애플리케이션에 대한 All-CNN 모델의 large-scale, selective unlearning 결과.
SCRUB와 **NegGrad+**는 forgetting 측면에서 가장 우수한 성능을 보이지만, NegGrad+는 두 경우 모두 SCRUB보다 test 성능이 좋지 않다. 또한, Figure 2에서 볼 수 있듯이, NegGrad+는 SCRUB만큼 다양한 설정에서 일관된 forgetting 성능을 보이지 않는다.

model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
Retrain	26.67	2.87	0.0	0.0	90.33	1.53	24.0	1.8	0.0	0.0	18.33	4.16	0.0	0.0
Original	41.0	2.09	0.0	0.0	0.0	0.0	56.0	3.04	0.0	0.0	92.0	7.94	0.0	0.0
Finetune	38.13	1.42	0.0	0.0	0.0	0.0	52.0	3.12	0.0	0.0	79.33	10.07	0.0	0.0
NegGrad+	36.27	0.42	0.0	0.0	12.67	21.94	47.5	5.27	0.0	0.0	69.0	13.53	0.0	0.0
CF-k	39.6	1.64	0.0	0.0	0.0	0.0	54.83	2.02	0.0	0.0	85.33	7.02	0.0	0.0
EU-k	37.47	1.62	7.33	1.26	43.67	2.08	47.0	4.77	8.33	4.73	63.33	9.71	3.67	2.52
Fisher	44.8	2.36	21.33	3.45	32.0	11.53	51.5	7.47	26.33	9.5	79.0	3.61	20.0	7.94
NTK	32.6	2.51	0.0	0.0	60.33	0.58	37.5	4.0	0.0	0.0	52.0	10.58	0.0	0.0
SCRUB	25.93	3.13	1.08	0.52	96.0	1.73	19.0	3.91	0.0	0.0	19.67	7.51	0.0	0.0

Table 13: Resolving Confusion (RC) 애플리케이션에 대한 ResNet 모델의 CIFAR-5 결과.
(혼동된 클래스 0, 1; 50-50 샘플). SCRUB는 unlearning을 통해 혼동을 제거하는 측면에서 단연 최고의 성능을 보이며 (IC error 및 Fgt error 열 참조), 다른 클래스의 성능을 저하시키지 않는다 (예: 처음 3개 열 그룹의 일반적인 Error 지표 참조).

15 Additional Results for Resolving Confusion (RC)

우리는 모든 설정에 대한 전체 결과가 Table 13, 14, 15, 16, 17, 18, 19, 20에 있음을 보여준다. 전반적으로 SCRUB는 이 metric에서도 최고 성능을 보이는 모델임을 관찰할 수 있다 (성능 프로필에 대한 자세한 내용은 각 테이블의 캡션을 참조하라).

16 Additional results for User Privacy (UP)

우리는 모든 설정에 대한 Basic MIA 결과를 Tables 21, 22, 23, 24, 25, 26, 27, 28에 제시한다. 특히 rewinding 절차를 갖춘 SCRUB가 MIA에 대해 일관되게 강력한 방어 능력을 가짐을 확인하였다.

model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	24.4	2.75	0.0	0.0	90.67	4.04	19.0	1.32	0.0	0.0	11.33	4.62	0.0	0.0
Original	37.07	4.67	1.5	2.6	5.67	9.81	49.0	4.77	6.0	10.39	80.67	12.58	6.0	10.39
Finetune	34.33	3.35	0.0	0.0	3.0	5.2	43.67	7.29	0.0	0.0	67.33	16.04	0.0	0.0
NegGrad+	33.53	4.47	0.0	0.0	13.33	21.36	42.33	11.34	0.0	0.0	62.0	22.65	0.0	0.0
CF-k	36.13	4.21	0.0	0.0	0.33	0.58	47.83	5.8	0.0	0.0	76.33	14.43	0.0	0.0
EU-k	51.6	1.0	27.67	3.5	52.67	6.03	59.5	5.22	38.33	6.66	68.67	15.57	19.67	10.41
Fisher	51.93	2.95	35.17	3.92	31.0	11.53	56.83	8.69	31.67	14.01	78.33	15.53	17.67	11.5
NTK	32.2	2.84	0.75	1.3	43.33	14.15	36.67	4.07	3.0	5.2	54.33	9.02	3.0	5.2
SCRUB	25.0	3.14	0.0	0.0	93.33	2.52	26.0	4.44	0.0	0.0	18.0	11.14	0.0	0.0

Table 14: Resolving Confusion (RC) 애플리케이션에 대한 CIFAR-5 및 All-CNN 결과. (Confused class 0,1; 50-50 샘플). SCRUB는 unlearning을 통해 혼란을 제거하는 측면에서 단연 최고의 성능을 보이며 (IC error 및 Fgt error 열 참조), 다른 클래스의 성능을 저해하지 않는다 (예: 처음 3개 열 그룹의 일반적인 Error metrics 참조).

model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
Retrain	6.0	0.2	0.0	0.0	99.67	0.58	7.17	2.57	0.0	0.0	0.0	0.0	0.0	0.0
Original	27.07	3.33	1.67	0.88	4.33	1.53	57.5	6.26	6.67	3.51	108.0	14.18	6.67	3.51
Finetune	18.8	4.26	0.0	0.0	14.67	6.03	37.67	11.15	0.0	0.0	63.67	22.01	0.0	0.0
NegGrad+	17.8	2.95	1.67	0.72	55.33	2.08	33.17	5.25	5.33	1.53	56.67	12.9	4.33	1.53
CF-k	22.27	4.31	0.08	0.14	10.67	5.03	46.33	10.97	0.33	0.58	81.67	23.01	0.33	0.58
EU-k	15.27	3.19	0.83	0.38	62.0	12.49	29.33	9.0	2.33	1.53	43.67	16.29	0.33	0.58
Fisher	35.87	3.33	17.75	3.78	27.33	3.79	60.0	5.27	31.0	7.94	109.0	14.53	30.0	7.0
NTK	14.53	5.22	0.0	0.0	51.67	23.18	27.17	11.3	0.0	0.0	43.33	25.32	0.0	0.0
SCRUB	8.47	1.17	0.33	0.14	96.0	1.0	11.33	3.82	1.33	0.58	9.33	1.53	1.33	0.58

Table 15: Resolving Confusion (RC) 애플리케이션에 대한 Lacuna-5 및 ResNet 결과. (Confused class 0,1; 50-50 샘플). SCRUB는 unlearning을 통해 혼란을 제거하는 측면에서 단연 최고의 성능을 보이며 (IC error 및 Fgt error 열 참조), 다른 클래스의 성능을 저해하지 않는다 (예: 처음 3개 열 그룹의 일반적인 Error metrics 참조). NTK는 일부 경우에 혼란을 해결할 수 있지만, 일관성이 없으며 Test Error도 더 높다.

model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
Retrain	4.2	0.87	0.0	0.0	100.0	0.0	5.33	2.25	0.0	0.0	0.0	0.0	0.0	0.0
Original	25.47	2.32	5.75	5.63	20.33	25.74	56.17	4.93	23.0	22.54	105.67	8.08	23.0	22.54
Finetune	12.8	2.8	0.0	0.0	23.0	7.94	25.83	7.75	0.0	0.0	39.67	12.74	0.0	0.0
NegGrad+	12.8	9.06	2.5	3.12	90.0	6.56	20.33	17.04	5.0	6.24	12.67	11.68	2.67	3.79
CF-k	21.27	1.63	0.58	0.8	9.33	0.58	47.0	4.58	2.33	3.21	82.67	10.12	2.33	3.21
EU-k	17.0	8.91	3.92	3.99	92.33	4.93	35.0	18.26	13.0	11.36	3.67	4.73	0.0	0.0
Fisher	49.6	4.73	39.25	7.45	40.0	9.54	57.67	10.79	42.33	11.59	88.67	11.68	29.67	16.86
NTK	12.87	6.63	2.83	4.91	72.33	12.06	25.5	17.88	11.33	19.63	35.67	24.03	10.0	17.32
SCRUB	3.87	0.7	0.0	0.0	100.0	0.0	4.33	1.26	0.0	0.0	0.0	0.0	0.0	0.0

Table 16: Resolving Confusion (RC) 애플리케이션에 대한 Lacuna-5 및 All-CNN 결과. (Confused class 0,1; 50-50 샘플). SCRUB는 unlearning을 통해 혼란을 제거하는 측면에서 단연 최고의 성능을 보이며 (IC error 및 Fgt error 열 참조), 다른 클래스의 성능을 저해하지 않는다 (예: 처음 3개 열 그룹의 일반적인 Error metrics 참조).

model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
retrain	18.7	0.07	0.0	0.0	98.57	0.28	14.78	0.18	0.0	0.0	31.33	2.08	0.0	0.0
original	21.86	0.37	0.0	0.0	0.0	0.0	31.23	0.45	0.0	0.0	356.0	11.53	0.0	0.0
finetune	20.85	0.37	0.0	0.0	0.0	0.0	26.75	0.48	0.0	0.0	255.0	10.58	0.0	0.0
NegGrad+	23.41	0.32	3.87	0.31	80.07	6.77	41.08	0.6	20.29	1.52	46.0	8.72	0.67	1.15
CF-k	20.93	0.38	0.0	0.0	0.0	0.0	27.27	0.76	0.0	0.0	267.33	16.17	0.0	0.0
EU-k	20.03	0.19	0.25	0.08	95.55	0.54	17.85	0.67	0.18	0.03	53.0	7.94	3.33	2.31
SCRUB	18.01	0.18	0.02	0.01	95.45	0.26	15.07	0.99	0.04	0.03	30.33	3.79	0.33	0.58

Table 17: Resolving Confusion (RC) 애플리케이션에 대한 CIFAR-10 및 ResNet 결과. (Confused class 0,1; 2000-2000 샘플).

model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
retrain	16.43	0.03	0.0	0.0	98.42	0.15	14.37	0.24	0.0	0.0	23.67	2.31	0.0	0.0
original	19.95	0.23	0.0	0.0	0.0	0.0	30.18	0.66	0.0	0.0	348.67	13.58	0.0	0.0
finetune	18.72	0.11	0.0	0.0	1.05	0.61	24.33	0.2	0.0	0.0	223.67	6.66	0.0	0.0
NegGrad+	21.74	0.44	4.48	0.34	87.65	2.98	40.05	0.44	21.8	0.66	44.0	5.2	2.33	3.21
CF-k	19.31	0.23	0.0	0.0	0.0	0.0	27.45	0.61	0.0	0.0	294.0	4.36	0.0	0.0
EU-k	17.66	0.23	1.36	0.19	87.9	1.28	16.82	0.79	2.89	0.46	63.67	8.62	91.67	12.58
SCRUB	15.92	0.17	0.2	0.06	87.47	1.46	14.98	0.13	0.39	0.15	54.0	3.61	9.67	2.52

Table 18: Resolving Confusion (RC) 애플리케이션에 대한 CIFAR-10 및 All-CNN 결과. (Confused class 0,1; 2000-2000 샘플).

model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
retrain	2.43	0.32	0.0	0.0	99.83	0.29	3.33	0.58	0.0	0.0	0.0	0.0	0.0	0.0
original	7.37	0.31	1.21	0.12	15.83	4.19	27.67	1.26	8.26	0.8	46.0	4.36	36.33	3.51
finetune	4.17	0.5	0.0	0.0	56.83	9.44	11.17	1.76	0.0	0.0	15.67	3.51	0.0	0.0
NegGrad+	5.63	0.38	0.31	0.22	71.33	9.88	19.33	1.04	2.12	1.51	8.33	2.31	0.0	0.0
CF-k	5.4	0.4	0.07	0.06	33.83	3.33	17.33	1.76	0.45	0.39	27.67	3.51	2.0	1.73
EU-k	3.0	0.26	0.0	0.0	90.17	4.65	6.0	1.8	0.0	0.0	2.0	2.65	0.0	0.0
SCRUB	3.07	0.59	0.0	0.0	98.5	0.5	6.83	1.26	0.0	0.0	0.67	0.58	0.0	0.0

Table 19: Resolving Confusion (RC) 애플리케이션에 대한 Lacuna-10 및 ResNet 결과. (Confused class 0,1; 200-200 샘플).

model	Test error ( $\downarrow$ )		Retain error ( $\downarrow$ )		Forget error ( $\uparrow$ )		IC test error ( $\downarrow$ )		IC retain error ( $\downarrow$ )		Fgt test error ( $\downarrow$ )		Fgt retain error ( $\downarrow$ )
	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std	mean	std
retrain	2.13	0.25	0.0	0.0	99.83	0.29	2.5	1.32	0.0	0.0	0.0	0.0	0.0	0.0
original	7.83	0.55	1.21	0.52	16.0	4.92	31.33	1.76	8.26	3.53	56.33	3.79	36.33	15.53
finetune	3.0	0.7	0.0	0.0	74.5	6.08	6.5	2.0	0.0	0.0	9.0	3.0	0.0	0.0
NegGrad+	4.3	0.52	0.4	0.06	89.67	4.25	15.33	2.47	2.73	0.39	4.67	3.21	0.0	0.0
CF-k	5.27	0.47	0.11	0.07	33.33	1.61	18.5	2.29	0.76	0.47	31.33	3.51	3.33	2.08
EU-k	2.53	0.67	0.09	0.02	97.83	2.08	5.17	1.04	0.38	0.35	0.33	0.58	0.67	0.58
SCRUB	2.1	0.4	0.0	0.0	97.5	1.73	4.17	0.58	0.0	0.0	0.33	0.58	0.0	0.0

Table 20: Resolving Confusion (RC) 애플리케이션에 대한 Lacuna-10 및 All-CNN 결과. (Confused class 0,1; 200-200 샘플).

method	Test error		Forget error		Retain error		MIA
	mean	std	mean	std	mean	std	mean	std
Retrain	16.71	0.05	26.67	3.09	0.00	0.00	51.33	6.13
Original	16.71	0.07	0.00	0.00	0.00	0.00	68.67	3.09
Finetune	16.86	0.13	0.00	0.00	0.00	0.00	69.33	2.05
NegGrad+	21.65	0.40	47.00	3.74	4.54	0.70	73.00	1.41
CF-k	16.82	0.03	0.00	0.00	0.00	0.00	69.67	1.89
EU-k	18.44	0.21	0.33	0.47	0.32	0.02	66.00	2.94
Bad-T	22.43	0.37	1.67	1.25	10.13	0.15	77.67	4.11
SCRUB	17.01	0.20	33.00	5.89	0.00	0.00	51.00	1.41
SCRUB+R	16.88	0.19	26.33	4.50	0.00	0.00	49.33	2.49

Table 21: User Privacy (UP) 애플리케이션을 위한 CIFAR-10의 selective unlearning에 대한 All-CNN 아키텍처의 Basic MIA 결과.

method	Test error		Forget error		Retain error		MIA
	mean	std	mean	std	mean	std	mean	std
Retrain	13.98	0.07	100.00	0.00	0.00	0.00	48.73	0.24
Original	15.70	0.09	0.00	0.00	0.00	0.00	71.40	0.70
Finetune	14.53	0.13	1.31	0.54	0.00	0.00	74.97	1.27
NegGrad+	17.04	0.11	59.91	1.53	0.43	0.09	70.03	1.92
CF-k	15.72	0.06	0.00	0.00	0.00	0.00	72.93	1.06
EU-k	15.76	0.28	100.00	0.00	0.24	0.02	51.60	1.22
Bad-T	16.98	0.40	81.93	3.50	5.84	0.43	58.07	1.76
SCRUB	14.93	0.17	100.00	0.00	0.09	0.02	54.30	2.24
SCRUB+R	14.93	0.17	100.00	0.00	0.09	0.02	54.30	2.24

Table 22: User Privacy (UP) 애플리케이션을 위한 CIFAR-10의 class unlearning에 대한 All-CNN 아키텍처의 Basic MIA 결과.

method	Test error		Forget error		Retain error		MIA
	mean	std	mean	std	mean	std	mean	std
Retrain	17.38	0.15	29.33	2.49	0.00	0.00	54.00	1.63
Original	17.41	0.15	0.00	0.00	0.00	0.00	65.33	0.47
Finetune	17.48	0.16	0.00	0.00	0.00	0.00	64.00	0.82
NegGrad+	21.69	0.07	45.33	2.62	3.94	0.43	66.67	1.70
CF-k	17.53	0.19	0.00	0.00	0.00	0.00	65.00	0.00
EU-k	19.77	0.04	13.67	0.47	0.06	0.01	53.00	3.27
Bad-T	23.47	1.57	34.67	1.70	14.53	1.65	59.67	4.19
SCRUB	17.01	0.03	71.67	0.94	0.01	0.01	78.00	2.45
SCRUB+R	17.54	0.28	19.33	14.64	0.01	0.01	58.67	1.89

Table 23: User Privacy (UP) 애플리케이션을 위한 CIFAR-10의 selective unlearning에 대한 ResNet 아키텍처의 Basic MIA 결과.

method	Test error		Forget error		Retain error		MIA
	mean	std	mean	std	mean	std	mean	std
Retrain	14.69	0.10	100.00	0.00	0.00	0.00	49.33	1.67
Original	16.33	0.14	0.00	0.00	0.00	0.00	71.10	0.67
Finetune	15.10	0.16	0.33	0.17	0.00	0.00	75.57	0.69
NegGrad+	17.41	0.09	61.00	1.14	0.44	0.05	69.57	1.19
CF-k	15.29	0.02	0.04	0.04	0.00	0.00	75.73	0.34
EU-k	17.05	0.07	97.48	0.28	0.05	0.01	54.20	2.27
Bad-T	19.56	1.44	11.34	1.82	94.67	6.12	54.33	0.31
SCRUB	15.33	0.06	100.00	0.00	0.08	0.01	52.20	1.71
SCRUB+R	15.33	0.06	100.00	0.00	0.08	0.01	52.20	1.71

Table 24: User Privacy (UP) 애플리케이션을 위한 CIFAR-10의 class unlearning에 대한 ResNet 아키텍처의 Basic MIA 결과.

method	Test error		Forget error		Retain error		MIA
	mean	std	mean	std	mean	std	mean	std
Retrain	1.50	0.08	0.33	0.47	0.00	0.00	52.00	2.16
Original	1.57	0.24	0.00	0.00	0.00	0.00	59.00	2.16
Finetune	1.40	0.16	0.00	0.00	0.00	0.00	57.33	3.30
NegGrad+	3.60	0.14	14.33	1.25	0.87	0.07	51.00	1.63
CF-k	1.57	0.12	0.00	0.00	0.00	0.00	58.33	2.49
EU-k	3.90	1.47	0.00	0.00	0.76	0.63	52.00	3.56
Bad-T	4.90	2.10	1.34	1.20	0.67	0.94	67.67	6.94
SCRUB	1.67	0.19	0.00	0.00	0.00	0.00	57.67	0.94
SCRUB+R	1.67	0.19	0.00	0.00	0.00	0.00	57.67	0.94

Table 25: User Privacy (UP) 애플리케이션을 위한 Lacuna-10의 selective unlearning에 대한 All-CNN 아키텍처의 Basic MIA 결과.

method	Test error		Forget error		Retain error		MIA
	mean	std	mean	std	mean	std	mean	std
Retrain	1.67	0.09	100.00	0.00	0.00	0.00	55.67	2.62
Original	1.70	0.21	0.00	0.00	0.00	0.00	58.00	1.63
Finetune	1.67	0.27	0.00	0.00	0.00	0.00	56.33	1.25
NegGrad+	2.00	0.00	14.27	0.74	0.00	0.00	54.33	2.05
CF-k	2.07	0.14	0.00	0.00	0.00	0.00	52.33	2.05
EU-k	4.15	1.22	62.08	44.26	0.81	0.53	52.67	3.68
Bad-T	2.56	0.09	38.65	36.80	0.37	0.18	63.33	2.49
SCRUB	1.96	0.34	100.00	0.00	0.00	0.00	50.33	2.62
SCRUB+R	1.96	0.34	100.00	0.00	0.00	0.00	50.33	2.62

Table 26: User Privacy (UP) 애플리케이션을 위한 Lacuna-10의 class unlearning에 대한 All-CNN 아키텍처의 Basic MIA 결과.

method	Test error		Forget error		Retain error		MIA
	mean	std	mean	std	mean	std	mean	std
Retrain	2.50	0.24	1.67	0.94	0.00	0.00	49.67	3.09
Original	2.53	0.25	0.00	0.00	0.00	0.00	56.67	1.70
Finetune	2.67	0.05	0.00	0.00	0.00	0.00	53.67	0.94
NegGrad+	4.30	0.43	12.67	3.30	0.95	0.08	54.00	2.16
CF-k	2.47	0.25	0.00	0.00	0.00	0.00	56.00	0.82
EU-k	2.60	0.00	0.00	0.00	0.03	0.00	56.00	2.83
Bad-T	7.30	2.20	3.26	1.83	0.33	0.47	67.33	3.40
SCRUB	2.97	0.25	6.00	3.27	0.00	0.00	50.67	4.03
SCRUB+R	2.97	0.25	6.00	3.27	0.00	0.00	50.67	4.03

Table 27: User Privacy (UP) 애플리케이션을 위한 Lacuna-10의 selective unlearning에 대한 ResNet 아키텍처의 Basic MIA 결과.

method	Test error		Forget error		Retain error		MIA
	mean	std	mean	std	mean	std	mean	std
Retrain	2.52	0.19	100.00	0.00	0.00	0.00	55.00	2.94
Original	2.81	0.28	0.00	0.00	0.00	0.00	56.00	2.45
Finetune	3.04	0.19	0.00	0.00	0.00	0.00	54.67	1.25
NegGrad+	2.74	0.26	9.48	0.64	0.00	0.00	53.67	4.03
CF-k	2.81	0.28	0.00	0.00	0.00	0.00	56.00	2.45
EU-k	2.48	0.14	7.71	2.52	0.00	0.00	54.33	3.09
Bad-T	3.37	0.50	67.60	24.26	1.06	0.47	58.00	2.94
SCRUB	3.26	0.38	99.90	0.15	0.07	0.05	54.33	2.49
SCRUB+R	3.26	0.38	99.90	0.15	0.07	0.05	54.33	2.49

Table 28: User Privacy (UP) 애플리케이션을 위한 Lacuna-10의 class unlearning에 대한 ResNet 아키텍처의 Basic MIA 결과.