FreeCus: Diffusion Transformer를 활용한 학습 없는 주제 기반 이미지 커스터마이징

FreeCus는 Diffusion Transformer (DiT)의 잠재력을 활용하여 추가 학습 없이 주제 기반(subject-driven) 이미지를 생성하는 training-free 프레임워크입니다. 이 방법은 특정 레이어에만 attention을 공유하여 피사체의 구조적 무결성을 유지하면서 편집 유연성을 확보하는 "pivotal attention sharing", DiT의 "dynamic shifting" 메커니즘을 개선하여 세밀한 특징 추출을 향상시키는 방법, 그리고 Multimodal Large Language Models (MLLMs)을 통합하여 시맨틱 표현을 강화하는 세 가지 핵심 기술을 제안합니다. 이를 통해 FreeCus는 별도의 최적화나 인코더 학습 없이도 다양한 맥락에서 일관된 주제의 이미지를 생성하며, 기존 SOTA 모델들과 비슷하거나 더 나은 성능을 보여줍니다. 논문 제목: FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers

Zhang, Yanbing, et al. "FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers." arXiv preprint arXiv:2507.15249 (2025). ICCV 2025

FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers

Figure 1. 사용자 제공 이미지를 참조하여, 제안된 방법은 학습 샘플, 최적화된 embedding 또는 encoder 없이도 유연한 target prompt에 따라 일관된 subject를 합성한다.

Abstract

최근 text-to-image (T2I) 생성 분야, 특히 **diffusion Transformer (DiT)**에서 획기적인 발전이 이루어짐에 따라, subject-driven 기술참조 입력으로부터 subject의 정체성을 보존하면서 고품질의 맞춤형 결과물을 생성하는 데 점점 더 많이 활용되고 있다. 이는 흥미로운 디자인 워크플로우와 매력적인 엔터테인먼트 경험을 가능하게 한다. 기존의 대안들은 일반적으로 학습 가능한 text embedding을 통한 subject별 최적화 또는 대규모 데이터셋에서 subject feature 추출을 위한 특수 encoder 학습을 필요로 한다. 이러한 학습 절차에 대한 의존성은 실질적인 응용 분야를 근본적으로 제약한다. 더욱 중요한 것은, 현재 방법론들이 현대 diffusion Transformer (예: Flux 시리즈)의 본질적인 zero-shot 잠재력진정한 subject-driven 합성에 충분히 활용하지 못하고 있다는 점이다.

이러한 격차를 해소하기 위해 우리는 FreeCus를 제안한다. FreeCus는 DiT의 기능을 세 가지 핵심 혁신을 통해 활성화하는 진정한 training-free 프레임워크이다:

  1. 주요 attention sharing 메커니즘을 도입하여 subject의 레이아웃 무결성을 포착하는 동시에 중요한 편집 유연성을 보존한다.
  2. DiT의 dynamic shifting에 대한 직접적인 분석을 통해 미세한 feature 추출을 크게 향상시키는 업그레이드된 변형을 제안한다.
  3. 고급 Multimodal Large Language Model (MLLM)을 추가로 통합하여 cross-modal semantic representation을 풍부하게 한다.

광범위한 실험 결과, 우리 방법은 다양한 맥락에서 일관된 subject 합성을 위해 DiT의 zero-shot 능력을 성공적으로 잠금 해제하며, 추가 학습이 필요한 접근 방식과 비교하여 state-of-the-art 또는 이에 준하는 결과를 달성한다. 특히, 우리 프레임워크는 기존 inpainting 파이프라인 및 control 모듈과의 원활한 호환성을 보여주어 더욱 매력적인 경험을 제공한다. 우리 코드는 다음에서 확인할 수 있다: https://github.com/Monalissaa/FreeCus.

1. Introduction

요즘 text-to-image (T2I) 모델 [8, 16]은 때때로 실제 사진의 품질을 능가하는 사실적인 이미지를 생성할 수 있다. 이러한 능력을 활용하여 사용자들은 디자인 및 엔터테인먼트 분야에서 이미지-투-이미지 task [14, 22, 39, 60]에 T2I 모델을 점점 더 많이 사용하고 있다. 이러한 응용 분야 중

Figure 2. StyleAligned [22]의 개인화(personalization) 문제점. Attention sharing은 텍스트 불일치를 야기한다. 예를 들어, 애니메이션 스타일을 렌더링하지 못하거나 의도한 모자를 합성하지 못한다. 참고: StyleAligned에서는 입력 이미지를 완전히 복제하는 것을 피하기 위해 마스크가 적용되었다.

Target prompt: An anime-style illustration of a raccoon wearing a detective's hat, investigating a garden.

subject-driven generation [17, 38, 50]은 커스터마이제이션(customization) 또는 **개인화(personalization)**라고도 불리며, Figure 1에서 보듯이 subject 일관성을 유지하면서 문맥적으로 다양한 이미지 생성을 가능하게 하여 주목받고 있다. 본 연구는 training-free subject-driven T2I generation에 초점을 맞춘다. 이는 추가 학습을 우회하며, 명시적인 학습 없이 visual-text feature space를 정렬하는 데 따르는 어려움 때문에 아직 충분히 탐구되지 않은 분야이다.

기존의 subject-driven 방법들은 두 가지 그룹으로 나뉜다. 첫 번째 그룹 [17, 26, 33, 66]은 제한된 subject-specific 샘플(1-100개)을 사용하여 기본 모델을 fine-tuning하여 고유한 feature를 포착하지만, subject별로 번거로운 재학습 비용이 발생한다. 두 번째 그룹 [38, 53, 62]은 대규모 데이터셋(multi-view 이미지 포함 10,000개 이상)으로 encoder를 학습시켜 visual-text feature를 정렬함으로써 subject 전반에 걸쳐 training-free 일반화를 가능하게 한다. 이 접근 방식은 재학습을 피하지만, encoder 학습을 위해 상당한 연산량과 광범위한 샘플 수집이 필요하다. 결정적으로, 두 패러다임 모두 진정한 zero-shot 개인화를 달성하지 못한다.

특정 subject의 시각적 feature를 생성된 이미지에 효과적으로 통합하는 것training-oriented subject-driven generation 방법의 핵심 과제이며, 동시에 우리가 제안하는 training-free 프레임워크를 실현하는 초석이 된다. 사전학습된 foundation model은 zero-shot style transfer [22], inpainting [3, 57], editing [6] 및 기타 레이아웃 보존 task에서 강력한 feature 주입 능력을 보여준다. 최신 diffusion Transformer (DiT) [8, 16]는 U-Net 기반 diffusion model보다 더 뛰어난 성능을 보인다. 그러나 레이아웃 보존 task에서 일반적으로 사용되는 "attention sharing" 메커니즘을 직접 적용하면 편집 가능성(editability)이 크게 감소하여 (Figure 2), subject-driven generation의 유연성 요구 사항(예: Figure 1에서 애니메이션 스타일 또는 액세서리 합성)을 충족하지 못한다.

subject 일관성을 유지하면서 편집 가능성 저하 문제를 해결하기 위해, 우리는 DiT의 zero-shot 잠재력을 활용하는 새로운 프레임워크인 FreeCus를 제안한다. 첫째, 우리는 attention sharing을 핵심 DiT layer로 제한한다. 이 layer들은 필수 콘텐츠 feature [6]를 인코딩하여 텍스트 정렬 및 레이아웃 유지를 향상시킨다. [67]을 통해 분할된 배경 영역은 문맥적 간섭을 최소화하기 위해 마스킹된다.

또한, attention sharing의 간소화된 특성은 디테일 손실의 위험이 있으므로, 우리는 주어진 subject에 대한 attention을 추출하는 동안 DiT의 dynamic shifting 메커니즘을 조정한다. 마지막으로, 불완전한 semantic feature 통합(예: 색상)을 보완하기 위해, 우리는 MLLM에서 파생된 정보 [61, 64]로 프레임워크를 보강한다.

요약하자면, 우리의 주요 기여는 다음과 같다:

  1. 우리는 FreeCus를 제안한다. 이는 zero-shot subject-driven 합성을 위한 새로운 training-free 프레임워크로, 사전학습된 DiT의 능력을 최대한 활용하여 창의적인 맥락에서 일관된 subject를 생성한다.
  2. 향상된 pivotal attention sharing 메커니즘업그레이드된 dynamic shifting 및 MLLM의 전략적 통합과 함께 충실도(fidelity)와 제어 가능성(controllability) 사이의 균형을 시너지 효과로 최적화한다.
  3. 우리 프레임워크의 핵심 구성 요소는 직교적(orthogonal)이며 기존 DiT 기반 모델과 호환되며, 그 다재다능한 설계는 style transfer 및 inpainting과 같은 다른 응용 분야에 원활하게 통합될 수 있다.
  4. FreeCus는 광범위한 비교에서 state-of-the-art 성능을 달성하며, 추가 학습이 필요한 방법들과 경쟁한다.

2.1. Diffusion-based Text-to-Image Models

Diffusion-based text-to-image (T2I) 모델 [15, 23]은 지난 4년간 이미지 합성 분야를 지배해왔다. 초기 단계에서는 이 모델들이 주로 픽셀 공간에서의 denoising에 초점을 맞췄다 [7, 24, 40, 51]. Latent Diffusion Models (LDM) [48]의 도입은 계산 자원과 생성 품질 사이의 유리한 trade-off를 확립했다. 이후, text encoder 수정 [28, 47], autoencoder 개선 [46], cascaded architecture 채택 [45] 등 성능 향상을 위한 다양한 기술들이 개발되었다. 특히, Diffusion Transformer (DiT) [43]는 전통적인 convolutional U-Net을 대체하는 Transformer 기반 diffusion model [59]을 연구하며 강력한 확장성을 입증했다. 이어서 효율적인 학습 전략 [11, 12], flow-matching framework [19, 36, 68], 그리고 multi-modal attention mechanism [8, 16] 등이 DiT의 안정성과 확장성을 향상시키기 위해 제안되었다. 이 중 Flux. 1 [8]은 rectified flow Transformer에 multi-modal attention을 적용하여 생성 품질을 개선했다. 우리는 이 framework를 활용하여 zero-shot subject-driven 이미지 생성을 달성한다.

2.2. Subject-Driven Image Generation

Subject-driven image generation [4, 13, 17, 50, 62, 65]은 일관된 subject를 다양한 맥락에서 특징으로 하는 이미지를 합성하는 것을 목표로 한다. 기존 방법들은 새로운 subject마다 재학습이 필요한지 여부에 따라 크게 두 가지 범주로 나눌 수 있다.

Subject별 재학습(optimization-based customization) 방식의 경우, Textual Inversion [17]은 동일한 객체의 사용자 제공 이미지 3-5장을 사용하여 학습 가능한 token embedding을 최적화한다. 다른 방법들 [33, 50, 56]은 특히 cross-attention layer에 추가적인 학습 가능한 파라미터를 포함한다. 이러한 접근 방식들은 비교적 낮은 연산 자원을 요구하지만, 한 번에 하나의 subject만 학습할 수 있다는 한계가 있다.

Figure 3. 방법론 개요. 우리의 접근 방식은 세 가지 메커니즘을 통해 참조 이미지 z0z_{0}의 특성을 타겟 이미지 z~0\tilde{z}_{0}로 전달한다: (1) Pivotal attention sharing: 핵심 layer에서 attention을 마스킹하여 구조적 feature를 주입하면서 편집 유연성을 유지한다. (2) Adjusted dynamic shifting: 참조 이미지와 타겟 이미지 간의 세부 정렬을 강화하기 위해 rectified flow를 통해 처리된 개선된 diffusion trajectory (z1,,zT)\left(z_{1}, \ldots, z_{T}\right)를 도출한다. (3) Multimodal LLM integration: attention sharing 과정에서 놓칠 수 있는 semantic attribute를 포착하기 위해 보조 subject caption을 추출하여 포괄적인 subject 표현을 보장한다.

이와 대조적으로, optimization-free customization 방식은 대규모 데이터셋을 활용하여 새로운 subject마다 재학습 없이 강력한 개인화를 가능하게 한다. Textual Inversion에서 소개된 아이디어를 따라, 몇몇 연구들 [18, 34, 63]은 추가적인 text embedding을 사용하면서 이미지 feature를 매핑하고 cross-attention 가중치를 업데이트하기 위해 보조 image encoder를 추가로 학습한다. 이러한 접근 방식들과는 다르게, IPAdapter [65]는 cross-attention layer에서 이미지와 텍스트 feature를 병합하는 것이 세밀한 제어를 방해할 수 있다고 주장하며, 이러한 feature들을 분리하기 위한 경량 adapter를 제안한다. 다른 연구들 [41, 42, 53]은 멀티모달 학습을 사용하여 이미지와 텍스트 feature를 더 잘 정렬하며, 일부는 여러 image encoder를 사용하여 포괄적인 subject feature를 추출하기도 한다 [31, 38]. 그러나 이러한 방법들 중 어느 것도 진정한 zero-shot subject-driven generation을 탐구하지는 못했다.

2.3. Zero-shot Image-to-Image Generation

이미지-투-이미지(I2I) 생성 분야에서는 여러 영향력 있는 연구들 [3, 21, 32, 58]이 zero-shot 접근 방식을 채택해왔다. [21]과 같은 기법들은 cross-attention layer를 제어하거나, DDIM inversion [52]을 통해 얻은 latent를 최적화하거나 [39], 또는 이미지 embedding을 핵심 attention layer에 주입하는 방식 [6]으로 이미지 편집을 수행한다. 한편, [1, 22]와 같은 연구들은 self-attention 가중치를 공유하여 일관된 레이아웃을 유지함으로써 **스타일 전이(style transfer)**를 달성한다. **Blended Diffusion [3]**은 입력 이미지의 노이즈 버전과 텍스트 가이드 diffusion latent를 공간적으로 혼합하여 인페인팅(inpainting)을 수행하고, **Diffuhaul [5]**은 **원본 및 대상 이미지 간의 새로운 보간(interpolation)**을 도입하여 객체 드래깅(object dragging)을 가능하게 하며, **Add-it [57]**은 가중 확장 attention 메커니즘을 제시하여 이미지에 객체를 자연스럽게 추가한다. 이러한 모든 방법들은 한 가지 공통된 특징을 공유한다: 생성된 이미지가 일반적으로 입력 이미지와 크게 일관된 레이아웃을 유지한다는 점이다. 이와 대조적으로, subject-driven generation은 역시 I2I task임에도 불구하고, 새로운 맥락에 적응하기 위해 레이아웃 변화를 요구하는 경우가 많으며, 이에 대한 효과적인 zero-shot 솔루션은 여전히 찾기 어렵다.

3. Method

본 논문에서는 training-free zero-shot subject-driven generation을 목표로 한다. 이를 위해 사전학습된 DiT를 세 가지 핵심 관점에서 개선한다.
첫째, 디노이징(denoising) 과정에서 입력 이미지로부터 핵심적인 attention을 공유하여 subject layout을 확립한다.
둘째, 참조 subject로부터 attention을 추출하는 동안 noise scaling strength의 shift를 조정하여 미세한 디테일에 집중할 수 있도록 한다.
마지막으로, Multimodal LLM을 강화하여 부족할 수 있는 필수적인 전역(global) 의미론적 feature를 통합한다.
우리 방법의 개략적인 워크플로우는 Fig. 3에 제시되어 있다.

3.1. Preliminary

실험에서 우리는 Diffusion Transformer (DiT) 아키텍처 [43]를 기반으로 하는 Flux. 1 [8]을 backbone 모델로 채택한다. Flux. 1은 사전학습된 VAE [29] 모델 E\mathcal{E}latent space zz [48]에서 학습된다. SD3 [16]와 유사하게, Flux. 1은 **multi-modal self-attention block (MM-DiT block)**을 포함하여 텍스트 및 이미지 임베딩으로 구성된 시퀀스를 처리한다. 각 블록에서 attention 연산은 다음과 같이 공식화된다:

A=softmax([Qp,Qimg][Kp,Kimg]dk)[Vp,Vimg]A=\operatorname{softmax}\left(\frac{\left[Q_{p}, Q_{i m g}\right]\left[K_{p}, K_{i m g}\right]^{\top}}{\sqrt{d_{k}}}\right) \cdot\left[V_{p}, V_{i m g}\right]

여기서 [,]는 **연결(concatenation)**을 나타내며, QpQ_{p}QimgQ_{i m g}는 각각 **텍스트 및 이미지 임베딩으로부터의 쿼리(query)**를 나타내고, key KK와 value VV도 유사하게 정의된다.

3.2. Pivotal Attention Sharing (PAS)

training-free customization을 달성하기 위해서는 참조 이미지(zrefz^{ref})의 시각적 feature를 타겟 이미지 생성 과정에 통합하는 것이 필수적이다. 간단하면서도 효과적인 방법 [9, 20, 22]은 zrefz^{ref}로부터의 self-attention을 타겟 이미지 ztargetz^{target}와 공유하여 풍부한 공간 feature를 전달하는 방식으로 이를 구현한다. 구체적으로, DiT block에서 zrefz^{ref}로부터의 self-attention을 전달하기 위해, **zrefz^{ref}에서 추출된 key KrK_r과 value VrV_r를 타겟 이미지의 KtgtK_{tgt}VtgtV_{tgt}에 연결(concatenate)**하고, query Qp,QtgtQ_p, Q_{tgt}는 변경하지 않는다:

A=softmax([Qp,Qtgt][Kr,Kp,Ktgt]dk)[Vr,Vp,Vtgt].A=\operatorname{softmax}\left(\frac{\left[Q_{p}, Q_{t g t}\right]\left[K_{r}, K_{p}, K_{t g t}\right]^{\top}}{\sqrt{d_{k}}}\right) \cdot\left[V_{r}, V_{p}, V_{t g t}\right] .

그러나 단순히 attention을 공유하는 방식은 입력 prompt와의 정렬(alignment)을 크게 감소시키고 [57], 결과적으로 ztargetz^{target}zrefz^{ref}를 복제하게 만든다. 따라서 우리는 attention 공유를 10개의 핵심 layer V\mathcal{V}로 제한하며 [6], 이는 DiT 모델 내에서 생성된 이미지에 영향을 미치는 이 layer들의 중요성을 강조한다. 또한, zrefz^{ref}의 배경은 종종 주제 customization에 무관하거나 심지어 해로울 수 있으므로, 이미지 분할 모델 [67]을 사용하여 주제 마스크 mrm_r를 추출하고 마스킹된 attention 공유를 적용한다. 정제된 pivotal attention sharing (PAS) 계산은 다음과 같이 정의된다:

Al={softmax(QKdk)V if lVsoftmax(QKdk)V otherwise ,A_{l}=\left\{\begin{array}{ll} \operatorname{softmax}\left(\frac{Q \cdot K^{\prime \top}}{\sqrt{d_{k}}}\right) \cdot V^{\prime} & \text { if } l \in \mathcal{V} \\ \operatorname{softmax}\left(\frac{Q \cdot K^{\top}}{\sqrt{d_{k}}}\right) \cdot V & \text { otherwise } \end{array},\right.

여기서:

Q=[Qp,Qtgt],K=[Kp,Ktgt],V=[Vp,Vtgt],K=[λrKrmr,λpKp,Ktgt],V=[Vrmr,Vp,Vtgt].\begin{aligned} & Q=\left[Q_{p}, Q_{t g t}\right], K=\left[K_{p}, K_{t g t}\right], V=\left[V_{p}, V_{t g t}\right], \\ & K^{\prime}=\left[\lambda_{r} \cdot K_{r} \odot m_{r}, \lambda_{p} \cdot K_{p}, K_{t g t}\right], \\ & V^{\prime}=\left[V_{r} \odot m_{r}, V_{p}, V_{t g t}\right] . \end{aligned}

KrK_rKpK_p주제 일관성(subject consistency)과 텍스트 정렬(text alignment)을 결정하는 데 중요하므로, 우리는 스칼라 λr\lambda_rλp\lambda_p를 사용하여 zrefz^{ref}와 타겟 prompt의 상대적 영향력을 제어한다.

참조 이미지의 attention. 공유된 attention은 모든 timestep에서 참조 이미지 zrefz^{ref}의 중간 노이즈 샘플을 denoising하여 얻어진다. 이를 **diffusion trajectory zT,zT1,,z0z_T, z_{T-1}, \ldots, z_0**라고 한다. 따라서 diffusion trajectory의 정확한 복구는 필수적이다. 일반적으로 이미지 inversion 기법 [49, 52]이 이러한 중간 샘플을 얻기 위해 사용된다. 그러나 이러한 방법들은 종종 실패하거나 [39] 잘못된 trajectory를 생성한다 [27]. 대신, 우리는 rectified flow forward process [2, 35, 36]를 통해 zrefz^{ref}에 무작위 노이즈 ϵ\epsilon을 주입하여 trajectory를 생성한다:

zt=(1σt)z0+σtϵ,z_{t}=\left(1-\sigma_{t}\right) z_{0}+\sigma_{t} \epsilon,

여기서 σt\sigma_t노이즈 스케일링의 강도를 나타낸다. 이러한 노이즈 샘플은 무작위 노이즈에서 파생되었지만, 결과적인 trajectory는 여전히 유효하다. σ0=0\sigma_0=0z0=zrefz_0=z^{ref}를 보장하므로, 높은 timestep에서 계산된 attention의 부정확성은 노이즈가 감소함에 따라 점진적으로 수정된다. 따라서 이러한 샘플을 denoising함으로써, 우리는 참조 이미지로부터 원하는 attention feature를 안정적으로 얻을 수 있다.

Figure 4. 512x512의 타겟 해상도에서 모든 timestep에 걸쳐 다른 shift 방향에 따른 노이즈 스케일링 σ\sigma.

3.3. Adjustment of Noise Shifting (ANS)

우리가 attention 공유를 10개의 핵심 layer로 제한함에 따라, 일부 subject 세부 정보는 필연적으로 손실된다. 이를 해결하기 위해, 우리는 Flux. 1에서 dynamic shifting을 분석하고, 더 미세한 세부 정보를 보존하기 위해 Eq. (4)의 조정된 버전을 제안한다. 언급된 **동적으로 이동된 노이즈 스케일링 σt\sigma_{t}**는 다음과 같이 계산된다:

σt=eμeμ+1t1,μ=Lxm+b\sigma_{t}=\frac{e^{\mu}}{e^{\mu}+\frac{1}{t}-1}, \mu=L_{x} \cdot m+b

여기서 tt는 현재 timestep을 나타내고, LxL_{x}는 VAE의 scale factor와 이미지 해상도에 의해 계산되는 target 이미지의 latent sequence length이며, mmbb는 고정 상수이고, μ\mu이미지 해상도에 따라 증가하는 dynamic shift를 나타낸다. 이 dynamic shifting 하의 노이즈 레벨(Eq. (5)에서 파생)은 "no shifting" 설정(즉, Fig. 4에서 σtσt^\sigma_{t} \geq \hat{\sigma_{t}}로 표시됨)보다 일관되게 높게 유지되며, 이는 모델이 Eq. (4)를 통해 더 노이즈가 많은 샘플에 집중하도록 유도한다. 이는 더 큰 신호 손상을 요구하는 고해상도 이미지에 적합하다 [16].

그러나 reference 이미지 zref z^{\text {ref }}에서 더 미세한 세부 정보를 추출하기 위해, 우리는 zref z^{\text {ref }}에 대해 더 낮은 노이즈 레벨을 강조한다. 이를 달성하기 위해, zref z^{\text {ref }}에 대한 attention을 계산할 때 shifting 방향을 역전(Fig. Fig. 4의 σ\sigma^{\prime})시킨다. timestep tt에서의 수정된 노이즈 스케일링은 σt=eμeμ+1t1\sigma_{t}^{\prime}=\frac{e^{-\mu}}{e^{-\mu}+\frac{1}{t}-1}로 정의되며, 이는 새로운 diffusion trajectory zt=(1σt)zref +σtϵz_{t}=\left(1-\sigma_{t}^{\prime}\right) z^{\text {ref }}+ \sigma_{t}^{\prime} \epsilon를 초래한다. 이러한 **노이즈 shifting 조정(ANS)**은 attention이 zref z^{\text {ref }}로부터 덜 노이즈가 많고 subject-specific한 콘텐츠를 우선시하도록 보장하여(Fig. 4 참조), attention 공유 동안 target 이미지로 더 미세한 세부 정보를 전송할 수 있게 한다. Sec. 4.3의 ablation study는 최적의 구성을 식별하기 위해 다른 shift 방향을 추가로 평가한다.

Figure 5. Multimodal LLM을 이용한 subject caption 생성 과정의 그림.

3.4. Semantic Features Compensation (SFC)

세부적인 디테일 외에도, 색상과 같은 의미론적 feature제한된 attention 공유 범위로 인해 손상될 수 있다. 이를 해결하기 위해 우리는 고급 Multimodal LLM [61, 64]을 사용하여 간결하고 주제에 특화된 caption을 생성한다 (Fig. 5 참조).
첫째, 참조 이미지대규모 vision-language model (LVLM) [61]에 입력하여, 강력한 시각 이해 능력을 활용해 caption을 생성한다. 출력은 관련 없는 세부 정보를 피하고 핵심 속성에 집중하도록 20개 토큰으로 제한된다. Sec. 4.3에서 입증된 바와 같이, 간결한 caption이 상세한 caption보다 더 나은 성능을 보인다.
그러나 LVLM은 여전히 배경이나 동작과 같은 관련 없는 정보를 포함할 수 있으며 (Fig. 5에서 빨간색으로 강조 표시), 이는 후속 이미지 생성에 오해를 불러일으킬 수 있다. 이를 해결하기 위해 우리는 대규모 language model (LLM) [64]을 사용하여 강력한 자연어 처리 능력을 활용해 관련 없는 세부 정보를 필터링한다. 이 과정을 통해 필수적인 주제 속성을 강조하는 정제된 caption이 생성된다.
이 caption은 원래 prompt와 결합되어 의미론적 feature의 부족을 해결하고, 더욱 정확하고 포괄적인 주제 표현을 보장한다.

4. Experiments

4.1. Experimental Settings

구현 세부 사항 (Implementation details)
우리는 사전학습된 **Flux.1dev [8]**를 기본 모델로 채택한다. 추론은 **30단계, guidance scale 3.5, 해상도 512×512512 \times 512**로 수행된다. λr\lambda_rλp\lambda_p를 포함한 하이퍼파라미터는 경험적으로 1.1로 설정되었다.
segmentation, large vision-language, large language model의 발전을 위해 각각 **BirefNet [67], Qwen2-VL-7B-Instruct [61], Qwen2.5-7B-Instruct [64]**를 활용한다. 또한, Multimodal LLM이 빠르게 발전함에 따라, 더 강력한 모델과의 통합을 통해 우리 접근 방식의 성능이 향상될 것으로 기대된다.

평가 지표 (Evaluation metrics)
우리는 일반적으로 사용되는 **DreamBench [50]보다 5배 큰 DreamBench++ 벤치마크 [44]**를 사용하여 우리 접근 방식을 평가한다. 정량적 평가를 위해 두 가지 주요 지표를 사용한다.
첫째, subject similarityCLIP-I 및 DINO [10] 점수를 사용하여 평가된다. 이는 생성된 subject와 해당 참조 subject의 embedding 간의 평균 쌍별 코사인 유사도를 계산하여 얻어진다. 정확한 비교를 위해, [38]의 방법론에 따라 **segmentation model SAM [30]**을 사용하여 subject 영역을 분리한다.
둘째, text controllabilityCLIPT 점수로 평가된다. 이는 prompt와 이미지 CLIP embedding 간의 코사인 유사도를 측정하여, 생성된 이미지와 입력 prompt 간의 일관성을 측정한다. 각 subject 및 prompt 쌍에 대해 4개의 이미지가 생성되어 평가 스위트를 구성한다.

비교 방법 (Compared methods)
우리는 다양한 기본 모델에 걸쳐 두 가지 주요 맞춤화 방법 흐름과 우리 접근 방식을 비교한다:

  1. 최적화 기반 방법: 새로운 subject마다 재학습이 필요한 방법으로, **Textual Inversion (TI) [17], DreamBooth [50], DreamBooth LoRA (DreamBooth-L) [25, 50]**가 포함된다.
  2. 최적화 없는 맞춤화 방법: 대규모 데이터셋으로 학습된 방법으로, **BLIP-Diffusion [34], Emu2 [54], IP-Adapter-Plus [65], IPAdapter [65] (SDXL [46] 및 Flux.1 모두에 구현), MS-Diffusion [62], Qwen2VL-Flux [37], OminiControl [55]**가 포함된다.
    이러한 방법들의 일부 결과는 DreamBench++ 구현에서 얻었으며, 자세한 내용은 보충 자료에 제공된다.

4.2. Comparison Results

정량적 비교 (Quantitative comparisons)
Tab. 1은 세 가지 클래스(동물, 인간, 사물)에 대한 평균 결과를 제시하며, 클래스별 세부 내용은 supplementary material에 포함되어 있다.
표에서 볼 수 있듯이, 대규모 데이터셋으로 학습된 강력한 feature extractor의 이점을 활용하는 optimization-free 방식subject similarity (CLIP-I 및 DINO 점수) 측면에서 optimization-based 방식(†로 표시)을 명확히 능가한다. 반면, optimization-based 방식은 기반 모델의 출력 분포를 미세하게 조정함으로써 더 나은 text controllability (CLIP-T 점수)를 유지한다 (예: DreamBooth-L 및 OminiControl).
또한, 더 강력한 기반 모델이 일반적으로 더 나은 성능을 보인다는 것을 IP-Adapter (Flux.1)가 IP-Adapter (SDXL)를 두 가지 지표에서 능가하는 것으로 확인할 수 있다.
IP-Adapter-Plus는 가장 높은 subject similarity를 달성하지만, text controllability를 크게 저해한다.
MS-Diffusion은 모든 지표에서 가장 좋은 trade-off를 제공하는 것으로 보이지만, 정성적 성능에는 주목할 만한 한계가 있다 (추후 논의).

우리의 방법은 embedding optimization이나 encoder 학습 없이도, 대부분의 경쟁 모델들을 subject similarity 측면에서 능가하면서도 우수한 text controllability를 유지한다. 이는 강력한 사전학습된 feature를 완전히 활용하고 (optimization-free 방식과 유사하게), 제안된 전략을 통해 기반 모델의 출력 분포를 신중하게 조정하는 우리의 training-free 패러다임 덕분이다.

Figure 6. 정성적 평가 결과. 다양한 subject와 context에 대한 비교 결과: OminiControl과 DreamBooth-L은 subject fidelity가 부족하다; IP-Adapter-Plus와 Qwen2VL-Flux는 텍스트 정렬에 실패한다; MS-Diffusion은 배경에 artifact를 생성한다 (1행과 4행). 이와 대조적으로, 우리의 방법은 높은 품질의 이미지를 생성하면서 subject fidelity와 prompt adherence 사이의 균형을 성공적으로 맞춘다.

Artistic variations and property modifications: "An abstract illustration of a jellyfish, stylized with vibrant colors"

MethodBaseModelCLIP-T \uparrowCLIP-I \uparrowDINO \uparrow
Textual Inversion { }^{\dagger}SD v1.50.2980.7130.430
DreamBooth { }^{\dagger}SD v1.50.3220.7160.505
DreamBooth-L { }^{\dagger}SDXL v1.00.3410.7510.547
BLIP-DiffusionSD v1.50.2760.8150.639
Emu2SDXL v1.00.3050.7630.529
IP-AdapterSDXL v1.00.3050.8450.621
IP-Adapter-PlusSDXL v1.00.2710.9160.807
MS-DiffusionSDXL v1.00.3360.8730.729
Qwen2VL-FluxFLUX. 10.2670.8410.664
IP-AdapterFLUX. 10.3140.8400.638
OminiControlFLUX. 10.3300.7970.570
OursFLUX. 10.3080.8530.696
w/o PASFLUX. 10.3270.8100.590
w/o ANSFLUX. 10.3240.8290.624
w/o SFCFLUX. 10.3220.8220.633

Table 1. 정량적 평가 결과. 파란색은 우리 모델보다 높은 점수를 나타내며, { }^{\dagger}는 optimization-based 방식을 의미한다.

Figure 7. 제안된 각 구성 요소의 영향 시각화.

정성적 비교 (Qualitative comparisons)
페이지 제약으로 인해, Tab. 1에 나열된 다섯 가지 주요 방법론에 대한 정성적 결과를 제시한다. 이 비교는 Figure 6에 나타난 바와 같이 **다양한 subject 카테고리(동물, 사물, 인간, 애니메이션 캐릭터)와 기능(장면 변경, 객체 추가, 예술적 변형, 속성 수정, 액세서리 추가, 행동 변경)**을 포함한다.
OminiControl과 DreamBooth-L은 강력한 instruction-following 능력을 보이지만, subject consistency가 부족하다.
IP-Adapter-Plus는 높은 subject fidelity를 달성하지만, 본질적으로 text controllability를 희생한다.
Qwen2VL-Flux는 Qwen2-VL을 통한 텍스트 embedding 대체 전략으로 인해 멀티모달 embedding을 분리하는 데 유사한 한계를 보인다.
MS-Diffusion은 정량적 지표에서 우수하지만, 합성된 배경에서 눈에 띄는 artifact를 생성한다 (Fig. 6의 1행과 4행 참조).
이와 대조적으로, 우리의 방법은 높은 subject fidelity를 달성하면서도 다양한 contextual adaptation을 가능하게 하여, 더욱 환상적인 subject-driven 생성으로 확장될 잠재력을 보여준다.

4.3. Ablation Studies

각 구성 요소에 대한 Ablation study.
우리는 각 구성 요소의 기여도를 평가하기 위해 정량적 및 정성적 분석을 포함하는 ablation study를 수행했다. Table 1에서 볼 수 있듯이, 어떤 개별 모듈이라도 제거하면 subject similarity가 크게 감소한다. Fig. 7의 시각적 검사를 통해 특정 성능 저하를 확인할 수 있다.

  • shift type 조정이 없을 경우 (w/o ANS): 모델은 미세한 질감과 디테일을 보존하지 못하며, 특히 고양이의 얼굴 특징과 다리 털에서 이러한 현상이 두드러진다. 이는 기본 dynamic shifting 메커니즘이 더 높은 noise strength를 우선시하여 subject의 디테일을 압도하기 때문이며, 이는 Sec. 3.3에서 논의되었다.
  • semantic caption을 제거할 경우 (w/o SFC): 일관성 없는 semantic feature가 발생하며, 이는 몸과 눈 색깔의 불일치와 같은 형태로 나타난다.
  • pivotal attention sharing을 제거할 경우 (w/o PAS): 가장 큰 성능 저하가 발생하며, Table 1에서 가장 낮은 CLIP-I 및 DINO 점수를 기록한다. 시각적으로는 Fig. 7에서 볼 수 있듯이, 이 ablation은 참조 고양이의 대략적인 특징만 유지한다.

또한, vital layer selection에 대한 ablation은 supplementary에 제시되어 있다.

하이퍼파라미터 분석.
pivotal attention sharing의 경우, 우리는 Equation (3)의 하이퍼파라미터 λr\lambda_rλp\lambda_p에 의해 제어되는 참조 이미지와 타겟 텍스트의 영향을 조사했으며, 단순화를 위해 이들을 동일한 값으로 설정했다. Ablation 세부 사항은 다음과 같다:

λp,λr\lambda_{p}, \lambda_{r}CLIP-T \uparrowCLIP-I \uparrowDINO \uparrow
1.000.3210.8270.626
1.050.3150.8380.656
1.10\mathbf{1 . 1 0}0.308\mathbf{0 . 3 0 8}0.853\mathbf{0 . 8 5 3}0.696\mathbf{0 . 6 9 6}
1.150.3050.8610.706

위 결과는 trade-off를 보여준다: λr\lambda_rλp\lambda_p를 증가시키면 subject similarity는 향상되지만 (CLIP-I 및 DINO 점수 증가), 텍스트 정렬(text alignment)은 약간 감소한다 (CLIP-T 점수 감소). 우리는 λp=λr=1.10\lambda_p = \lambda_r = 1.10을 최적의 구성으로 선택했는데, 이는 subject fidelity와 text controllability 사이의 균형을 맞추며, 이 이상으로 값을 증가시키면 subject consistency에서 **점진적인 감소(diminishing returns)**가 나타나기 때문이다.

Shift type 분석.
Sec. 3.3에서 분석된 바와 같이, time shifting type에서도 유사한 trade-off 현상이 나타난다. 정량적 결과는 다음과 같다:

Shift typeCLIP-T \uparrowCLIP-I \uparrowDINO \uparrow
μ0\mu^{*} 00.3200.8360.648
μ0.5\mu^{*}-0.50.3150.8450.670
μ1.0\mu^{*}-1.00.308\mathbf{0 . 3 0 8}0.853\mathbf{0 . 8 5 3}0.696\mathbf{0 . 6 9 6}
μ2.0\mu^{*}-2.00.2960.8570.698

위에서 보듯이, 음의 shift magnitude (μ-\mu)를 증가시키면 subject similarity는 향상되지만, 텍스트 지시사항 준수(text instruction adherence)는 감소한다. pivotal attention sharing 파라미터에 대한 우리의 추론과 유사하게, μ1.0\mu*-1.0이 최적값으로 선택되었다.

Caption 설계를 위한 전략.
우리는 가장 적합한 방법을 찾기 위해 subject caption 생성에 대한 네 가지 전략을 탐색했다:

  1. 대규모 vision-language model (LVLM)을 사용하여 간결하고 일반적인 subject description을 생성하는 방식 (+ LVLM);
  2. LVLM에 특화된 prompt를 사용하여 상세한 subject description을 생성하는 방식 (+ detailed LVLM, prompt는 supplementary materials에 제공);
  3. 대규모 language model (LLM)을 적용하여 일반적인 LVLM 출력을 필터링하고, 유해한 annotation을 제거하는 방식 (+ filtered LVLM), 이는 Sec. 3.4에 자세히 설명되어 있다;
  4. 상세한 LVLM description에 LLM 필터링을 적용하는 방식 (+ detailed, filtered LVLM).
CaptionCLIP-T \uparrowCLIP-I \uparrowDINO \uparrow
+ LVLM0.3030.8600.709
+ detailed LVLM0.3030.8560.700
+ filtered LVLM0.308\mathbf{0 . 3 0 8}0.853\mathbf{0 . 8 5 3}0.696\mathbf{0 . 6 9 6}
+ detailed, filtered LVLM0.3080.8480.682

우리의 결과는 지나치게 상세한 caption이 적응성을 제한하는 contextual constraint를 도입함으로써 subject-driven generation에 부정적인 영향을 미친다는 것을 보여준다. 정량적 지표는 filtered LVLM caption이 text alignment (CLIP-T)와 subject fidelity (CLIP-I 및 DINO) 사이에서 최적의 균형을 이룬다는 것을 나타낸다. 필터링되지 않은 LVLM caption이 미미하게 더 높은 subject similarity 점수를 보이지만, 필터링된 접근 방식이 더 우수한 text controllability를 제공한다.

4.4. Applications

스타일 정렬 이미지 생성 (Style-aligned image generation)
스타일은 이미지 전체에 스며드는 추상적인 주제로 개념화될 수 있다. 기본 모델은 텍스트 설명에서 특정 스타일을 해석하지 못하지만, 우리 접근 방식은 이러한 스타일을 생성된 이미지에 성공적으로 통합한다. 이는 Fig. 8(a)에서 입증된다. 이러한 적응은 semantic subject caption 생성을 위한 prompt 수정만으로 가능하다 (자세한 내용은 supplementary materials에 제공).

다른 방법과의 호환성 (Compatibility with other methods)
우리 접근 방식의 zero-shot 특성은 다른 DiT 기반 방법들과의 원활한 통합을 가능하게 하여 성능을 향상시킨다. 예를 들어, 이를 Qwen2VL-Flux에 적용하면 원본 모델보다 뛰어난 성능을 보인다. Fig. 8(b)에서 볼 수 있듯이, "ours + Qwen2VL-Flux"로 생성된 펭귄은 입력 이미지에 대한 충실도가 더 높고, 표준 Qwen2VL-Flux 출력에는 없는 나비넥타이 디테일을 정확하게 포함한다. 정량적 개선 사항은 supplementary에 자세히 설명되어 있다.

주제 기반 인페인팅 (Subject-driven inpainting)
우리 방법은 Flux.1-Filldev 모델을 사용하여 개인화된 이미지 인페인팅 task로 자연스럽게 확장된다. 이 모델은 마스크를 입력으로 요구하므로, 우리는 처음에 완전히 검은색 마스크를 사용하여 참조 이미지의 완벽한 재구성을 달성한다. 이 과정은 Sec. 3.2에서 설명된 대로 정확한 shared attention weights를 생성한다. 이어서, 인페인팅 과정에서 우리 패러다임을 적용한다. Fig. 8(c)에서 볼 수 있듯이, 우리 접근 방식은 주변 이미지의 무결성을 유지하면서 참조 주제를 마스크된 영역에 원활하게 통합한다. 또한, 우리 방법은 Flux.1-Depth-dev 모델에 적용하여 대상 이미지의 구조적 속성을 제어할 수 있다 (시각적 설명은 supplementary materials에 제공).

5. Conclusions and Limitations

우리는 사전학습된 diffusion Transformer에 세 가지 새로운 전략을 적용하여 진정한 training-free subject-driven generation을 위한 FreeCus를 제안한다.

Figure 8. 더 많은 응용 분야로 확장. (a) 우리의 방법을 style transfer task에 적용; (b) 다른 방법들과의 호환성; (c) inpainting 파이프라인과의 통합.

첫째, 우리는 pivotal attention sharing을 도입하여 강력한 편집 가능성을 유지하면서 subject의 레이아웃을 효과적으로 모방한다. 둘째, DiT의 dynamic shifting mechanism을 수정하여 공유된 attention map에서 디테일 보존을 향상시킨다. 셋째, Multimodal LLM을 활용하여 잠재적인 semantic feature 부족을 보완하는 subject에 적합한 caption을 생성한다. 광범위한 실험을 통해 FreeCus는 zero-shot 방식으로 작동함에도 불구하고, 대규모 데이터셋으로 학습된 state-of-the-art 방법들과 비교할 만하거나 그 이상의 성능을 달성함을 입증한다. 우리는 또한 다양한 응용 시나리오를 통해 우리 방법의 **다재다능함(versatility)**을 추가적으로 검증한다.

한계점 (Limitations)
우리의 접근 방식은 두 가지 주요 과제에 직면한다. 첫째, attention sharing mechanism은 때때로 참조 subject와 유사한 윤곽선을 가진 artifact를 생성한다. 우리는 공유된 attention의 위치 인덱스를 shifting하여 이를 완화하려고 시도했지만 [55], 이 해결책은 subject 유사성을 감소시켰다. 이는 참조 feature 매핑을 위한 보다 유연한 방법 개발의 지속적인 과제를 강조한다. 둘째, Multimodal LLM에서 생성된 subject caption은 아직 완전히 정확하지 않다. 우리는 멀티모달 언어 모델링의 빠른 발전이 가까운 미래에 이러한 한계점을 해결할 것으로 기대한다.

감사의 글 (Acknowledgment)
본 연구는 중국 국가자연과학기금(Natural Science Foundation of China) No. 62476087, 상하이시 교육위원회(Shanghai Municipal Education Commission)의 인공지능 기반 과학 연구 패러다임 개혁 및 학문 도약 역량 강화 이니셔티브, 중국 국가자연과학기금(Natural Science Foundation of China) No. 62201341, 중국 국가핵심연구개발프로그램(National Key Research and Development Program of China) No. 2022YFB3203500의 지원을 받았다.

FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers

Supplementary Material

6. Experiments

핵심 레이어 선택에 대한 Ablation
우리는 다음과 같은 질문들을 조사한다: 단순히 레이어를 줄이는 것만으로 이점이 발생하는가, 아니면 핵심 레이어를 특정하여 사용하는 것에서 이점이 발생하는가? 비핵심 레이어(non-vital layers)가 생성에 영향을 미치는가? attention-dropout [58]만으로 충분한가?

이 질문들에 답하기 위해 두 가지 ablation을 수행했다:

  1. 10개의 무작위 비핵심 레이어에서 attention을 공유하는 방식 (ours-N; 10=Nv10=N_v vital layers).
  2. 57개 모든 레이어에서 무작위 dropout을 통해 attention을 공유하는 방식. 이때 5/65/6를 드롭하여 1Nv/571-N_v/57에 근사시킨다 (ours-D'). 다른 구성 요소들은 변경하지 않았다. 결과(Fig. 9)는 두 설정 모두에서 핵심 디테일 손실을 보여준다: ours-N은 헤어스타일을 변경하고 다리 특징을 제거했으며, ours-D'는 의류 색상을 변경했다 (보라색 \rightarrow 빨간색). 이는 핵심 레이어가 중요한 정보를 전달한다는 것을 확인시켜준다. 비핵심 레이어 또한 생성에 영향을 미치지만, 과도하게 중요하지 않은 정보를 포함하고 있다. 모든 레이어를 공유하면 복사-붙여넣기 효과가 발생한다 (Fig. 9의 다섯 번째 열).

Figure 9. 핵심 레이어 선택에 대한 Ablation.

더 강력한 MLLM이 우리 방법을 개선할 수 있는가?
MLLM의 지속적인 발전과 함께 우리 방법도 계속해서 개선되고 있다. 예를 들어, Qwen2-VL에서 Qwen2.5-VL로 업그레이드하면 Fig. 10에서 볼 수 있듯이 희귀한 피사체에 대한 오류(빨간색으로 강조 표시)가 감소한다.

Figure 10. 더 강력한 MLLM은 더 나은 결과를 산출할 것이다.

아티팩트 완화에 대한 심층 논의
우리는 두 가지 공간 수준 전략을 탐구했다: **공간 마스킹(ours-M)**과 공유 attention의 위치 인덱스 이동(ours-S). Fig. 11에서 볼 수 있듯이, 두 방법 모두 아티팩트를 줄이지만 trade-off가 존재한다. ours-S는 디테일을 잃고, ours-M은 참조 피사체의 신체 기하학과 정렬이 맞지 않아 품질이 저하된다. 우리는 또한 공유 attention의 절반을 무작위로 드롭하는 방식을 시도했으며, 이는 최고의 균형을 달성하고 조절 가능한 dropout rate를 통해 아티팩트 감소를 제어할 수 있게 한다. 향후 연구에서는 일반화 능력을 향상시키기 위한 적응형 dropout 전략을 탐구할 것이다.

Figure 11. 아티팩트 제거 전략.

더 많은 정성적 샘플
Fig. 12는 우리 방법이 인간 피사체(예: 농구 선수)와 복잡한 객체(예: 뚜렷한 특징을 가진 카메라)는 물론, 다중 및 희귀 피사체(Fig. 10 참조)도 처리할 수 있음을 보여준다. FreeCus는 단일 피사체 맞춤화를 위해 설계되었지만, MLLM에 제공되는 prompt를 조정하여 다중 피사체 장면으로 확장될 수 있다.

Figure 12. 더 많은 정성적 샘플.

각 클래스에 대한 상세 정량적 결과
Tab. 3에서 볼 수 있듯이, 우리의 진정한 training-free 방법은 추가 학습이 필요한 접근 방식들과 비교했을 때 모든 클래스에서 state-of-the-art 또는 그에 준하는 성능을 달성한다.

상세 피사체 캡션용 Prompt
Sec. 4.3의 "Designs for captions"에서 논의된 상세 피사체 설명은 Fig. 14에 표시된 특수 prompt를 사용하여 Qwen2-VL에 의해 생성된다.

스타일 전이용 Prompt
스타일 전이 task의 경우, Qwen2-VL에 제공되는 prompt는 "Describe this style briefly and precisely in max 20 words, focusing on its aesthetic qualities, visual elements, and distinctive artistic characteristics."이다.

Target prompt: "A photograph of a dog lazily sunbathing by a serene lake."

Figure 13. 제어 모델과의 조화를 통해 목표 구조 안정화.

MethodCLIP-T \uparrowCLIP-I \uparrowDINO \uparrow
Qwen2VL-Flux0.2670.8410.664
Ours+Qwen2VL-Flux0.274\mathbf{0 . 2 7 4}0.853\mathbf{0 . 8 5 3}0.658

Table 2. Qwen2VL-Flux 프레임워크에 우리 방법을 통합했을 때와 통합하지 않았을 때의 정량적 결과.

이어서 Qwen2.5에 제공되는 prompt는 "Please extract only the stylistic and artistic characteristics of the style from this description, removing any information about physical objects, specific subjects, narrative elements, or factual content. Focus solely on the aesthetic qualities, visual techniques, artistic movements, and distinctive style el-

MethodBaseModelAnimalHumanObjectAveraged
CLIP-T \uparrowCLIP-I \uparrowDINO \uparrowCLIP-T \uparrowCLIP-I \uparrowDINO \uparrowCLIP-T \uparrowCLIP-I \uparrowDINO \uparrowCLIP-T \uparrowCLIP-I \uparrowDINO \uparrow
Textual Inversion { }^{\dagger}SD v1.50.3140.7840.5370.2810.6450.3220.2970.7090.4120.2980.7130.430
DreamBooth { }^{\dagger}SD v1.50.3220.8170.6550.3220.5610.2530.3230.7700.5680.3220.7160.505
DreamBooth-L { }^{\dagger}SDXL v1.00.3420.8400.7240.3390.6230.3160.3430.7910.6020.3410.7510.547
BLIP-DiffusionSD v1.50.3040.8570.6920.2360.7630.5670.2860.8270.6580.2760.8150.639
Emu2SDXL v1.00.3150.8120.6210.2840.7360.4760.3160.7420.4900.3050.7630.529
IP-AdapterSDXL v1.00.3140.8920.7190.2920.7840.4790.3070.8590.6650.3050.8450.621
IP-Adapter-PlusSDXL v1.00.2930.9390.8400.2360.8900.7470.2830.9190.8340.2710.9160.807
MS-DiffusionSDXL v1.00.3440.9250.8160.3220.8100.6290.3420.8850.7410.3360.8730.729
Qwen2VL-FluxFLUX. 10.2870.9020.7040.2320.7790.6690.2830.8420.6190.2670.8410.664
IP-AdapterFLUX. 10.3250.8980.7000.2850.7860.6330.3320.8360.5810.3140.8400.638
OminiControlFLUX. 10.3360.8690.6560.3230.6930.4390.3310.8290.6150.3300.7970.570
OursFLUX. 10.3280.9020.7380.2760.7880.6750.3210.8690.6770.3080.8530.696

Table 3. 각 클래스에 대한 정량적 평가 결과. 파란색은 우리 방법보다 높은 점수를 나타내며, { }^{\dagger}는 최적화 기반 방법을 의미한다.

ements. Return only the extracted style description without any additional commentary. The description is: { [output from Qwen2-VL] }".

DiT 기반 프레임워크에 우리 방법을 통합했을 때와 통합하지 않았을 때의 정량적 결과
Tab. 2에서 볼 수 있듯이, 원래의 Qwen2VL-Flux와 비교하여 우리 방법을 통합한 경우 두 가지 지표에서 더 높은 점수를 달성했으며, 이는 FreeCus가 다른 DiT 기반 모델들과 호환되고 직교적임을 추가로 보여준다.

피사체 중심의 레이아웃 안내 생성
Fig. 13에서 볼 수 있듯이, 우리 방법은 Flux.1-Depthdev 모델과 통합될 때 레이아웃 안내 합성도 지원한다.

7. Compared Methods and Implementation Details

IP-Adapter (IPA) [65] IPA는 이미지 feature와 텍스트 feature를 분리하는 경량 어댑터를 도입하여, cross-attention layer에서 이 feature들을 병합할 때 발생하는 세밀한 제어의 한계를 해결한다. IPA (Flux.1) 구현을 위해 XLabs-AI의 서드파티 코드를 사용한다.

MS-Diffusion (MS-D) [62] MS-D는 grounding token을 feature resampling과 결합하여 피사체 디테일의 충실도를 보존한다. 레이아웃 가이드를 위해 bounding box 입력이 필요하며, 우리는 기본 box 값을 [0.25, 0.25, 0.75, 0.75]로 설정한다.

Qwen2VL-Flux (QVL-Flux) [37] QVL-Flux는 Flux의 기존 T5-XXL text encoder를 vision-language model로 대체하여 image-to-image 생성을 가능하게 한다. 우리는 공식 저장소와 가중치를 활용하여 1024x1024 이미지를 생성한다.

Textual Inversion (TI) [17] TI는 새로운 피사체를 나타내는 새로운 token embedding만 업데이트하고, 다른 모든 파라미터는 고정한다. 실험 결과는 DreamBench++ [44] 구현에서 가져왔다.

DreamBooth [50] DreamBooth는 T2I 모델의 모든 layer를 업데이트하여 시각적 충실도를 유지하고, prior preservation loss를 사용하여 언어 드리프트(language drift)를 방지한다. DreamBoothLora는 추가 lora adapter만 업데이트한다. 실험 결과는 DreamBench++ [44] 구현에서 가져왔다.

BLIP-Diffusion (BLIP-D) [34] BLIP-D는 사전학습된 BLIP-2 multimodal encoder를 활용하여 입력 피사체 feature를 나타내는 여러 학습 가능한 embedding을 생성한 다음, 기반 모델을 fine-tuning하여 이러한 embedding을 개인화에 적응시킨다. 실험 결과는 DreamBench++ [44] 구현에서 가져왔다.

Emu2 [54] Emu2는 predict-the-next-element objective를 사용하여 멀티모달 정보를 처리하는 autoregressive 접근 방식을 사용한다. 이미지는 visual encoder를 통해 토큰화되고 텍스트 토큰과 interleave되어, 타겟 텍스트로 손쉽게 커스터마이징할 수 있다. 실험 결과는 DreamBench++ [44] 구현에서 가져왔다.

OminiControl [55] OminiControl은 통합된 시퀀스 처리 전략과 동적 위치 인코딩을 사용하여 여러 image-to-image task를 수행하며, 경량의 학습 가능한 LoRA 파라미터만 도입한다. 우리는 공식 저장소를 사용하여 결과를 재현했다.

Prompt for Detailed Subject Caption
[Task Description] <br> 숙련된 이미지 분석가로서, 이 이미지에 있는 주어진 {}의 주요 특징과 특성을 다음 기준에 따라 상세하게 설명하는 것이 당신의 임무입니다.
다음 시각적 요소를 분석하고 설명하십시오:
2. 색상
3. 질감
- 표면 품질
- 디테일 선명도
- 시각적 패턴
- 재료 외관
4. 피사체별 특징
- 사람/동물인 경우: 얼굴 특징,
    표정, 자세
- 사물인 경우: 독특한
    특징, 상태
- 풍경인 경우: 환경 요소
    , 분위기
[설명 품질 수준]
당신의 설명은 다음의
    최고 수준의 디테일을 목표로 해야 합니다:
레벨 1: 주요 요소의 기본 식별
레벨 2: 명백한 특징 설명
레벨 3: 여러 특성에 대한 상세 분석
레벨 4: 미묘한 디테일을 포함한
    종합적인 분석
[출력 형식]
분석 결과를 다음 구조로
    제공하십시오:
주요 피사체: [간략한 식별자]
주요 특징:
- 형태: [설명]
- 색상: [설명]
- 질감: [설명]
- 피사체별 세부 정보: [
    설명]
전반적인 구성: [간략한 요약]

Figure 14. 상세 피사체 캡션 프롬프트.