Subject-driven GenerationDiffusion Transformer
FreeCus: Diffusion Transformer를 활용한 학습 없는 주제 기반 이미지 커스터마이징
FreeCus는 Diffusion Transformer (DiT)의 잠재력을 활용하여 추가 학습 없이 주제 기반(subject-driven) 이미지를 생성하는 training-free 프레임워크입니다. 이 방법은 특정 레이어에만 attention을 공유하여 피사체의 구조적 무결성을 유지하면서 편집 유연성을 확보하는 "pivotal attention sharing", DiT의 "dynamic shifting" 메커니즘을 개선하여 세밀한 특징 추출을 향상시키는 방법, 그리고 Multimodal Large Language Models (MLLMs)을 통합하여 시맨틱 표현을 강화하는 세 가지 핵심 기술을 제안합니다. 이를 통해 FreeCus는 별도의 최적화나 인코더 학습 없이도 다양한 맥락에서 일관된 주제의 이미지를 생성하며, 기존 SOTA 모델들과 비슷하거나 더 나은 성능을 보여줍니다. 논문 제목: FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers