전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 9 페이지)

FreeCus: Diffusion Transformer를 활용한 학습 없는 주제 기반 이미지 커스터마이징
·
#Subject-driven Generation#Diffusion Transformer

FreeCus: Diffusion Transformer를 활용한 학습 없는 주제 기반 이미지 커스터마이징

FreeCus는 Diffusion Transformer (DiT)의 잠재력을 활용하여 추가 학습 없이 주제 기반(subject-driven) 이미지를 생성하는 training-free 프레임워크입니다. 이 방법은 특정 레이어에만 attention을 공유하여 피사체의 구조적 무결성을 유지하면서 편집 유연성을 확보하는 "pivotal attention sharing", DiT의 "dynamic shifting" 메커니즘을 개선하여 세밀한 특징 추출을 향상시키는 방법, 그리고 Multimodal Large Language Models (MLLMs)을 통합하여 시맨틱 표현을 강화하는 세 가지 핵심 기술을 제안합니다. 이를 통해 FreeCus는 별도의 최적화나 인코더 학습 없이도 다양한 맥락에서 일관된 주제의 이미지를 생성하며, 기존 SOTA 모델들과 비슷하거나 더 나은 성능을 보여줍니다. 논문 제목: FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers

Inter- and Intra-Sample 분석과 Coherence Prediction을 통한 부분 관련 영상 검색(PRVR) 성능 향상
·
#PRVR#Cross-Modal Retrieval

Inter- and Intra-Sample 분석과 Coherence Prediction을 통한 부분 관련 영상 검색(PRVR) 성능 향상

본 논문은 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)의 핵심 과제인 cross-modal dual nature, 즉 inter-sample correlation과 intra-sample redundancy 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. 이 프레임워크는 세 가지 핵심 모듈로 구성됩니다: 1) Inter Correlation Enhancement (ICE) 모듈은 페어링되지 않은 텍스트와 비디오 순간에서 의미적으로 유사한 pseudo-positive pair를 발굴하여 학습에 활용합니다. 2) Intra Redundancy Mining (IRM) 모듈은 쿼리와 무관한 중복 순간들을 식별하고 구분하여 모델이 더 판별력 있는 표현을 학습하도록 합니다. 3) Temporal Coherence Prediction (TCP) 모듈은 무작위로 섞인 비디오 프레임의 원래 순서를 예측하는 self-supervised task를 통해 시간적 구조 학습을 강화합니다. 이 접근 방식은 보다 정교한 cross-modal semantic space를 구축하여 PRVR 성능을 크게 향상시킵니다. 논문 제목: Enhanced Partially Relevant Video Retrieval through Inter–and Intra-Sample Analysis with Coherence Prediction

EAU: Aleatoric Uncertainty를 활용하여 강건한 Multimodal Fusion 달성하기
·
#Multimodal Fusion#Aleatoric Uncertainty

EAU: Aleatoric Uncertainty를 활용하여 강건한 Multimodal Fusion 달성하기

Multimodal fusion은 각 modality에 내재된 노이즈로 인해 성능이 저하될 수 있습니다. EAU(Embracing Aleatoric Uncertainty)는 이러한 데이터 고유의 불확실성, 즉 Aleatoric Uncertainty를 제거하는 대신 정량화하고 이를 contrastive learning에 활용하여 안정적인 unimodal representation을 학습하는 새로운 fusion 전략입니다. 이 방법론은 SUFA (Stable Unimodal Feature Augmentation)를 통해 불확실성을 포용하여 안정적인 특징을 학습하고, RMFI (Robust Multimodal Feature Integration)에서 Variational Information Bottleneck을 이용해 중복을 줄인 강건한 joint representation을 생성합니다. 결과적으로 EAU는 노이즈가 있는 환경에서도 뛰어난 강건성을 보이며 여러 multimodal 벤치마크에서 SOTA를 달성합니다. 논문 제목: Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion

PRVR을 위한 효율적인 어텐션: 정확도와 효율성 벤치마킹 연구
·
#Efficient Attention#Video Retrieval

PRVR을 위한 효율적인 어텐션: 정확도와 효율성 벤치마킹 연구

긴 비디오 시퀀스를 처리할 때 Transformer 기반 모델의 표준 어텐션 메커니즘이 갖는二次 복잡도는 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR) 분야의 주요 병목 현상입니다. 이 논문은 PRVR을 위한 효율적인 어텐션 메커니즘에 대한 최초의 체계적인 연구로, Linear Attention, Agent Attention, FFT Attention 세 가지 대표적인 접근 방식을 Charades-STA 벤치마크에서 평가합니다. 또한, 정확도와 계산 비용 간의 상충 관계를 정량화하기 위해 새로운 Harmonic Performance-Efficiency Score (HPES)를 제안합니다. 실험 결과, FFT Attention이 가장 높은 HPES를 달성하며 Softmax 베이스라인보다 1.3배 빠른 속도와 더 높은 SumR을 보여, 효율성과 글로벌 컨텍스트 모델링 능력의 균형에서 우수함을 입증했습니다. 논문 제목: Efficient Attention in Partially Relevant Video Retrieval: A Benchmarking Study on Accuracy-Efficiency Trade-offs

RAL: 견고한 정렬 학습을 통한 부분 관련 비디오 검색 성능 향상
·
#Video Retrieval#Uncertainty Modeling

RAL: 견고한 정렬 학습을 통한 부분 관련 비디오 검색 성능 향상

이 논문은 주어진 쿼리와 부분적으로만 관련된 긴 비디오를 검색하는 Partially Relevant Video Retrieval (PRVR) 문제를 다룹니다. PRVR의 핵심 과제는 데이터 불확실성(모호한 쿼리, 비디오의 부분적 관련성)에서 발생하는 잘못된 의미적 상관관계를 극복하고 견고한 쿼리-비디오 정렬을 학습하는 것입니다. 이를 해결하기 위해 본 논문에서는 데이터의 불확실성을 명시적으로 모델링하는 Robust Alignment Learning (RAL) 프레임워크를 제안합니다. RAL의 핵심은 비디오와 쿼리를 다변량 Gaussian 분포로 인코딩하여 데이터 불확실성을 정량화하고, 다양한 cross-modal 관계를 포착하는 것입니다. 또한, 쿼리 단어의 중요도가 다른 점을 고려하여 동적으로 유사도 가중치를 부여하는 confidence-aware alignment 메커니즘을 도입하여 무의미한 단어의 노이즈를 줄입니다. RAL은 기존 아키텍처에 쉽게 통합 가능한 plug-and-play 방식으로, 다양한 벤치마크에서 기존 방법들의 성능을 크게 향상시켰습니다. 논문 제목: Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning

Survey of Hallucination in Natural Language Generation
·
#Hallucination#NLG

Survey of Hallucination in Natural Language Generation

자연어 생성(NLG) 모델이 유창하지만 사실과 다르거나 소스에 근거하지 않은 텍스트를 생성하는 할루시네이션(Hallucination) 현상은 주요 과제 중 하나입니다. 이 논문은 NLG 분야에서 발생하는 할루시네이션 문제에 대한 포괄적인 개요를 제공합니다. 할루시네이션의 정의와 분류, 발생 원인을 데이터와 모델 측면에서 분석하고, 이를 측정하기 위한 다양한 평가 지표(metrics)와 해결하기 위한 완화 방법(mitigation methods)을 체계적으로 정리합니다. 또한, 요약, 대화, 질의응답, 데이터-텍스트 변환, 기계 번역 등 주요 NLG 태스크별로 할루시네이션 연구 동향을 심도 있게 다룹니다. 논문 제목: Survey of Hallucination in Natural Language Generation

GMMFormer v2: 불확실성을 고려한 부분 관련 영상 검색 프레임워크
·
#Video Retrieval#Uncertainty Modeling

GMMFormer v2: 불확실성을 고려한 부분 관련 영상 검색 프레임워크

GMMFormer v2는 텍스트 쿼리를 기반으로 관련 순간을 포함하는 미편집 비디오를 검색하는 부분 관련 영상 검색(Partially Relevant Video Retrieval, PRVR)을 위한 불확실성 인식 프레임워크입니다. 이 모델은 모멘트 어노테이션 부재로 인한 클립 모델링 및 텍스트-클립 대응의 불확실성 문제를 해결합니다. GMMFormer v2는 가변 길이의 비디오 모멘트를 더 잘 포착하기 위해 `temporal consolidation module`을 도입했으며, `semantic collapse` 문제를 완화하고 정교한 텍스트-클립 정렬을 위해 개선된 `query diverse loss`와 새로운 `optimal matching loss`를 제안합니다. 논문 제목: GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval

GMMFormer: 효율적인 부분 관련 비디오 검색(PRVR)을 위한 Gaussian-Mixture-Model 기반 Transformer
·
#Video Retrieval#Transformer

GMMFormer: 효율적인 부분 관련 비디오 검색(PRVR)을 위한 Gaussian-Mixture-Model 기반 Transformer

GMMFormer는 부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)의 효율성 문제를 해결하기 위해 제안된 Gaussian-Mixture-Model 기반 Transformer입니다. 기존 PRVR 방식은 스캐닝 기반의 명시적 클립 모델링으로 인해 정보 중복과 큰 저장 공간 오버헤드를 유발했습니다. GMMFormer는 Gaussian-Mixture-Model 제약을 프레임 상호작용에 통합하여 각 프레임이 인접 프레임에 집중하도록 하는 암시적 클립 모델링을 수행합니다. 이를 통해 다중 스케일 클립 정보를 포함하는 압축된 표현을 생성하여 효율성을 높입니다. 또한, 동일 비디오에 대한 여러 텍스트 쿼리 간의 의미적 차이를 보존하기 위해 query diverse loss를 제안하여 임베딩 공간을 더 밀도 높고 의미적으로 풍부하게 만듭니다. 논문 제목: GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval
·
#PRVR#Text-to-Video Retrieval

Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval

Partially Relevant Video Retrieval (PRVR)은 긴 영상에서 텍스트 쿼리와 관련된 일부 구간을 찾는 기술입니다. 기존 PRVR 방법들은 세밀한 프레임 단위 영상 특징과 포괄적인 의미를 담은 문장 단위 텍스트를 직접 정렬하여, 'semantic granularity gap' 문제가 발생했습니다. 이로 인해 프레임 특징이 의도보다 넓은 맥락을 포착하고 지역적 디테일을 놓치게 됩니다. 본 논문은 이 문제를 해결하기 위해 문장을 프레임 수준의 의미 단위로 분해하여 정렬하는 Semantic-Decomposed Matching (SDM)과, 영상 인코딩 시 지역적 세부 정보를 강화하는 Adaptive Local Aggregator (ALA)를 제안합니다. 이 프레임워크는 프레임 수준에서의 텍스트-영상 정렬을 정교화하여 PRVR 성능을 크게 향상시킵니다. 논문 제목: Bridging the Semantic Granularity Gap Between Text and Frame Representations for Partially Relevant Video Retrieval

ARL: 부분 관련 비디오 검색을 위한 모호성 억제 텍스트-비디오 표현 학습
·
#Video Retrieval#Representation Learning

ARL: 부분 관련 비디오 검색을 위한 모호성 억제 텍스트-비디오 표현 학습

Partially Relevant Video Retrieval (PRVR)은 텍스트 쿼리와 부분적으로만 관련된 비디오를 찾는 기술입니다. 기존 모델들은 텍스트-비디오 쌍이 1:1 관계라고 가정하여, 라벨링되지 않은 관련성 높은 비디오들을 부정적(negative) 샘플로 잘못 학습하는 모호성(ambiguity) 문제를 가집니다. 본 논문은 이러한 모호성을 억제하는 표현 학습 프레임워크인 ARL (Ambiguity-Restrained representation Learning)을 제안합니다. ARL은 uncertainty와 similarity라는 두 가지 기준을 사용하여 모호한 텍스트-비디오 쌍을 탐지하고, multi-positive contrastive learning 및 dual triplet margin loss를 통해 이들을 유연하게 학습합니다. 또한, 텍스트-프레임 레벨까지 학습을 확장하고, 단일 모델의 오류 전파를 막기 위해 cross-model ambiguity detection을 도입하여 PRVR 성능을 크게 향상시켰습니다. 논문 제목: Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval