전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 3 페이지)

Memory-Augmented Transformer (MATR)를 이용한 온라인 시간적 행동 탐지
·
#Temporal Action Localization#Transformer

Memory-Augmented Transformer (MATR)를 이용한 온라인 시간적 행동 탐지

MATR은 스트리밍 비디오에서 실시간으로 행동 구간을 탐지하는 Online Temporal Action Localization (On-TAL)을 위한 새로운 모델입니다. 기존 방법들은 고정된 크기의 비디오 세그먼트만 입력으로 받아 장기적인 맥락을 파악하는 데 한계가 있었습니다. MATR은 과거의 주요 비디오 특징을 선택적으로 저장하는 memory queue를 도입하여 이 문제를 해결하며, 이를 통해 장기적인 맥락을 활용합니다. 현재 시점에서 행동의 끝(end)을 먼저 감지한 뒤, 메모리에 저장된 과거 정보를 탐색해 행동의 시작(start)을 정확히 찾아내는 새로운 방식을 제안합니다. 이 과정은 Transformer 기반의 end decoder와 start decoder를 분리하여 수행됩니다. 논문 제목: Online Temporal Action Localization with Memory-Augmented Transformer

PUMA: 다양한 데이터 분포를 위한 파라미터 효율적 통합 거리 척도 학습
·
#Metric Learning#Parameter-Efficient Fine-Tuning

PUMA: 다양한 데이터 분포를 위한 파라미터 효율적 통합 거리 척도 학습

기존의 metric learning은 데이터셋마다 별도의 모델을 학습시켜 여러 데이터 분포가 섞인 실제 환경에 적용하기 어렵습니다. 이 논문은 여러 데이터 분포에 걸쳐 관계를 포착할 수 있는 단일 통합 거리 척도를 학습하는 'Unified Metric Learning (UML)'이라는 새로운 패러다임을 제안합니다. UML의 데이터 불균형 및 편향 문제를 해결하기 위해 제안된 PUMA (Parameter-efficient Unified Metric leArning)는 사전 학습된 모델을 고정시키고, stochastic adapter와 prompt pool이라는 두 개의 추가 모듈을 사용하여 데이터셋별 지식을 효율적으로 학습합니다. 이를 통해 PUMA는 훨씬 적은 파라미터로도 데이터셋별로 학습된 기존 SOTA 모델들을 능가하는 성능을 보입니다. 논문 제목: Learning Unified Distance Metric Across Diverse Data Distributions with Parameter-Efficient Transfer Learning

이미지와 오디오의 Joint Slot Attention을 활용한 음원 위치 특정(SSL) 성능 개선
·
#Sound Source Localization#Slot Attention

이미지와 오디오의 Joint Slot Attention을 활용한 음원 위치 특정(SSL) 성능 개선

본 논문은 이미지 내에서 소리의 출처를 찾는 Sound Source Localization (SSL) 태스크의 성능을 개선하는 새로운 방법을 제안합니다. 기존 방법들은 노이즈를 포함한 전체 오디오 특징을 사용해 정확도에 한계가 있었으나, 이 연구는 joint slot attention을 이미지와 오디오에 동시에 적용하여 특징을 소리와 관련된 target과 관련 없는 off-target으로 분해합니다. 오직 target slot만을 contrastive learning에 사용하여 소음의 영향을 줄이고, cross-modal attention matching을 통해 두 modality 간의 정렬을 강화하여 더 정확한 음원 위치 특정을 가능하게 합니다. 그 결과, 여러 SSL 벤치마크에서 최고 성능을 달성했습니다. 논문 제목: Improving Sound Source Localization with Joint Slot Attention on Image and Audio

GENIUS: 쿼리 하나로 모든 종류의 데이터를 검색하는 범용 멀티모달 검색 프레임워크
·
#Generative Retrieval#Multimodal Search

GENIUS: 쿼리 하나로 모든 종류의 데이터를 검색하는 범용 멀티모달 검색 프레임워크

GENIUS는 다양한 모달리티와 도메인에 걸쳐 여러 검색 작업을 지원하는 범용 생성형 검색 프레임워크입니다. 기존의 embedding 기반 검색 방식과 달리, GENIUS는 쿼리를 기반으로 타겟 데이터의 식별자(ID)를 직접 생성합니다. 이 프레임워크의 핵심은 modality-decoupled semantic quantization 기술로, 멀티모달 데이터를 모달리티와 시맨틱 정보를 모두 담은 이산 ID로 변환합니다. 또한, 쿼리와 타겟을 보간하는 query augmentation을 통해 모델의 일반화 성능을 향상시킵니다. GENIUS는 기존 생성형 검색 모델보다 월등한 성능을 보이며, 데이터베이스 크기에 관계없이 빠른 검색 속도를 유지합니다. 임베딩 기반 re-ranking을 추가하면 효율성을 유지하면서도 embedding 기반 모델에 근접한 성능을 달성합니다. 논문 제목: GENIUS: A Generative Framework for Universal Multimodal Search

비타겟 클래스 학습을 통한 Semi-Supervised Temporal Action Localization 성능 향상
·
#Temporal Action Localization#Semi-Supervised Learning

비타겟 클래스 학습을 통한 Semi-Supervised Temporal Action Localization 성능 향상

Semi-Supervised Temporal Action Localization (SS-TAL)의 기존 연구들은 신뢰도가 가장 높은 타겟 클래스에만 집중하여 비타겟 클래스에 포함된 유용한 정보를 간과하는 한계가 있었습니다. 이 논문은 비타겟 클래스로부터 학습하는 새로운 관점을 제시합니다. 제안된 방법은 예측된 클래스 확률 분포의 레이블 공간을 타겟 클래스, positive 클래스, negative 클래스, 그리고 모호한 클래스로 분할합니다. 이를 통해 타겟 클래스에는 없는 긍정적, 부정적 의미 정보를 모두 활용하고, 모호한 클래스는 학습에서 제외합니다. 모델의 신뢰도와 순위를 기반으로 고품질의 positive 및 negative 클래스를 적응적으로 선택하는 전략과, 예측을 positive 클래스에 가깝게, negative 클래스에서 멀어지게 하는 새로운 positive 및 negative loss를 도입합니다. 이 hybrid positive-negative learning 프레임워크는 레이블이 있거나 없는 비디오 모두에서 비타겟 클래스를 효과적으로 활용하여 SS-TAL 성능을 크게 향상시킵니다. 논문 제목: Boosting Semi-Supervised Temporal Action Localization by Learning from Non-Target Classes

AVIGATE: Gated Attention으로 오디오를 효과적으로 활용하는 Video-Text Retrieval
·
#Video-Text Retrieval#Multimodal Learning

AVIGATE: Gated Attention으로 오디오를 효과적으로 활용하는 Video-Text Retrieval

Video-text retrieval에서 기존 방법들은 오디오 정보를 무시하거나, 관련 없는 오디오 신호가 오히려 성능을 저하시키는 문제가 있었습니다. AVIGATE는 gated attention 메커니즘을 통해 유용한 오디오 정보는 선택적으로 활용하고 불필요한 노이즈는 필터링하여 비디오 표현을 효과적으로 학습하는 새로운 프레임워크입니다. 또한, adaptive margin-based contrastive loss를 도입하여 비디오와 텍스트 간의 정렬을 개선합니다. 이를 통해 AVIGATE는 주요 벤치마크에서 최고 수준의 검색 성능을 달성하며 오디오를 활용한 검색의 새로운 가능성을 제시합니다. 논문 제목: Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval

SHED: Segmentation-based Hierarchical Encoder-Decoder for Depth Estimation
·
#Depth Estimation#Segmentation

SHED: Segmentation-based Hierarchical Encoder-Decoder for Depth Estimation

SHED는 단일 이미지로부터 깊이를 추정하는 Monocular depth estimation 작업을 위한 새로운 encoder-decoder 아키텍처입니다. 기존 모델들이 픽셀 단위로 깊이를 예측하여 발생하는 구조적 불일치 문제를 해결하기 위해, SHED는 Vision Transformer(ViT)의 고정된 패치 토큰을 계층적 세그먼트 토큰으로 대체하여 segmentation을 깊이 추정에 통합합니다. 이 모델은 encoder에서 세밀한 superpixel을 점차 거친 세그먼트로 병합하고, decoder에서는 이를 역으로 재구성하여 구조적으로 일관된 깊이 맵을 생성합니다. 이를 통해 깊이 경계와 세그먼트 일관성을 향상시키고, 3D 재구성 성능을 높이며, 교차 도메인 일반화에서도 강건한 성능을 보입니다. 논문 제목: SHED Light on Segmentation for Depth Estimation

S-CLIP: 적은 양의 캡션으로 전문 분야 Vision-Language 모델을 학습시키는 Semi-supervised 방법론
·
#Semi-supervised Learning#Vision-Language Model

S-CLIP: 적은 양의 캡션으로 전문 분야 Vision-Language 모델을 학습시키는 Semi-supervised 방법론

S-CLIP은 CLIP과 같은 Vision-Language 모델이 원격 탐사(remote sensing)와 같은 전문 분야에서 부족한 이미지-텍스트 쌍 데이터로 인해 겪는 성능 저하 문제를 해결합니다. 이 방법론은 소수의 레이블된 데이터와 다수의 레이블 없는 이미지를 활용하는 Semi-supervised learning 접근법을 제안합니다. S-CLIP은 Optimal Transport를 이용한 caption-level pseudo-label과 Partial Label Learning에 기반한 keyword-level pseudo-label이라는 두 가지 새로운 pseudo-labeling 전략을 사용하여, 적은 수의 이미지-텍스트 쌍만으로도 CLIP의 성능을 크게 향상시킵니다. 이를 통해 원격 탐사, 패션, 과학 등 다양한 전문 분야에서 모델의 적용 가능성을 확장합니다. 논문 제목: S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions