전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 2 페이지)

SynthVLM: Vision-Language 모델을 위한 고품질 이미지-캡션 데이터셋의 효율적인 합성
·
#Data Synthesis#Vision-Language Model

SynthVLM: Vision-Language 모델을 위한 고품질 이미지-캡션 데이터셋의 효율적인 합성

SynthVLM은 Vision-Language Models (VLMs) 학습에 필요한 대규모 고품질 데이터셋의 문제를 해결하기 위한 새로운 데이터 합성 및 큐레이션 방법론을 제안합니다. 기존 방식과 달리, 고품질 캡션을 먼저 선별하고 고급 diffusion model을 사용하여 텍스트 캡션으로부터 이미지를 생성함으로써, 텍스트와 이미지가 정밀하게 정렬된 데이터 쌍을 만듭니다. 이 방법을 통해 생성된 SynthVLM-100K 데이터셋은 기존의 실제 데이터셋보다 우수한 성능을 보이며, 이 데이터셋으로 학습된 SynthVLM-7B 및 SynthVLM-13B 모델은 단 18%의 데이터만으로도 다양한 Vision Question-Answering (VQA) 작업에서 SOTA 성능을 달성합니다. 논문 제목: SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models

PACO: MCTS를 이용한 다중 속성 제어 요약의 적응형 계획
·
#Controllable Summarization#Monte Carlo Tree Search

PACO: MCTS를 이용한 다중 속성 제어 요약의 적응형 계획

PACO는 다중 속성 제어 요약(multi-attribute controllable summarization)을 위한 훈련이 필요 없는(training-free) 프레임워크로, Monte Carlo Tree Search (MCTS)를 활용하여 여러 요약 속성을 순차적으로 제어하는 최적의 순서를 계획합니다. 기존 언어 모델들이 길이, 주제, 발췌율 등 상호 의존적인 여러 속성을 동시에 제어하는 데 어려움을 겪는 문제를 해결하기 위해, PACO는 요약을 점진적으로 수정하며 각 속성을 단계별로 조정합니다. 이 MCTS 기반 접근법을 통해, PACO는 속성 간의 충돌을 최소화하고 최적의 제어 경로를 적응적으로 탐색하여, 작은 모델로도 대형 모델에 필적하는 강력한 제어 성능을 달성합니다. 논문 제목: Adaptive Planning for Multi-Attribute Controllable Summarization with Monte Carlo Tree Search

CLIPLoss와 Norm 기반 데이터 선택 방법을 통한 Multimodal Contrastive Learning
·
#Data Selection#Contrastive Learning

CLIPLoss와 Norm 기반 데이터 선택 방법을 통한 Multimodal Contrastive Learning

이 논문은 대규모 시각-언어 모델 사전학습 시 발생하는 노이즈가 많은 웹 데이터셋 문제를 해결하기 위한 두 가지 새로운 데이터 선택 방법을 제안합니다. 첫째, 기존 CLIPScore의 한계를 보완하기 위해 CLIP 학습 손실에서 영감을 받은 surrogate-CLIPLoss (s-CLIPLoss)를 도입하여, contrastive pair와의 유사도를 정규화 항으로 추가함으로써 데이터 품질을 더 정확하게 측정합니다. 둘째, 다운스트림 작업이 알려진 경우, 사전학습 데이터와 목표 데이터 간의 유사성을 측정하는 새로운 놈(norm) 기반 메트릭인 NormSim을 제안합니다. 이 방법들은 OpenAI의 CLIP-L/14 모델만을 사용한 기준선 대비 ImageNet-1k에서 5.3%, 38개 다운스트림 작업에서 평균 2.8%의 성능 향상을 보였으며, 기존 SOTA 방법과 결합하여 DataComp-medium 벤치마크에서 새로운 최고 성능을 달성했습니다. 논문 제목: CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning

데이터셋 편향과의 10년간의 전쟁: 우리는 아직 멀었는가?
·
#Dataset Bias#Computer Vision

데이터셋 편향과의 10년간의 전쟁: 우리는 아직 멀었는가?

10년 전 제안되었던 "데이터셋 분류" 실험을 최신 대규모 데이터셋과 발전된 neural network 아키텍처 환경에서 재검토합니다. 놀랍게도, 현대의 neural network는 이미지가 어떤 데이터셋에서 왔는지 매우 높은 정확도로 분류할 수 있음을 발견했습니다(예: YFCC, CC, DataComp 3-way 분류에서 84.7% 정확도). 이러한 데이터셋 분류기는 단순 암기를 넘어서 일반화 및 전이 가능한 semantic feature를 학습할 수 있으며, 이는 데이터셋 편향 문제가 여전히 심각함을 시사합니다. 논문 제목: A Decade's Battle on Dataset Bias: Are We There Yet?

mKG-RAG: Multimodal Knowledge Graph 기반의 RAG를 통한 Visual Question Answering 성능 향상
·
#Multimodal KG#RAG

mKG-RAG: Multimodal Knowledge Graph 기반의 RAG를 통한 Visual Question Answering 성능 향상

mKG-RAG는 비정형 문서에 의존하는 기존 RAG 기반 VQA 방식의 한계를 극복하기 위해 Multimodal Knowledge Graph (KG)를 통합한 새로운 프레임워크이다. 이 방식은 MLLM을 활용하여 비정형 멀티모달 문서에서 구조화된 지식을 추출해 고품질 Multimodal KG를 구축한다. 또한, 효율적인 검색을 위해 거친 문서 검색과 세밀한 그래프 검색을 결합한 dual-stage retrieval 전략과 question-aware multimodal retriever를 도입하여 검색 정확도를 높였다. 이를 통해 지식 기반 Visual Question Answering (VQA) 태스크에서 기존 방법들을 능가하는 최신 기술(SOTA) 성능을 달성했다. 논문 제목: mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering

LLaVA-OneVision: 이미지와 비디오를 넘나드는 손쉬운 시각 과제 전이
·
#LMM#Visual Task Transfer

LLaVA-OneVision: 이미지와 비디오를 넘나드는 손쉬운 시각 과제 전이

LLaVA-OneVision은 단일 모델로 단일 이미지, 다중 이미지, 비디오라는 세 가지 주요 컴퓨터 비전 시나리오에서 동시에 최고의 성능을 보이는 오픈소스 대규모 멀티모달 모델(LMM)입니다. 이 모델의 핵심은 서로 다른 양식(modality)과 시나리오 간의 강력한 transfer learning을 가능하게 하는 설계에 있으며, 특히 이미지에서 비디오로의 과제 전이(task transfer)를 통해 뛰어난 비디오 이해 능력과 같은 새로운 창발적 능력(emerging capabilities)을 보여줍니다. 논문 제목: LLaVA-OneVision: Easy Visual Task Transfer

GraphRAG: 로컬에서 글로벌로, 쿼리 중심 요약을 위한 그래프 기반 RAG 접근법
·
#RAG#Knowledge Graph

GraphRAG: 로컬에서 글로벌로, 쿼리 중심 요약을 위한 그래프 기반 RAG 접근법

기존의 Retrieval-Augmented Generation (RAG) 시스템은 특정 정보를 찾는 데는 뛰어나지만, 데이터셋 전체에 대한 글로벌 질문에는 취약합니다. 이 논문은 이러한 한계를 극복하기 위해 그래프 기반의 새로운 접근법인 GraphRAG를 제안합니다. GraphRAG는 LLM을 사용하여 소스 문서로부터 entity 지식 그래프를 구축하고, 관련 entity 그룹에 대한 커뮤니티 요약을 미리 생성합니다. 사용자 질문이 주어지면, 각 커뮤니티 요약을 바탕으로 부분적인 답변을 생성한 후, 이를 다시 종합하여 최종적인 글로벌 답변을 만듭니다. 이를 통해 GraphRAG는 대규모 텍스트 코퍼스에 대한 전역적인 이해를 요구하는 질문에 대해 기존 RAG 방식보다 훨씬 포괄적이고 다양한 답변을 생성하는 성능을 보여줍니다. 논문 제목: From Local to Global: A GraphRAG Approach to Query-Focused Summarization

DocVLM: Vision-Language Model을 효율적인 문서 리더로 만드는 방법
·
#Document Understanding#VLM

DocVLM: Vision-Language Model을 효율적인 문서 리더로 만드는 방법

DocVLM은 기존 Vision-Language Models (VLMs)이 문서 이해(document understanding) 작업에서 겪는 고해상도 이미지 처리의 높은 계산 비용 문제를 해결하는 모델-독립적(model-agnostic) 방법론입니다. 이 접근법은 OCR로 추출한 텍스트와 레이아웃 정보를 OCR 인코더를 통해 처리하고, 이를 64개와 같은 소수의 학습 가능한 쿼리(learned queries)로 압축합니다. 이렇게 압축된 쿼리는 VLM의 원래 가중치를 변경하지 않고 시각적 특징과 함께 언어 모델에 통합됩니다. 결과적으로 DocVLM은 저해상도 이미지를 사용하면서도 DocVQA와 같은 벤치마크에서 성능을 크게 향상시키며, 토큰 사용량을 획기적으로 줄여 다중 페이지 문서 처리에서도 우수한 zero-shot 성능을 보여줍니다. 논문 제목: DocVLM: Make Your VLM an Efficient Reader

웹 비디오를 활용한 Semantic Correspondence의 Self-supervised 학습 방법
·
#Semantic Correspondence#Self-supervised Learning

웹 비디오를 활용한 Semantic Correspondence의 Self-supervised 학습 방법

기존 Semantic Correspondence 데이터셋은 수작업 레이블링 비용으로 인해 데이터 양과 다양성에 한계가 있었습니다. 이 논문은 웹에서 자동으로 수집한 대규모 비디오를 활용하는 최초의 Self-supervised learning 프레임워크를 제안합니다. 연속적인 비디오 프레임 간의 부드러운 변화를 이용해 별도의 감독 없이 정확한 space-time correspondence를 구축하고, 이를 통해 비디오 내의 멀리 떨어진 프레임 간의 pseudo correspondence label을 생성하여 학습에 사용합니다. 이 방법은 기존 self-supervised 모델을 능가하며, 사전 학습으로 활용될 경우 supervised learning 모델의 성능도 크게 향상시킵니다. 논문 제목: Self-supervised Learning of Semantic Correspondence Using Web Videos

PLOT: Slot Attention을 활용한 텍스트 기반 인물 검색
·
#Text-Based Person Search#Slot Attention

PLOT: Slot Attention을 활용한 텍스트 기반 인물 검색

PLOT은 텍스트 쿼리를 사용하여 특정 인물을 검색하는 텍스트 기반 인물 검색(Text-based person search)을 위한 새로운 프레임워크입니다. 이 방법은 slot attention 기반의 part discovery module을 활용하여 별도의 파트 수준 감독(supervision) 없이 이미지와 텍스트에서 신체 부위를 자율적으로 식별하고 정렬합니다. 또한, 텍스트 기반 동적 파트 어텐션(text-based dynamic part attention, TDPA)을 통해 각 파트의 중요도를 조절하여 검색 정확도를 높이며, 기존 방법들보다 뛰어난 성능과 해석 가능한 검색 결과를 제공합니다. 논문 제목: PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery