전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 8 페이지)

Adaptive-RAG: 질문 복잡도에 따라 Retrieval-Augmented LLM을 동적으로 조절하기
·
#Adaptive RAG#Retrieval-Augmented Generation

Adaptive-RAG: 질문 복잡도에 따라 Retrieval-Augmented LLM을 동적으로 조절하기

기존의 Retrieval-Augmented Large Language Models (LLMs)는 모든 질문에 동일한 전략을 사용하여 비효율적인 경우가 많습니다. Adaptive-RAG는 질문의 복잡도를 먼저 판단하고, 그에 맞춰 No-Retrieval, Single-step, Multi-step RAG 전략 중 가장 적합한 것을 동적으로 선택하는 프레임워크입니다. 이 접근법은 Classifier를 통해 질문의 난이도를 분류하여 QA 시스템의 전반적인 정확도와 효율성을 크게 향상시킵니다. 논문 제목: Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity

PEAN: 부분 관련 영상 검색을 위한 점진적 이벤트 정렬 네트워크
·
#Video-Text Retrieval#Multimodal Alignment

PEAN: 부분 관련 영상 검색을 위한 점진적 이벤트 정렬 네트워크

본 논문은 텍스트 설명이 영상의 일부 내용만 묘사하는 긴 영상(untrimmed video)을 검색하는 Partially Relevant Video Retrieval (PRVR) 문제를 다룹니다. 이를 해결하기 위해 텍스트 쿼리와 영상의 지역적 콘텐츠를 점진적으로 정렬하는 새로운 모델인 Progressive Event Alignment Network (PEAN)를 제안합니다. PEAN은 세 가지 주요 모듈로 구성됩니다: (1) 다중 모드 표현을 위한 Multimodal Representation Module (MRM), (2) 관련 이벤트를 대략적으로 찾는 Event Searching Module (ESM), (3) 텍스트와 이벤트를 세밀하게 정렬하는 Event Aligning Module (EAM). 특히, ESM과 EAM에서는 Gaussian-based pooling 전략을 사용하여 대표적인 비디오 프레임의 의미 정보를 효과적으로 활용합니다. 제안된 PEAN 모델은 주요 PRVR 벤치마크에서 기존 SOTA 모델들을 크게 상회하는 성능을 보여주었습니다. 논문 제목: Progressive Event Alignment Network for Partial Relevant Video Retrieval

언어 모델은 왜 환각(Hallucination)을 일으키는가?
·
#Hallucination#Language Model

언어 모델은 왜 환각(Hallucination)을 일으키는가?

이 논문은 대규모 언어 모델(LLM)이 왜 "환각(hallucination)" 현상을 보이는지에 대한 근본적인 원인을 분석합니다. 저자들은 환각이 불확실할 때 추측하도록 훈련 및 평가 과정이 설계되었기 때문이라고 주장합니다. Pretraining 단계에서는 생성 오류가 본질적으로 binary classification 문제의 오류에서 비롯되며, 자연스러운 통계적 압력으로 인해 발생한다고 설명합니다. Post-training 단계에서는 대부분의 평가 벤치마크가 불확실성을 인정하는 답변(I don""t know)에 불이익을 주고 추측을 통해 정답을 맞추는 것을 보상하기 때문에 환각이 지속된다고 지적합니다. 이는 모델을 "시험을 잘 보는 학생"처럼 최적화시키는 결과를 낳습니다. 이에 대한 해결책으로 새로운 환각 평가를 도입하는 대신, 기존의 주요 벤치마크 채점 방식을 수정하는 사회-기술적 완화책을 제안합니다. 논문 제목: Why Language Models Hallucinate

CHASE-SQL: Text-to-SQL을 위한 다중 경로 추론 및 후보 선택 최적화
·
#Text-to-SQL#Agentic Framework

CHASE-SQL: Text-to-SQL을 위한 다중 경로 추론 및 후보 선택 최적화

CHASE-SQL은 Text-to-SQL 작업에서 Large Language Model (LLM)의 성능을 향상시키기 위한 새로운 프레임워크입니다. 이 프레임워크는 multi-agent 모델링을 활용하여 다양한 고품질 SQL 후보를 생성하고, 이 중 최적의 후보를 선택합니다. 후보 생성을 위해 (1) 복잡한 쿼리를 하위 쿼리로 분해하는 divide-and-conquer 방식, (2) 데이터베이스 엔진의 실행 단계를 모방하는 query execution plan 기반의 chain-of-thought (CoT) 추론, (3) 테스트 질문에 맞춤화된 few-shot 예시를 제공하는 instance-aware synthetic example generation 기법을 사용합니다. 생성된 후보들 중 최상의 쿼리를 선택하기 위해, fine-tuned된 selection agent가 pairwise 비교를 통해 후보들의 순위를 매깁니다. CHASE-SQL은 이 접근 방식을 통해 BIRD Text-to-SQL 벤치마크에서 SOTA 성능을 달성했습니다. 논문 제목: CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL

UEM: 부분 관련 비디오 검색을 위한 불균일 이벤트 모델링
·
#PRVR#Event Modeling

UEM: 부분 관련 비디오 검색을 위한 불균일 이벤트 모델링

기존의 부분 관련 비디오 검색(PRVR)은 비디오를 고정된 길이의 클립으로 분할하여 이벤트 경계가 모호해지는 문제가 있었습니다. Uneven Event Modeling (UEM) 프레임워크는 이를 해결하기 위해 두 가지 핵심 모듈을 제안합니다. 첫째, Progressive-Grouped Video Segmentation (PGVS) 모듈은 프레임 간의 의미적 유사성과 시간적 연속성을 고려하여 가변적인 길이의 이벤트로 동적 분할을 수행합니다. 둘째, Context-Aware Event Refinement (CAER) 모듈은 주어진 텍스트 쿼리와의 cross-attention을 활용하여 이벤트 표현을 정제하고, 쿼리와 가장 관련성 높은 프레임에 집중하도록 합니다. 이 접근법은 보다 정확한 텍스트-비디오 정렬을 가능하게 하여 PRVR 벤치마크에서 SOTA 성능을 달성했습니다. 논문 제목: Uneven Event Modeling for Partially Relevant Video Retrieval

AMDNet: 능동적 순간 탐색을 통한 효율적인 부분 관련 비디오 검색
·
#PRVR#Video Retrieval

AMDNet: 능동적 순간 탐색을 통한 효율적인 부분 관련 비디오 검색

본 논문은 텍스트 쿼리와 부분적으로만 관련된 긴 비디오를 효율적으로 검색하는 PRVR (Partially Relevant Video Retrieval) 문제를 다룹니다. 기존 방법들이 사용하는 비효율적인 dense clip 모델링 방식의 한계를 극복하기 위해, 쿼리와 의미적으로 일치하는 비디오 moment를 능동적으로 발견하는 AMDNet (Active Moment Discovering Network)을 제안합니다. AMDNet은 learnable span anchor를 사용하여 구별되는 moment들을 포착하고, masked multi-moment attention을 통해 중요한 moment는 강조하고 불필요한 배경은 억제하여 더 압축적이고 정보성 있는 비디오 표현을 생성합니다. 또한, moment diversity loss와 moment relevance loss를 도입하여 모델이 의미적으로 다양하고 쿼리와 관련성 높은 moment를 학습하도록 합니다. 결과적으로 AMDNet은 기존 모델보다 훨씬 작은 크기로 더 높은 검색 성능과 효율성을 달성했습니다. 논문 제목: Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering

PCME: Cross-Modal Retrieval을 위한 확률적 임베딩
·
#Probabilistic Embedding#Cross-modal Retrieval

PCME: Cross-Modal Retrieval을 위한 확률적 임베딩

본 논문은 이미지-캡션과 같은 cross-modal retrieval task에서 발생하는 일대다(one-to-many) 대응 관계의 한계를 지적합니다. 기존의 deterministic 함수 기반 임베딩 방식은 이러한 복잡한 관계를 포착하기 어렵습니다. 이를 해결하기 위해, 저자들은 각 데이터를 단일 벡터가 아닌 확률 분포로 표현하는 Probabilistic Cross-Modal Embedding (PCME)을 제안합니다. PCME는 이미지와 텍스트를 공통 임베딩 공간 내의 정규 분포(normal distribution)로 모델링하여, soft cross-modal contrastive loss를 통해 학습됩니다. 이 접근법은 불확실성을 모델링하여 검색 성능을 향상시킬 뿐만 아니라, 임베딩의 해석 가능성을 높여주는 장점을 가집니다. 또한, COCO와 같은 기존 벤치마크의 한계를 지적하며 CUB 데이터셋을 활용한 새로운 평가 방식을 제안합니다. 논문 제목: Probabilistic Embeddings for Cross-Modal Retrieval

ProPy: CLIP 기반의 상호작용적 Prompt Pyramid를 이용한 부분 관련 영상 검색
·
#Video Retrieval#CLIP

ProPy: CLIP 기반의 상호작용적 Prompt Pyramid를 이용한 부분 관련 영상 검색

ProPy는 텍스트 쿼리가 비디오의 특정 부분에만 관련된 경우에 해당 비디오를 검색하는 Partially Relevant Video Retrieval(PRVR) 작업을 위해 제안된 모델입니다. 강력한 pretrained vision-language model인 CLIP의 구조를 PRVR에 맞게 체계적으로 적용한 ProPy는 두 가지 핵심 아이디어를 제시합니다. 첫째, 다중 세분성(multi-granularity) 수준에서 이벤트 의미를 포착하는 Prompt Pyramid 구조를 도입합니다. 둘째, 피라미드 위에서 이벤트 간의 동적인 의미 상호작용을 가능하게 하는 Ancestor-Descendant Interaction Mechanism을 설계합니다. 이 접근법을 통해 ProPy는 비디오 내 이벤트들의 복잡한 관계(intra-segment 및 inter-segment)를 효과적으로 모델링하여 여러 공개 데이터셋에서 SOTA 성능을 달성했습니다. 논문 제목: ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval

Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval
·
#Partially Relevant Video Retrieval#Knowledge Distillation

Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval

본 논문은 Partially Relevant Video Retrieval (PRVR) 문제를 해결하기 위해 Knowledge Distillation을 활용한 Multi-Grained Alignment framework (MGAKD)를 제안합니다. 이 모델은 CLIP 모델을 teacher로 사용하여 cross-modal alignment 지식을 student 모델에 정제하고, student 모델은 inheritance branch와 exploration branch로 구성됩니다. Inheritance branch는 CLIP의 지식을 받아들이고, exploration branch는 frame-level, clip-level, video-level의 세 가지 granularity에서 시각적 특징을 탐색합니다. 특히, clip-level에서는 Gaussian mask를 사용하여 이벤트의 맥락 정보를 모델링하고, video-level에서는 clip-guided attention을 통해 쿼리와 관련된 동영상 특징을 생성하여 관련 없는 순간의 영향을 줄입니다. 논문 제목: Multi-Grained Alignment with Knowledge Distillation for Partially Relevant Video Retrieval

HLFormer: 쌍곡 학습(Hyperbolic Learning)을 통한 부분 관련 비디오 검색 성능 향상
·
#Hyperbolic Learning#Video Retrieval

HLFormer: 쌍곡 학습(Hyperbolic Learning)을 통한 부분 관련 비디오 검색 성능 향상

HLFormer는 텍스트 쿼리가 일부 내용만 설명하는 미편집 비디오를 매칭하는 PRVR(Partially Relevant Video Retrieval) 문제를 해결하기 위해 제안된 최초의 쌍곡 학습(Hyperbolic Learning) 프레임워크입니다. 기존 방법들이 사용하는 Euclidean 공간은 비디오의 본질적인 계층 구조를 왜곡할 수 있는 반면, HLFormer는 쌍곡 공간을 활용하여 이러한 계층적 의미 모델링을 보완합니다. 이 모델은 Lorentz Attention Block과 Euclidean Attention Block을 결합하여 하이브리드 공간에서 비디오 임베딩을 인코딩하고, Mean-Guided Adaptive Interaction Module을 통해 동적으로 특징을 융합합니다. 또한, Partial Order Preservation Loss를 도입하여 "text ≺ video"라는 계층 구조를 기하학적으로 강제함으로써 텍스트와 비디오 간의 부분적 관련성 매칭을 강화합니다. 논문 제목: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning