Yuan, Xu, et al. "mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering." arXiv preprint arXiv:2508.05318 (2025).

mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering

Abstract

최근, **Retrieval-Augmented Generation (RAG)**은 외부 지식 데이터베이스를 생성 과정에 통합하여 **Multimodal Large Language Model (MLLM)**의 내부 지식을 확장하는 방법으로 제안되었으며, 이는 지식 기반 Visual Question Answering (VQA) task에 널리 사용된다. 인상적인 발전에도 불구하고, 비정형 문서에 의존하고 지식 요소 간의 구조적 관계를 간과하는 vanilla RAG 기반 VQA 방법들은 종종 관련 없는(irrelevant) 또는 오해의 소지가 있는(misleading) 내용을 도입하여 답변의 정확성과 신뢰성을 떨어뜨린다. 이러한 문제들을 극복하기 위한 유망한 해결책은 멀티모달 지식 그래프(KGs)를 RAG 기반 VQA 프레임워크에 통합하여 구조화된 멀티모달 지식을 도입함으로써 생성 능력을 향상시키는 것이다.

따라서 본 논문에서는 지식 집약적인 VQA task를 위해 **멀티모달 KG 기반의 새로운 멀티모달 지식 증강 생성 프레임워크( $\mathbf{mKG-RAG}$ )**를 제안한다. 구체적으로, 우리의 접근 방식은 MLLM 기반의 키워드 추출(keyword extraction) 및 vision-text matching을 활용하여 멀티모달 문서에서 의미적으로 일관되고 모달리티 정렬된(modality-aligned) 엔티티/관계를 추출하고, 이를 통해 고품질의 멀티모달 KG를 구조화된 지식 표현으로 구축한다. 또한, **질문 인지 멀티모달 retriever(question-aware multimodal retriever)를 갖춘 이중 단계 검색 전략(dual-stage retrieval strategy)**을 도입하여 검색 효율성을 높이는 동시에 정확도를 개선한다. 포괄적인 실험 결과는 우리의 접근 방식이 기존 방법들을 크게 능가하며, 지식 기반 VQA에서 새로운 state-of-the-art를 달성함을 보여준다.

1 Introduction

Visual Question Answering (VQA) [2, 19]는 비전과 언어 이해가 교차하는 지점의 도전적인 task로, 모델이 이미지를 해석하고 관련 질문에 답하도록 요구한다. 이러한 능력은 의료 영상 진단 [33] 및 고객 서비스 지원 [12]을 포함한 다양한 분야에서 놀라운 발전을 가능하게 했다. 최근, 강력한 시각-언어 이해 및 추론 능력 덕분에 Multimodal Large Language Models (MLLMs) [35, 30, 50, 7]는 기존 VQA task에 대한 유망한 해결책을 제시했다. 예를 들어, LLaVA [35]는 사전학습된 visual encoder를 이미지 표현에 활용하고 대규모 언어 모델(LLMs)의 추론 능력과 결합하여 상식 VQA에서 강력한 zero-shot 성능을 보여준다.
주목할 만한 발전에도 불구하고, MLLMs는 지식 집약적인 VQA 시나리오 [40, 6] (지식 기반 VQA라고도 함)에서 심각한 한계에 직면한다. 특히 백과사전적 지식, long-tail 사실 회상, 또는 즉각적인 시각 입력 이상의 맥락적 추론을 요구하는 경우에 그렇다. Figure 1 (a)에 나타난 바와 같이, 경기장의 최신 리노베이션 날짜에 대해 질문을 받았을 때, 일반적인 MLLMs는 두 가지 특징적인 실패 모드를 보인다: 그럴듯하지만 사실과 다른 응답을 생성하거나, 아예 답변을 거부하는 것이다. 이러한 문제는 MLLMs의 학습 코퍼스에 관련 지식이 부족하고, 저빈도 사실을 기억하는 데 내재된 어려움 [6]에서 비롯된다.

최근 Retrieval-Augmented Generation (RAG) [16]은 외부 지식 데이터베이스를 활용하여 MLLMs의 내부 지식을 보완함으로써 이러한 문제들을 해결하는 데 큰 잠재력을 보여주었으며, 이를 통해 더 정확한 답변 생성을 가능하게 했다 [32, 4, 11]. 구체적으로, 여러 쿼리 관련 문서가 외부 지식 데이터베이스에서 검색되어 MLLMs의 생성 프로세스를 강화하는 in-context 정보로 사용된다.
성공에도 불구하고, 비정형 문서나 단락에 의존하는 vanilla RAG 기반 VQA 방법은 종종 관련 없거나 심지어 오해의 소지가 있는 정보 [38, 51]를 도입하여 생성된 답변의 정확성과 신뢰성을 저해한다. 더욱이, 이러한 접근 방식은 일반적으로 지식 요소들 간의 구조적 관계를 간과하여 MLLMs의 추론 능력을 제한한다. Figure 1 (b)에 나타난 바와 같이, 노이즈가 많고 비정형적인 맥락의 존재는 MLLMs가 관련 supporting evidence를 식별하고 활용하는 것을 어렵게 만든다.
이러한 한계를 극복하기 위한 유망한 방향은 Knowledge Graph (KG) [23]와 같은 구조화된 지식을 검색하여 증강 생성에 활용하는 것이다 [22, 15, 59]. 그러나 본질적으로 멀티모달 추론을 포함하는 VQA 설정에서는 텍스트 KG에만 의존하는 것은 최적의 방법이 아니다. 두 가지 모달리티 모두 관련 지식을 식별하는 데 중요하기 때문이다. 따라서, 멀티모달 Knowledge Graph를 retrieval-augmented VQA 프레임워크에 통합하는 것은 지식 집약적인 시나리오에서 신뢰할 수 있고 정확한 응답을 생성하기 위한 더 강력한 해결책을 제시한다. 이는 Figure 1 (c)에 나타나 있다.

그러나 멀티모달 Knowledge Graph에서 관련 지식을 검색하여 지식 기반 VQA task의 생성을 향상시키는 것은 매우 도전적이다.
첫째, 기성 멀티모달 KG [36]는 일반적으로 일반적인 엔티티를 중심으로 구축되어 있으며, 지식 집약적인 질문에 필요한 백과사전적 또는 long-tail 지식이 부족하여 지식 기반 VQA에 직접 사용하기에는 비효율적이다.
둘째, 지식 기반 VQA [40, 6]에 사용되는 현재 지식 소스는 일반적으로 상당한 맥락적 노이즈를 포함하는 비정형 문서로 구성되어 있어, 고품질 멀티모달 KG를 구축하는 데 필수적인 잘 구조화된 엔티티와 관계를 추출하기 어렵다.
셋째, 수백 개의 엔티티와 관계를 잠재적으로 포함하는 수백만 개의 문서로부터 구축된 대규모 Knowledge Graph는 검색 공간을 크게 확장시킨다. 결과적으로, 이러한 그래프에 대한 직접적인 검색은 계산적으로 비효율적이며 검색 정확도에 부정적인 영향을 미친다.

Figure 1: 지식 기반 VQA의 문제점 설명. (b) Vanilla RA 방법은 단일 모달리티 retriever를 통해 외부 문서에서 비정형 지식을 검색하는 데 어려움을 겪는다. (c) 우리의 mKG-RAG는 멀티모달 Knowledge Graph의 구조적 정보를 사용하여 MLLMs를 증강한다.

위의 문제들을 해결하기 위해, 본 논문은 지식 기반 VQA task에서 MLLMs의 추론 능력을 향상시키기 위해 설계된 멀티모달 Knowledge Graph와 통합된 새로운 retrieval-augmented generation 프레임워크인 mKG-RAG를 제안한다.
더 구체적으로, 비정형 멀티모달 문서(예: Wikipedia 기사)를 구조화된 지식 표현으로 변환하기 위한 멀티모달 Knowledge Graph 구축 모듈이 도입된다. 이 모듈은 MLLM 기반 키워드 추출 및 vision-text alignment를 활용하여 외부 멀티모달 문서에서 의미적으로 일관되고 모달리티 정렬된 엔티티와 관계를 추출한다.
효율적인 검색을 가능하게 하기 위해, mKG-RAG는 coarse-grained 문서 recall과 fine-grained 엔티티/관계 검색을 결합한 이중 단계 검색 패러다임을 개발한다.
Coarse 단계는 관련 증거를 포함할 가능성이 있는 후보 문서를 식별하여 검색 공간을 효율적으로 좁히고, fine 단계는 이러한 잠재적으로 노이즈가 많은 문서에서 동적으로 구축된 멀티모달 KG로부터 쿼리 관련 엔티티와 관계를 검색하여 결과를 정제한다.
검색 과정에서, 고립된 단일 모달리티 retriever에 의존하는 이전 방법들과 달리, 우리는 고품질 질문-증거 데이터셋으로 학습된 질문 인식 멀티모달 retriever를 도입하여 제안된 검색 패러다임 내에서 검색 정확도를 더욱 향상시킨다.
두 가지 자주 사용되는 벤치마크에 대한 포괄적인 평가는 mKG-RAG의 우수한 성능을 입증하며, E-VQA에서 36.3%, InfoSeek에서 40.5%의 정확도를 달성한다.

본 연구의 기여는 다음과 같이 요약된다:

우리는 RAG를 멀티모달 KG와 통합하여 MLLMs의 지식 추론을 향상시키는 새로운 멀티모달 지식 증강 생성 프레임워크인 mKG-RAG를 제안한다. 우리가 아는 한, 이는 지식 집약적인 VQA task에서 멀티모달 Knowledge Graph의 잠재력을 탐구하는 첫 번째 연구이다.
우리 프레임워크는 멀티모달 KG 구축 파이프라인을 개발하여 멀티모달 문서에서 이미지-텍스트 정렬된 엔티티와 관계를 추출할 수 있도록 한다. 또한, 질문 인식 멀티모달 retriever를 포함하는 이중 단계 검색 스키마를 통해 멀티모달 KG가 통합된 RAG의 잠재력을 최대한 발휘할 수 있다.
광범위한 실험은 mKG-RAG가 강력한 baseline들을 크게 능가하며, E-VQA 및 InfoSeek에서 새로운 state-of-the-art 결과를 달성함을 입증한다.

Large Language Model [8, 49, 9, 57, 18, 17, 45, 42]의 빠른 발전 덕분에, Multimodal Large Language Model (MLLM) [35, 50, 55]은 다양한 vision-language task에서 뛰어난 이해 및 추론 능력을 보여주었다. MLLM은 LLM backbone 외에도 두 가지 핵심 구성 요소를 포함한다: vision encoder와 vision-language integration module. 전자는 일반적으로 사전학습된 visual encoder [14]를 사용하며, 후자는 MLP 기반 projector [35], Perceiver [1], Q-Former [13]와 같이 설계가 크게 달라진다. MLLM은 인간의 쿼리를 처리하고 시각적 맥락을 해석하는 데 탁월하지만, 지식 격차(knowledge gaps)와 환각(hallucinations)에 취약하다. 이 문제는 모든 LLM에 내재된 것이지만, 고품질의 대규모 멀티모달 데이터의 제한된 가용성으로 인해 MLLM에서 더욱 두드러진다.

전통적인 VQA [2, 19] 벤치마크가 주로 시각적 맥락 내에서 vision-language 이해를 평가하는 반면, **지식 집약적 VQA (knowledge-intensive VQA)**는 이미지 콘텐츠를 넘어서는 특정 또는 상세한 지식을 요구함으로써 난이도를 크게 높인다. OK-VQA [39] 및 A-OKVQA [48]와 같은 초기 벤치마크는 VQA에서 상식(commonsense knowledge)의 중요성을 강조하며, 이는 대규모의 다양한 코퍼스로 학습된 MLLM에 의해 효과적으로 해결될 수 있다. 그러나 E-VQA [40] 및 InfoSeek [6]은 광범위한 Wikipedia 엔티티를 포함하고 이에 대한 세분화된 지식(fine-grained knowledge)을 요구함으로써 더 큰 도전 과제를 제시했다. 결과적으로, 현대 MLLM은 관련 지식이 없거나 학습 데이터에서 long-tail 분포를 나타내기 때문에 이러한 질문에 정확하게 답변하지 못하는 경우가 많다.

**RAG (Retrieval Augmented Generation)**는 LLM에서 오래된 정보 및 환각과 같은 문제를 해결하기 위해 일반적으로 사용된다 [16, 41]. RAG는 외부 지식을 모델의 내장 능력과 동적으로 결합함으로써, 광범위한 지식을 요구하는 task에 효율적인 접근 방식을 제공한다. 이에 영감을 받아 RAVQA [31], Wiki-LLaVA [4], EchoSight [53]는 지식 집약적 VQA에 retrieval augmentation을 성공적으로 적용했지만, 이들의 retrieval은 멀티모달 쿼리와 텍스트 지식 베이스 간의 modality gap [29]으로 인해 어려움을 겪는다. 최근 연구 [11, 56]는 MLLM을 활용하여 검색된 passage에서 관련 정보를 식별했지만, 이는 MLLM에 대한 여러 번의 호출에 의존하며 상당히 높은 추론 오버헤드를 초래한다. 또한, 기존 RAG 기반 방법은 일반적으로

Figure 2: 우리의 mKG-RAG 개요는 **멀티모달 지식 그래프 구축 파이프라인(상단)**과 **답변 생성을 위한 이중 단계 검색 패러다임(하단)**으로 구성된다.

비정형 문서(unstructured documents)를 검색하여, 검색 소스에 존재하는 노이즈와 지식 요소 간의 논리적 관계를 간과한다. 이는 노이즈가 많고 disorganized된 지식으로 이어져 MLLM의 추론 부담을 증가시킨다. 이 문제를 해결하기 위해 최근 연구는 **Knowledge Graph (KG)**를 활용하여 LLM의 생성 능력을 향상시키는 방안을 모색하기 시작했다 [22, 27, 15, 59, 38]. KG는 엔티티와 그 관계에 대한 구조화된 표현을 제공한다. 그러나 이러한 노력은 주로 텍스트 KG에 초점을 맞추고 있으며, 멀티모달 KG의 잠재력은 크게 탐구되지 않은 상태이다. 이 격차를 해소하기 위해, 본 연구는 멀티모달 KG를 RAG 프레임워크에 통합한 최초의 시도이며, 특히 세분화된 외부 지식을 요구하는 vision-language task를 위해 설계되었다.

3 The Proposed Method: mKG-RAG

지식 기반 VQA (knowledge-based VQA) task에서 모델은 이미지-질문 쌍 ( $I_q, q$ )을 입력으로 받아, 접근 가능한 지식 베이스 $\mathcal{B}$ 를 추가적인 context로 활용하여 텍스트 답변 $a$ 를 생성해야 한다. 우리의 설정에서 지식 소스는 텍스트 기사 $T$ 와 해당 이미지 자산 $I$ 를 모두 포함하는 멀티모달 문서로 구성된다. 즉, $\mathcal{B}=\left\{\left(T_{i}, I_{i}\right)\right\}_{i=1}^{N}$ 이다. 우리가 제안하는 멀티모달 검색 증강 생성(multimodal retrieval-augmented generation) 프레임워크의 핵심 목표는 두 가지이다: (1) 비정형 지식 베이스 $\mathcal{B}$ 를 구조화된 멀티모달 KG로 효과적으로 변환하는 것, (2) 멀티모달 KG에서 쿼리 관련 지식을 정확하게 검색하고, 그 과정에서 내재된 구조적 관계를 포착하여 MLLM의 지식 범위를 확장하는 것.

제안하는 mKG-RAG의 시각적 워크플로우는 Figure 2에 나타나 있으며, 두 가지 핵심 혁신을 보여준다. 첫째, MLLM을 활용하여 일반 멀티모달 문서를 구조화된 지식 표현(즉, 그래프)으로 변환하는 멀티모달 지식 그래프 구축 파이프라인이 도입된다. 둘째, 초기 coarse-grained vector search를 통해 검색된 문서들의 서브그래프(subgraph)로부터 구성된 쿼리별 멀티모달 KG에 대해 fine-grained 그래프 검색을 수행하는 이중 단계 검색 패러다임이 제안된다.

3.1 Multimodal Knowledge Graph Construction

기존의 retrieval-augmented VQA 모델들은 단편적인 텍스트 청크(chunk)를 검색하기 때문에 노이즈가 많은 context에 취약하고 구조적 관계를 간과하는 경향이 있다. 이에 대한 유망한 해결책은 지식 그래프(knowledge graph)와 같은 구조화된 지식 소스에서 정보를 검색하는 것이다.
그럼에도 불구하고, **기성 멀티모달 KG [36]**는 일반적으로 일반적인 엔티티(common entities)를 위해 설계되어 있어, 세부적이거나 long-tail 지식을 포함하는 VQA 사례는 물론, 도메인 특화되거나 심지어 사적인 지식을 다루는 데에는 부적합하다.
따라서 본 연구는 지식 기반 VQA task를 위해, 접근 가능한 멀티모달 문서로부터 의미적으로 일관되고(semantic-consistent) 양식에 정렬된(modality-aligned) 엔티티와 관계를 추출하는 효과적인 멀티모달 KG 구축 파이프라인을 탐구한다.
구체적으로, 각 문서 $(T, I) \in \mathcal{B}$ 에 대해, 여기서 아티클 $T=\left\{t_{1}, \ldots, t_{n}\right\}$ 은 일반적으로 여러 섹션을 포함하고 $I=\left\{i_{1}, \ldots, i_{m}\right\}$ 은 이미지 세트이다. 우리는 먼저 이 문서를 관리 가능한 조각(segment)으로 분할한다.

이미지가 없는 섹션은 고정된 청크 크기 [16]를 기반으로 분할되거나 병합되며,
이미지를 포함하는 섹션은 이미지와 텍스트 간의 정렬을 유지하기 위해 전체적으로 보존된다.

Figure 2에 설명된 바와 같이, 각 세그먼트는 세 가지 주요 모듈에 의해 처리된다. Textual Graph Extraction은 텍스트에서 엔티티와 그 관계를 식별하고, Visual Graph Extraction은 이미지에서 주요 객체와 그 상호작용을 감지한다. 마지막으로, Multimodal Graph Generation 모듈은 텍스트 및 시각 엔티티와 관계를 통합된 멀티모달 그래프로 융합한다.

Textual Graph Extraction
선행 연구 [20]에 따라, 우리는 LLM에 prompt를 주어 각 텍스트 조각을 처리하여 핵심 엔티티(노드)와 의미 있는 관계(엣지)를 식별하고, 이를 통해 텍스트 서브그래프 $\mathcal{G}_{t}=(\mathcal{N}, \mathcal{E})$ 를 형성한다. Figure 2의 예시처럼, $\mathcal{N}$ 의 각 엔티티 $n_{i}$ 는 고유한 이름과 상세한 설명을 포함하며, 이는 후속 검색을 용이하게 하는 추상적인 표현을 제공한다. $\mathcal{E}$ 의 각 관계 $e_{i j}$ 는 head 엔티티와 tail 엔티티 ( $n_{i}, n_{j}$ )를 연결하고 간결한 관계 요약을 포함한다.

Visual Graph Extraction
텍스트 서브그래프는 정보성 엔티티와 관계를 포함하는 텍스트 청크의 골격을 추출했지만, VQA task에서 중요한 구성 요소인 시각적 요소가 부족하다. 단순한 전략은 $\mathcal{G}_{t}$ 에 해당 이미지를 직접 제공하는 것이다 [36]. 그러나 이미지가 종종 여러 객체와 배경 노이즈를 포함한다는 점을 고려하여, 우리는 텍스트 서브그래프를 fine-grained 영역 정보로 보강할 것을 제안한다. Figure 2에 묘사된 바와 같이, 각 영역은 개별 엔티티 또는 두 개 이상의 엔티티 간의 관계를 나타낼 수 있다. 단순화를 위해 본 연구는 이진 관계(binary relationships)에만 초점을 맞추며, hyper-relationships [37]에 대한 연구는 미래 연구로 남겨둔다.
구체적으로, 우리는 Scene Graph Generation (SGG) 기술 [25]을 사용하여 각 이미지 $I$ 에 대한 정확한 visual graph를 추출한다. visual graph는 $\mathcal{G}_{v}=(\mathcal{V}, \mathcal{R})$ 로 공식화되며, 여기서 $\mathcal{V}=\left\{v_{i}\right\}_{i=1}^{N_{v}}$ 는 예측된 카테고리 레이블과 바운딩 박스를 가진 시각 객체 세트를 나타내고, $\mathcal{R}= \left\{r_{i j}\right\}_{i \neq j}$ 는 객체 간의 시각적 관계를 나타낸다. 객체 감지(object detection) [47]와 달리, SGG는 추가적인 관계 정보를 제공하여 효율적인 vision-text 관계 매칭을 용이하게 한다.

Multimodal Graph Generation
구축 파이프라인의 핵심은 텍스트 그래프와 시각 그래프를 의미적으로 일관되고 양식에 정렬된 멀티모달 그래프로 병합하는 과제이다. 이미지-텍스트 유사성 [46]을 기반으로 텍스트 및 시각 엔티티/관계를 직접 매칭하는 것은 얕거나 전역적인 정렬에 국한되며, fine-grained하고 문맥적인 대응 관계를 포착하는 능력이 부족하다. MLLM [35]의 인상적인 vision-language 이해 능력을 고려할 때, 유망한 해결책은 MLLM을 vision-text matcher로 사용하여 의미적으로 일관된 시각 및 텍스트 엔티티/관계를 효과적으로 정렬하는 것이다. 따라서 다음 prompt가 설계되었다:

Vision-Text Matching Prompt: <Prefix Instruction><IMAGE>[Textual Entities & Relationships] [Visual Entities & Relationships]

여기서 <Prefix Instruction>은 텍스트 및 시각 그래프의 입력 형식을 설명하고 MLLM이 엔티티와 관계를 매칭하는 방법을 안내한다. <IMAGE>는 visual graph의 해당 이미지를 나타내며, 추가 영역 없이 원본 이미지만을 포함한다. MLLM이 그래프 구조를 이해할 수 있도록, 우리는 $\mathcal{G}_{t}$ 와 $\mathcal{G}_{v}$ 를 모두 자연어 형식으로 변환한다. $\mathcal{G}_{t}$ 의 경우, 각 엔티티와 관계는 이름과 관련 설명을 사용하여 문장 형식으로 표현된다. $\mathcal{G}_{v}$ 의 시각 객체와 관계는 각각 "<Object-ID>: <category>, <bbox>" 및 "<Relation-ID>: <subject>, <relation>, <object>"로 인코딩된다. 중요하게도, 시각 엔티티는 예측된 카테고리와 정규화된 바운딩 박스만을 포함하며, 이를 통해 MLLM은 실제 영역 이미지 [54] 없이도 <IMAGE> 내에서 해당 영역을 찾을 수 있다. 이 설계는 $\mathcal{G}_{v}$ 의 모든 객체와 관계를 동시에 처리할 수 있도록 하여 효율적인 추론을 가능하게 한다. MLLM이 prefix instruction을 따르고 원하는 출력을 생성하도록 보장하기 위해, 우리는 여러 고품질 예시(exemplars)를 제공하여 추론 능력을 더욱 향상시킨다. 자세한 prompt는 Appendix.A에 제공된다.

vision-text 매칭의 전체 과정은 다음과 같이 표현된다:

\mathcal{M}=\left\{(n, v)_{i}\right\}_{i=1}^{N_{e}} \cup\left\{(e, r)_{j}\right\}_{j=1}^{N_{r}}=\mathcal{F}_{m l l m}\left(I, \mathcal{G}_{t}, \mathcal{G}_{v}\right)

여기서 $\mathcal{M}$ 은 $N_{e}$ 개의 매칭된 엔티티와 $N_{r}$ 개의 매칭된 관계로 구성된 세트를 나타낸다. Figure 2에 묘사된 바와 같이, $v(r)$ 의 이미지 영역은 해당 텍스트 counterpart $n(e)$ 의 속성으로 첨부된다. 시각 관계 $r$ 은 두 객체 영역을 포함하므로, 우리는 그들의 바운딩 박스의 union을 사용하여 이들을 병합한다.
위 단계를 통해, 우리는 각 문서 세그먼트에 대해 이미지-텍스트 정렬된 멀티모달 서브그래프 $\mathcal{G}$ 를 생성한다. 이 서브그래프들은 동일한 노드와 엣지를 병합하여 완전한 그래프로 집계된다. 특히, 동일한 문서의 서브그래프만 병합되어 각 문서가 독립적인 멀티모달 KG를 생성하도록 보장한다. 검색 시, 다른 문서의 관련 KG는 검색 결과에 따라 동적으로 구성된다. 구축 과정은 **쿼리 독립적(query-independent)**이므로, 전체 파이프라인은 오프라인으로 실행될 수 있으며, 각 문서는 한 번만 처리하면 된다.

3.2 Dual-stage Retrieval Paradigm

구축된 멀티모달 KG의 잠재력을 최대한 발휘하기 위해, 우리는 인간의 인지 과정에서 영감을 받은 듀얼 스테이지 검색 프레임워크를 추가로 소개한다. 인간은 익숙하지 않은 멀티모달 쿼리를 접했을 때 일반적으로 다음 두 단계를 거친다: (1) 방대한 외부 멀티모달 소스에서 관련성 있는 supporting evidence를 필터링하고, (2) 추출된 정보를 추론을 위한 일관된 구조로 분석하고 조직화한다 [59]. 우리의 프레임워크는 이에 따라 coarse-grained vector similarity search를 먼저 수행한 후, fine-grained graph retrieval을 구현한다.

Embedding-based Retrieval
수백만 개의 passage를 포함하는 대규모 지식 베이스의 경우, 직접적인 graph retrieval은 비효율적이다. 각 passage가 수백 개의 노드와 엣지를 포함할 수 있어 검색 공간이 크게 확장되기 때문이다. 따라서 우리는 먼저 vector search를 사용하여 coarse-grained recall을 수행하여 후보들을 식별한다. 쿼리 ( $I_q, q$ )와 멀티모달 article 집합 $\left\{\left(T_{i}, I_{i}\right)\right\}_{i=1}^{N}$ 이 주어졌을 때, 다음과 같은 유사도 행렬 $\mathbf{S}$ 를 얻을 수 있다:

\mathbf{S}=\left\{s_{i}=\left\langle\mathcal{E}_{q}\left(I_{q}, q\right) \cdot \mathcal{E}_{e}\left(I_{i}, T_{i}\right)\right\rangle, i=1, \ldots, N\right\}

여기서 $\langle\cdot\rangle$ 는 cosine similarity를 나타내며, $\mathcal{E}_q$ 와 $\mathcal{E}_e$ 는 Figure 3에서 보여지듯이 각각 쿼리와 evidence를 위해 설계된 멀티모달 encoder이다. 행렬 $\mathbf{S}$ 를 기반으로 가장 높은 점수를 받은 상위 $K_d$ 개의 문서가 수집된다.

Graph-based Retrieval
이전 방법들은 후보 문서에서 텍스트 덩어리(chunk)를 직접 검색했는데 [53], 이는 종종 맥락적 노이즈를 유발하고 추론 성능을 저해한다. 이와 대조적으로, 우리의 접근 방식은 graph-based retrieval을 수행하여 쿼리 관련 엔티티와 관계를 식별한다. 이러한 엔티티와 관계는 정제된 지식 표현(distilled knowledge representations)으로 작용하여 노이즈를 크게 줄이고 더 정확한 검색을 가능하게 한다. 구체적으로, 쿼리별 멀티모달 그래프 $\mathcal{G}_m$ 은 첫 번째 단계에서 검색된 후보 문서에 해당하는 오프라인 생성된 서브그래프들을 병합하여 구축된다. 병합을 관련 문서로만 제한함으로써,

Figure 3: Question-aware Multimodal Retriever의 아키텍처 설계.

이러한 온라인 전략은 교차 문서 지식 불일치(cross-document knowledge inconsistencies)로 인해 자주 발생하는 모호한 엔티티와 관계를 효과적으로 줄인다 [15]. 다음으로, 멀티모달 쿼리와 $\mathcal{G}_m$ 내의 각 엔티티/관계 간의 임베딩 유사도를 계산하여 쿼리 관련 엔티티와 관계를 식별한다. 주어진 엔티티와 관계의 임베딩 벡터는 $f_e = \mathcal{E}_e(n, v)$ 및 $f_r = \mathcal{E}_e(e, r)$ 로 공식화될 수 있다. 여기서 상위 $K_g$ 개의 가장 잘 일치하는 후보가 선택된다. 예를 들어, Figure 2의 엔티티 $a_1$ 과 관계 ( $b_2, b_4$ )가 있다. $K_g$ 개의 일치하는 엔티티 또는 관계를 결합하여 관련 서브그래프 $\mathcal{G}_r^0$ 를 얻는다. 그러나 유사도 기반 검색만으로는 불완전한 정보가 나올 수 있으며, 질문에 완전히 답하는 데 필요한 중요한 evidence를 누락할 수 있다. 이를 위해 우리는 그래프의 고유한 구조적 속성을 활용하여 $l$ -hop 이웃의 정보를 통합함으로써 $\mathcal{G}_r$ 를 확장한다. 즉,

\mathcal{G}_{r}^{l}=\operatorname{Graph} \operatorname{Traversal}\left(\mathcal{G}_{m}, \mathcal{G}_{r}^{0}, l\right)

여기서 Graph Traversal은 breadth-first search로 구현된다. 특히, Figure 2의 녹색 노드에서 보여지듯이, 우리는 쿼리 관련 이웃만을 선택적으로 통합한다.

Table 1: E-VQA 세트에서의 검색 성능

Model	Ret. Mode	E-VQA
		R@1	R@5	R@10	R@20	R@50
Nomic-text	$\mathrm{T} \rightarrow \mathrm{T}$	2.0	4.1	5.6	7.8	11.1
Nomic-vision	$\mathrm{V} \rightarrow \mathrm{V}$	9.3	23.0	29.3	36.0	45.6
CLIP ViT-L/14	$\mathrm{T} \rightarrow \mathrm{T}$	2.0	4.7	6.4	8.8	12.1
CLIP ViT-L/14	$\mathrm{V} \rightarrow \mathrm{V}$	$\underline{11.2}$	$\underline{28.5}$	$\underline{36.2}$	$\underline{44.1}$	$\underline{54.8}$
CLIP ViT-L/14	$\mathrm{T} \rightarrow \mathrm{V}$	1.1	3.1	4.6	7.3	12.3
CLIP ViT-L/14	$\mathrm{V} \rightarrow \mathrm{T}$	3.8	10.2	13.6	18.0	23.9
QM-Retriever	MM	18.9	36.8	46.2	55.6	66.7

Table 2: InfoSeek 세트에서의 검색 성능

Model	Ret. Mode	InfoSeek
		R@1	R@5	R@10	R@20	R@50
Nomic-text	$\mathrm{T} \rightarrow \mathrm{T}$	11.0	19.3	24.2	30.4	40.6
Nomic-vision	$\mathrm{V} \rightarrow \mathrm{V}$	35.0	56.5	63.3	69.3	75.5
CLIP ViT-L/14	$\mathrm{T} \rightarrow \mathrm{T}$	9.2	15.8	19.3	23.3	30.0
CLIP ViT-L/14	$\mathrm{V} \rightarrow \mathrm{V}$	$\underline{40.0}$	63.4	70.9	77.7	83.7
CLIP ViT-L/14	$\mathrm{T} \rightarrow \mathrm{V}$	8.5	18.8	24.6	31.7	42.5
CLIP ViT-L/14	$\mathrm{V} \rightarrow \mathrm{T}$	20.1	40.1	49.2	58.3	68.9
QM-Retriever	MM	49.7	71.6	78.0	82.5	89.1

검색된 context는 그래프 요소(엔티티 및 관계)와 그에 연결된 텍스트 세그먼트를 모두 포함한다. 전자는 구조화된 지식 개요를 제공하고, 후자는 맥락적 세부 정보를 제공한다. 마지막으로, 연결된 이미지, 질문 및 context는 MLLM에 입력되어 답변을 생성한다.

Question-aware Multimodal Retriever
표준 멀티모달 검색기는 질문 관련성보다는 의미론적 유사성에 최적화되어 있어, 반환된 내용이 의미론적으로 관련이 있더라도 답변 생성에 필요한 정확한 evidence를 검색하지 못하는 경우가 많다. 이 문제를 해결하기 위해 본 연구는 **VQA task를 위한 evidence 검색을 목표로 하는 Question-aware Multimodal Retriever (QM-Retriever)**를 제안한다. Figure 3에서 보여지듯이, 이 검색기는 Q-Former [28]를 기반으로 추가적인 Visual Encoder $\mathcal{F}_v$ 와 Question Converter $\mathcal{F}_q$ 를 통합하여 개조되었다. 우리는 BLIP-2 [28]의 사전학습된 vision encoder를 $\mathcal{F}_v$ 로 사용하여 이미지 feature를 추출한다. Question Converter는 의문형 질문을 선언형으로 재구성하여 evidence 텍스트와의 문법적 불일치를 해결한다. 이러한 불일치는 검색 정확도를 저해할 수 있기 때문이다. 중요한 점은 재구성 과정이 언어 공간이 아닌 잠재 공간(latent space)에서 발생한다는 것이다. 이미지-질문 쌍 ( $I_q, q$ )이 주어졌을 때, QM-Retriever는 이를 고정된 크기의 임베딩 $Z_q$ 로 인코딩한다:

Z_{q}=\text { Q-Former }\left(Z, \mathcal{F}_{v}\left(I_{q}\right), \mathcal{F}_{q}(q)\right),

여기서 $Z$ 는 Q-Former에 의해 도입된 학습 가능한 토큰 집합이다. 결과 임베딩 $Z_q$ 는 벡터 기반 검색에 사용될 수 있다. QM-Retriever가 evidence encoder로 작동할 때는 Question Converter를 생략한다. QM-Retriever를 최적화하기 위해, EVQA [40]의 학습 세트를 기반으로 쿼리-evidence 데이터셋을 구축한다. 여기서 각 멀티모달 쿼리 ( $I_q, q$ )는 해당 ground-truth evidence ( $I_e, T_e$ )와 쌍을 이룬다. 여기서 $T_e$ 는 evidence 텍스트를 나타내고, $I_e$ 는 evidence 섹션의 관련 이미지를 의미한다. 시각적 내용이 없는 섹션의 경우, 검은색 이미지가 placeholder로 사용된다. 우리의 QM-Retriever 최적화는 두 가지 주요 목표를 포함한다: (1) 질문-Evidence 정렬 (Question-Evidence Alignment). 쿼리 관련 evidence를 검색하기 위해, 우리는 contrastive learning [21, 5]을 사용하여 멀티모달 쿼리와 evidence의 feature를 정렬한다. 이는 배치 내의 negative 쌍과 대조적으로, positive 쿼리-evidence 쌍이 유사한 표현을 갖도록 장려함으로써 이루어진다. 즉,

\mathcal{L}_{\text {con }}=-\log \frac{\exp \left(\operatorname{sim}\left(Z_{q}, Z_{e}\right) / \tau\right)}{\sum_{k=1}^{B} \exp \left(\operatorname{sim}\left(Z_{q}, Z_{k}\right) / \tau\right)} .

여기서 $B$ 는 배치 크기를 나타내고, $\tau$ 는 온도(temperature) 파라미터이다. (2) 질문 재구성 (Question Reformulation). 우리는 LLM을 활용하여 원본 질문 $q$ 를 장면 맥락을 강조하는 선언형 문장 $s$ 로 변환한다. QM-Retriever로 ( $I_q, s$ )를 인코딩하여 선언형 표현 $Z_s$ 를 참조로 얻는다. 그런 다음, Kullback-Leibler divergence를 측정하여 $Z_q$ 와 $Z_s$ 의 분포 간의 divergence를 최소화한다. 마지막으로, 총 목표 함수는 하이퍼파라미터에 의해 제어되는 선형 결합으로 공식화된다:

\mathcal{L}=\mathcal{L}_{\text {con }}+\alpha D_{K L}\left(p\left(Z_{q} \mid I_{q}, q\right) \| p\left(\left(Z_{s} \mid I_{q}, s\right)\right)\right) .

특히, Q-Former는 BLIP-2의 가중치로 초기화되고 $\mathcal{F}_q$ 와 함께 fine-tuning되는 반면, $\mathcal{F}_v$ 는 frozen 상태를 유지한다.

Table 3: E-VQA 및 InfoSeek 데이터셋에서 외부 지식을 사용한 모델의 주요 결과. *는 해당 데이터셋에서 모델이 추가 fine-tuning되었음을 나타낸다. $\dagger$ 및 $\ddagger$ 는 다른 검색기를 사용한 mKG-RAG의 변형을 나타낸다.

Model	LLM / MLLM	Retrieval Mode			E-VQA		InfoSeek
		Retriever	Text	Image	Single-Hop	All	Unseen-Q	Unseen-E	All
Zero-shot MLLMs
BLIP-2 28	Flan-T5XL	-	$\times$	$\times$	12.6	12.4	12.7	12.3	12.5
InstructBLIP [13]	Flan-T5XL	-	$\times$	$\times$	11.9	12.0	8.9	7.4	8.1
LLaVA-v1.5 [34]	Vicuna-7B	-	$\times$	$\times$	16.3	16.9	9.6	9.4	9.5
LLaVA-More [10]	LLaMA-3.1-8B	-	$\times$	$\times$	15.8	16.0	9.0	8.2	8.6
Qwen2-VL [50]	Qwen2-VL-7B	-	$\times$	$x$	19.9	19.7	19.8	18.5	19.2
Retrieval-Augmented Models
RORA-VLM 44	Vicuna-7B	CLIP + GS	$\checkmark$	$\checkmark$	-	20.3	25.1	27.3	-
Wiki-LLaVA* [4]	Vicuna-7B	CLIP ViT-L/14	$\checkmark$	$\times$	21.8	26.4	30.1	27.8	28.9
EchoSight [53]	LLaMA-3.1-8B	EVA-CLIP-8B	$\checkmark$	$\times$	22.4	21.7	30.0	30.7	30.4
EchoSight [53]	LLaMA-3.1-8B	EVA-CLIP-8B	$x$	$\checkmark$	26.4	24.9	18.0	19.8	18.8
mR2AG* [56]	Vicuna-7B	CLIP ViT-L/14	$\times$	$\checkmark$	-	-	40.6	39.8	40.2
ReflectiVA* 11	LLaMA-3.1-8B	EVA-CLIP-8B	$\checkmark$	$\times$	28.0	29.2	40.4	39.8	40.1
ReflectiVA* [11]	LLaMA-3.1-8B	EVA-CLIP-8B	$x$	$\checkmark$	35.5	35.5	28.6	28.1	28.3
Graph Retrieval-Augmented Models
mKG-RAG $\dagger$	LLaMA-3.1-8B	CLIP ViT-L/14	$\checkmark$	$\times$	24.4	23.4	24.1	22.3	23.2
mKG-RAG $\ddagger$	LLaMA-3.1-8B	CLIP ViT-L/14	$\times$	$\checkmark$	24.6	23.7	21.3	19.8	20.6
mKG-RAG	LLaMA-3.1-8B	QM-Retriever	$\checkmark$	$\checkmark$	27.1	26.1	32.9	31.3	32.1
mKG-RAG* $\dagger$	LLaMA-3.1-8B	CLIP ViT-L/14	$\checkmark$	$x$	36.6	34.9	29.8	28.5	29.1
mKG-RAG* $\ddagger$	LLaMA-3.1-8B	CLIP ViT-L/14	$\chi$	$\checkmark$	32.9	31.0	29.4	27.3	28.3
mKG-RAG*	LLaMA-3.1-8B	QM-Retriever	$\checkmark$	$\checkmark$	38.4	36.3	41.4	39.6	40.5

4 Experiments

4.1 Experimental Setup

데이터셋 및 지식 베이스 (Datasets and Knowledge Base)
우리의 방법은 **E-VQA [40]와 InfoSeek [6]**에서 평가되었다. 이 두 데이터셋은 Wikipedia 문서에 연결된 질문-답변 쌍을 포함한다. E-VQA는 2백만 개의 Wikipedia 페이지로 구성된 지식 베이스를 제공하며, 각 질문-답변 쌍은 관련 Wikipedia 문서, 증거 단락, 그리고 연관 이미지로 주석되어 있다. InfoSeek의 경우, 공개된 지식 베이스가 없으므로, 우리는 EchoSight [53]에 의해 필터링된 E-VQA의 10만 개 문서 서브셋을 지식 소스로 활용한다.

구현 세부 사항 (Implementation Details)
우리는 Llama-3.2-11B-Vision 모델을 텍스트 엔티티-관계 인식 및 vision-text 매칭을 포함한 멀티모달 KG Construction을 위한 MLLM으로 사용한다. 지식 베이스 내 이미지에 대한 **scene graph를 생성하기 위해 경량의 1단계 SGG 모델인 EGTR [25]**을 적용한다. 1단계 검색에서는 FAISS [26]를 활용하여 효율적인 근사 최근접 이웃 검색을 수행하고, 상위 10개( $K_d$ )의 가장 잘 매칭되는 문서를 선택한다. 그래프 검색의 경우, 우리는 $K_g$ 와 $l$ 을 각각 10과 1로 경험적으로 설정한다. 별도로 명시되지 않는 한, 우리는 ReflectiVA [11]의 설정에 따라 LLaVA-More [10]를 멀티모달 답변 생성기로 채택한다. 더 자세한 내용은 Appendix.B에 제공되어 있다.

4.2 Performance Comparison

검색 결과 (Results on Retrieval)
QM-Retriever를 사용한 멀티모달 검색의 효과를 평가하기 위해, 우리는 VQA 쿼리에 가장 관련성 높은 문서를 선택하는 데 있어 단일 모달(unimodal) 및 교차 모달(cross-modal) 검색기와 비교 분석을 수행한다. 특히, 우리는 Nomic-Embed-v1.5 [43]와 CLIP ViTL/14@336 [46]을 검색 baseline으로 사용하고, 다음 네 가지 가능한 검색 조합을 조사한다: text-to-text (T→T), vision-to-vision (V→V), text-to-vision (T→V), vision-to-text (V→T).

Table 1과 Table 2는 각각 E-VQA와 InfoSeek 데이터셋에 대한 Recall 점수를 보고한다. QM-Retriever는 모든 baseline 방법들을 일관되게 능가하며, 두 번째로 우수한 접근 방식 대비 평균 9.9% (E-VQA) 및 7.0% (InfoSeek)의 개선을 달성한다. 이러한 강력한 Recall 성능은 mKG-RAG가 fine-grained 검색 단계에서 구축된 매우 관련성 높은 지식 그래프를 기반으로 작동함을 보장하며, 이는 우리의 ablation study에서도 추가적으로 뒷받침된다. 또한, 결과는 V→V 검색이 다른 단일 모달 및 교차 모달 구성보다 일관되게 우수함을 보여주며, 이는 VQA task에서 시각적 콘텐츠의 중요한 역할을 강조한다.

Table 4: 다양한 크기의 MLLM 아키텍처에 대한 E-VQA VQA 정확도

MLLM	E-VQA	InternVL3	LLaMA-3.2	LLaVA-v1.5		DeepSeek-VL2		Qwen2.5-VL
		8B	11B	7B	13B	3B	16B	3B	7B	32B
Zero-shot	Single-Hop	22.4	27.0	15.8	16.1	22.0	22.4	19.1	21.0	27.1
	All	23.0	28.9	16.2	16.6	21.6	22.3	18.9	20.8	27.3
mKG-RAG	Single-Hop	32.7	37.2	25.0	27.7	28.4	31.1	28.9	30.4	36.5
		$\uparrow 10.3$	$\uparrow 10.2$	$\uparrow 9.2$	$\uparrow 11.6$	$\uparrow 6.4$	$\uparrow 8.7$	$\uparrow 9.8$	$\uparrow 9.4$	$\uparrow 9.4$
	All	32.7	38.5	24.6	27.8	27.4	29.9	28.2	29.6	36.5
		$\uparrow 9.7$	$\uparrow 9.6$	$\uparrow 8.4$	$\uparrow 11.2$	$\uparrow 5.8$	$\uparrow 7.6$	$\uparrow 9.3$	$\uparrow 8.8$	$\uparrow 9.2$

Figure 4: E-VQA 데이터셋에 대한 Qwen2-VL-7B, GPT-4o 및 mKG-RAG의 정성적 결과.

E-VQA 및 InfoSeek 결과 (Results on E-VQA and InfoSeek)
이 섹션에서는 mKG-RAG를 Zero-shot MLLM 및 RAG 기반 접근 방식과 위에서 언급된 벤치마크에서 비교한다. Table 3의 결과는 zero-shot MLLM이 지식 기반 VQA task, 특히 InfoSeek 데이터셋에서 어려움을 겪음을 보여준다. 이러한 한계는 외부 지식 통합의 중요성을 강조한다. LLaVA-More를 mKG-RAG로 강화함으로써, 우리는 E-VQA에서 20.3% 이상, InfoSeek에서 31.9%의 상당한 개선을 달성했으며, 이는 검색 증강(retrieval augmentation)의 가치를 부각시킨다. 또한, 우리의 방법은 두 데이터셋 모두에서 state-of-the-art 성능을 달성한다. fine-tuning 설정에서 mKG-RAG*는 mR2AG*와 ReflectiVA*를 모두 능가한다. fine-tuning 없이도 mKG-RAG는 EchoSight를 각각 1.2%와 1.7% 능가한다. 이러한 결과는 RAG를 멀티모달 KG와 통합하는 것의 장점을 강조하고, 우리의 QM-Retriever의 효과를 입증한다. Table 3에는 QM-Retriever를 텍스트 전용 및 비전 전용 CLIP으로 대체한 두 가지 mKG-RAG 변형도 포함되어 있다. 이 변형들은 여전히 QM-Retriever로 검색된 문서를 사용하여 멀티모달 KG를 구축한다. 텍스트 전용 변형에서는 질문과 이미지 캡션이 모두 쿼리로 사용되어 더 많은 컨텍스트를 제공하므로, 비전 전용 버전보다 더 나은 성능을 보인다. 그러나 이 두 변형 모두 QM-Retriever를 사용한 우리의 완전한 접근 방식보다 효과가 떨어진다.

아키텍처 전반의 일관성 (Consistency across Architectures)
Table 4에서는 InternVL3 [58], LLaMA-3.2-Vision 2 LLaVAv1.5 [34], DeepSeek-VL2 [52], Qwen2.5-VL [3]을 포함한 다양한 파라미터 크기의 MLLM에 대한 VQA 점수를 상세히 비교한다. 우리의 mKG-RAG 프레임워크로 강화되었을 때, 이 모델들은 single-hop 쿼리에서 평균 9.4%, 전체 시나리오에서 8.7%의 성능 향상을 달성하며, 이는 다양한 아키텍처와 규모에 걸쳐 이 방법의 강력한 일반화 능력을 보여준다.

정성적 결과 (Qualitative Results)
Figure 4는 mKG-RAG와 zero-shot Qwen2-VL 및 GPT-4o의 정성적 비교를 보여준다. 후자 두 모델은 그럴듯하지만 부정확하거나 회피적인 응답을 생성하는 경향이 있는 반면, mKG-RAG는 지식 집약적인 쿼리, 특히 정확한 수치 및 시간 추론을 포함하는 쿼리를 일관되게 처리한다.

Table 5: mKG-RAG 설계에 대한 ablation study

Method	E-VQA		InfoSeek
	Single-Hop	All	Un-Q	Un-E	All
mKG-RAG	$\mathbf{3 8 . 4}$	$\mathbf{3 6 . 3}$	$\mathbf{4 1 . 4}$	$\mathbf{3 9 . 6}$	$\mathbf{4 0 . 5}$
w/o QM-Retriever	34.2	31.6	38.9	37.9	38.4
w/o Graph Retrieval	30.1	28.2	33.3	32.7	33.0
w/o Graph Expansion	37.2	35.0	40.8	39.4	40.1

Table 6: 검색된 엔티티/관계의 수가 E-VQA의 VQA 정확도에 미치는 영향에 대한 ablation study.

Model	Ret. Mode	$K_{g}=1$	$K_{g}=5$	$K_{g}=10$	$K_{g}=20$
mKG-RAG $\dagger$	Textual	29.1	33.9	34.9	35.9
mKG-RAG $\ddagger$	Visual	23.0	29.6	31.0	32.0
mKG-RAG	Multimodal	$\mathbf{2 9 . 2}$	$\mathbf{3 5 . 1}$	$\mathbf{3 6 . 3}$	$\mathbf{3 6 . 9}$

4.3 Ablation Study

Coarse-grained Retrieval의 영향
Coarse-grained document retrieval의 영향을 정량화하기 위해, 우리는 top- $K_d$ 문서 선택 시 QM-Retriever를 visual-only CLIP (ViT-L/14@336)으로 대체하는 ablation 실험을 수행했다.
Table 5의 결과는 상당한 성능 하락을 보여준다: mKG-RAG의 전체 VQA 정확도는 E-VQA에서 4.7%, InfoSeek에서 2.1% 감소했다. 이 ablation은 첫 번째 단계 retrieval의 중요성과 unimodal 대안보다 QM-Retriever가 우수함을 결정적으로 입증한다.

Graph-based Retrieval의 효과
우리 방법에서 문서에서 추출된 entity와 relationship은 정제된 knowledge graph를 형성하여 노이즈를 줄이고 직접적인 텍스트 청크 매칭보다 더 효과적인 retrieval을 가능하게 한다. 이 통찰력을 검증하기 위해, 우리는 graph-based retrieval을 naive한 chunk-based 대안으로 대체했다. 구체적으로, 검색된 문서를 고정된 크기의 청크로 분할하고 주어진 질문과 이미지 설명에 관련된 청크를 선택했다. Table 5에서 보듯이, chunk-based retrieval은 E-VQA에서 8.1%, InfoSeek에서 7.5%의 상당한 정확도 하락을 초래했다.

Graph Expansion의 기여
mKG-RAG는 $l$ -hop neighbor expansion을 통해 구성된 subgraph를 강화하여, 잠재적으로 누락되었지만 관련성 있는 지식 연결을 효과적으로 포착한다. Table 5는 graph expansion을 생략하면 E-VQA에서 1.3%, InfoSeek에서 0.4%의 일관된 성능 하락을 초래하며, 이는 mKG-RAG에 대한 graph expansion의 중요한 기여를 보여준다.

Retrieval 개수 변화의 영향
Table 6에서는 검색된 entity 및 relationship의 개수 $K_g$ 가 우리 방법에 미치는 영향을 추가로 분석한다. $K_g$ 가 1에서 20으로 증가함에 따라, mKG-RAG 및 그 변형 모델의 전체 정확도는 점진적으로 향상되는데, 이는 더 높은 recall rate가 관련 지식을 포착할 가능성을 높이기 때문이다. 그러나 $K_g > 10$ 일 때는 더 긴 context와 더 많은 노이즈로 인해 이점이 감소한다. 따라서 $K_g=10$ 으로 설정하는 것이 실용적인 trade-off를 제공한다. 특히, mKG-RAG는 graph expansion 전략 덕분에 $K_g=1$ 에서도 경쟁력 있는 성능을 유지하며, 이는 모델이 추가적인 관련 정보를 수집할 수 있도록 한다.

5 Conclusion

우리는 멀티모달 대규모 언어 모델(MLLM)의 지식 한계를 극복하기 위해 멀티모달 지식 그래프(KG)를 통합하는 새로운 검색 증강 생성(retrieval-augmented generation) 프레임워크인 mKG-RAG를 제안한다. 우리의 프레임워크는 **MLLM 기반의 키워드 추출 및 교차 모달 정렬(cross-modal alignment)**을 사용하여 구조화되고 모달리티에 정렬된 KG를 구축한다. 또한, 정확한 지식 증강을 위해 벡터 기반 검색과 그래프 기반 검색을 결합한 이중 단계 검색 시스템을 사용한다. 광범위한 실험 결과, mKG-RAG는 state-of-the-art 방법들을 능가하며, ablation study를 통해 각 구성 요소의 기여도를 검증하였다.

A. Prompt Design

우리의 멀티모달 지식 그래프 구축 파이프라인에서는 LLM의 텍스트 이해 및 생성 능력을 활용하여, 적절한 prompt를 제공함으로써 텍스트 지식 그래프를 자동으로 추출한다. 텍스트 KG 추출은 이전 연구 [15, 20]에서 이미 탐구되었으므로, 우리는 LightRAG [20]의 prompt 템플릿을 그대로 따른다.

우리의 mKG-RAG의 핵심 기여는 텍스트 그래프와 시각 그래프를 멀티모달 그래프로 병합하는 도전 과제에 있다. 이를 위해 우리는 MLLM을 vision-text matcher로 활용하여, **의미적으로 일관된 시각 및 텍스트 엔티티/관계들을 효과적으로 정렬(align)**한다. 이 과정에서 우리는 MLLM을 안내하기 위한 잘 설계된 vision-text matching prompt를 도입하며, 이는 Figure 5에 나타나 있다. 또한, In-context Learning을 위해 MLLM에 여러 고품질 예시를 제공한다. 한 가지 예시는 Figure 6에 설명되어 있다.

B. Implementation Details

QM-Retriever. 제안하는 QM-Retriever에서는 **질문 변환기(Question Converter) $\mathcal{F}_{q}$ **를 도입하여 의문형 질문을 평서문 형태로 변환함으로써, 근거 텍스트와의 문법적 불일치를 줄인다. 이 질문 변환기는 ReLU 활성화 함수로 분리된 두 개의 선형 투영(linear projection) layer로 구성된다. 이 변환은 잠재 공간(latent space)에서 수행되며, $\mathcal{F}_{q}$ 는 원래 질문의 단어 임베딩을 평서문 표현으로 재구성한 후 Q-Former의 BERT encoder로 전달한다.

학습 과정에서 질문 변환기 $\mathcal{F}_{q}$ 와 Q-Former는 함께 최적화되며, Visual Encoder $\mathcal{F}_{v}$ 는 고정(frozen) 상태로 유지된다. QM-Retriever는 221K개의 query-evidence 쌍으로 구성된 주석 데이터셋으로 25 epoch 동안 학습된다. 이때 AdamW optimizer와 초기 학습률 $10^{-5}$ 의 CosineLR scheduler를 사용한다. 학습 설정에는 batch size 64, KL divergence 계수 2, 입력 이미지 크기 $224 \times 224$ , 그리고 질문과 근거 모두에 대해 최대 토큰 길이 512가 포함된다.

Fine-tuning. ReflectiVA [11]의 실험 설정에 따라, 우리는 LLaVA-More [10]를 멀티모달 답변 생성기(multimodal answer generator)로 채택한다. ReflectiVA가 관련 passage 필터링 및 답변 생성에 특화되어 최적화되었으므로, 우리는 이 설정과의 일관성을 보장하기 위해 우리의 방법(mKG-RAG*)을 이에 맞춰 fine-tuning한다. LoRA adapter [24]를 사용하여 파라미터 효율적인 튜닝을 수행하며, 총 batch size 32와 **학습률 $1.5 \times 10^{-4}$ **를 사용한다. 모델의 기존 MLLM 벤치마크 성능을 유지하기 위해, LLaVA-Instruct-150K 데이터셋 [35]의 샘플을 fine-tuning 데이터셋에 추가한다. Wiki-LLaVA [4]의 전략에 따라, 이러한 예시들의 샘플링 확률을 높여 각 mini-batch의 약 절반을 차지하도록 한다.

Vision-Text Matching Prompt

제공된 이미지, visual scene graph, 그리고 텍스트 엔티티 및 관계를 기반으로, 이미지 내의 시각적 객체/관계와 제공된 텍스트 엔티티/관계를 매칭하시오.

Input Format:

각 텍스트 엔티티는 ("entity"|<entity-name>|<entity-type>|<entity-description>) 형식으로 구성되며, 다음 정보를 포함한다:

entity-name: 엔티티의 이름;
entity-type: 엔티티 유형의 이름;
entity-description: 엔티티의 속성 및 활동에 대한 포괄적인 설명.

각 텍스트 관계는 ("relation"|<source-entity>|<target-entity>|<relation-description>|<relation-strength>) 형식으로 구성되며, 다음 정보를 포함한다:

source-entity: 텍스트 엔티티에 정의된 source 엔티티의 이름;
target-entity: 텍스트 엔티티에 정의된 target 엔티티의 이름;
relation-description: source 엔티티와 target 엔티티가 서로 관련되는 이유에 대한 설명;
relation-strength: source 엔티티와 target 엔티티 간의 관계 강도를 나타내는 0에서 10까지의 숫자 점수.

장면 그래프는 이미지 내 객체 및 관계 정보를 제공하며, 다음 형식으로 구성된다:

<object-0>: <object-category>, <object-bbox>
<object-1>: <object-category>, <object-bbox> ...
<relation-0>: <object-0> <relation-name> <object-1>
<relation-2>: <object-1> <relation-name> <object-3>

Matching Steps:

Step 1. 이미지 전체와 가장 관련성이 높은 텍스트 엔티티를 식별하고 다음 정보를 추출한다:

entity-name: 이미지 전체를 가장 잘 나타내는 엔티티의 이름;
strength: 일치 강도를 나타내는 0에서 10까지의 숫자 점수. 이미지 매칭은 ("matching"|<image>|<entity-name>|<strength>) 형식으로 지정한다.

Step 2. 씬 그래프(scene graph)의 각 객체에 대해, 해당 객체가 입력 데이터에서 식별된 텍스트 엔티티를 시각적으로 묘사하는 경우 다음 정보를 추출한다:

object-id: 씬 그래프 내 객체의 ID;
entity-name: 해당 객체가 나타내는 엔티티의 이름;
strength: 일치 강도를 나타내는 0에서 10까지의 숫자 점수. 각 객체 매칭은 ("matching"|<object-id>|<entity-name>|<strength>) 형식으로 지정한다.

Step 3. 씬 그래프의 각 관계에 대해, 해당 관계가 입력 데이터에서 식별된 텍스트 관계를 시각적으로 나타내는 경우 다음 정보를 추출한다:

relation-id: 씬 그래프 내 관계의 ID;
source-entity: 해당 관계가 나타내는 관계의 source 엔티티;
target-entity: 해당 관계가 나타내는 관계의 target 엔티티;
strength: 일치 강도를 나타내는 0에서 10까지의 숫자 점수. 각 관계 매칭은 ("matching"|<relation-id>|<source-entity>|<target-entity>|<strength>) 형식으로 지정한다.

Step 4. 해당 텍스트 엔티티 또는 관계가 없는 객체나 관계는 무시한다.

Figure 5: 시각적 및 텍스트 엔티티/관계를 매칭하는 데 사용된 prompt

Vision-Text Matching Example

Textual Entities:

Textual Relationships:

("relationship"|MOUNT FUJI|HONSHU ISLANDIMount Fuji is located on Honshu Island, making the island its geographical setting.l9) ("relationship"IMOUNT FUJIICHERRY BLOSSOMSIBoth Mount Fuji and cherry blossoms are iconic symbols of Japan, often celebrated together in cultural contexts.l8) ("relationship"IMOUNT FUJIISHINKANSENIMount Fuji and the Shinkansen are both recognized as national symbols of Japan.17)

Image Description: 후지산과 그 앞을 지나가는 신칸센 전기차.

Scene Graph:

<object-0>: train, ( $0.06,0.64,1.0,0.77$ )
<object-1>: fence, ( $0.0,0.8,0.98,0.88$ )
<object-2>: snow, ( $0.25,0.29,0.67,0.49$ ) -<object-3>: mountain, ( $0.0,0.3,1.0,0.64$ ) -<relation-0>: <object-0> over <object-1>
<relation-1>: <object-2> on <object-3> -<relation-2>: <object-3> behind <object-0>

Output:

Figure 6: In-context Learning을 위한 고품질 vision-text matching 예시