mKG-RAG: Multimodal Knowledge Graph 기반의 RAG를 통한 Visual Question Answering 성능 향상
mKG-RAG는 비정형 문서에 의존하는 기존 RAG 기반 VQA 방식의 한계를 극복하기 위해 Multimodal Knowledge Graph (KG)를 통합한 새로운 프레임워크이다. 이 방식은 MLLM을 활용하여 비정형 멀티모달 문서에서 구조화된 지식을 추출해 고품질 Multimodal KG를 구축한다. 또한, 효율적인 검색을 위해 거친 문서 검색과 세밀한 그래프 검색을 결합한 dual-stage retrieval 전략과 question-aware multimodal retriever를 도입하여 검색 정확도를 높였다. 이를 통해 지식 기반 Visual Question Answering (VQA) 태스크에서 기존 방법들을 능가하는 최신 기술(SOTA) 성능을 달성했다. 논문 제목: mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering