Nacson, Mor Shpigel, et al. "Docvlm: Make your vlm an efficient reader." Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.

DocVLM: Make Your VLM an Efficient Reader

Abstract

**Vision-Language Model (VLM)**은 다양한 시각 task에서 뛰어난 성능을 보이지만, 세밀한 텍스트 처리가 필요한 문서 이해(document understanding) 분야에서는 어려움을 겪는다. 일반적인 시각 task는 저해상도 입력으로도 잘 작동하지만, 읽기 집약적인(reading-intensive) 애플리케이션은 고해상도를 요구하며, 이는 상당한 계산 오버헤드를 초래한다. VLM prompt에 OCR로 추출된 텍스트를 사용하는 방식은 이 문제를 부분적으로 해결하지만, 최적의 성능에 필요한 완전한 시각적 맥락이 부족하여 전체 해상도 입력 방식보다 성능이 떨어진다.

우리는 DocVLM을 소개한다. DocVLM은 OCR 기반 modality를 VLM에 통합하여 문서 처리 능력을 향상시키면서도, 기존 VLM의 가중치를 보존하는 방법이다. 우리의 접근 방식은 OCR encoder를 사용하여 텍스트 콘텐츠와 레이아웃을 캡처하고, 이를 VLM에 통합되는 compact한 학습된 쿼리(learned queries) 세트로 압축한다.

주요 VLM들을 대상으로 한 포괄적인 평가 결과, DocVLM은 문서 이해를 위한 고해상도 이미지 의존도를 크게 줄여준다는 것을 보여준다.

**제한된 토큰 환경( $448 \times 448$ $448 \times 448$ )**에서, 64개의 학습된 쿼리를 사용하는 DocVLM은
- InternVL2에 통합되었을 때 DocVQA 결과가 56.0%에서 86.6%로 향상되었고,
- Qwen2-VL에 통합되었을 때 84.4%에서 91.2%로 향상되었다.
LLaVA-OneVision에서는 이미지 토큰 사용량을 80% 줄이면서도 DocVLM이 향상된 결과를 달성했다.

이러한 토큰 사용량 감소는 여러 페이지를 효과적으로 처리할 수 있게 하며, DUDE 벤치마크에서 인상적인 zero-shot 결과를, MP-DocVQA 벤치마크에서 state-of-the-art 성능을 보여준다. 이는 고성능과 효율성을 요구하는 애플리케이션에서 DocVLM의 잠재력을 강조한다.

1. Introduction

이미지 내 텍스트를 읽고 해석하는 능력은 수많은 실제 애플리케이션, 특히 문서 이해(document understanding) 분야에서 매우 중요하다. 이 분야는 밀집 텍스트(dense-text) 문서부터 인포그래픽, 다중 페이지 문서에 이르기까지 다양한 문서 유형을 포함하며 [25, 38-40, 49], 텍스트 이해, 레이아웃 이해, 시각적 해석 능력을 요구하는 task들을 수반한다. VLM의 발전에도 불구하고, 이러한 문서들을 처리하는 것은 여전히 어렵다 [37]. 이는 주로 해상도 요구 사항과 계산 효율성 간의 충돌 때문이다. 일반적인 컴퓨터 비전 task는 저해상도 입력(일반적으로 $224 \times 224$ 또는 $336 \times 336$ 픽셀)으로도 좋은 성능을 달성하지만, 문서 분석은 훨씬 더 높은 해상도를 요구하여 상당한 계산 오버헤드를 초래한다 [10, 59].

Figure 1. DocVLM은 VLM의 읽기 능력을 향상시킨다. DocVLM(실선)을 최고 성능의 VLM(점선)에 통합하면 모든 token budget에서 성능이 일관되게 향상되며, 더 높은 token 수에서는 baseline을 자주 능가한다.

이러한 문제들을 해결하기 위해, 일부 방법들은 OCR로 추출된 텍스트를 language model prompt에 직접 통합한다 [8, 17]. 그러나 이 접근 방식은 중요한 시각적 맥락과 레이아웃 정보를 포착하지 못하기 때문에, 일반적으로 full-resolution을 사용하는 OCR-free 방법보다 성능이 떨어진다 [53]. 더욱이, 이는 긴 시퀀스 입력을 생성하여 특히 밀집된 문서의 경우 지연 시간과 계산 비용을 증가시킨다.

대안으로, 최근 VLM [20, 31, 52]은 이미지 크기 조정, 타일링 제한, feature downsampling과 같은 시각 token 수를 줄이는 전문화된 메커니즘을 도입했다. 그러나 이러한 방법들을 문서 이해에 적용하면 성능이 크게 저하되어 계산 효율성과 정확도 사이에 바람직하지 않은 trade-off가 발생한다 (Figure 1 참조). 이러한 한계점들은 계산 요구 사항을 줄이면서도 고성능 문서 이해를 유지하는 보다 효율적인 접근 방식의 필요성을 강조한다.

이러한 한계점들을 극복하기 위해, 우리는 OCR 정보를 효과적으로 활용하여 VLM의 읽기 능력을 향상시키는 모델-불가지론적(model-agnostic) 방법인 DocVLM을 소개한다. 우리의 접근 방식은 OCR encoder를 사용하여 OCR로 추출된 텍스트에서 맥락적 및 레이아웃 세부 정보를 모두 캡처하고, 이 인코딩을 64개의 학습된 query로 압축한다. 이 query들은 시각 feature와 함께 VLM의 LLM 부분에 직접 투영되어 입력된다. 일부 이전 방법들 [5, 19, 30, 32]과 달리, 우리의 압축 메커니즘은 별도의 압축 모듈이나 LLM 아키텍처 변경의 필요성을 피한다.

우리는 DocVLM의 효과를 여러 state-of-the-art VLM에서 입증한다: **LlaVA-OneVision [31], InternVL2 [18], Qwen2-VL [52]**은 각각 고유한 이미지 token 감소 기술을 사용한다. Figure 1에서 보듯이, 우리의 방법은 특히 낮은 입력 token 환경에서 성능을 크게 향상시킨다. 우리의 실험은 연구된 모든 VLM과 시각 token budget에서 DocVLM의 OCR encoder가 OCR 단어를 VLM에 삽입하는 baseline보다 우수할 뿐만 아니라, 단 64개의 token으로 압축되었을 때도 이러한 우수한 성능을 달성함을 일관되게 보여준다. 이러한 향상된 성능과 감소된 token 사용량이라는 이중 이점은 고정된 token budget을 더 잘 활용하게 하여, 시각 처리에 더 많은 token을 할당하고 전반적인 성능을 더욱 향상시킨다.

중요하게도, 이러한 시퀀스 길이 감소는 우리 접근 방식의 확장성을 향상시켜, 추가 학습 없이 다중 페이지 문서 이해 task에 적용할 수 있게 한다. 우리는 DocVLM이 다중 페이지 DocVQA [49, 50]와 같은 long-context 시나리오로 원활하게 확장될 수 있음을 보여준다. 현재의 OCR-free 접근 방식은 다중 페이지 문서의 방대한 데이터 양으로 인해 어려움을 겪지만 [27], 우리의 방법은 DUDE에서 강력한 zero-shot 성능을 달성하고, 다중 페이지 데이터로 학습되지 않았음에도 MP-DocVQA에서 현재 state-of-the-art 결과(86.3% 대 80.3%)를 능가한다.

Main contributions:

DocVLM: 복잡한 통합 기술 없이도 텍스트와 레이아웃 정보를 모두 포착하여 OCR 정보를 VLM에 효율적으로 통합하는 모델 불가지론적(model-agnostic) 방법이다.
압축 메커니즘: OCR 데이터를 일반적으로 **64개의 학습된 쿼리(learned queries)**로 구성된 압축된 세트로 줄여, 계산 오버헤드를 크게 감소시킨다.
DocVLM의 효과 입증: LlaVA-OneVision, InternVL2, Qwen2-VL 등 다양한 VLM 아키텍처에서 DocVLM의 효과를 입증했으며, 낮은 입력 토큰 환경( $448 \times 448$ )에서 상당한 성능 향상을 보여주었다.
DocVLM의 장문 컨텍스트(long-context) task 확장: 멀티페이지 학습 데이터 없이도 DUDE에서 강력한 zero-shot 성능을 달성하고, MP-DocVQA에서 SOTA 결과를 기록했다.

OCR-free Document VLM
초기 VLM들 [5, 9, 22, 23, 32, 36, 43, 58, 60]은 비교적 작은 이미지 크기(예: $224 \times 224$ , $336 \times 336$ )를 사용하여 자연 이미지 task에서는 좋은 성능을 보였지만, 문서 이해(document understanding)에서는 부족한 모습을 보였다. 이를 해결하기 위해 최근 접근 방식들은 고해상도 이미지 처리를 통해 문서 이해 능력을 향상시키고 있으며, 이로 인해 발생하는 연산 부담을 관리하기 위한 다양한 전략을 개발하고 있다.
**Donut [29], PaLI-X [16], Qwen2-VL [52]**과 같은 직접 처리 방식은 전체 해상도 처리를 시도하지만, 연산 효율성을 위해 이미지 크기 조절(resizing)에 의존하는 경우가 많다.
**UReader [55] 및 InternVL2 [18]**와 같은 타일 기반 접근 방식은 이미지 타일을 독립적으로 처리하여 효율성을 높인다.
**LLaVA-1.5 [31] 및 LLaVA-OneVision [35]**으로 대표되는 다른 방법들은 전체 크기 이미지를 타일로 처리하지만, 결과로 생성되는 visual feature를 다운샘플링한다.
이러한 접근 방식들은 각기 다른 trade-off를 제공하지만, 우리의 실험 결과에 따르면 visual token의 수가 제한될 때 성능이 크게 저하되는 것으로 나타났다.

OCR-Enhanced Document Understanding
효율적인 오픈소스 OCR 모델과 비용 효율적인 상용 솔루션의 광범위한 가용성은 문서 이해 분야에서 OCR 기반 접근 방식의 광범위한 채택을 이끌었다 [1-4, 21, 28, 34, 42, 45, 56, 57]. 최근 몇몇 연구들 [9, 16, 17, 19]은 추출된 텍스트를 language model 구성 요소에 직접 입력함으로써 OCR 시스템을 VLM과 통합하는 방식을 탐구해왔다. 일부 접근 방식은 공간 레이아웃 정보 [12, 14, 22, 51, 53]를 통합하여 이러한 통합을 더욱 강화한다. 이러한 방법들은 고해상도 이미지 처리의 연산 부담을 줄여주지만, 현재로서는 OCR-free 접근 방식에 비해 성능이 뒤처진다. 또한, 특히 다중 페이지 설정에서 긴 입력 시퀀스에 대한 문제에 직면하며, 이는 지연 시간과 연산 비용을 증가시킬 수 있다.

문서 표현 압축 (Document Representation Compression)
문서 처리의 효율성 문제를 해결하기 위해 다양한 압축 기술이 개발되었다. OCR-enhanced 접근 방식의 경우, [14]는 Compression Transformer를 사용하여 다중 페이지 문서의 OCR 신호를 압축하는 방법을 제안했는데, 이는 다중 페이지 벤치마크에서 성능을 향상시켰음에도 불구하고 시스템에 상당한 복잡성을 추가한다.
OCR-free 설정에서는 **Q-former [32] 및 Resampler [5]**와 같은 일반 VLM 접근 방식이 visual feature를 압축하지만, 텍스트 밀도가 높은 이미지에서는 어려움을 겪는다.
**TokenPacker [33] 및 DocCompressor [27]**와 같은 문서 특정(document-specific) 방법은 효과적인 시각 압축을 달성하지만, 문서 이해 task에서는 성능이 저하되는 경향을 보인다.
이와 대조적으로, 우리의 DocVLM 방법은 고해상도 시각 입력을 압축하는 대신, 저해상도 이미지에서 작동하며 텍스트 및 레이아웃 정보를 포함하는 광범위한 OCR 신호를 압축하여 컴팩트한 feature 세트(일반적으로 64개)로 변환한다.

3. Our Method

우리는 VLM의 문서 판독 능력을 향상시키는 모델 불가지론적(model-agnostic) 접근 방식인 DocVLM을 제시한다. DocVLM은 더 낮은 해상도의 입력으로도 작동할 수 있게 하면서도, 문서 이해 정확도를 유지하거나 향상시킨다. 우리의 설계는 기존 VLM의 가중치를 보존하여, 다양한 모델 아키텍처에 쉽게 통합될 수 있도록 하며, 추론 시 OCR 토큰과 visual 토큰의 균형을 유연하게 조절할 수 있는 기능을 제공한다.

3.1. Architecture

우리의 방법은 기존 VLM 아키텍처를 보완하는 두 가지 주요 구성 요소를 도입한다: OCR로 추출된 텍스트와 레이아웃 정보를 처리하는 OCR encoder, 그리고 이 정보를 압축된 표현으로 증류하는 쿼리 압축 메커니즘이다. 우리는 이러한 구성 요소를 사전학습된 VLM과 통합하며, VLM은 효율적인 처리를 위해 시각 토큰의 수를 제어하는 다양한 전략을 사용한다. Figure 2는 전체 아키텍처를 보여준다.

OCR Encoder 아키텍처
우리는 문서 이해를 위해 설계된 T5 기반 encoder-decoder [44]인 DocFormerV2 [7]를 활용한다. DocFormerV2는 비전, 언어, 공간 feature를 통합한다. 특히, 우리는 3억 4,400만 개의 파라미터로 구성된 encoder 구성 요소만 활용하며, VLM의 비전 기능과의 중복을 제거하고 계산 복잡도를 줄이기 위해 시각 브랜치(visual branch)는 생략한다. 이 encoder는 두 가지 유형의 입력을 처리한다: **사용자 지침(user instructions)**과 OCR 시스템에서 얻은 OCR 데이터로, 이는 텍스트 토큰과 해당 2D 위치 정보로 구성된다 [6, 7, 12, 14, 22, 26].

쿼리 압축 메커니즘
OCR 정보를 VLM에 효율적으로 통합하기 위해, 우리는 OCR encoder의 출력을 압축된 학습된 쿼리 세트로 증류하는 instruction-aware 압축 메커니즘을 도입한다. 이 메커니즘은 언어 모델의 입력 시퀀스 길이를 크게 줄이면서도 필수적인 문서 정보는 보존한다. 압축 과정은 $M$ 개의 학습 가능한 쿼리 $\mathbf{Q}$ (일반적으로 $M=64$ )를 사용하며, 이 쿼리들은 OCR encoder embedding의 분포를 따라 무작위로 초기화된다. 이 쿼리들은 **OCR 토큰과 해당 바운딩 박스를 모두 인코딩하는 OCR embedding ( $\mathbf{E}_{\text {OCR }}$ )**과 **instruction embedding ( $\mathbf{E}_{\text {Instructions }}$ )**이라는 두 가지 유형의 embedding과 함께 OCR encoder에 의해 처리된다. 인코딩 과정은 다음과 같이 표현될 수 있다:

\text { Encoder }\left(\left[\mathbf{E}_{\mathrm{OCR}}, \mathbf{E}_{\text {Instructions }}, \mathbf{Q}\right]\right) \text {. }

encoder 출력에서 우리는 학습된 쿼리에 해당하는 $M$ 개의 feature만 유지한다. 이 압축된 feature들은 VLM의 hidden dimension에 맞게 투영된 후, 언어 모델에 들어가기 전에 시각 토큰과 연결된다. 이 압축은 LLM의 입력 시퀀스 길이를 크게 줄여, 더 효율적인 처리를 가능하게 하거나, 고정된 토큰 예산 내에서 시각 feature에 추가 토큰을 할당할 수 있게 한다.

Figure 2. DocVLM 아키텍처. DocVLM은 쿼리 압축 메커니즘을 갖춘 OCR 모듈을 통합하여 frozen VLM의 문서 이해 능력을 향상시킨다. OCR 데이터를 $M=64$ 개의 학습 가능한 토큰으로 압축함으로써, DocVLM은 이미지 해상도 또는 시각 feature 차원을 증가시키는 VLM의 고유한 접근 방식을 능가하며 시각 정보를 효과적으로 보완한다.

Vision Process
OCR-free VLM은 문서 이해에 필요한 고해상도 이미지 처리의 계산 비용을 줄이기 위해 다양한 시각 처리 방법과 시각 토큰 수를 제어하는 여러 전략을 사용한다. 이러한 접근 방식은 크게 세 가지 주요 패러다임으로 분류할 수 있다:

이미지 크기 조절을 통한 전체 이미지 처리 (예: Qwen2-VL [52]): 이 접근 방식에서는 모델이 전체 이미지를 단일 입력으로 처리하며, 이미지 크기를 고정되거나 범위가 제한된 해상도로 조절하여 시각 토큰의 수를 제어한다. 이 이미지 처리는 전역 컨텍스트를 보존하지만, 시각 토큰 수에 대해 2차적인 계산 복잡도를 발생시킨다.
타일 수 제어를 통한 패치 기반 처리 (예: InternVL2 [18]): 이 전략은 입력 이미지를 공간 타일로 분할하고, 각 타일을 독립적으로 처리하며, 타일 수를 제한하여 시각 토큰 수를 제어한다. 대부분의 구현은 저해상도 전역 뷰를 포함하지만, 지역 처리에 주로 초점을 맞추면 전역 컨텍스트 이해가 저해될 수 있다. 이 접근 방식의 계산 복잡도는 이미지가 증가함에 따라 타일 수에 비례하여 선형적으로 증가한다. 그 결과, 특히 대형 이미지의 경우 전체 이미지를 한 번에 처리하는 것보다 메모리 효율성이 향상된다.
Feature 다운샘플링을 통한 전체 스케일 처리 (예: LlaVA-OneVision [35]): 일부 VLM은 처음에 전체 스케일 이미지를 처리하지만, 그 다음 시각 feature를 최대 토큰 수로 다운샘플링하여 LLM에 공급한다. 이 방법은 전역 및 지역 컨텍스트를 모두 캡처하지만, 초기 전체 스케일 처리 동안 상당한 계산 오버헤드를 발생시킨다.

실험 결과는 우리의 OCR 쿼리 압축 메커니즘이 세 가지 시각 처리 전략 모두에서 문서 이해 능력을 크게 향상시킨다는 것을 확인시켜주며, 이는 기존 VLM 아키텍처에 대한 보편적인 향상으로서의 효과를 입증한다.

3.2. Training Strategy

우리의 학습 전략은 기존 VLM의 핵심 강점을 유지하면서 OCR 모달리티를 통합하는 것을 목표로 한다. 이를 위해 우리는 **학습 과정 내내 VLM을 완전히 고정(frozen)**시키고, 새롭게 도입된 OCR 구성 요소들(즉, 학습 가능한 query, OCR encoder, projection layer)만 학습시킨다. 우리는 사전학습된 VLM에 OCR 모달리티를 점진적으로 통합하기 위해 두 단계 학습 전략을 사용한다:

Stage I: OCR-LLM Alignment.
이 단계에서는 VLM에 이미지 입력을 제공하지 않고, 모델이 새롭게 도입된 OCR 모달리티에만 의존하도록 강제한다. 이 접근 방식은 OCR 데이터의 완전한 활용을 보장하고, OCR 구성 요소를 LLM 입력 공간에 정렬시키며, 시퀀스 길이를 줄여 학습 효율성을 향상시킨다. 텍스트 입력에 중점을 두기 때문에, 데이터셋 선택은 텍스트 관련 task에 집중한다. 우리는 먼저 무작위로 초기화된 구성 요소들(학습 가능한 query와 projection layer)만 학습시킨다. 이를 통해 이 구성 요소들이 사전학습된 OCR encoder를 방해하지 않고 적응할 수 있도록 한다. 이후, OCR encoder를 unfreeze하여 fine-tuning함으로써, 전체 encoder가 VLM에 더욱 포괄적으로 정렬될 수 있도록 한다.

Stage II: Vision Alignment.
이 마지막 단계에서는 visual encoder에서 추출된 시각 정보를 통합하여, OCR 구성 요소들이 시각 feature를 보완하도록 유도한다. 우리의 실험 결과, 이 단계는 학습된 query의 수가 적을 때 특히 강력한 효과를 보이며, 압축된 OCR 정보가 시각 모달리티로부터 얻은 정보를 더 잘 보완할 수 있도록 한다 (Sec. 5 참조). 이 단계에서는 시각 정보에 더 중점을 둔 데이터셋을 학습 과정에 추가한다.
우리의 방법은 원래 VLM 가중치를 보존하지만, prompt tuning을 통해 암묵적으로 편향을 주입할 수 있음에 유의해야 한다. 이를 피하기 위해 학습 데이터는 관심 있는 모든 task를 대표해야 한다.

3.3. Multipage Document Extension

우리는 단일 페이지 데이터에 대해서만 학습 절차를 수행한다. 그러나 우리의 접근 방식은 다중 페이지 문서에도 확장하여 적용될 수 있다. 다중 페이지 입력과 그 OCR 정보가 주어졌을 때, VLM은 각 페이지 이미지를 독립적으로 처리하고, 그 결과로 얻은 **시각적 feature들을 연결(concatenate)**한다. OCR 정보 처리를 위해 우리는 두 가지 전략을 탐구한다:

Global Encoding: 전체 문서의 OCR 정보를 64개의 학습 가능한 쿼리로 압축하는 방식.
Page-wise Encoding: 각 페이지의 OCR 정보를 개별적으로 64개의 학습 가능한 쿼리로 압축한 다음, 이들을 연결하여 (64 × 페이지 수)개의 학습된 쿼리를 생성하는 방식.

두 전략 중 하나를 사용하여 OCR 정보를 처리한 후, 결과로 얻은 압축된 OCR feature와 연결된 시각적 feature를 LLM에 입력한다.

우리의 실험은 두 접근 방식 모두 다중 페이지 문서를 처리하는 데 매우 효과적이고 효율적임을 보여준다. 제한된 수의 visual token을 사용하여 두 접근 방식 중 하나를 적용했을 때, 우리는 DUDE [50]에서 강력한 zero-shot 결과를 얻었으며, MP-DocVQA [49]에서는 state-of-the-art 결과를 달성했다. Page-wise encoding 전략은 visual token 수가 적을 때 약간 더 나은 결과를 보인다.

4. Experiments

4.1. Experimental Setting

모델 통합 (Model Integration): 우리는 LLaVA-OneVision [31], InternVL2 [18], Qwen2-VL [52] 세 가지 주요 오픈소스 VLM과의 통합을 통해 DocVLM을 평가한다. Section 3.1에서 논의했듯이, 이 모델들은 각기 다른 token reduction 전략을 사용하므로, DocVLM의 효과를 다양한 시각 처리 접근 방식에 걸쳐 평가할 수 있다.

학습 (Training): Section 3.2에 자세히 설명된 우리의 학습 프로토콜은 두 단계 전략을 사용한다. 초기 단계는 **문서 이해(DocVQA [39], InfoVQA [40]), 장면 텍스트 분석(ST-VQA [11], TextVQA [47], OCR-VQA [41]), 그리고 특수 task(ChartQA [38], TextCaps [46], TATDQA [61])**를 포함하는 데이터셋을 사용하여 텍스트 중심 task에 집중한다. 이어서 진행되는 시각 정렬(vision alignment) 단계에서는 **COCO Caption [15] 및 VQA-V2 [24]**와 같은 추가적인 시각 중심 데이터셋을 통합한다.

평가 (Evaluation): 평가를 위해 우리는 DocVQA, TextVQA, ST-VQA, InfoVQA, TextCaps의 다섯 가지 주요 벤치마크에 중점을 둔다. 결과는 사용 가능한 경우 test set에 대해 보고되며, TextVQA와 TextCaps는 test server 제한으로 인해 validation set에서 평가된다. 우리는 TextVQA(VQAScore 사용)와 TextCaps(CIDEr 사용)를 제외한 모든 데이터셋에 대해 ANLS를 평가 지표로 사용한다. DocVLM의 일반화 능력을 입증하기 위해, 우리는 다중 페이지 문서 이해 벤치마크인 DUDE [50]와 MP-DocVQA [49]에 대해 zero-shot 평가를 수행한다. 우리 모델은 단일 페이지 문서로만 학습되었음에도 불구하고 이러한 zero-shot 성능은 특히 주목할 만하다. 하이퍼파라미터 및 최적화 전략을 포함한 추가 구현 세부 사항은 supplementary에 제공된다.

Method	# Tok.	#P	DocVQA	TextVQA	ST-VQA	InfoVQA	TextCAPS	MP-DocVQA	DUDE*
No Token Limitations
GPT-4o			92.8	77.4	-	79.2	-	-	-
Gemini 1.5 Pro			93.1	78.7	-	81.0	-	-	-
GPT-4V			87.2	78.0	-	75.1	-	-	-
KOSMOS-2.5-CHAT	4K	1.3 B	81.1	40.7	-	41.3	-	-	-
TextSquare	2.5 K	8.6 B	84.3	66.8	-	51.5	-	-	-
ScreenAI	3.5 K	5B	87.8	-	-	57.8	-	72.9	-
ScreenAI+OCR	4.3 K	5B	89.9	-	-	65.9	-	77.1	-
Pali-3	5.5 K	5B	86.7	79.5	84.1	57.8	158.8	-	-
Pali-3+OCR	6.3 K	5B	88.6	80.8	85.7	62.4	164.3	-	-
# Tokens $\leq \mathbf{1 . 5 k}$
UReader	841	7B	65.4	57.6	-	42.2	118.4	-	-
Monkey	1.3 K	9B	66.5	64.3	-	36.1	93.2	-	-
TextMonkey	768	9B	73.0	65.9	-	28.6	-	-	-
Vary	256	7B	76.3	-	-	-	-	-	-
DocOwl2	324	8B	80.7	66.7	-	46.4	131.8	69.4	46.8
GRAM	900	1B	85.3	-	-	-	-	80.3	51.2
GRAM $_{\text {C-Former }}$	256	1B	87.6	-	-	-	-	77.6	45.5
DocFormer v2	1 K	1B	87.8	64.0	71.8	48.8	-	76.4	48.4
LLaVA-OneVision	7 K	$7 \overline{\mathrm{~B}}$	87.5	76.1	71.1	68.8	$\overline{1} 38 . \overline{0}$	OOM	$\overline{\mathrm{O}} \overline{\mathrm{OM}}$
LLaVA-OneVision	1.5 K	7B	66.5	72.1	70.6	45.6	112.9	41.8	28.7
DocVLM ${ }_{\text {LLaVA-OneVision }}$ (Ours)	1.5 K	7B	88.4	76.9	70.8	61.0	145.3	77.9	43.8
$\overline{\mathrm{I}} \overline{\mathrm{n}} \overline{\mathrm{t}} \overline{\mathrm{r}} \overline{\mathrm{V}} \overline{\mathrm{V}} \overline{\mathrm{L}} \overline{2}$	$3.1 \overline{\mathrm{~K}}$	$\overline{8} \overline{\mathrm{~B}}$	$9 \overline{1} .6$	$7 \overline{7} . \overline{4}$	-	$7 \overline{4} . \overline{8}$	-	$\overline{\mathrm{O}} \overline{\mathrm{O}} \overline{\mathrm{M}}$	$\overline{\mathrm{O}} \overline{\mathrm{O}} \overline{\mathrm{M}}$
InternVL 2	256	8B	56.0	65.7	65.7	38.4	51.1	51.0	30.5
DocVLM ${ }_{\text {InternVL2 }}$ (Ours)	320	8B	86.6	71.2	74.3	57.6	119.4	76.2	43.3
InternVL 2	1280	8B	85.7	75.5	68.3	61.5	43.7	78.1	42.2
DocVLM ${ }_{\text {InternVL2 }}$ (Ours)	1344	8 B	91.0	76.7	76.7	65.4	123.4	81.8	45.6
Qwen2-VL	16k	7B	94.5	84.3	70.7	76.5	150.2	OOM	OOM
Qwen2-VL	320	7B	84.4	78.0	70.1	54.1	142.1	73.0	41.5
DocVLM ${ }_{\text{Qwen2-VL}}$ (Ours)	320	7B	91.2	79.6	76.5	61.2	144.3	81.7	46.1
Qwen2-VL	576	7B	91.5	82.3	70.5	65.3	145.0	82.1	45.9
DocVLM ${ }_{\text{Qwen2-VL}}$ (Ours)	576	7B	92.8	82.8	79.8	66.8	150.4	84.5	47.4

Table 1. State-of-the-Art 방법들과의 비교.
문서 이해 벤치마크에서 DocVLM과 state-of-the-art 접근 방식들의 성능 평가. 결과는 제한 없는 모델과 1.5k token 제한이 있는 모델로 분류된다. 제한된 token 환경에서 DocVLM은 다양한 task와 visual token budget에 걸쳐 baseline VLM의 성능을 일관되게 향상시킨다. 특히, Qwen2-VL(576 tokens)과 결합된 DocVLM은 평가된 모든 데이터셋에서 우수한 성능을 달성하며, DUDE에서 state-of-the-art zero-shot 정확도를 포함한다. ' $\star$ '는 zero-shot 평가를 나타내며, 회색으로 표시된 항목은 non-zero-shot 결과를 의미한다.

4.2. State-of-the-art Comparisons

Table 1은 DocVLM과 다른 state-of-the-art 방법들 간의 다양한 문서 이해 벤치마크에 대한 포괄적인 비교 결과를 제시하며, token 제약 조건 하에서 DocVLM이 성능을 향상시키는 능력을 강조한다. 우리는 결과를 크게 두 가지 그룹으로 분류했다:

token 제약이 없는 방법들 (closed 및 opensource 모델 모두 포함)
1.5k token 제한 내에서 작동하는 방법들

우리는 주로 약 7B 파라미터를 가진 모델에 초점을 맞추었으며, OCR 시스템을 사용하는 Pali3 [10], ScreenAI [8], DocFormerV2 [7], GRAM [14]과 같은 방법들도 포함했다.

token 제약 조건 하에서 DocVLM의 효과를 평가하기 위해, 우리는 DocVLM을 세 가지 baseline 모델과 통합했다: LlaVA-OneVision [31], InternVL2 [18], Qwen2-VL [52]. 각 모델은 1.5k token 제한 내에서 작동하도록 구성되었다.

LlaVA-OneVision의 경우, **최소 visual token 구성 (단일 visual feature tile)**을 활용했다.
InternVL2는 단일 tile (256 tokens) 및 4개 tile (1280 tokens) 구성으로 테스트되었고,
Qwen2-VL은 256 및 512 visual token으로 평가되었으며, 이는 각각 $448 \times 448$ 및 $616 \times 616$ 이미지 크기에 해당한다.

실제 애플리케이션에 필수적인 1.5k token 제약 조건 하에서, DocVLM을 각 baseline 모델과 통합하면 상당하고 일관된 성능 향상을 가져온다. 특히, 이러한 개선은 InternVL2의 1280 visual token 및 Qwen2-VL의 576 visual token과 같이 더 느슨한 token 환경에서도 지속된다. 이 제약 조건 내에서, DocVLM이 통합된 Qwen2-VL 변형 모델은 단 576 token을 사용하여 모든 벤치마크에서 state-of-the-art 성능을 달성했다:

DocVQA에서 92.8%
TextVQA에서 82.8%
ST-VQA에서 79.8%
InfoVQA에서 66.8%
TextCAPS에서 CIDEr 점수 150.4

Figure 3. 정성적 결과. DocVLM의 다양한 문서 형식(밀집 텍스트, 인포그래픽, 장면 텍스트 등)에 대한 대표적인 성능 예시. 우리 모델은 복잡한 레이아웃, 밀집된 콘텐츠를 성공적으로 처리하며, 이러한 데이터셋에 대한 명시적인 훈련 없이도 지시를 따르는 능력을 보여준다. 각 예시에는 이미지-지시 쌍과 baseline 및 DocVLM의 예측 결과가 포함되어 있다.

DocVLM은 또한 다중 페이지 문서 처리에서도 탁월한 능력을 보여준다. 앞서 설명한 동일한 576-token 구성을 사용하여 MP-DocVQA에서 84.5%의 정확도를 달성했으며, 이는 이전의 state-of-the-art 결과들을 능가한다. 더욱이, 이 설정은 다중 페이지 문서 처리를 위해 특별히 훈련되지 않았음에도 불구하고, DUDE 데이터셋에서 47.4%의 zero-shot 정확도를 기록하며 강력한 일반화 능력을 보여준다.

4.3. Qualitative Results

Figure 3은 DocVLM의 향상된 능력을 보여주는 대표적인 예시들을 통해 우리 방법론의 세 가지 핵심 강점을 설명한다: (1) 복잡한 문서 레이아웃에서의 읽기 이해도 향상, (2) 압축된 표현을 사용함에도 불구하고 밀도 높은 텍스트 콘텐츠를 효과적으로 처리하는 능력, (3) 기존 instruction-following 능력의 보존 및 향상.

이 예시들은 밀도 높은 텍스트 문서부터 인포그래픽, 장면 텍스트(scene text)에 이르기까지 다양한 문서 유형을 포함하며, DocVLM의 다재다능함을 보여준다. 인포그래픽 예시에서 DocVLM은, 우리의 OCR 구성 요소가 [48]과 같은 instruction-following 데이터셋으로 명시적으로 학습되지 않았음에도 불구하고, 기반 모델의 instruction-following 능력을 보존할 뿐만 아니라 향상시킨다. 이는 우리의 압축 메커니즘이 토큰 사용량을 크게 줄이면서도 중요한 텍스트 및 레이아웃 정보를 성공적으로 유지하고 있음을 입증한다.

4.4. Scaling to Multipage Documents

Table 1의 유망한 멀티페이지 결과에 기반하여, 우리는 멀티페이지 문서 이해를 위한 다양한 DocVLM 구성에 대한 심층 분석을 수행한다. 이 분석은 Qwen2-VL base 모델에 초점을 맞추며, 최대 20페이지 길이의 문서를 포함하는 MP-DocVQA 데이터셋에서 테스트되었다. 이 규모는 대부분의 다른 state-of-the-art 방법들이 token 제한으로 인해 처리하기 어려운 수준이다.

Table 2는 멀티페이지 시나리오에서 추론 시 사용된 네 가지 OCR 통합 전략을 비교한다:

Baseline: vision-only 입력 (추가 토큰 없음)
Direct OCR word insertion: 페이지당 최대 800 토큰
Global OCR encoding: 총 64 토큰
Page-wise OCR encoding: 페이지당 64 토큰

결과는 모든 이미지 해상도(256, 512, 1024 토큰)에서 baseline 대비 일관된 개선을 보여주며, 추가 토큰 사용량은 최소화되었다. 특히 global encoding의 경우 전체 문서에 단 64개의 토큰만 사용되었다. 주목할 점은, 페이지당 256 visual token에서 page-wise encoding (82.4%)과 global encoding (81.7%) 모두 direct OCR word insertion (79.1%)보다 우수한 성능을 보이며, 훨씬 적은 토큰을 사용한다는 것이다.

Method	LLM OCR Input	Image Tok.	OCR Tok.	ANLS
DocOwl2 [27]	-	$324 \times$ pg	-	69.4
$\mathrm{GRAM}_{\mathrm{C} \text {-Former }}[14]$	-	$100 \times \mathrm{pg}$	256	77.6
GRAM [14]	-	$100 \times \mathrm{pg}$	$800 \times \mathrm{pg}$	80.3
Qwen2-VL	-	$256 \times$ pg	-	73.0
	OCR Words	$256 \times$ pg	$800 \times \mathrm{pg}$	79.1
DocVLM ${ }_{\text {Qwen2-VL }}$	Global Encoding	$256 \times$ pg	64	81.7
DocVLM ${ }_{\text {Qwen2-VL }}$	Page-wise Encoding	$256 \times$ pg	$64 \times \mathrm{pg}$	82.4
Qwen2-VL	-	$512 \times$ pg	-	82.1
DocVLM ${ }_{\text {Qwen2-VL }}$	Global Encoding	$512 \times$ pg	64	84.5
DocVLM ${ }_{\text {Qwen2-VL }}$	Page-wise Encoding	$512 \times$ pg	$64 \times \mathrm{pg}$	$\underline{85.2}$
Qwen2-VL	-	$1024 \times \mathrm{pg}$	-	$\underline{85.2}$
DocVLM ${ }_{\text {Qwen2-VL }}$	Global Encoding	$1024 \times$ pg	64	86.3
DocVLM $_{\text {Qwen2-VL }}$	Page-wise Encoding	$1024 \times \mathrm{pg}$	$64 \times \mathrm{pg}$	86.3

Table 2. 멀티페이지 확장. 멀티페이지 문서 이해에서 OCR 정보를 통합하는 접근 방식에 대한 MP-DocVQA 비교. DocVLM의 두 가지 멀티페이지 확장 전략인 global encoding (문서당 64 토큰)과 page-wise encoding (페이지당 64 토큰) 모두 이전 state-of-the-art 방법들을 능가하며, 특히 명시적인 멀티페이지 학습 없이도 이러한 성과를 달성했다.

우리의 최고 구성은 86.3% ANLS의 state-of-the-art 성능을 달성했으며, 이는 GRAM (80.3%)과 같은 전문 멀티페이지 모델을 크게 능가한다. DocVLM이 단일 페이지 입력으로만 학습되었음에도 불구하고 멀티페이지 시나리오에 대한 강력한 zero-shot 일반화 능력을 보여주었다는 점에서 특히 인상적이다.

인코딩 전략 간의 비교 결과, page-wise encoding은 낮은 visual token 수에서 global encoding보다 일관되게 우수한 성능을 보였으며, 페이지당 256 및 512 이미지 토큰 모두에서 +0.7%의 개선을 제공했다. 이러한 이점은 1024 토큰에서는 사라지며, 두 전략 모두 동일한 성능(86.3% ANLS)을 달성한다. 놀랍게도, page-wise encoding을 사용한 DocVLM은 두 배 많은 visual token을 사용하는 baseline Qwen2-VL과 동등하거나 심지어 더 나은 성능을 보여주며, 우리 접근 방식의 효율성을 강조한다.

5. Ablation Study

OCR 인코딩 전략의 영향 (Impact of OCR Encoding Strategies)
OCR 인코딩 압축의 영향을 평가하기 위해, 우리는 OCR 정보를 통합하는 세 가지 전략을 비교한다: (1) 원본 VLM에 raw OCR words를 삽입하는 방식, (2) DocVLM uncompressed OCR encoding을 사용하는 방식, (3) 64개의 학습된 쿼리(learned queries)를 사용한 DocVLM compressed OCR encoding 방식. 이러한 접근 방식들을 세 가지 대표적인 모델 구성에 대해 DocVQA test set에서 평가한다: 1.5K visual token을 사용하는 LLaVA-OneVision, 그리고 각각 256 visual token을 사용하는 InternVL2와 Qwen2-VL.

Table 3의 결과는 DocVLM의 OCR encoding이 동일한 token 수를 유지하면서도 세 가지 모델 모두에서 raw OCR words보다 훨씬 뛰어난 성능을 보인다는 것을 입증한다. 특히, 800개의 OCR token 대신 단 64개의 token을 사용하는 우리의 압축 인코딩(compressed encoding) 접근 방식은 시퀀스 길이를 대폭 줄이면서도 이러한 성능 향상의 대부분을 유지한다. 이러한 효율적인 압축은 token budget의 보다 유리한 할당을 가능하게 하여, OCR 효과를 저해하지 않으면서도 모델이 시각 처리(visual processing)에 더 많은 token을 할애할 수 있도록 한다. 이 결과는 DocVLM의 압축 전략이 성능과 계산 효율성 사이의 균형을 성공적으로 맞추고 있음을 입증하며, 이는 실제 응용 분야에서 핵심적인 요소이다.

LLM OCR Input	OCR Tok.	LLaVA-OV <br> 1.5 K	InternVL2 <br> 256	Qwen2-VL <br> 256
OCR Words	800	85.8	84.4	89.1
OCR Encoding	800	89.4	89.2	91.9
64 Compressed Encoding	64	88.4	86.6	91.2

Table 3. OCR 인코딩 전략. OCR 정보를 삽입하는 세 가지 방식에 대한 DocVQA 결과: (1) OCR words (baseline), (2) uncompressed OCR encoding, (3) 64 compressed OCR encoding.

비전 및 OCR 토큰 할당 균형 (Balancing Vision and OCR Token Allocation)
최신 VLM은 visual token 수를 줄이기 위해 다양한 메커니즘을 사용하며, 이는 Section 3.1에서 논의된 바와 같이 계산 효율성과 모델 성능 사이에 내재된 trade-off를 발생시킨다. 우리는 DocVLM이 이러한 trade-off를 어떻게 개선할 수 있는지 네 가지 구성으로 비교하여 조사한다: (1) OCR이 없는 baseline VLM, (2) OCR words 직접 삽입, (3) uncompressed OCR encoding을 사용한 DocVLM, (4) 64개의 compressed learned queries를 사용한 DocVLM.

Figure 4는 세 가지 VLM 아키텍처에 대한 **DocVQA validation 성능 점수(왼쪽 y축)**와 **총 token 수(오른쪽 y축)**를 보여주며, 이러한 지표들이 다양한 visual token 할당에 따라 어떻게 달라지는지를 나타낸다. 각 모델은 고유한 token 감소 접근 방식을 사용한다:

LLaVA-OneVision은 **feature downsampling (AnyRes Max)**을 통해 token 수를 제어하고,
InternVL2는 **처리되는 이미지 타일 수 (Dynamic Max Batch)**를 제한하며,
Qwen2-VL은 이미지 해상도를 조정하여 token 수를 제약한다.

우리의 분석 결과, 사용된 방법에 관계없이 OCR 정보를 통합하는 것이 모든 모델에서 일관되게 성능을 향상시키며, 특히 낮은 visual token 환경에서 더욱 두드러진 성능 향상을 보인다. 그러나 uncompressed OCR 통합 방법은 직접적인 단어 삽입이든 uncompressed DocVLM encoding이든 800개의 token을 필요로 하는데, 이는 시각 처리에 할당될 수 있는 상당한 오버헤드이다. 예를 들어, Qwen2-VL에서 visual에 128 token, OCR에 800 token을 할당하면 OCR words를 사용했을 때 84.3%, **uncompressed encoding을 사용했을 때 90.1%**를 달성한다. 이와 대조적으로, 896개의 순수 visual token을 사용하면 92.4%에 도달하는데, 이는 시각 처리에 더 많은 token을 할당하는 잠재적 이점을 보여준다. DocVLM의 압축 메커니즘은 OCR 정보에 단 64개의 token만 필요로 하면서도 강력한 성능을 유지함으로써 우월한 옵션을 제공한다. 위 예시에서, 더 적은 token을 사용하여 768개의 visual token과 64개의 OCR token을 할당한 우리의 접근 방식은 93.0%에 도달하여, uncompressed encoding으로 얻은 90.1%를 능가한다. 이는 DocVLM이 visual token과 OCR token 사이의 효과적인 균형을 보여준다.

Figure 4. 성능 및 연산 균형 (Balancing Performance and Compute). visual token 할당에 따른 모델 성능(선, 왼쪽 y축) 및 token 사용량(막대, 오른쪽 y축) 분석. 각 모델은 고유한 token 제어 전략을 사용한다: LLaVA One-Vision의 feature downsampling을 위한 AnyRes max, InternVL2의 dynamic max tiles, Qwen2-VL의 해상도 제어를 위한 max image tokens. 결과는 DocVLM이 최소한의 오버헤드(64 token)로 일관되게 성능을 향상시키며, 효율적인 OCR-visual token 할당을 제공함을 강조한다.

Figure 5. 압축 수준 (Compression Levels). Qwen2-VL과 통합된 DocVLM의 DocVQA validation 결과로, 다양한 OCR 및 이미지 token budget에 걸쳐 나타낸다. "0"은 baseline을 나타내고, "Full"은 uncompressed encoding을 나타낸다.

압축 수준 (Compression Levels)
우리는 Qwen2-VL과 통합된 DocVLM에서 다양한 압축 수준을 조사하여 OCR-visual token trade-off에 대한 분석을 심화한다. Figure 5는 visual token (128-1024) 및 learned queries (16-256)의 다양한 조합에 걸쳐 ANLS 점수를 제시하며, OCR이 없는 baseline과 uncompressed encoding을 포함한다. 낮은 visual token 환경에서 learned queries 수를 늘리면 상당한 성능 향상이 나타나며, 이는 관련 OCR 정보를 포착하는 우리 압축 메커니즘의 효과를 입증한다. 특히, 단 16개의 learned queries만으로도 DocVLM은 모든 visual token 구성에서 baseline을 능가하며, 최소한의 계산 오버헤드로 강력한 성능을 제공한다.

학습 단계 (Training Stages)
Table 4는 DocVQA test set에서 LLaVA-OneVision 기반 모델을 사용한 DocVLM의 ANLS 성능에 대한 vision alignment 단계의 영향을 보여주며, 다양한 learned queries 수 (16에서 128) 및 uncompressed 경우에 대한 결과를 나타낸다. 우리의 2단계 학습 프로세스는 처음에 이미지 입력 없이 OCR modality 구성 요소를 학습시켜 OCR 데이터에만 의존하도록 강제한 다음, vision alignment 단계에서 이미지를 다시 도입하여 시각 정보와 함께 learned queries를 적응시킨다. 결과는 vision alignment가 성능을 크게 향상시킨다는 것을 보여주며, 특히 learned queries 수가 적을 때 더욱 그러하다: 예를 들어, 16개의 learned queries를 사용했을 때 +6.2의 개선이 있었고, uncompressed 경우에는 +0.7의 개선이 있었다. 특히, vision alignment 후에는 단 16개의 learned queries를 가진 DocVLM이 OCR words baseline (Table 3 참조)을 능가한다. 이러한 결과는 우리의 2단계 학습 방법의 효과를 강조한다.

Training Phases	Compressed Enc.
	16	64	128	OCR Enc.
		81.7	85.8	86.3
Stage I: OCR-LLM Alignment	$\mathbf{87 . 9}$	$\mathbf{8 8 . 4}$	$\mathbf{8 8 . 4}$	89.4
+ Stage II: Vision Alignment	$\mathbf{87 . 1}$		$\mathbf{9 0 . 1}$
$\mathbf{\Delta}$	$\mathbf{+ 6 . 2}$	$+\mathbf{2 . 6}$	$+\mathbf{2 . 1}$	$+\mathbf{0 . 7}$

Table 4. 학습 단계. 2단계 학습은 compressed DocVLM token과 full OCR encoding 모두에서 DocVQA 성능을 일관되게 향상시킨다.

6. Conclusions

우리의 결과는 DocVLM이 다양한 VLM에 효과적으로 통합되어 문서 판독 능력을 향상시키면서도, 방대한 vision token에 대한 의존도를 크게 줄일 수 있음을 보여준다. 핵심적인 시사점은 token이 제한된 시나리오에서, 전체 token 중 작은 부분을 OCR 정보에 할당하는 것이 해당 token을 시각 처리만을 위해 사용하는 것보다 일관되게 더 나은 결과를 가져온다는 것이다. 우리의 압축 메커니즘은 단일 페이지 문서를 넘어선 효과를 보여주는데, 이는 동일한 64개의 token으로 여러 페이지를 표현하여 MP-DocVQA에서 state-of-the-art 결과를 달성한 것으로 입증된다. 이러한 결과는 DocVLM이 연산 효율성이 중요한 실제 응용 분야에서 문서 이해 능력을 향상시키는 실용적인 솔루션임을 확고히 한다.

DocVLM: Make Your VLM an Efficient Reader <br> Supplementary Material

A. Additional Implementation Details

DocVLM은 OCR 데이터를 효율적으로 활용하여 VLM의 문서 판독 능력을 향상시킨다. 우리는 OCR 시스템을 사용하여 문서 이미지에서 텍스트 및 레이아웃 정보를 추출하고, 이 정보는 Sec. 3에서 논의된 바와 같이 OCR encoder에 의해 처리된다. 구체적으로, 우리는 DocFormerV2 [7]의 encoder 구성 요소를 활용하며, 이 encoder의 visual branch는 생략한다 (자세한 내용은 본 논문 참조). 이 encoder는 Industry Document Library (IDL) 데이터셋 [13]으로 사전학습된 DocFormerV2의 가중치로 초기화된다. 사전학습 과정에 대한 자세한 내용은 [7]을 참조하라.

A.1. Optimization and Hyperparameters Details

Section 3.2에서 논의했듯이, 우리의 학습 과정은 두 단계로 구성된다:

OCR-LLM alignment
Vision alignment

두 단계 모두에서 우리는 AdamW 최적화 알고리즘을 사용하며, cosine learning scheduling과 1000 warmup step을 적용한다.

OCR-LLM alignment 단계에서, 학습된 query 구성 요소를 사용하여 140K step 동안 학습을 진행했다. projection layer와 query token에는 $10^{-4}$ 의 learning rate를, OCR encoder에는 $5 \cdot 10^{-5}$ 의 learning rate를 사용했다. 무작위로 초기화된 구성 요소를 최적화하면서도 사전학습된 OCR encoder의 가중치를 보존하기 위해, 처음 **10K step 동안은 encoder를 고정(freeze)**시켰다. 학습된 query 구성 요소가 없는 실험(즉, OCR 압축이 없는 경우)에서는 OCR encoder와 projection layer를 동일한 learning rate로 100K step 동안 학습하도록 과정을 조정했다.

Vision alignment 단계에서는 모든 구성 요소를 추가로 100K step 동안 $5 \cdot 10^{-6}$ 의 learning rate로 학습했다. 이전 단계와 달리, 이 단계에서는 시각적 feature가 LLM의 입력으로 포함되어, 모델이 OCR modality를 시각 modality와 정렬할 수 있도록 했다.

B. Datasets

B.1. Training Datasets

Tab. 5는 DocVLM fine-tuning에 사용된 모든 데이터셋을 자세히 보여준다. OCR-LLM alignment 단계를 위한 데이터셋 선정은 텍스트 관련 task에 중점을 두었으며, 여기에는 약 99만 개의 쿼리가 포함된다. 이 쿼리들은 다음과 같은 데이터셋에서 가져왔다:

문서 VQA 데이터셋: DocVQA [39], InfoVQA [40], ChartQA [38], TATDQA [61]
장면 텍스트 VQA 데이터셋: TextVQA [47], STVQA [11], OCR-VQA [41]
캡셔닝 데이터셋: TextCaps [46]

Vision alignment 단계에서는 추가적인 시각 중심 데이터셋인 COCO Caption [15]과 VQA-V2 [24]를 통합하여, 총 학습 세트 쿼리 수를 약 200만 개로 늘렸다.

Task	Dataset	Subsplit	Visual Only	# Queries
Document VQA	DocVQA [39]	train	$\times$	39463
	InfoVQA [40]	train	$\times$	46883
	ChartQA [38]	train (H)	$\times$	7398
	TAT-DQA [61]	train	$\times$	13246
Scene Text VQA	TextVQA [47]	train	$\times$	34602
	ST-VQA [11]	train	$\times$	26308
	OCR-VQA [41]	train	$\times$	800000
Captioning	TextCaps [46]	train	$\times$	21953
	COCO Caption [15]	train	$\checkmark$	566747
General VQA	VQA-V2 [24]	train	$\checkmark$	443757
Total Examples				2000357

Table 5. DocVLM Fine-tuning을 위한 학습 데이터셋.
DocVLM fine-tuning에 사용된 데이터셋을 task 유형별로 분류하였다. 'Visual Only' 열은 텍스트 중심이 아닌 데이터셋을 나타낸다. 모든 데이터셋의 총 쿼리 수는 하단에 표시되어 있다.

Task	Dataset	Subsplit	Metric	Zero-Shot	# Queries
Document VQA	DocVQA [39]	Test	ANLS	$\times$	5188
	InfoVQA [40]	Test	ANLS	$\times$	6573
Scene Text VQA	TextVQA [47]	Val	VQAScore	$\times$	5000
	ST-VQA [11]	Test	ANLS	$\times$	4163
Captioning	TextCaps [46]	Val	CIDEr	$\times$	3166
Multipage VQA	MP-DocVQA [49]	Test	ANLS	$\times$	5019
	DUDE [50]	Test	ANLS	$\checkmark$	11402
Total Examples					40511

Table 6. DocVLM 평가 데이터셋.
DocVLM 평가에 사용된 데이터셋을 task 유형별로 분류하였다. 이 표에는 각 데이터셋에 사용된 데이터 분할(split), 평가 지표(metric), zero-shot 여부, 그리고 쿼리 수가 포함되어 있다.

B.2. Evaluation Datasets

Tab. 6는 DocVLM의 성능을 평가하는 데 사용된 모든 데이터셋을 자세히 설명하며, 여기에는 document VQA, scene text VQA, captioning, multipage document understanding 등 다양한 문서 이해 task가 포함된다. 우리의 학습은 단일 페이지 문서에 중점을 두었지만, multipage 데이터셋인 MPDocVQA [49]와 DUDE [50]를 포함하여 평가를 확장하였다. 두 multipage 데이터셋 모두 학습 데이터셋에 포함되지 않았지만, MP-DocVQA는 학습 데이터에 포함된 DocVQA의 확장 버전이므로, DUDE만이 진정한 zero-shot 평가로 간주된다는 점에 유의해야 한다.

C. Additional Results

C.1. Qualitative Results

Figure 6과 7은 대표적인 예시들을 통해 DocVLM의 향상된 문서 이해 능력을 보여준다. Figure 6은 DocVQA [39] 테스트 세트의 문서 이미지를 중심으로 다루며, Figure 7은 InfoVQA 테스트 세트 [40]의 인포그래픽 이미지를 제시한다. 우리는 1.5K visual token 제한을 가진 LLaVA-OneVision, 256 및 1280 visual token 제한을 가진 InternVL2, 그리고 256 및 512 visual token 제한을 가진 Qwen2VL의 결과를 제시한다. 보시다시피, baseline 모델들의 오류는 우수한 독해 능력을 요구하는 시나리오에서 발생한다. 특히, DocVLM은 단 64개의 OCR compressed token만을 활용하여 오류를 효과적으로 수정하고 올바른 응답을 제공한다. 이러한 개선은 다양한 VLM 아키텍처와 visual token 제한 전반에 걸쳐 일관되게 나타나며, 우리 접근 방식의 효율성과 다용도성을 강조한다.

D. Studying The Visual Features Effect

이 섹션에서는 먼저 시각적 입력 없이 DocVLM을 평가한 다음, 시각적 feature 추가의 영향을 평가하여 DocVLM 성능에 시각적 feature가 어떻게 기여하는지 탐구한다.

시각적 입력 없는 DocVLM의 OCR 인코딩
우리는 OCR-LLM Alignment 단계 이후의 Qwen2VL 기반 DocVLM을 평가하며, 시각적 token 없이 OCR 인코딩만을 LLM의 입력으로 사용한다. 이 접근 방식을 통해 인코딩이 OCR 데이터를 얼마나 잘 포착하는지, 그리고 문서 질문 응답 task에 충분한지 평가할 수 있다. 우리 아키텍처는 DocVLM의 인코딩 또는 압축된 인코딩을 쿼리 prompt와 함께 Qwen2 LLM에 입력하는 것으로 구성된다.
Tab. 7은 DocVQA [39] 및 InfoVQA [40] 테스트 세트에서 OCR 정보에만 의존하는 baseline [51, 53, 54]과 비교한 결과를 보여준다. DocVLM의 OCR 인코딩이 OCR 정보를 효과적으로 포착하여 비교에서 최고의 결과를 얻는 것을 확인할 수 있다. 놀랍게도, 단 64개의 학습된 쿼리(압축된 인코딩)만으로도 경쟁력 있는 성능을 달성하며, 훨씬 짧은 길이(1K 토큰 대비 64 토큰)에도 불구하고 OCR words baseline을 크게 능가한다.

시각적 Feature의 기여
Tab. 8에서는 이전 텍스트 전용 평가 결과와 동일한 모델 체크포인트에 256개의 시각적 token을 입력으로 추가했을 때 얻은 결과를 비교한다. 결과는 시각적 정보를 통합하면 두 데이터셋 모두에서 성능이 향상되며, 특히 압축된 OCR 인코딩을 사용할 때 더욱 두드러진 향상이 있음을 보여준다. 이 비교는 DocVLM 아키텍처에서 텍스트 정보와 시각 정보의 상호 보완적인 특성을 강조한다.

Method	LLM OCR Input	DocVQA	InfoVQA
Alpaca	Latin Prompt	42.0	-
ChatGPT-3.5	Latin Prompt	82.6	49.0
LayoutLM ${ }_{\text {LARGE }}$	OCR Encodings	72.6	27.2
DocLLM	OCR Encodings	69.5	-
Qwen2	$\bar{O} \bar{C} \bar{R}$ Words	76.4	44.5
DocVLM ${ }_{\text {Qwen2 }}$	OCR Encodings	89.2	62.9
DocVLM ${ }_{\text {Qwen2 }}$	64 Compressed Encodings	85.5	56.8

Table 7. LLM에서의 효과 (시각적 입력 없음). DocVLM의 전체 및 압축된 OCR 인코딩을 Qwen2 LLM의 단독 입력으로 사용했을 때의 성능을 OCR 전용 baseline과 비교하여, 시각적 feature 없이도 DocVLM의 OCR 인코딩이 효과적임을 보여준다.

Visual Features	64 Compressed Encodings		OCR Encodings
	DocVQA	InfoVQA	DocVQA	InfoVQA
$\times$	85.5	56.8	89.2	62.9
$\checkmark$	90.2	60.2	91.9	65.3
$\mathbf{\Delta}$	$+\mathbf{4 . 7}$	$+\mathbf{3 . 4}$	-	$+\mathbf{2 . 7}$

Table 8. DocVLM에서 시각적 Feature의 기여. DocVLM의 텍스트 전용 모드(시각적 feature 없음) 성능과 전체 멀티모달 작동 모드 성능을 비교하며, 압축된(64 토큰) 및 전체 OCR 인코딩을 모두 사용한다. 결과는 DocVLM 아키텍처에서 시각 정보의 상호 보완적인 이점을 강조한다.

D.1. Exploring LLM Fine-tuning for Text-Only

LoRA를 이용한 LLM Fine-tuning의 영향
DocVLM의 텍스트 처리 능력을 추가적으로 개선할 가능성을 평가하기 위해, 우리는 LLM을 LoRA를 사용하여 100K 스텝 동안 추가 fine-tuning했으며, 이는 텍스트 전용(text-only) 모드에 초점을 맞추었다. Table 9는 이 실험의 결과를 보여주며, OCR 단어를 직접 입력하는 baseline과의 비교도 포함한다.
우리의 결과는 LoRA가 OCR 단어 baseline 성능을 크게 향상시킨다는 것을 보여준다. 그러나 compressed OCR encoding과 full OCR encoding 모두 LoRA fine-tuning 없이도 이 개선된 baseline보다 우수한 성능을 보인다. 특히, 우리의 OCR encoding(compressed 및 full 모두)에 LoRA를 적용했을 때 LLM 성능 향상은 미미했다.
이러한 텍스트 전용 시나리오에서의 발견을 바탕으로, 우리는 전체 멀티모달 DocVLM 방법에서 추가 fine-tuning을 하지 않기로 결정했다. 이 결정은 원래 VLM의 광범위한 사전학습을 통해 달성된 vision과 LLM의 정렬(alignment)을 유지하는 데 도움이 되며, DocVLM이 사전학습된 지식을 방해하지 않고 기존 VLM의 능력을 향상시키도록 보장한다.

LoRA	OCR Words		64 Compressed Encodings		OCR Encodings
	DocVQA	InfoVQA	DocVQA	InfoVQA	DocVQA	InfoVQA
$\times$	76.4	44.5	85.5	56.8	89.2	62.9
$\checkmark$	80.3	49	85.7	56.8	89.4	63
$\Delta$	+3.9	$+\overline{4} . \overline{5}$	$+\overline{0} . \overline{2}$	+0	+0.2	+0.1

Table 9. 텍스트 전용 성능에 대한 LoRA Fine-tuning의 효과.
OCR 단어 baseline, compressed 및 full OCR encoding에 대해 텍스트 전용 모드에서 LoRA fine-tuning 전후를 비교한 결과이다. 결과는 DocVLM의 encoding에 대해 최소한의 성능 향상을 보여준다.

Figure 6. 텍스트 밀집 문서에 대한 정성적 결과.
DocVLM이 텍스트 밀집 문서에서 baseline 모델(LLaVA-OneVision, InternVL2, Qwen2VL)과 비교하여 어떤 성능을 보이는지를 보여주는 대표적인 예시들이다. 각 예시는 baseline 및 DocVLM의 예측 결과와 함께 이미지-지시 쌍을 보여주며, DocVLM이 단 64개의 OCR compressed token만을 사용하여 향상된 독해 능력을 보여줌을 입증한다.

Figure 7. 인포그래픽에 대한 정성적 결과.
DocVLM이 다양한 visual token 제약 조건 하에서 인포그래픽 스타일 문서에서 baseline과 비교하여 어떤 성능을 보이는지를 보여주는 대표적인 예시들이다. 이는 복잡한 레이아웃과 시각 정보 처리에 대한 개선된 능력을 입증한다.