Document UnderstandingVLM
DocVLM: Vision-Language Model을 효율적인 문서 리더로 만드는 방법
DocVLM은 기존 Vision-Language Models (VLMs)이 문서 이해(document understanding) 작업에서 겪는 고해상도 이미지 처리의 높은 계산 비용 문제를 해결하는 모델-독립적(model-agnostic) 방법론입니다. 이 접근법은 OCR로 추출한 텍스트와 레이아웃 정보를 OCR 인코더를 통해 처리하고, 이를 64개와 같은 소수의 학습 가능한 쿼리(learned queries)로 압축합니다. 이렇게 압축된 쿼리는 VLM의 원래 가중치를 변경하지 않고 시각적 특징과 함께 언어 모델에 통합됩니다. 결과적으로 DocVLM은 저해상도 이미지를 사용하면서도 DocVQA와 같은 벤치마크에서 성능을 크게 향상시키며, 토큰 사용량을 획기적으로 줄여 다중 페이지 문서 처리에서도 우수한 zero-shot 성능을 보여줍니다. 논문 제목: DocVLM: Make Your VLM an Efficient Reader