M³IT: 대규모 다중모드 다국어 Instruction Tuning 데이터셋

Li, Lei, et al. "M $^ 3$ IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning." arXiv preprint arXiv:2306.04387 (2023).

Lei $\mathbf{Li}^{\dagger}$ , Yuwei Yin ${ }^{\dagger}$ , Shicheng Li ${ }^{\S}$ , Liang Chen ${ }^{\S}$ , Peiyi Wang ${ }^{\S}$ , Shuhuai Ren ${ }^{\S}$ , Mukai $\mathbf{Li}^{\ddagger}$ Yazheng Yang ${ }^{\dagger}$ , Jingjing Xu ${ }^{\ddagger}$ , Xu Sun ${ }^{\S}$ , Lingpeng Kong ${ }^{\dagger}$ , Qi Liu $^{\dagger}$ ${ }^{\dagger}$ 홍콩대학교 (The University of Hong Kong) ${ }^{\S}$ 멀티미디어 정보 처리 국가 핵심 연구소 (National Key Laboratory for Multimedia Information Processing), 베이징대학교 컴퓨터 과학부 (School of Computer Science, Peking University) ${ }^{\ddagger}$ 상하이 AI 랩 (Shanghai AI Lab) nlp.lilei@gmail.com jingjingxu@pku.edu.cn {lpk, liuqi}@cs.hku.hk

Abstract

Instruction tuning은 ChatGPT와 같은 대규모 언어 모델(LLM)이 다양한 task에서 인간의 지시에 부합하도록 하는 데 크게 기여했다. 그러나 고품질 instruction 데이터셋의 부족으로 인해 open vision-language model (VLM)의 발전은 제한적이었다. 이러한 문제를 해결하고 vision-language 분야의 연구를 촉진하기 위해, 우리는 VLM이 인간의 지시에 더 잘 부합하도록 설계된 Multi-Modal, Multilingual Instruction Tuning ( $\mathrm{M}^{3}$ IT) 데이터셋을 소개한다.

우리의 $\mathrm{M}^{3}$ IT 데이터셋은 신중하게 선별된 40개의 데이터셋으로 구성되며, 여기에는 240만 개의 인스턴스와 400개의 수동으로 작성된 task instruction이 포함되어 있다. 이들은 vision-to-text 구조로 재구성되었다. 주요 task들은 고급 번역 시스템을 통해 80개 언어로 번역되어 더 넓은 접근성을 보장한다. $\mathrm{M}^{3}$ IT는 task 커버리지, instruction 수, 인스턴스 규모 면에서 기존 데이터셋을 능가한다.

또한, 우리는 $\mathrm{M}^{3}$ IT 데이터셋으로 학습된 VLM 모델인 Ying-VLM을 개발했으며, 이 모델은 세계 지식을 요구하는 복잡한 질문에 답하고, 이전에 보지 못한 비디오 task에 일반화하며, 중국어로 된 새로운 instruction을 이해하는 잠재력을 보여준다. 우리는 추가 연구를 장려하기 위해 데이터셋을 오픈 소스로 공개했다.

1 Introduction

인간의 지시를 따를 수 있는 지능형 비서 개발에 대한 관심이 지속적으로 증가하고 있다 [3, 36, 37]. 자연어 처리(NLP) 분야에서 instruction tuning [35, 53]은 대규모의 잘 정제된 인스턴스를 활용하여 대규모 언어 모델(LLM)을 인간의 지시에 맞게 정렬(align)하는 성공적인 패러다임이다. 특정 task 설명이 포함된 인스턴스로 fine-tuning함으로써, LLM은 다양한 task를 수행하기 위해 지시를 따르는 방법을 학습하고, 미학습(unseen) task에 대해서도 강력한 일반화 능력을 보여준다 [29]. NLP를 넘어, 범용 지능형 에이전트는 비전과 같은 다양한 양식을 포괄해야 하며, 이는 최근 vision-language 영역에서 instruction tuning을 연구하려는 노력으로 이어지고 있다 [63, 28, 7]. 강력한 **vision-language model (VLM)**을 개발하기 위해서는 다양한 vision-language task를 포괄하고 인간의 지시와 일치하는 잘 구축된 데이터셋이 필수적이다. 그러나 기존 VLM을 지원하는 instruction 데이터는 공개적으로 이용할 수 없거나(예: GPT-4), task 및 언어 범위가 제한적이다(예: 영어 task만 고려됨). 이러한 포괄적인 데이터셋의 부족은 개방형 vision-language model의 발전을 저해했으며, 멀티모달 instruction tuning의 중요성과 고품질 데이터셋의 필요성을 강조한다.

본 논문에서는 다재다능한 범용 비서 구축을 위한 필수 단계로서, 오픈 데이터셋 $\mathrm{M}^{3}$ IT, 즉 Multi-Modal Multilingual Instruction Tuning 데이터셋을 소개함으로써 멀티모달 영역에서의 instruction tuning 연구를 발전시키는 것을 목표로 한다. 우리는 기존 데이터셋을 통합된 vision-to-text 스키마로 변환하는 네 단계를 거쳐 이 데이터셋을 구축한다: (1) 수동 instruction 작성, (2) 데이터셋 전처리, (3) 신중한 품질 검사, (4) 주요 task에 대한 데이터셋 번역. 우리의 데이터셋은 이미지 분류, visual question answering, 이미지 캡셔닝과 같은 고전적인 이미지-텍스트 task를 포함하여 광범위한 task를 포괄한다. 비디오 질문 응답과 같은 비디오 관련 task도 여러 양식에 걸쳐 포괄적인 범위를 보장하기 위해 통합되었다. 우리는 또한 해당하는 중국어 instruction과 함께 중국어 vision-language 데이터셋을 통합한다. 결과적으로 이 데이터셋은 40개의 다양한 task와 400개의 instruction을 포함한다. 마지막으로, 주요 vision-language task는 강력한 번역 시스템을 통해 80개 언어로 번역되어 다국어 연구를 지원한다.

제안된 데이터셋의 효과를 평가하기 위해, 우리는 강력한 vision encoder인 BLIP-2 [23]와 LLaMA [49]에서 파생된 대규모 언어 모델인 Ziya-13B [61]를 통합하여 vision-language model인 Ying-VLM을 개발한다. 시각 토큰을 LLM의 텍스트 prompt로 통합하는 성공적인 접근 방식 [7, 63, 28]을 기반으로, 우리는 두 단계의 학습 프로세스를 사용한다: (1) 초기 단계는 LAION400M [41]에서 이미지 캡셔닝을 통해 시각 feature를 텍스트 embedding과 정렬하고, (2) 두 번째 단계는 우리 데이터셋의 선택된 task에 대한 instruction tuning을 수행하여 모델을 향상시킨다. 실험 결과, Ying-VLM은 지식 기반 VQA task에서 강력한 baseline 모델을 능가하며, 미학습 비디오 및 교차 언어 task에 대한 향상된 일반화 성능을 보여준다. 추가 분석에 따르면, 향상된 성능은 instruction tuning을 위한 task 증가에 해당하며, instruction의 다양성 또한 결과에 영향을 미친다.

본 논문은 두 가지 주요 기여를 제시한다: (1) 우리는 범용 멀티모달 에이전트 개발을 가능하게 하는 오픈 소스 대규모 Multimodal, multilingual Instruction Tuning ( $\mathrm{M}^{3}$ IT) 데이터셋을 소개한다. (2) 우리는 지식 기반 VQA task에서 뛰어난 성능을 보이고, 미학습 비디오 QA 및 중국어 멀티모달 task에 대한 강력한 일반화 능력을 입증하며, 향후 연구에 귀중한 통찰력을 제공하는 시각 비서인 Ying-VLM을 개발한다.

Table 1: 멀티모달 instruction tuning 데이터셋 요약

Dataset	# Tasks	Multi-Lingual	# of Instances	Avg. # of Manual Instructions / Task	Open-Sourced
MiniGPT4	N / A	$\times$	5 K	N / A	$\checkmark$
LLaVA	3	$\times$	1.15 M	N / A	$\checkmark$
MultiModalGPT	3	$\times$	6 K	5	$\times$
MultiInstruct	26	$\times$	$\sim 235 \mathrm{~K}$	5	$\times$
InstructBLIP	28	$\times$	$\sim 1.6 \mathrm{M}$	9.7	$\times$
$\mathrm{M}^{3}$ IT (Ours)	40	$\checkmark$	2.4 M	10	$\checkmark$

우리의 연구는 최근 언어 instruction tuning 벤치마크 [53, 35]에서 영감을 얻었다. 이 벤치마크들은 언어 모델의 cross-task generalization 능력을 향상시키는 데 효과적임이 입증되었다 [29, 52]. 본 논문에서는 LLM의 instruction tuning 패러다임을 멀티모달 에이전트로 확장하는 데 중점을 둔다. 텍스트 전용 task와 달리, vision-language task는 일반적으로 더 다양한 형식을 가지며, 이는 vision-language instruction tuning 벤치마크에 새로운 도전 과제를 제시한다.

범용적인 vision-language model을 개발하기 위해서는 다양한 task, 언어, instruction을 포괄하는 고품질의 멀티모달 instruction tuning 데이터셋을 구축하는 것이 중요하다. 몇몇 연구들이 VLM을 위한 멀티모달 instruction tuning을 탐구해왔다. LLaVA [28]와 MiniGPT-4 [63]는 이미지 캡션 데이터를 GPT-4/ChatGPT 모델에 통합하여 시각 콘텐츠 관련 대화를 생성한다. MultiInstruct [56]는 일련의 시각 분류 task를 instruction-tuning 형식으로 재구성했으며, InstructBLIP [7]은 기존 28개의 image-to-text task를 적용했다. 그러나 이러한 데이터셋들은 다음과 같은 제한적인 특성으로 인해 이상적인 멀티모달 instruction tuning 데이터셋을 제공하지 못한다:

멀티모달 분야의 다양한 task 유형에 대한 제한적인 커버리지,
인스턴스의 다양성과 품질 부족,
광범위한 언어적 다양성을 위한 다국어 포함 부족.

본 논문에서는 task 커버리지를 40개 데이터셋으로 확장하고, 10개의 수동으로 작성된 task instruction으로 인스턴스를 보완하며, 다양한 언어의 task를 포함함으로써 개선된 멀티모달 instruction tuning 데이터셋을 구축한다. Table 1은 기존 멀티모달 instruction tuning 데이터셋과 $\mathrm{M}^{3}$ IT의 특성을 비교한 것이다.

이 섹션에서는 우리가 제안하는 $\mathrm{M}^{3} \mathrm{IT}$ 데이터셋을 소개한다. 먼저 데이터셋의 범위에 대해 상세히 설명하고(§3.1), 이어서 어노테이션 과정의 세부 사항을 다룬다(§3.2). 마지막으로, 데이터셋 형식을 제시하고 제작된 데이터셋 지침의 통계를 제공한다(§3.3).

3.1 Task Coverage

우리의 데이터셋은 captioning, visual question answering (VQA), visual conditioned generation, reasoning, classification을 포함한 다양한 고전적인 vision-language task들을 통합한다.

Captioning
이 task는 주어진 이미지에 대해 다양한 요구사항에 맞춰 설명을 생성하는 것을 목표로 한다. 우리는 일반적인 이미지 설명을 위해 **MS COCO [27] (Karpathy split)**를 포함한다. **TextCaps [44]**는 모델이 이미지에 제시된 텍스트를 파악하고 그에 따라 caption을 생성하도록 요구한다. **Image-Paragraph-Captioning [21]**은 이미지에 대한 상세한 설명을 생성하는 데 중점을 둔다.

Reasoning
이 task는 특정 reasoning 능력을 평가한다. 우리는 **공간 추론(spatial reasoning)을 위해 CLEVR [19]와 NLVR [46]**을, **상식 추론(commonsense reasoning)을 위해 Visual Commonsense Reasoning (VCR) [60]**을, **이미지에 대한 독해(reading comprehensive)를 위해 Visual MRC [47]**를, 그리고 **텍스트 설명과 이미지 내용에 대한 미세한 의미 추론(fine-grained semantics reasoning)을 위해 Winoground [48]**를 포함한다.

Visual Question Answering (VQA)
이것은 가장 널리 연구되는 멀티모달 task로, 모델이 이미지에 기반하여 주어진 질문에 올바르게 답변하도록 요구한다. 포함된 task는 **VQA v2 [15], Shapes VQA [1], DocVQA [33], OCR-VQA [34], ST-VQA [2], Text-VQA [45], GQA [18]**이다.

Knowledgeable Visual Question Answering (KVQA)
전통적인 VQA task가 이미지 내용과 관련된 질문에 초점을 맞추는 것과 달리, **Knowledgeable Visual Question Answering (KVQA)**는 모델이 외부 지식(outside knowledge)을 활용하여 질문에 답변하도록 요구한다. 우리는 두 가지 외부 지식 VQA 데이터셋인 OK-VQA [32]와 A-OK-VQA [42], 멀티모달 과학 질문을 포함하는 ScienceQA [31], 그리고 이미지 내 명명된 개체(named entities)의 지식 사실에 초점을 맞춘 **ViQuAE [22]**를 포함한다.

Classification
이 task는 주어진 후보 레이블 집합에 따라 이미지를 분류하는 것을 포함한다. **ImageNet [40], Grounded Object Identification (COCO-GOI) [27], COCO-Text [50], Image Text Matching (COCO-ITM) [27], e-SNLI-VE [20], Multi-modal Fact Checking (Mocheg) [58], IQA [9]**가 포함된다. 언어 모델 입력 길이 제약으로 인해, ImageNet과 같이 광범위한 후보 레이블을 가진 일부 데이터셋에서는 옵션 수를 줄였다.

Generation
Visual conditional generation은 모델이 시각적 내용을 이해하고 task 요구사항을 충족하는 구성을 만들도록 요구한다. 이 범주에는 **Visual Storytelling (VIST) [17], Visual Dialog (VisDial) [8], 멀티모달 기계 번역 Multi30k [10]**가 있다.

중국어 및 다국어 Vision-Language Task
instruction tuning이 다른 언어에 미치는 영향을 조사하기 위해, 우리는 VQA를 위한 FM-IQA [11], captioning을 위한 COCO-CN [25] 및 Flickr8k-CN [24], 분류를 위한 Chinese Food Net [4], **생성을 위한 MMChat [62]**을 포함한 여러 중국어 vision-language task를 통합한다.

Video-Language Task
정지 이미지 외에도, instruction tuning이 비디오-텍스트 task에도 적용될 수 있는지에 관심이 있다. 우리는 비디오 캡셔닝을 위한 고전적인 MSR-VTT 데이터셋 [55], 비디오 질문 답변을 위한 MSRVTT-QA [54], ActivityNet-QA [59], iVQA [57] 및 MSVD-QA [54], **비디오 액션 분류를 위한 Something-Something [14]**를 포함한다.

Figure 1에서 보여지듯이, 우리의 데이터셋은 현재 존재하는 시각-언어 및 비디오-언어 벤치마크를 광범위하게 포괄하며, 단순한 이미지 캡셔닝부터 이미지 콘텐츠를 넘어선 복잡한 reasoning에 이르기까지 언어 모델을 위한 다양한 기술 세트를 가능하게 한다.

3.2 Annotation Process

고품질의 멀티모달 instruction 데이터셋을 구축하기 위해, 우리는 다양한 데이터셋을 vision-to-text 형식으로 재작성한다. 어노테이션 과정은 다음 네 단계로 구성된다: (1) 각 task에 대한 instruction 작성, (2) 이미지와 텍스트를 통합된 스키마로 구조화, (3) 전체 데이터셋 품질 확인, (4) 다국어 세트 구축. 본 연구의 저자 8명은 인간 어노테이터로 고용되었으며, 각자 관련 문헌에 익숙한 대학원생들이다.

Figure 1: 우리가 제안하는 멀티모달 다국어 instruction tuning 데이터셋의 task들. 점선 흰색 상자 안의 task들은 학습 시 사용되지 않는 held-out 평가 세트이다. 이름이 굵게 표시된 task들은 80개 언어로 번역되었다.

Table 2: Instruction 통계.

Number of different instructions	400
- Image Captioning	52
- Classification	113
- Visual Question Answering	95
- Knowledgeable Visual QA	40
- Reasoning	60
- Generation	40
Tokens per instruction	$24.4 \pm 9.6$
Instruction edit distance among the same task	$76.6 \pm 37.2$
Instruction edit distance across tasks	$106.6 \pm 39.5$

Stage I: Instruction Writing
고품질의 instruction을 구축하기 위해, 우리는 먼저 어노테이터들에게 데이터셋 논문을 주의 깊게 읽고 몇몇 인스턴스를 통해 원본 데이터셋을 확인하여 task를 명확히 이해하도록 요청한다. 그 후, task의 핵심 특성을 포괄하는 10개의 다양한 task instruction을 수동으로 작성하도록 요구한다. Table 2는 각 task에 대해 작성된 instruction의 통계를 보여준다. 총 400개의 instruction을 모든 task에 대해 어노테이션하였다. instruction당 평균 길이는 24.4 토큰이다. 어노테이션된 instruction의 다양성을 평가하기 위해, 우리는 두 문자열 간의 유사도를 측정하는 평균 edit distance를 사용한다. 동일한 task 내에서의 평균 edit distance는 76.6으로, instruction 다양성이 양호한 범위임을 나타낸다.

Stage II: Data Format Unification
instruction이 task 특성에 따라 작성된 후, 우리는 통합된 인스턴스 스키마를 위해 이미지와 해당 텍스트를 추가로 처리한다. 대부분의 데이터셋에 대해, 우리는 원본 이미지와 텍스트를 유지하며, 이미지는 쉬운 데이터 로딩을 위해 해당 base64 인코딩된 문자열로 변환된다. 우리는 잠재적인 예시에 대해 두 가지 수정을 수행한다:

(1) 이미지에 Bounding Box 추가: 이미지 내 특정 영역을 위해 설계된 task의 경우, 관심 영역을 language model에 알리기 위해 자연어로 bounding box 정보를 제공하는 것이 간단한 해결책이다. 그러나 다른 vision encoder가 채택한 이미지 전처리 기술은 원본 이미지를 **크기 조정(resize)**할 수 있으며, 따라서 원본 bounding box 어노테이션은 추가 조정이 필요하다. CLIP [39]과 같은 일반적인 vision encoder가 visual prompt [43]에 민감하다는 최근 관찰에서 영감을 받아, 우리는 bounding box를 이미지에 직접 빨간색 사각형으로 태그하여, VLM이 대상 영역에 집중하도록 힌트 역할을 한다.

(2) 짧은 답변 의역(Short Answer Paraphrasing): 최근 연구에서 일반적인 VQA 데이터셋의 원본 짧고 간결한 답변이 모델 생성 성능에 부정적인 영향을 미칠 수 있음이 밝혀짐에 따라 [7], 우리는 ChatGPT [36] 모델을 활용하여 원본 질문과 답변에 잠재적인 추가 맥락 정보를 제공함으로써 원본 답변을 의역하도록 제안한다. 맥락 정보에는 원본 이미지의 캡션과 장면 관련 질문에 대한 OCR 토큰이 포함된다. 답변 의역에 사용된 prompt는 Appendix에서 찾을 수 있다. Figure 2는 우리가 데이터셋에 수행한 데이터 수정을 보여준다.

Figure 2: (왼쪽) 영역 기반 task에서, 모델에 관심 영역을 알리기 위해 원본 이미지에 bounding box가 추가된다. (오른쪽) 응답 품질 향상을 위한 짧은 답변 의역.

Stage III: Quality Check
이 단계에서는 각 task에 대해 다른 어노테이터를 배정하여 각 split에서 10개의 예시를 검토한다. 이 단계에서 우리는 task 간의 사소한 형식 불일치를 식별하고 task 형식을 표준화하여 해결한다. 또한, 일부 답변(검토된 인스턴스의 3% 미만)이 불충분한 이미지 정보로 인해 ChatGPT에 의해 효과적으로 의역되지 않았음을 관찰했다. 우리는 이러한 의역된 답변을 필터링하기 위해 간단한 휴리스틱을 사용하고, 원본 답변을 문장으로 변환하기 위해 기본 템플릿을 사용한다. 우리는 이 작은 부분의 의역 실패 답변이 무시할 수 있는 영향을 미친다는 것을 발견했다. 마지막으로, 어노테이터가 성공적으로 데이터셋을 로드하고 검토된 각 인스턴스의 instruction, 입력 및 출력의 정확성을 재확인할 수 있을 때 task 데이터셋은 완료된 것으로 간주된다.

Stage IV: Key Datasets Translation
언어 다양성을 높이고 다양한 언어에 걸쳐 평가를 지원하기 위해, 우리는 다양한 task를 포괄하는 데이터셋의 하위 집합(OK-VQA, ImageNet, Winoground, VQAv2, VIST, MSRVTT 및 MSRVTT-QA)을 선택하고, FLORES-101 [13]에 따라 해당 평가 데이터를 100개 언어로 번역한다. 첫 번째 버전에서는 각 task의 각 split에 대해 500개의 샘플을 번역한다. 향후 더 많은 다국어 샘플이 지원될 예정이다. 우리는 번역을 위해 state-of-the-art 오픈 다국어 번역 모델 중 하나인 distillation 버전 NLLB-1.3B [6]를 채택한다. 다양한 언어에 대한 원어민이 없으므로, 번역 품질을 보장하기 위해 자동 필터링 메커니즘을 채택하며, FLORES-101 결과를 기반으로 영어로부터의 번역 BLEU 점수가 20보다 큰 언어만 유지된다. 이 단계 후, 80개 언어만 유지된다 (자세한 언어 이름은 Appendix 참조).

3.3 Dataset Format

우리 데이터셋의 각 인스턴스는 다섯 가지 필드로 구성된다: (1) Images: 잠재적으로 바운딩 박스가 추가된 이미지를 base64 문자열로 표현한다. (2) Instruction: 각 인스턴스에 대해 task instruction pool에서 무작위로 instruction을 선택한다. (3) Inputs: 이 필드는 모델에 제공되는 task-specific 입력(예: VQA task의 질문)을 위해 할당된다. captioning과 같은 task의 경우 추가 입력이 없으므로 해당 필드는 빈 문자열로 남겨진다. (4) Outputs: captioning task의 이미지 설명이나 이미지 관련 질문에 대한 답변과 같이 특정 task에 필요한 출력이다. (5) Meta Data: 원본 데이터셋을 참조하기 위한 이미지 ID와 같은 중요한 정보를 보존하기 위해 이 필드를 제공한다.

Figure 3은 통합 형식의 인스턴스를 보여준다. 이러한 필드들의 명확한 구분을 통해, 우리 벤치마크의 사용자는 필요한 학습 인스턴스를 유연하게 구성하고 모델을 편리하게 평가할 수 있다. Table 3은 task별로 집계된 통계를 제공하며, 자세한 통계 및 각 데이터셋의 라이선스는 Appendix를 참조하라.

Figure 3: 우리 데이터셋에서 사용된 통합 데이터 인스턴스 스키마로 표현된 ViQuAE 인스턴스.

Table 3: $\mathrm{M}^{3}$ IT task 설명 및 통계. 이미지 캡셔닝(CAP), 분류(CLS), 시각 질문 답변(VQA), 지식 기반 시각 질문 답변(KVQA), 추론(REA), 생성(GEN), 중국어 vision-language, 그리고 비디오-언어 task를 포함한다. 학습, 검증, 테스트 세트의 인스턴스 수를 모든 task에 걸쳐 집계하였으며, 총 2,429,264개의 인스턴스이다.

Task	Description	Total #samples
		Train	Val	Test
CAP	Given an image, write a description for the image.	679,087	41,462	27,499
CLS	Given an image, classify the image into pre-defined categories.	238,303	100,069	21,206
VQA	Given an image, answer a question relevant to the image.	177,633	46,314	10,828
KVQA	Given an image, answer the question requires outside knowledge.	39,981	11,682	5,477
REA	Given an image, conduct reasoning over the images.	99,372	11,500	10,000
GEN	Given an image, make compositions with certain requirements.	145,000	11,315	17,350
Chinese	CAP, CLS, VQA, and GEN tasks in Chinese.	192,076	77,306	4,100
Video	CAP, CLS, and VQA tasks on video-language datasets.	20,868	7,542	9,294
Multi-lingual	Translated tasks in 80 languages	0	240,000	184,000

4 Experiments

이 섹션에서는 멀티모달 에이전트를 위한 제안된 $\mathrm{M}^{3}$ IT 데이터셋의 효과를 검증하기 위해 VLM을 구축한다. 먼저 실험 설정을 소개하고(§4.1), 이어서 결과를 보고하고 논의한다(§4.2). 마지막으로 task 수와 instruction 다양성의 영향을 분석하고, 정성적 결과를 제시한다(§4.3).

4.1 Experimental Settings

구현 세부 사항 (Implementation Details)
최근 BLIP [23]의 성공에 영감을 받아, 우리는 이미지에서 관련 visual feature를 추출하기 위해 BLIP2-OPT-2.7B [23] 모델의 vision encoder와 Q-former 아키텍처를 채택한다. 대규모 language model로는 LLaMA [49]에서 파생된 Ziya-13B [61]를 활용하며, 이는 이중 언어(영어 및 중국어) 능력을 갖추고 있다. 우리는 두 단계의 학습을 사용한다.

Stage I: Visual-Text Alignment
시각 및 텍스트 feature 공간을 정렬하기 위해, 우리는 COCO captioning의 지침을 활용하고 LAION 400M [41] 데이터셋에서 초기 정렬 학습을 수행한다. 이 단계에서는 Q-former와 language projection을 학습시키며, 총 1억 3천만 개의 파라미터를 AdamW [30]로 최적화한다. 배치 크기는 GPU 활용을 극대화하기 위해 256으로 설정하고, 모델은 30만 스텝 동안 학습된다. 학습률은 처음 2000 스텝 동안 $5e-5$ 의 최고 값으로 선형적으로 증가한 후 cosine decay scheduler를 따른다. Weight decay는 0.05로 설정된다.

Stage II: Multi-modal Instruction Tuning
LLM의 잠재력을 활성화하기 위해, 우리는 벤치마크에서 멀티모달 instruction tuning을 추가로 수행한다. 정렬 학습 후 모델을 3 epoch 동안 학습시키며, 더 낮은 학습률인 $1e-5$ 와 1000 스텝의 warmup 단계를 사용한다. LoRa tuning [16]에서 영감을 받아, 이 단계에서는 LLM의 attention layer에서 query 및 value 벡터를 매핑하는 가중치를 학습 가능하게 설정하여 instruction tuning 데이터셋에 더 잘 적응하도록 한다. 다른 학습 파라미터는 Stage I과 동일하다. 모든 실험은 8개의 NVIDIA 80GB A100 GPU로 수행되었다. Stage I은 약 10일이 소요되었고, Stage II는 하루 만에 완료될 수 있었다.

Table 4: KVQA task의 ROUGE-L 평가 결과. 우리의 Ying-VLM은 모든 baseline을 일관되게 능가한다.

Model	OK-VQA	A-OKVQA	ViQuAE
BLIP2-Flan-T5-XXL	9.1	15.6	9.7
MiniGPT4	23.3	21.8	24.4
InstructBLIP	7.1	5.9	7.3
Ying-VLM (Ours)	$\mathbf{27.5}$	$\mathbf{24.5}$	$\mathbf{29.6}$

Table 5: 중국어 vision-language task로의 zero-shot 전이. 우리 모델은 보지 못한 중국어 captioning, VQA 및 classification task에서 가장 높은 ROUGE-L 점수로 잘 일반화된다.

Model	Flickr-8k-CN	FM-IQA	Chinese-FoodNet
MiniGPT4	9.6	20.1	5.0
InstructBLIP	5.2	2.3	1.0
Ying-VLM (Ours)	$\mathbf{20.5}$	$\mathbf{33.3}$	$\mathbf{49.8}$

Table 6: 비디오-언어 task로의 zero-shot 전이. 모든 task에 대한 ROUGE-L 점수를 보고한다.

Model	Video Captioning	Video Question Answer
	MSRVTT	iVQA	ActivityNet-QA	MSRVTT-QA	MSVD-QA
BLIP-2-Flan-T5-XXL	8.8	11.1	8.9	10.3	13.2
InstructBLIP	$\mathbf{14.3}$	6.3	9.3	4.0	7.0
Ying-VLM (Ours)	14.2	$\mathbf{23.5}$	$\mathbf{21.9}$	$\mathbf{18.3}$	$\mathbf{21.4}$

평가 설정 (Evaluation Setup)
instruction tuning의 일반화 능력을 검증하기 위해, 일부 task는 평가를 위해 held-out되었다 (held-in/out task는 Figure 1 참조). 우리는 다음 연구 질문에 관심이 있다: (RQ1) 멀티모달 instruction tuning이 LLM으로부터 세계 지식(world knowledge)을 이끌어낼 수 있는가? (RQ2) 영어 전용 instruction tuning이 중국어와 같은 다른 언어로 일반화될 수 있는가? (RQ3) 이미지 전용 멀티모달 instruction tuning이 비디오-언어 task로 일반화될 수 있는가? RQ1을 위해, 우리는 데이터셋의 세 가지 KVQA task, 즉 OK-VQA [32], A-OKVQA [42], ViQuAE에서 모델을 평가한다. RQ2와 RQ3을 위해, 우리는 각각 중국어 vision-language 및 비디오-언어 데이터셋에 대한 zero-shot 전이 평가를 수행한다. 특별한 언급이 없는 한, 추론 시에는 greedy decoding을 사용한다.

평가 지표 (Metrics)
우리는 예측과 ground-truth 답변 간의 일관성을 평가하기 위한 자동 지표로 ROUGE-L [26]을 채택하며, 모델의 대화 능력 평가에 중점을 둔다. 자동 지표가 대화 품질의 미묘한 차이를 완전히 포착하지 못할 수 있으므로, 우리는 GPT-4를 인간 평가자의 대리인으로 추가 도입한다 (§ 4.2).

Baseline 모델 (Baselines)
우리는 우리의 모델을 최근 제안된 강력한 멀티모달 에이전트들과 비교한다: (1) BLIP-2-Flan-T5-XXL [23]: instruction-tuned된 Flan-T5 [53]가 강력한 vision encoder와 연결되어 일련의 멀티모달 task를 수행한다. (2) MiniGPT-4: CLIP visual encoder를 인공적으로 수집된 대화 데이터셋으로 frozen된 Vicuna [5]와 정렬시킨다. (3) InstructBLIP: 최근 제안된 instruction tuning이 강화된 멀티모달 에이전트로, Vicuna-13B와 변환된 멀티모달 데이터셋 및 GPT-4에 의해 생성된 LLaVA [28] 데이터셋을 사용한다.

4.2 Main Results

RQ1: 지식 기반 Visual Question Answer 평가
KVQA 벤치마크 결과는 Table 4에 제시되어 있다. 가장 강력한 baseline과 비교했을 때, 우리 모델은 OK-VQA에서 3.2 ROUGE-L 포인트, A-OKVQA에서 2.7 ROUGE-L 포인트의 성능 향상을 달성했다. 또한, Ying-VLM은 held-out ViQuAE 데이터셋에서 최고의 성능을 보인다. 이러한 결과는 $\mathrm{M}^{3}$ IT에 대한 instruction tuning이 LLM으로부터 지식을 효과적으로 활용하고 응답 품질을 향상시킨다는 것을 나타낸다.

RQ2: 중국어 Vision-Language Task로의 Zero-Shot 전이
우리는 instruction tuning의 교차 언어 일반화 능력을 조사하기 위해 세 가지의 이전에 보지 못한 중국어 vision-language task에서 모델을 평가했다. BLIP-2는 Flan-T5가 중국어를 지원하지 않으므로 고려하지 않았다. Table 5에 나타난 바와 같이, 우리 모델은 평가된 모든 task에서 MiniGPT4와 InstructBLIP을 능가하며, 주목할 만한 개선을 보여준다. 이러한 결과는 영어 데이터셋을 사용한 instruction tuning이 다른 언어에도 효과적으로 일반화될 수 있음을 나타내며, 추가 탐색의 유망한 잠재력을 보여준다.

RQ3: 비디오-언어 Task로의 Zero-Shot 전이
비디오-언어 task에서의 성능을 평가하기 위해, 우리는 각 비디오에서 8개의 프레임을 균일하게 샘플링한다. MiniGPT4는 비디오 입력을 지원하지 않으므로 비교에서 제외되었다. InstructBLIP [7]의 접근 방식을 따라, 우리는 각 프레임의 Q-former에서 추출된 visual embedding을 language model의 prefix embedding으로 연결한다. Table 6에서 보여지듯이, 우리 모델은 이러한 도전적인 설정에서 뛰어난 성능을 보이며, BLIP-series baseline을 크게 능가한다. 학습 데이터셋에 비디오와 같은 시각 입력이 포함되지 않았다는 점은 주목할 만하다. 이는 우리의 instruction tuning이 모델이 시간적 차원을 가진 비디오 입력으로 일반화하는 데 효과적으로 도움이 된다는 것을 의미한다.

Figure 4: GPT-4를 평가자로 사용한 평가 결과. 우리 모델은 MiniGPT-4와 InstructBLIP을 각각 55.6% 및 65.5%의 승률로 능가한다.

GPT-4 평가 결과
생성된 응답의 품질을 추가로 검증하기 위해, 우리는 강력한 GPT-4 모델을 인간 평가자의 대리자 [38, 12]로 활용할 것을 제안한다. 구체적으로, Vicuna [5]를 따라, 우리는 GPT-4를 사용하여 다양한 모델의 성능을 우리 Ying-VLM과 비교하여 평가한다. GPT-4 API 비용을 고려하여, OK-VQA, A-OKVQA, ViQuAE 데이터셋에서 300개의 예시를 무작위로 샘플링하여 평가용 서브셋으로 사용한다. 각 샘플에 대해, 원래 질문, 해당 참조 답변, 우리 Ying-VLM이 생성한 응답, 그리고 baseline 시스템 출력으로 구성된 prompt를 구성한다. GPT-4는 주어진 질문과 참조 답변을 기반으로 두 응답을 10점 척도로 평가하도록 쿼리된다. 평가는 주로 응답의 정확성, 관련성, 자연스러움을 기반으로 하며, 이는 인간이 멀티모달 에이전트와 상호작용할 때의 요구 사항을 충족시키기 위함이다 (자세한 평가 템플릿은 Appendix 참조). 우리는 응답 순서에 대한 잠재적 평가 편향을 완화하기 위해 Wang et al. [51]이 제안한 전략을 사용한다. Figure 4는 우리 Ying-VLM이 대부분의 샘플에서 모든 baseline 모델을 능가함을 보여준다. 특히, Ying-VLM은 테스트된 300개 샘플 중 167개에서 가장 강력한 baseline인 MiniGPT4를 능가했다. 이전 ROUGE-L 평가와 일관되게, 이 결과는 우리의 instruction 데이터셋으로 fine-tuning된 모델이 도전적인 KVQA task에서 더 정확하고 매력적인 응답을 생성할 수 있음을 나타낸다.

4.3 Analysis

우리는 학습된 모델의 성능에 대한 task 수와 instruction 다양성의 영향을 조사하여, 향후 연구들이 우리 벤치마크를 더 잘 활용할 수 있도록 통찰력을 제공한다.

Figure 5: 더 많은 instruction tuning 데이터셋을 사용할수록 성능이 증가한다.

Figure 6: 학습에 사용된 instruction 수의 변화에 따라 성능이 달라진다.

Figure 7: 모델 출력의 사례 연구.
정답은 녹색으로 굵게 표시되었고, 오답은 빨간색, 관련 없는 답변은 회색으로 표시되었다. 우리 데이터셋으로 학습된 모델은 개체 중심 질문에 대해 자연스럽고 유익한 답변을 제공할 수 있으며, 중국어 음식 분류 task에도 일반화된다 (시각화를 위한 영어 번역만 제공).

Task 수의 영향 (Effect of Task Number)
우리는 task들을 무작위로 섞은 다음, instruction tuning 단계에서 모델을 학습시키기 위한 부분집합을 선택하여 task 수의 영향을 조사한다. 계산 자원 제약으로 인해, 각 task당 최대 5,000개의 예시를 설정하고, 모든 모델을 batch size 64로 5,000 step 동안 학습시킨다. 학습을 위해 0, 4, 8, 16개 및 전체 27개 task를 선택하고, 개별 ROUGE-L 점수와 평균 점수를 보고한다. Figure 5에서 볼 수 있듯이, task 수가 증가할수록 일반화 성능이 크게 향상된다. 또한, task 수가 증가하더라도 성능 향상이 줄어들지 않는다. 이는 더 많은 task를 학습에 도입함으로써 지속적으로 성능을 향상시킬 수 있음을 나타내므로 매우 고무적이다. 다양한 task 클러스터의 영향을 조사하는 것은 흥미로운 연구가 될 것이며, 이는 향후 연구로 남겨둔다.

Instruction 다양성의 영향 (Effect Instruction Diversity)
instruction 다양성의 영향을 조사하기 위해, 각 데이터셋에서 사용되는 instruction 수를 1, 2, 4, 8개로 제한하여 각 task에 대한 다양성 수준을 변화시켰다. 다른 학습 파라미터는 task 수 조사에 사용된 이전 실험과 동일하게 유지되었다. Figure 6은 다양성 수준에 따라 성능이 달라짐을 보여준다. 구체적으로, 우리 결과는 task당 4개의 instruction을 사용하는 것이 적절한 성능을 달성하기에 충분함을 시사한다. instruction 다양성에 대한 더 심층적인 분석은 향후 연구로 남겨둔다.

정성적 결과 (Qualitative Results)
우리는 instruction-tuned 모델에 대한 더 직관적인 이해를 제공하기 위해 사례 연구를 수행한다. 사례는 held-out ViQuAE 및 ChineseFoodNet 데이터셋에서 선택되었다. Figure 7에서 볼 수 있듯이, 우리 모델은 모든 질문에 대해 정확한 답변을 생성한다. 대조적으로, MiniGPT4는 왼쪽의 경기장 질문에 대해 오답을 생성하고, 이후 사례에서는 지시를 따르지 못하고 일반적인 이미지 설명을 제공한다. 또한, 외부 지식을 요구하는 두 질문에 대해 간결하지만 덜 매력적인 답변을 제공하는 InstructBLIP과 비교할 때, 우리 모델은 더 자연스럽고 매력적인 답변을 제공하여 우리 데이터셋의 가치를 강조한다. 우리 모델은 또한 중국어 입력에도 성공적으로 일반화되어, 지시에 따라 음식 이미지를 정확하게 분류한다. 이러한 사례들은 instruction tuning의 중요성을 강조하며, 우리 데이터셋이 VLM의 능력을 효과적으로 향상시킬 수 있음을 보여준다.

5 Conclusion

본 논문에서는 멀티모달 대규모 언어 모델(multi-modal large language models) 개발을 지원하기 위한 **멀티모달 다국어 instruction tuning 데이터셋인 $\mathrm{M}^{3} \mathrm{IT}$ **를 소개한다. 이 데이터셋은 40개의 task에 걸쳐 240만 개의 신중하게 선별된 인스턴스와 400개의 수동으로 작성된 task instruction으로 구성된다. 우리는 이 데이터셋의 효과를 검증하기 위해 Ying-VLM을 구축하였다.

정량적 및 정성적 결과는 우리 데이터셋으로 학습된 모델이 사람의 지시를 성공적으로 따르고, 더 매력적인 응답을 제공하며, 이전에 보지 못한 비디오 및 중국어 task에서 강력한 일반화 성능을 달성함을 보여준다. 추가 분석에 따르면 task 수가 증가할수록 성능이 지속적으로 향상될 수 있으며, instruction의 다양성이 결과에 영향을 미칠 수 있다. 우리는 제안하는 벤치마크, 학습된 모델, 그리고 실험 결과가 강력한 멀티모달 지능형 에이전트를 구축하기 위한 향후 연구를 촉진할 수 있기를 기대한다.

A Dataset Statistics

Table 7: 우리의 instruction tuning task에 대한 상세한 task 설명 및 통계. 모든 유형의 task에 포함된 모든 데이터셋을 포함한다. "Used" 열은 instruction tuning 단계에서 이 데이터셋을 사용했는지 여부를 나타낸다.

Task	Dataset	Used	#samples			License
Captioning	MS COCO [27]	Yes	566,747	25,010	25,010	Custom
	TextCaps [44]	Yes	97,765	13,965	0	Unknown
	Image-Paragraph-Captioning [21]	Yes	14,575	2,487	2,489	Custom
Classification	COCO-GOI [27]	Yes	30,000	2,000	0	Custom
	COCO-Text [50	Yes	118,312	27,550	0	Custom
	ImageNet [40]	Yes	30,000	50,000	0	Non-commercial
	COCO-ITM [27]	Yes	30,000	5,000	5,000	Custom
	e-SNLI-VE [20]	Yes	20,000	14,339	14,740	Unknown
	Mocheg [58]	Yes	4,991	180	466	CC BY 4.0
	IQA [9]	Yes	5,000	1,000	1,000	Custom
VQA	VQA v2 [15]	Yes	30,000	30,000	0	CC-BY 4.0
	Shapes VQA [1]	Yes	13,568	1,024	1,024	Unknown
	DocVQA [33]	Yes	39,463	5,349	0	Unknown
	OCR-VQA [34]	Yes	11,414	4,940	0	Unknown
	ST-VQA [2]	Yes	26,074	0	4,070	Unknown
	Text-VQA [45]	Yes	27,113	0	5,734	CC BY 4.0
	GQA [18]	Yes	30,001	5,001	0	CC BY 4.0
KVQA	OK-VQA [32]	Yes	9,009	5,046	0	Unknown
	A-OK-VQA [42]	Yes	17,056	1,145	0	Unknown
	ScienceQA [31	Yes	12,726	4,241	4,241	CC BY-NC-SA
	ViQuAE [22]	No	1,190	1,250	1,236	CC By 4.0
Reasoning	CLEVR [19]	Yes	30,000	2,000	0	CC BY 4.0
	NLVR [46	Yes	29,372	2,000	0	Unknown
	VCR [60]	Yes	25,000	5,000	5,000	Custom
	VisualMRC [47]	Yes	15,000	2,500	5,000	Unknown
	Winoground [48]	No	0	0	800	Unknown
Generation	Visual Storytelling [17]	Yes	5,000	4,315	4,350	Unknown
	Visual Dialog [8]	Yes	50,000	1,000	1,000	CC By 4.0
	Multi30k [10]	Yes	90,000	6,000	12,000	Non-commercial
Chinese	FM-IQA [11]	No	164,735	75,206	0	Unknown
	COCO-Caption CN 125	No	18,341	1,000	1,000	Non-commercial
	Flickr-8k-Caption CN [24]	No	6,000	1,000	1,000	CC By 3.0
	Chinese Food Classification [4]	No	0	0	1,100	Unknown
	Multimodal Chat 62	No	3,000	1,000	1,000	Unknown
Video	Action-Classification [14]	No	2,000	2,000	2,000	Custom
	iVQA [57]	No	5,994	2,000	2,000	Unknown
	MSVD QA [54]	No	1,161	245	504	Unknown
	ActivityNet QA [59]	No	3,200	1,800	800	Unknown
	MSRVTT QA [54]	No	6,513	497	2,990	Unknown
	MSRVTT Captioning [55]	No	2,000	1,000	1,000	Unknown

Table 7은 우리 벤치마크의 상세 통계를 나열한다. 우리는 PaperWithCode에서 데이터셋 라이선스를 수집했다. Unknown 및 Custom 라이선스 데이터셋의 경우, 사용자는 사용 전에 프로젝트 페이지를 확인하거나 데이터셋 소유자에게 문의할 것을 권장한다.

B Template for Answer Paraphrase

우리는 ChatGPT에 원본 짧은 답변을 다시 작성하도록 쿼리하기 위한 paraphrase 템플릿을 Table 8에 제공한다. 여기서 $\{\mathrm{Q}\}$ 와 $\{\mathrm{A}\}$ 는 각각 질문과 paraphrase해야 할 답변으로 채워진다. 우리는 모델에 paraphrase task를 더 잘 알리기 위해 예시를 포함한다. VQAv2 task의 경우, paraphrase에 도움이 되는 추가적인 context 정보를 제공하기 위해 해당 COCO 데이터셋의 caption으로 채워진 추가적인 {Caption} 필드를 템플릿에 추가한다.

Table 8: 답변 paraphrase를 위해 ChatGPT에 쿼리하는 데 사용된 템플릿.

You are an AI visual assistant. Now you are given a question related to an image and a short ground-truth answer. Your task is to transform the ground-truth answer into a natural and convincing response. Make sure the response is accurate, highly relevant to the question, and consistent with the original answer.
Question:
Which NASA space probe was launched to this planet in 1989 ?
Answer:
Magellan
Transformed Answer:
NASA sent the Magellan spacecraft to Venus in 1989, which was the first planetary spacecraft launched from a space shuttle.
Question:
\{\mathrm{Q}\}
Answer:
\{A\}
Transformed Answer:

C Dataset Translation

우리는 ImageNet, Winoground, VQAv2, OKVQA, VIST, MSRVTT, MSRVTT-QA의 모든 task instruction과 evaluation set을 Table 9에 나타난 바와 같이 80개 언어로 번역하였다. 계산 자원 제약으로 인해, Winoground의 전체 테스트 세트(800개 예시)는 모두 번역하였고, 다른 task의 각 split에 대해서는 최대 500개의 인스턴스 수로 제한하였다.

D Prompt for Zero-Shot Chinese Vision-Language Tasks

실험에서 모든 Vision-Language 모델은 오직 영어 데이터만을 사용하여 fine-tuning되었다. 예비 연구에서 우리는 입력과 지시가 중국어로 작성되었음에도 불구하고, 이 모델들이 영어 응답을 생성하는 경향이 있음을 관찰했다.
이에 우리는 모든 모델의 zero-shot 중국어 Vision-Language Task 평가 시, Table 10에 나타난 바와 같이 간단한 중국어 대화 맥락(dialogue context)을 도입하였다. 흥미롭게도, 이러한 작은 조정만으로도 모델이 합리적인 중국어 출력을 생성하도록 유도할 수 있었다.
instruction-tuned VLM 모델의 다국어 능력에 대한 분석은 향후 연구 과제로 남겨둔다.

E Template for GPT-4 Evaluation

우리는 Table 11의 템플릿을 사용하여 GPT-4에 쿼리하고, FairEval을 통해 평가 결과를 얻어 더 안정적인 결과를 확보한다. 구체적으로, 각 테스트 인스턴스는 **(question, reference, response1, response2)**의 쿼터니언(quaternion) 형태를 가진다. 여기서 response1은 우리의 Ying-VLM 모델의 응답이고, response2는 baseline 모델의 응답이다. 각 인스턴스에 대해 GPT-4에 쿼리하여 정확성(accuracy), 관련성(relevance), 자연스러움(naturalness) 측면에서 어떤 응답이 더 나은 품질을 가지는지 판단한다. 우리는 이 쿼터니언을 평가 템플릿에 채워 넣어 다음과 같은 두 가지 쿼리 prompt를 구성한다:

[^4]Table 9: 번역된 데이터셋의 언어 코드, 스크립트, 언어 이름 목록.

Language Code	Script	Language Name
af	amh_Ethi	Afrikaans
ar	arb_Arab	Modern Standard Arabic
as	asm_Beng	Assamese
ast	ast_Latn	Asturian
be	bel_Cyrl	Belarusian
bg	bul_Cyrl	Bulgarian
bn	ben_Beng	Bengali
bs	bos_Latn	Bosnian
ca	cat_Latn	Catalan
ceb	ceb_Latn	Cebuano
cs	ces_Latn	Czech
cy	cym_Latn	Welsh
da	dan_Latn	Danish
de	deu_Latn	German
el	ell_Grek	Greek
es	spa_Latn	Spanish
et	est_Latn	Estonian
fi	fin_Latn	Finnish
fr	fra_Latn	French
fuv	fuv_Latn	Nigerian Fulfulde
gl	glg_Latn	Galician
gu	guj_Gujr	Gujarati
ha	hau_Latn	Hausa
he	heb_Hebr	Hebrew
hi	hin_Deva	Hindi
hr	hrv_Latn	Croatian
hu	hun_Latn	Hungarian
hy	hye_Armn	Armenian
id	ind_Latn	Indonesian
ig	ibo_Latn	Igbo
is	isl_Latn	Icelandic
it	ita_Latn	Italian
ja	jpn_Jpan	Japanese
jv	jav_Latn	Javanese
ka	kat_Geor	Georgian
kk	kaz_Cyrl	Kazakh
km	khm_Khmr	Khmer
kn	kan_Knda	Kannada
ko	kor_Hang	Korean
ky	kir_Cyrl	Kyrgyz
lb	ltz_Latn	Luxembourgish
lg	lug_Latn	Ganda
lij	lij_Latn	Ligurian
li	lim_Latn	Limburgish
ln	lin_Latn	Lingala
lo	lao_Laoo	Lao
lt	lit_Latn	Lithuanian
lv	lvs_Latn	Standard Latvian
mi	mri_Latn	Maori
mk	mkd_Cyrl	Macedonian
ml	mal_Mlym	Malayalam
mr	mar_Deva	Marathi
mt	mlt_Latn	Maltese
my	mya_Mymr	Burmese
nl	nld_Latn	Dutch
ny	nya_Latn	Nyanja
oc	oci_Latn	Occitan
pa	pan_Guru	Eastern Panjabi
pl	pol_Latn	Polish
pt	por_Latn	Portuguese
ro	ron_Latn	Romanian
ru	rus_Cyrl	Russian
sd	snd_Arab	Sindhi
sk	slk_Latn	Slovak
sn	sna_Latn	Shona
so	som_Latn	Somali
sr	srp_Cyrl	Serbian
sv	swe_Latn	Swedish
ta	tam_Taml	Tamil
te	tel_Telu	Telugu
tg	tgk_Cyrl	Tajik
th	tha_Thai	Thai
tl	tgl_Latn	Tagalog
tr	tur_Latn	Turkish
uk	ukr_Cyrl	Ukrainian
ur	urd_Arab	Urdu
vi	vie_Latn	Vietnamese
wo	wol_Latn	Wolof
zh	zho_Hans	Chinese (Simplified)

$\mathrm{T}(\mathrm{Q}=$ question, $\mathrm{R}=$ reference, $\mathrm{R}1=$ response1, $\mathrm{R}2=$ response2)와 $\mathrm{T}(\mathrm{Q}=$ question, $\mathrm{R}=$ reference, $\mathrm{R}1=$ response2, $\mathrm{R}2=$ response1). 우리는 GPT-4의 temperature를 1로 설정하고, 각 쿼리 prompt에 대해 세 개의 completion을 샘플링한다. 따라서 각 응답은

Table 10: 중국어 출력을 유도하기 위한 Prompt.

<human>: 请根据我的指示,以及所给的图片,做出相应的回答。
<bot>:
好的。
<human>:
{Instruction}
{Input}
<bot>:
好的。

총 6개의 점수를 받게 되며, 우리는 이 점수들의 평균을 각 응답의 최종 점수로 사용한다. 최종 점수가 더 높은 응답이 더 나은 응답으로 간주된다. GPT-4 평가에 소요된 비용은 InstructBlip의 경우 $20.45, MiniGPT-4의 경우$ 20.90였다.

Table 11: 다양한 모델의 응답 품질을 평가하기 위해 GPT-4에 쿼리하는 데 사용된 템플릿.

[Question]
\(\{\mathrm{Q}\}\)
[The Start of Reference Answer]
\{R\}
[The End of Reference Answer]
[The Start of Assistant 1's Answer]
\{R1\}
[The End of Assistant 1's Answer]
[The Start of Assistant 2's Answer]
\{R2\}
[The End of Assistant 2's Answer]
[System]
We would like to request your feedback on the performance of two AI assistants in response
to the user's multimodal question displayed above. We provided no multimodal inputs other
than question text, but we provided a reference answer for this question. You need to evaluate
the quality of the two responses based on the question and the reference answer.
Please rate the on the follow aspects:
1. Accuracy: whether the candidate's response is consistent with the original answer, this is
important as we do not want a misleading result;
2. Relevance: whether the candidate's response is highly relevant to the question and image
content;
3. Naturalness: whether the candidate's response is engaging, providing a great communica- tion experience for the user when interacting with the AI visual assistant． of the two Assistants＇responses．
Each assistant receives an overall score on a scale of 1 to 10 ，where a higher score indicates better overall performance．
Please first provide a comprehensive explanation of your evaluation，avoiding any potential bias and ensuring that the order in which the responses were presented does not affect your judgment．
Then，output two lines indicating the scores for Assistant 1 and 2，respectively．
Output with the following format：
Evaluation evidence：＜evaluation explanation here＞
The score of Assistant 1：＜score＞
The score of Assistant 2：＜score＞

M³IT: 대규모 다중모드 다국어 Instruction Tuning 데이터셋

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성

5. 추가 참고 자료

Abstract

1 Introduction

3.1 Task Coverage

3.2 Annotation Process

3.3 Dataset Format

4 Experiments

4.1 Experimental Settings

4.2 Main Results

4.3 Analysis

5 Conclusion

A Dataset Statistics

B Template for Answer Paraphrase

C Dataset Translation

D Prompt for Zero-Shot Chinese Vision-Language Tasks

E Template for GPT-4 Evaluation

논문 요약: M³IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

1. 연구 배경 및 문제 정의

2. 주요 기여 및 제안 방법

3. 실험 결과

4. 개인적인 생각 및 응용 가능성

5. 추가 참고 자료

M 3{ }^{3}3 IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

Abstract

1 Introduction

2 Related Work

3 M 3^{3}3 IT: A Multi-Modal Multilingual Instruction Tuning Dataset

3.1 Task Coverage

3.2 Annotation Process

3.3 Dataset Format

4 Experiments

4.1 Experimental Settings

4.2 Main Results

4.3 Analysis

5 Conclusion

A Dataset Statistics

B Template for Answer Paraphrase

C Dataset Translation

D Prompt for Zero-Shot Chinese Vision-Language Tasks

E Template for GPT-4 Evaluation

M ${ }^{3}$ IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

3 M $^{3}$ IT: A Multi-Modal Multilingual Instruction Tuning Dataset