Wang, Peng, et al. "Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework." International conference on machine learning. PMLR, 2022.

OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

Figure 1: OFA가 지원하는 다양한 task의 예시.

Abstract

본 연구에서는 복잡한 task/modality-specific 맞춤화의 틀을 깨기 위해 멀티모달 사전학습을 위한 통합된 패러다임을 추구한다. 우리는 Task Comprehensiveness를 지원하는 Task-Agnostic 및 Modality-Agnostic 프레임워크인 OFA를 제안한다. OFA는 이미지 생성, visual grounding, 이미지 캡셔닝, 이미지 분류, 언어 모델링 등 다양한 cross-modal 및 unimodal task를 단순한 sequence-to-sequence 학습 프레임워크로 통합한다. OFA는 사전학습 및 fine-tuning 단계 모두에서 instruction-based learning을 따르므로, 다운스트림 task를 위한 추가적인 task-specific layer가 필요하지 않다.
극도로 큰 cross-modal 데이터셋에 의존하는 최근의 state-of-the-art vision & language 모델들과 비교하여, OFA는 2천만 개의 공개된 이미지-텍스트 쌍으로만 사전학습되었다. 이러한 단순함과 상대적으로 적은 규모의 학습 데이터에도 불구하고, OFA는 일련의 cross-modal task에서 새로운 SOTA를 달성하는 동시에 uni-modal task에서도 매우 경쟁력 있는 성능을 보인다. 추가 분석에 따르면 OFA는 미지의 task 및 미지의 도메인으로도 효과적으로 전이될 수 있다. 우리의 코드와 모델은 https://github.com/OFA-Sys/OFA에서 공개적으로 이용 가능하다.

Keywords Unified frameworks $\cdot$ Multimodal pretraining $\cdot$ Multitask learning $\cdot$ Zero-shot learning

1 Introduction

인공지능 커뮤니티에서 인간처럼 다양한 task와 modality를 처리하는 전능한(omnipotent) 모델을 구축하는 것은 매력적인 목표이다. 이 목표 달성 가능성은 방대한 종류의 modality, task, 학습 방식이 단일 모델이나 시스템으로 통합 및 관리될 수 있는 몇 가지 형태로 표현될 수 있는지 여부에 크게 좌우될 수 있다.
최근 Transformer [1] 아키텍처의 발전은 **범용 계산 엔진(universal computation engine)**으로서의 잠재력을 보여주었다 [2, 3, 4, 5, 6, 7, 8]. 지도 학습(supervised learning) 환경에서는 "pretrain-finetune" 패러다임이 많은 분야에서 뛰어난 성공을 거두었다. few-/zero-shot learning 환경에서는 prompt/instruction tuning을 적용한 language model이 강력한 zero-/few-shot 학습자임을 입증했다 [3, 9, 10]. 이러한 발전은 전능 모델(omni-model)의 출현을 위한 그 어느 때보다 중요한 기회를 제공했다.

멀티태스크 성능과 사용 편의성을 유지하면서 open-ended 문제에 대한 더 나은 일반화 능력을 지원하기 위해, 우리는 전능 모델이 다음 세 가지 속성을 가져야 한다고 주장한다:

Task-Agnostic (TA): 분류, 생성, self-supervised pretext task 등 다양한 유형의 task를 지원하고, pretraining 또는 finetuning에 구애받지 않는 통합된 task 표현.
Modality-Agnostic (MA): 모든 task에서 공유되는 통합된 입력 및 출력 표현으로 다양한 modality를 처리.
Task Comprehensiveness (TC): 일반화 능력을 견고하게 축적하기 위한 충분한 task 다양성.

그러나 이러한 속성들을 만족시키면서도 다운스트림 task에서 우수한 성능을 유지하는 것은 도전적인 과제이다. 현재의 language 및 multimodal 사전학습 모델들은 다음과 같은 설계 선택으로 인해 이러한 속성 중 일부에서 쉽게 실패한다.

Finetuning을 위한 추가 학습 가능 구성 요소: 예를 들어, task-specific head [2], adapter [11], soft prompt [12] 등이 있다. 이는 모델 구조를 task-specific하게 만들고 pretraining과 finetuning 사이에 불일치(discrepancy)를 야기한다. 이러한 설계는 미학습 task를 zero-shot 방식으로 지원하는 데에도 적합하지 않다.
Task-specific한 정식화(formulation): 대부분의 현재 방법에서 pretraining, finetuning, zero-shot task는 일반적으로 task 정식화 및 학습 목표가 서로 다르다. 이는 TA를 위반하며, TC를 달성하기 위해 task 수를 늘리는 데 부담이 된다.
Modality 표현과 다운스트림 task의 얽힘(entangling): Vision-Language 모델에서 감지된 객체(detected objects)를 이미지 입력 feature의 일부로 사용하는 것이 일반적인 관행이다 [8, 13, 14, 15, 16, 17]. 이는 일부 closed-domain 데이터셋에서 더 나은 다운스트림 task 성능을 보여주지만, 일반적으로 open-domain 데이터에서는 실패하는 추가적인 object detector에 의존한다.

따라서 우리는 멀티모달 사전학습을 위한 전능 모델을 탐색하고, **OFA (One For All)**를 제안한다. OFA는 아키텍처, task, modality를 통합하고 위에서 언급한 세 가지 속성을 지원하는 것을 목표로 한다. 우리는 Task-Agnostic을 달성하기 위해 수작업으로 작성된 instruction [9, 10]을 통해 pretraining 및 finetuning task를 통합된 sequence-to-sequence 추상화로 정식화한다. Modality-Agnostic 계산 엔진으로는 Transformer를 채택하며, 다운스트림 task에 학습 가능한 task- 또는 modality-specific 구성 요소를 추가하지 않는 제약을 둔다. 모든 task에 걸쳐 전역적으로 공유되는 멀티모달 어휘(globally shared multimodal vocabulary) 내에서 다양한 modality의 정보를 표현할 수 있다. 그런 다음 다양한 uni-modal 및 cross-modal task에 대한 사전학습을 통해 Task Comprehensiveness를 지원한다.

요약하자면:

우리는 Task Comprehensiveness를 지원하는 Task-Agnostic 및 Modality-Agnostic 프레임워크인 OFA를 제안한다. OFA는 통합된 instruction 기반 task 표현을 가진 간단한 sequence-to-sequence 학습 프레임워크를 통해 텍스트-이미지 생성, visual grounding, visual question answering (VQA), 이미지 캡셔닝, 이미지 분류, 언어 모델링 등 이해 및 생성을 포함한 vision & language, vision-only, language-only task를 통합하려는 첫 시도이다.
OFA는 2천만 개의 이미지-텍스트 쌍으로 구성된 공개 데이터셋으로 사전학습되었으며, 이는 훨씬 더 큰 규모의 쌍 데이터를 사용하는 최근 모델들 [22, 23]과 비교된다. OFA는 이미지 캡셔닝, visual question answering, visual entailment, referring expression comprehension 등 일련의 vision & language 다운스트림 task에서 state-of-the-art 성능을 달성한다.
OFA는 멀티모달 사전학습 모델로서, 언어 또는 비전 분야의 SOTA 사전학습 모델(예: 자연어 이해를 위한 RoBERTa, ELECTRA, DeBERTa; 자연어 생성을 위한 UniLM, Pegasus, ProphetNet; 이미지 분류를 위한 MoCo-v3, BEiT, MAE)과 비교할 만한 uni-modal task 성능을 달성한다.
우리는 OFA가 zero-shot learning에서 경쟁력 있는 성능을 달성함을 확인한다. 또한, 새로운 task instruction을 통해 미학습 task로 전이될 수 있으며, fine-tuning 없이 out-of-domain 정보에 적응할 수 있다.

Figure 2: visual grounding, grounded captioning, image-text matching, image captioning, VQA, object detection, image infilling, text infilling을 포함한 사전학습 task의 시연.

언어 사전학습 및 비전 사전학습 (Language Pretraining & Vision Pretraining)
자연어 사전학습은 전체 NLP 연구 커뮤니티에 혁명을 가져왔다. 이 분야의 대표적인 예시는 BERT [2]와 GPT [24]의 탄생이다. 수많은 연구들이 사전학습 task를 개선하고 더욱 정교한 모델 아키텍처를 설계함으로써 [25, 26, 27, 28, 29, 30, 31] 사전학습을 점진적으로 발전시켜 왔다. 자연어 사전학습의 성공을 목격한 연구자들은 컴퓨터 비전 분야에서도 자기지도 학습(Self-Supervised Learning, SSL) [32, 33, 34, 35]을 촉진시켰다. 최근에는 언어 사전학습의 **masked language modeling (MLM)**을 반영하여, ViT 아키텍처 [6]를 활용한 생성적 사전학습(generative pretraining) [36, 37]이 다운스트림 성능을 더욱 향상시키고 있다.

멀티모달 사전학습 (Multimodal Pretraining)
멀티모달 사전학습은 빠르게 발전해왔다 [38, 13, 39, 40, 14, 41, 42, 43, 44, 15, 16, 17, 45, 46, 47]. 연구자들은 **마스킹 전략(masking strategies)**과 encoder-decoder 아키텍처를 적용하여 모델을 생성 task에 적응시켰다 [15, 17, 18, 22]. 또한, 전처리 과정을 단순화하기 위해 patch projection이 주목받았고, 이는 Transformer가 다운스트림 task에서 SOTA 성능을 달성하는 데 기여했다 [22, 48]. 대규모의 weakly supervised 데이터를 최대한 활용하기 위해, [49]는 4억 쌍의 데이터로 bi-encoder를 학습시키고 검색 task에서 뛰어난 성능을 보여주었다. 또 다른 연구 분야는 text-to-image synthesis이다. 여러 연구들 [50, 51, 18, 52]은 Transformer를 VQVAE [53] 또는 VQGAN [54]과 결합하여 고해상도의 고품질 이미지를 생성한다. 그러나 앞서 언급된 방법들은 cross-modal 데이터만 처리하거나, 그 기능이 제한되는 등 단일 유형의 데이터 처리에서 한계를 보인다. 또한, 사전학습과 fine-tuning 동작 간의 불일치는 open-ended 데이터로의 전이성(transferability)을 제한한다.

통합 프레임워크 (Unified Frameworks)
통합 모델을 추구하기 위해, [55]는 task를 표현하는 **통일된 형식(uniform format)**을 제시했다. NLP 분야에서는 최근 연구들이 자연어 이해 및 생성을 포함하는 다양한 task를 text-to-text transfer [30] 또는 language modeling [3]으로 통합하고 있다. 이러한 아이디어를 따라, [56]과 [57]은 텍스트 생성 기반의 멀티모달 사전학습 모델을 제시했다. [7]과 [58]은 **통일된 바이트 시퀀스 표현(uniform byte-sequence representation)**을 사용하여 여러 모달리티의 정보를 처리할 수 있는 간단한 프레임워크를 제안한다. [59]와 [60]은 다양한 task-specific layer를 설계하여 서로 다른 모달리티의 task를 통합한다. [61]은 검색 기반의 통합 패러다임을 활용하는 방안을 탐구한다. 그러나 이러한 멀티모달 사전학습 모델들은 VQA, image captioning 등 다운스트림 task에서 성능 저하를 겪으며, 이미지 생성 기능이 없다는 한계를 가진다.

3 OFA

본 연구에서는 I/O 및 아키텍처, task, 그리고 modality의 통합을 위한 통합 Seq2Seq 프레임워크인 OFA를 제안한다. 전체 프레임워크는 Figure 2에 나타나 있다.

3.1 I/O & Architecture

I/O
멀티모달 사전학습의 가장 일반적인 방식은 대규모 이미지-텍스트 쌍 코퍼스에 대한 Transformer 모델의 사전학습이다. 이를 위해서는 Transformer 아키텍처를 사용하여 시각 및 언어 정보를 공동으로 학습할 수 있도록 데이터 전처리 또는 모달리티별 어댑터가 필요하다. 복잡하고 자원 및 시간이 많이 소요되는 객체 feature 추출과 비교하여, 우리는 단순성을 추구하며 [62] 및 [22]를 따라 ResNet 모듈을 직접 사용하여 $\mathrm{x}_{v} \in \mathbb{R}^{H \times W \times C}$ 를 hidden size의 $P$ 개 패치 feature로 컨볼루션한다. 언어 정보 처리의 경우, GPT [24] 및 BART [31]의 방식을 따라 주어진 텍스트 시퀀스에 byte-pair encoding (BPE) [63]을 적용하여 하위 단어(subword) 시퀀스로 변환한 다음 feature로 임베딩한다.

task-specific 출력 스키마 없이 다양한 모달리티를 처리하기 위해서는 다양한 모달리티의 데이터를 통합된 공간에서 표현하는 것이 필수적이다. 가능한 해결책은 텍스트, 이미지, 객체를 이산화하고 통합된 어휘(vocabulary)의 토큰으로 표현하는 것이다. 이미지 양자화(quantization)의 최근 발전 [53, 54]은 text-to-image 합성 [50, 18, 51, 19]에서 효과적임을 입증했으며, 따라서 우리는 대상 측 이미지 표현을 위해 이 전략을 활용한다. 희소 코딩(sparse coding)은 이미지 표현의 시퀀스 길이를 줄이는 데 효과적이다. 예를 들어, $256 \times 256$ 해상도의 이미지는 $16 \times 16$ 길이의 코드 시퀀스로 표현된다. 각 이산 코드는 해당 패치와 강하게 상관관계가 있다 [36].

이미지를 표현하는 것 외에도, 일련의 영역 관련 task가 있기 때문에 이미지 내의 객체를 표현하는 것도 필수적이다. [64]를 따라, 우리는 객체를 이산 토큰 시퀀스로 표현한다. 더 구체적으로, 각 객체에 대해 레이블과 바운딩 박스를 추출한다. 바운딩 박스의 연속적인 코너 좌표(왼쪽 상단 및 오른쪽 하단)는 위치 토큰 $\left\langle x_{1}, y_{1}, x_{2}, y_{2}\right\rangle$ 으로 균일하게 이산화된다. 객체 레이블의 경우, 본질적으로 단어이므로 BPE 토큰으로 표현할 수 있다.
마지막으로, 우리는 하위 단어, 이미지 코드, 위치 토큰을 포함한 모든 언어 및 시각 토큰에 대해 통합된 어휘를 사용한다.

아키텍처
이전의 성공적인 멀티모달 사전학습 [14, 17, 22] 방식을 따라, 우리는 Transformer를 백본 아키텍처로 선택하고, 인코더-디코더 프레임워크를 모든 사전학습, fine-tuning 및 zero-shot task를 위한 통합 아키텍처로 채택한다. 구체적으로, 인코더와 디코더 모두 Transformer layer 스택이다. Transformer encoder layer는 self attention과 feed-forward network (FFN)으로 구성되며, Transformer decoder layer는 self attention, FFN, 그리고 디코더와 인코더 출력 표현 간의 연결을 구축하기 위한 cross attention으로 구성된다. 학습을 안정화하고 수렴을 가속화하기 위해, 우리는 self attention에 head scaling, post-attention layer normalization (LN) [65], 그리고 FFN의 첫 번째 layer 다음에 LN [66]을 추가한다. 위치 정보의 경우, 텍스트와 이미지에 대해 각각 두 개의 절대 위치 임베딩을 사용한다. 단순히 위치 임베딩을 추가하는 대신, 우리는 토큰 임베딩과 패치 임베딩에서 위치 상관관계를 분리한다 [67]. 또한, 텍스트에는 1D 상대 위치 편향 [30]을, 이미지에는 2D 상대 위치 편향 [22, 62]을 사용한다.

3.2 Tasks & Modalities

다양한 양식(modality)과 다운스트림 task에 걸쳐 아키텍처 호환성을 제공하는 통합 프레임워크는 동일 모델 내에서 미지의 task로 일반화할 기회를 제공하도록 설계된다. 따라서 우리는 다양한 양식에 대한 가능한 다운스트림 task들을 통합된 패러다임로 표현해야 한다. 그러므로 사전학습(pretraining) task 설계의 핵심은 멀티태스크(multitask) 및 멀티모달리티(multimodality)를 고려하는 것이다.

task와 양식을 통합하기 위해, 우리는 모든 양식에 걸친 task들의 사전학습, fine-tuning, 추론을 위한 통합된 sequence-to-sequence 학습 패러다임을 설계한다. cross-modal 및 uni-modal 이해와 생성에 대한 사전학습 task와 다운스트림 task 모두 Seq2Seq 생성 형태로 구성된다. 이는 모델에 포괄적인 능력을 부여하기 위해 멀티모달 및 uni-modal 데이터에 대한 멀티태스크 사전학습을 수행할 수 있도록 한다. 특히, 우리는 모든 task에 걸쳐 동일한 스키마를 공유하며, **구분을 위한 수작업 지침(handcrafted instructions)**을 명시한다 [9].

cross-modal representation learning을 위해 우리는 5가지 task를 설계한다:

visual grounding (VG)
grounded captioning (GC)
image-text matching (ITM)
image captioning (IC)
visual question answering (VQA)

VG의 경우, 모델은 입력 이미지 $x^{i}$ 와 "Which region does the text $x^{t}$ describe?"라는 지침(instruction)을 기반으로 영역 위치 $\left\langle x_{1}, y_{1}, x_{2}, y_{2}\right\rangle$ 를 지정하는 위치 토큰을 생성하도록 학습한다. 여기서 $x^{t}$ 는 영역 캡션을 의미한다. GC는 VG의 역 task이다. 모델은 입력 이미지 $x^{i}$ 와 "What does the region describe? region: $\left\langle x_{1}, y_{1}, x_{2}, y_{2}\right\rangle$ "라는 지침을 기반으로 설명을 생성하도록 학습한다. ITM의 경우, 각 원본 이미지-텍스트 쌍을 긍정 샘플로 사용하고, 이미지를 무작위로 대체된 캡션과 짝지어 부정 샘플을 구성한다. 모델은 입력 이미지 $x^{i}$ 와 "Does the image describe $x^{t}$ ?"라는 지침을 기반으로 "Yes" 또는 "No"를 생성하도록 학습하여 주어진 이미지와 텍스트가 짝을 이루는지 여부를 구별하도록 학습한다. image captioning의 경우, 이 task는 자연스럽게 sequence-to-sequence 형식에 적응할 수 있다. 모델은 주어진 이미지와 "What does the image describe?"라는 지침을 기반으로 캡션을 생성하도록 학습한다. VQA의 경우, 이미지와 질문을 입력으로 보내고 모델이 정확한 답변을 생성하도록 학습시킨다.

Table 1: OFA 모델 구성의 상세 하이퍼파라미터. 5가지 다른 크기의 OFA 구성을 나열한다.

Model	#Param.	Backbone	Hidden size	Intermediate Size	#Head	#Enc. Layers	#Dec. Layers
OFA $_{\text {Tiny }}$	33 M	ResNet50	256	1024	4	4	4
OFA $_{\text {Medium }}$	93M	ResNet101	512	2048	8	4	4
OFA $_{\text {Base }}$	182 M	ResNet101	768	3072	12	6	6
OFA $_{\text {Large }}$	472M	ResNet152	1024	4096	16	12	12
$\mathrm{OFA}_{\text {Huge }}$	930 M	ResNet152	1280	5120	16	24	12

uni-modal representation learning을 위해 우리는 비전(vision)을 위한 2가지 task와 언어(language)를 위한 1가지 task를 각각 설계한다. 모델은 비전 representation learning을 위해 image infilling 및 object detection으로 사전학습된다. 컴퓨터 비전을 위한 생성적 자기지도 학습(generative self-supervised learning)의 최근 발전은 masked image modeling이 효과적인 사전학습 task임을 보여준다 [36, 37]. 실제로 우리는 이미지의 중간 부분을 입력으로 마스킹한다. 모델은 손상된 입력과 "What is the image in the middle part?"라는 지정된 지침을 기반으로 이미지 중앙 부분에 대한 sparse code를 생성하도록 학습한다. 우리는 [44]에 따라 object detection을 사전학습에 추가한다. 모델은 입력 이미지와 "What are the objects in the image?"라는 텍스트를 지침으로 기반으로 사람이 주석한 객체 표현, 즉 객체 위치와 레이블 시퀀스를 생성하도록 학습한다. 두 task 모두 픽셀 및 객체 수준에서 representation learning을 강화한다. 언어 representation learning을 위해 [31]의 관행에 따라, 우리는 text infilling을 사용하여 plain text 데이터로 통합 모델을 사전학습한다.

이러한 방식으로 우리는 여러 양식과 여러 task를 단일 모델 및 사전학습 패러다임으로 통합한다. OFA는 이러한 task 및 데이터와 함께 공동으로 사전학습된다. 따라서 자연어, 비전 및 cross-modality에 관한 다양한 task를 수행할 수 있다.

3.3 Pretraining Datasets

우리는 **Vision & Language 데이터(즉, 이미지-텍스트 쌍), Vision 데이터(즉, 원본 이미지 데이터, 객체 라벨링 데이터), Language 데이터(즉, 일반 텍스트)**를 통합하여 사전학습 데이터셋을 구축한다. 재현성을 위해 공개적으로 사용 가능한 데이터셋만 활용한다. 데이터 유출을 방지하기 위해 사전학습 데이터를 신중하게 필터링하고, 다운스트림 task의 validation 및 test 세트에 나타나는 이미지를 제외한다. 사전학습 데이터셋에 대한 자세한 내용은 Appendix A.1에 제공되어 있다.

3.4 Training & Inference

우리는 cross-entropy loss로 모델을 최적화한다. 입력 $x$ , 지시 $s$ , 출력 $y$ 가 주어졌을 때, 우리는 $\mathcal{L}=-\sum_{i=1}^{|y|} \log P_{\theta}\left(y_{i} \mid y_{<i}, x, s\right)$ 를 최소화하여 OFA를 학습시킨다. 여기서 $\theta$ 는 모델 파라미터를 의미한다. 추론 시에는 beam search와 같은 decoding 전략을 적용하여 생성 품질을 향상시킨다.
그러나 이러한 패러다임은 분류 task에서 몇 가지 문제를 야기한다:

전체 vocabulary에 대해 최적화하는 것은 불필요하고 비효율적이다.
모델이 추론 중에 닫힌(closed) label set 밖의 유효하지 않은 label을 생성할 수 있다.

이러한 문제들을 극복하기 위해 우리는 prefix tree (Trie, [68]) 기반의 검색 전략을 도입한다. 실험 결과는 Trie 기반 검색이 분류 task에서 OFA의 성능을 향상시킬 수 있음을 보여준다. 자세한 내용은 Appendix B를 참조하라.

3.5 Scaling Models

다양한 모델 크기의 OFA가 다운스트림 task에서 어떻게 작동하는지 조사하기 위해, 우리는 33M에서 940M 파라미터까지 확장되는 5가지 버전의 OFA 모델을 개발했으며, 각 모델의 상세한 하이퍼파라미터는 Table 1에 제시되어 있다.

구체적으로, 우리는 Base 및 Large 크기의 기본 모델인 $\mathrm{OFA}_{\text {Base }}$ 와 $\mathrm{OFA}_{\text {Large }}$ 를 구축했다. 우리의 네트워크 구성은 BART [31]와 유사하므로, 이들의 크기는 $\mathrm{BART}_{\text {Base }}$ 및 $\mathrm{BART}_{\text {Large }}$ 와 비슷하다. 또한, 우리는 더 큰 크기의 OFA를 개발했으며, 이를 $\mathrm{OFA}_{\text {Huge }}$ 또는 테이블에서 특정 언급이 없는 OFA라고 명명했다. 이 모델의 크기는 $\mathrm{SimVLM}_{\text {Huge }}$ 또는 $\mathrm{ViT}_{\text {Huge }}$ 와 비교할 만하다. 더 작은 OFA도 만족스러운 성능에 도달할 수 있는지 조사하기 위해, 우리는 $\mathrm{OFA}_{\text {Base }}$ 의 약 절반 크기인 $\mathrm{OFA}_{\text {Medium }}$ 과 20% 미만 크기인 $\mathrm{OFA}_{\text {Tiny }}$ 를 개발했다.

Table 2: VQA 및 visual entailment를 포함한 cross-modal 이해 task에 대한 실험 결과. 이전 SOTA 중 가장 좋은 결과를 보고하며, 특히 SimVLM은 1.8B 이미지-텍스트 쌍으로 사전학습된 ViT-Huge에 필적하는 거대 모델이고, Florence는 CoSwin-H와 RoBERTa로 구축되었으며 900M 이미지-텍스트 쌍으로 사전학습되었다.

Model	VQA		SNLI-VE
	test-dev	test-std	dev	test
UNITER [14]	73.8	74.0	79.4	79.4
OSCAR [15]	73.6	73.8	-	-
VILLA [16]	74.7	74.9	80.2	80.0
VL-T5 [56]	-	70.3	-	-
VinVL [17]	76.5	76.6	-	-
UNIMO [46]	75.0	75.3	81.1	80.6
ALBEF [69]	75.8	76.0	80.8	80.9
METER [70]	77.7	77.6	80.9	81.2
VLMo [48]	79.9	80.0	-	-
SimVLM [22]	80.0	80.3	86.2	86.3
Florence [23]	80.2	80.4	-	-
OFA $_{\text {Tiny }}$	70.3	70.4	85.3	85.2
OFA $_{\text {Medium }}$	75.4	75.5	86.6	87.0
OFA $_{\text {Base }}$	78.0	78.1	89.3	89.2
OFA $_{\text {Large }}$	80.3	80.5	90.3	90.2
OFA	82.0	82.0	91.0	91.2

Table 3: MSCOCO Image Captioning에 대한 실험 결과. Karpathy test split에 대한 결과를 보고한다. SimVLM과 LEMON은 거대 모델이다.

Model	Cross-Entropy Optimization				CIDEr Optimization
	BLEU@4	METEOR	CIDEr	SPICE	BLEU@4	METEOR	CIDEr	SPICE
VL-T5 [56]	34.5	28.7	116.5	21.9	-	-	-	-
OSCAR [15]	37.4	30.7	127.8	23.5	41.7	30.6	140.0	24.5
UNICORN [57]	35.8	28.4	119.1	21.5	-	-	-	-
VinVL [17]	38.5	30.4	130.8	23.4	41.0	31.1	140.9	25.2
UNIMO [46]	39.6	-	127.7	-	-	-	-	-
LEMON [71]	41.5	30.8	139.1	24.1	42.6	31.4	145.5	25.5
SimVLM [22]	40.6	33.7	143.3	25.4	-	-	-	-
OFA $_{\text {Tiny }}$	35.9	28.1	119.0	21.6	38.1	29.2	128.7	23.1
OFA $_{\text {Medium }}$	39.1	30.0	130.4	23.2	41.4	30.8	140.7	24.8
OFA $_{\text {Base }}$	41.0	30.9	138.2	24.2	42.8	31.7	146.7	25.8
OFA $_{\text {Large }}$	42.4	31.5	142.2	24.5	43.6	32.2	150.7	26.2
OFA	43.9	31.8	145.3	24.8	44.9	32.5	154.9	26.6

4 Experiments

이 섹션에서는 우리 모델의 효과를 입증하기 위한 실험 세부 사항 및 분석을 제공한다. 구현 세부 사항은 Appendix A를 참조하라.

우리는 cross-modal 이해 및 생성을 포함하는 다양한 cross-modal downstream task에 대해 모델을 평가한다. 구체적으로, 우리는 다음과 같은 실험을 수행한다:

멀티모달 이해 데이터셋:
- **VQA(Visual Question Answering)**를 위한 VQAv2,
- Visual Entailment를 위한 SNLI-VE [73].
멀티모달 생성 데이터셋:
- Image Captioning을 위한 MSCOCO Image Caption [74],
- Referring Expression Comprehension을 위한 RefCOCO / RefCOCO+ / RefCOCOg [75, 76] (이 task는 bounding box 생성으로 볼 수 있음),
- Text-to-image Generation을 위한 MSCOCO Image Caption.

더 자세한 내용은 Appendix A.3에 제공되어 있다.

Table 4: Referring Expression Comprehension 3개 데이터셋(RefCOCO, RefCOCO+, RefCOCOg)에 대한 실험 결과. 데이터셋의 다양한 test split에 대한 Acc@0.5를 보고한다.

Model	RefCOCO			RefCOCO+			RefCOCOg
	val	testA	testB	val	testA	testB	val-u	test-u
VL-T5 [56]	-	-	-	-	-	-	-	71.3
UNITER [14]	81.41	87.04	74.17	75.90	81.45	66.70	74.86	75.77
VILLA [16]	82.39	87.48	74.84	76.17	81.54	66.84	76.18	76.71
MDETR [72]	86.75	89.58	81.41	79.52	84.09	70.62	81.64	80.89
UNICORN [57]	88.29	90.42	83.06	80.30	85.05	71.88	83.44	83.93
OFA $_{\text {Tiny }}$	80.20	84.07	75.00	68.22	75.13	57.66	72.02	69.74
OFA $_{\text {Medium }}$	85.34	87.68	77.92	76.09	83.04	66.25	78.76	78.58
OFA $_{\text {Base }}$	88.48	90.67	83.30	81.39	87.15	74.29	82.29	82.31
OFA $_{\text {Large }}$	90.05	92.93	85.26	85.80	89.87	79.22	85.89	86.55
OFA	92.04	94.03	88.44	87.86	91.70	80.71	88.07	88.78

Table 2는 VQA 및 SNLI-VE에 대한 OFA와 baseline 모델의 성능을 보여준다. 전반적으로 OFA는 VQA test-std 세트에서 82.0, SNLI-VE test 세트에서 91.2를 기록하며 두 task 모두에서 최고의 성능을 달성한다. 더 작은 크기의 모델인 OFA $_{\text{Large}}$ 는 VLMo 및 SimVLM과 같은 최신 SOTA 모델들을 능가할 수 있으며, OFA $_{\text{Base}}$ 는 앞서 언급된 두 모델 이전의 SOTA 모델들을 두 task 모두에서 능가한다. 이는 OFA가 cross-modal 이해 task에서 우수한 성능을 달성할 수 있으며, OFA의 규모를 확장하면 상당한 개선을 가져올 수 있음을 보여주며, 대규모 사전학습 모델의 강력한 잠재력을 반영한다.

Table 3은 MSCOCO image captioning 데이터셋에 대한 OFA와 baseline 모델의 성능을 보여준다. 우리는 Karpathy test split에 대한 결과를 보고하며, Cross-Entropy 최적화와 강화 학습 기반 CIDEr 최적화를 추가로 적용하여 학습된 모델의 성능을 제시한다. Cross-Entropy 최적화의 경우, 이전 SOTA인 **SimVLM $_{\text{Huge}}$ **와 비교했을 때, OFA는 CIDEr 평가에서 약 2점 더 높은 성능을 보인다. CIDEr 최적화의 경우, 3가지 크기의 OFA 모델 모두 huge-size LEMON을 능가하며, OFA는 154.9 CIDEr 점수로 새로운 SOTA를 달성한다. 2022년 5월 31일 기준으로, 단일 모델 OFA는 MSCOCO Image Caption Leaderboard에서 1위를 차지했다.

Visual grounding 능력을 평가하기 위해 RefCOCO, RefCOCO+, RefCOCOg에 대한 실험을 수행한다. 우리는 위치 정보를 vocabulary로 통합하지만, visual grounding은 sequence generation task로 볼 수 있다. 각 쿼리당 하나의 target만 존재하므로, <x1, y1, x2, y2> 형식으로 bounding box를 생성하기 위해 생성 길이를 4로 제한한다. Table 4의 실험 결과는 OFA가 3개 데이터셋 모두에서 SOTA 성능을 달성함을 보여준다. 이전 SOTA인 **UNICORN [57]**과 비교했을 때, OFA는 RefCOCO 및 RefCOCO+의 testA 세트에서 각각 3.61, 6.65점, RefCOCOg의 test-u 세트에서 4.85점 향상을 보이며 상당한 개선을 이룬다.

Text-to-image generation은 사전학습된 모델에게도 어려운 task이다. 우리는 OFA를 "image infilling" task, 즉 마스킹된 패치를 해당 코드 [36]를 생성하여 복구하는 task로 사전학습시켰으므로, OFA는 코드를 생성할 수 있다. 따라서 우리는 text-to-code generation을 위해 MSCOCO Image Caption 데이터셋에 OFA를 직접 fine-tuning한다. 추론 단계에서는 생성된 코드를 code decoder를 사용하여 이미지로 변환한다. 구체적으로, 우리는 [52]를 따라 VQGAN [54]의 코드를 사용한다. 실험 결과는 OFA가 모든 metric에서 baseline 모델들을 능가함을 보여준다. 추론 시 sampling size를 늘리면 FID 및 IS에서 명확한 개선이 예상된다는 점에 유의해야 한다. **DALLE [50], CogView [51], NÜWA [52]**와 비교했을 때, 이들의 sampling size는 각각 512, 60, 60인 반면, OFA는 훨씬 작은 sampling size 24로도 FID 및 IS에서 이들 SOTA 방법들을 능가한다. 이는 OFA가 쿼리 텍스트, 이미지 및 이미지 코드 간의 더 나은 대응 관계를 학습했음을 보여준다. 우리는 OFA를 CogView 및 GLIDE와 일반 쿼리(normal queries) 및 반사실적 쿼리(counterfactual queries)에 대한 생성 품질을 비교한다. 일반 쿼리는 현실 세계에 존재하는 것을 묘사하는 반면, 반사실적 쿼리는 상상 속에서만 존재할 수 있는 것을 묘사한다. 일반 쿼리의 경우, GLIDE와 비교했을 때 CogView와 OFA 모두 주어진 텍스트와 의미론적으로 일관된 이미지를 생성한다. 우리 모델이 생성한 예시는 말과 2층 버스와 같은 객체에 대한 더 정교한 세부 정보를 제공할 수 있다. 반사실적 쿼리의 경우, OFA만이 세 가지 상상 속 장면을 생성할 수 있음을 발견했으며, 이는 텍스트와 이미지를 정렬하는 강력한 능력에 기반한 OFA의 상상력을 나타낸다. 더 많은 정성적 예시는 Appendix C를 참조하라.

Figure 3: Text-to-image generation task를 위한 state-of-the-art 모델과의 정성적 비교. 더 나은 시연을 위해 Appendix C에 text-to-image generation의 더 많은 정성적 예시를 제시한다.

Table 5: Text-to-image generation에 대한 실험 결과. 모델은 FID, CLIPSIM, IS 점수로 평가된다. OFA는 동시 SOTA인 NÜWA를 포함한 baseline 모델들을 능가한다. OFA $_{\text{Large}}$ 의 결과를 보고한다. GLIDE는 3.5B 파라미터 외에 업샘플링을 위해 1.5B 파라미터를 추가로 가진다.

Model	FID $\downarrow$	CLIPSIM $\uparrow$	IS $\uparrow$
DALLE [50]	27.5	-	17.9
CogView [51]	27.1	33.3	18.2
GLIDE [77]	12.2	-	-
Unifying [78]	29.9	30.9	-
NÜWA [52]	12.9	34.3	27.2
OFA	$\mathbf{10 . 5}$	$\mathbf{34.4}$	$\mathbf{31.1}$

OFA의 설계는 다양한 modality를 통합하므로, 우리는 unimodal task, 즉 자연어 및 컴퓨터 비전 task에서의 성능을 평가한다. 자연어 task의 경우, **자연어 이해(natural language understanding)**를 위해 GLUE 벤치마크 [79]의 6개 task와 **자연어 생성(natural language generation)**을 위해 **Gigaword abstractive summarization [80]**에서 OFA를 평가한다. 컴퓨터 비전의 경우, **이미지 분류(image classification)**를 위해 고전적인 ImageNet-1K [81] 데이터셋에서 OFA를 평가한다. 더 자세한 내용은 Appendix A.3에 제공된다. OFA는 plain text 데이터로 사전학습되었기 때문에, 자연어 다운스트림 task에 직접 전이될 수 있다. 자연어 생성의 경우, 이는 본질적으로 sequence-to-sequence 생성 task이며, 자연어 이해의 경우, 일반적으로 **텍스트 분류(text classification)**이지만, 우리는 이를 레이블이 본질적으로 단어 시퀀스인 생성 task로 간주한다. 또한, 각 task에 대해 모델이 어떤 유형의 질문에 답해야 하는지를 지시하는 수동 instruction을 설계한다. instruction 설계는 Appendix A.3에 나열되어 있다.

Table 6: GLUE 벤치마크 데이터셋 [79]에 대한 실험 결과. 비교를 위해 멀티모달 사전학습 모델의 성능과 자연어 데이터로만 사전학습된 최신 SOTA 모델의 성능을 나열한다. [28]에 따라, MNLI로 fine-tuning된 체크포인트에서 시작하여 RTE와 MRPC를 fine-tuning한다.

Model	SST-2	RTE	MRPC	QQP	MNLI	QNLI
Multimodal Pretrained Baseline Models
VisualBERT [38]	89.4	56.6	71.9	89.4	81.6	87.0
UNITER [14]	89.7	55.6	69.3	89.2	80.9	86.0
VL-BERT [8]	89.8	55.7	70.6	89.0	81.2	86.3
VilBERT [13]	90.4	53.7	69.0	88.6	79.9	83.8
LXMERT [40]	90.2	57.2	69.8	75.3	80.4	84.2
Uni-Perceiver [61]	90.2	64.3	86.6	87.1	81.7	89.9
SimVLM [22]	90.9	63.9	75.2	90.4	83.4	88.6
FLAVA [60]	90.9	57.8	81.4	90.4	80.3	87.3
UNIMO [46]	96.8	-	-	-	89.8	-
Natural-Language-Pretrained SOTA Models
BERT [2]	93.2	70.4	88.0	91.3	86.6	92.3
RoBERTa [28]	96.4	86.6	90.9	92.2	90.2	93.9
XLNet [25]	97.0	85.9	90.8	92.3	90.8	94.9
ELECTRA [82]	96.9	88.0	90.8	92.4	90.9	95.0
DeBERTa [83]	96.8	88.3	91.9	92.3	91.1	95.3
Ours
OFA	96.6	91.0	91.7	92.5	90.2	94.8

Table 7: Gigaword abstractive summarization에 대한 실험 결과. ROUGE 평가 [84]에 대한 성능을 보고한다.

Model	ROUGE-1	Gigaword ROUGE-2	ROUGE-L
BERTSHARE [85]	38.13	19.81	35.62
MASS [86]	38.73	19.71	35.96
UniLM [29]	38.45	19.45	35.75
PEGASUS [87]	39.12	19.86	36.24
ProphetNet [88]	39.55	20.27	36.57
UNIMO [46]	39.71	20.37	36.88
OFA	39.81	20.66	37.11

우리는 통합된 멀티모달 사전학습 모델조차도 자연어 task에서 매우 경쟁력 있는 성능을 달성할 수 있음을 보여준다. 특히, 자연어 이해 평가에서 OFA는 모든 task에서 멀티모달 사전학습 모델을 큰 차이로 능가한다. RoBERTa [28], XLNET [25], ELECTRA [82], DeBERTa [83]를 포함한 최신 자연어 사전학습 모델과 비교했을 때, OFA는 비슷한 성능에 도달한다. 자연어 생성 평가에서는 OFA가 Gigaword 데이터셋에서 새로운 state-of-the-art 성능을 달성한다.

또한, OFA는 이미지 분류에서 경쟁력 있는 성능을 달성할 수 있다. Table 8은 이미지 분류에 대한 OFA의 성능을 보여준다. **OFA $_{\text{Large}}$ **는 EfficientNet-B7 [89] 및 ViT-L [6]과 같은 이전 backbone 모델보다 더 높은 정확도를 달성한다. 우리는 또한 contrastive learning 및 masked image modeling 기반의 self-supervised pretraining 모델과 OFA를 비교한다. OFA는 SimCLR [32] 및 MoCo-v3 [33, 35]와 같은 유사한 파라미터를 가진 contrastive 기반 모델보다 우수한 성능을 보인다. **masked image modeling 기반의 사전학습 모델(예: BEiT-L [36] 및 MAE-L [37])**과 비교했을 때, OFA는 유사한 성능을 달성할 수 있다.

Table 8: ImageNet-1K fine-tuning 결과. 공정한 비교를 위해 나열된 모든 모델은 학습 중 추가적인 labeled 이미지 분류 샘플을 사용하지 않는다. OFA $_{\text{Large}}$ 의 결과를 보고한다.

Model	Top-1 Acc.
EfficientNet-B7 [89]	84.3
ViT-L/16 [6]	82.5
DINO [90]	82.8
SimCLR v2 [32]	82.9
MoCo v3 [35]	84.1
BEiT $_{384}$ -L/16 [36]	$\mathbf{8 6 . 3}$
MAE-L/16 [37] $^{25}$	85.9
OFA	85.6

Table 9: 6개 GLUE task 및 SNLI-VE에 대한 Zero-shot 성능.

Model	SST-2 <br> Acc.	RTE <br> Acc.	MRPC <br> F1	QQP	QNLI		MNLI
				Acc.	SNLI-VE
		Acc. (dev/test)
Uni-Perceiver	70.6	55.6	76.1	53.6	51.0	$\mathbf{49 . 6}$	-
OFA $_{\text {Base }}$	$\mathbf{71 . 6}$	$\mathbf{5 6 . 7}$	$\mathbf{7 9 . 5}$	$\mathbf{5 4 . 0}$	$\mathbf{51 . 4}$	37.3	$\mathbf{49 . 71} \boldsymbol{/ 4 9 . 1 8}$

자연어 및 비전 task에서 앞서 언급된 결과들은 통합된 멀티모달 사전학습 모델이 멀티모달 task에서 효과적일 뿐만 아니라 unimodal task도 처리할 수 있음을 나타낸다. 그리고 미래에는 이러한 모델이 서로 다른 modality 조합과 관련된 복잡한 task를 해결하기에 충분할 수 있다.

4.3 Zero-shot Learning & Task Transfer

instruction-guided pretraining은 OFA가 zero-shot inference를 수행할 수 있도록 한다. Uni-Perceiver [61]를 따라, 우리는 단일 문장 분류(single-sentence classification) 및 **문장 쌍 분류(sentence pair classification)**를 포함한 GLUE 벤치마크의 6개 task에 대해 모델을 평가했다. Table 9는 OFA가 일반적으로 Uni-Perceiver보다 우수한 성능을 보임을 보여준다. 그러나 두 모델 모두 문장 쌍 분류에서는 만족스러운 성능을 달성하지 못했다 (정확도 60% 미만). 우리는 이러한 성능이 pretraining 데이터셋에 문장 쌍 데이터가 부족한 것에 기인한다고 가정한다.

또한, 우리는 모델 성능이 instruction 설계에 매우 민감하다는 것을 발견했다. 최상의 결과를 얻기 위해서는 가능한 한 많은 후보 중에서 적절한 instruction template을 찾아야 한다. 수동 prompt나 모델 파라미터의 미세한 변화가 모델 성능에 극적인 영향을 미칠 수 있으며, 이는 견고하지 않다. 이 문제는 향후 연구 과제로 남겨둔다.

우리는 모델이 새로운 task instruction을 통해 보지 못한 task에도 잘 전이될 수 있음을 관찰했다. 우리는 grounded question answering이라는 새로운 task를 설계하고 Figure 4에 예시를 제시한다. 이 시나리오에서, 이미지의 특정 영역에 대한 질문이 주어졌을 때, 모델은 올바른 답변을 제공해야 한다. 우리는 모델이 이 새로운 task에서 만족스러운 성능을 달성할 수 있음을 발견했으며, 이는 **모델의 강력한 전이성(transferability)**을 반영한다. 또한, OFA는 out-of-domain 입력 데이터로도 task를 해결할 수 있다. 예를 들어, OFA는 fine-tuning 없이도 out-of-domain 이미지에 대한 VQA에서 만족스러운 성능을 달성한다. 예시는 Figure 5에 제시되어 있다. OFA는 또한 out-of-domain 이미지(예: 애니메이션 그림, 합성 이미지 등)에 대해서도 정확한 visual grounding을 수행할 수 있으며, Appendix C의 Figure 11에 더 많은 예시를 제시한다.

4.4 Ablation on Multitask Pretraining

통합된 프레임워크 덕분에 OFA는 여러 task에서 사전학습되어 포괄적인 능력을 갖추게 되었다. 그러나 각 task의 효과는 아직 밝혀지지 않았다. 우리는 이미지 캡셔닝, VQA, 이미지 분류, text-to-image generation을 포함한 여러 다운스트림 task에서 이들의 효과를 검증한다.

우리는 먼저 uni-modal 사전학습 task가 cross-modal 및 uni-modal task 성능에 어떻게 영향을 미치는지 평가한다. Table 10은 우리의 실험 결과를 보여준다. 우리는 uni-modal 사전학습 task의 효과에 대한 몇 가지 흥미로운 현상을 관찰했다.

Text infilling은 이미지 캡션(+0.8 CIDEr)과 VQA(+0.46 Acc.)에서 성능 향상을 가져온다. 자연어 사전학습은 언어의 contextualized representation을 개선하여 cross-modal task의 성능을 향상시킨다. 그러나 언어 사전학습 task가 이미지 분류에서는 성능을 저하시켜 ImageNet-1K에서 -1.0 Acc.의 감소를 초래할 수 있다는 점이 주목된다. 또한, **text-to-image generation에서는 성능 향상에 기여하지 않는다는 점(-0.1 CLIPSIM)**도 흥미롭다. 이는 이 task에서 텍스트의 단순성 때문일 수 있으며, 언어 표현의 개선이 성능에 영향을 미치지 않음을 시사한다.
Image infilling의 경우, 이미지 분류(+1.0 Acc.)와 text-to-image generation(+0.6 CLIPSIM)에서 성능을 크게 향상시킨다. 이미지를 복구하는 학습은 이미지 representation을 위한 효과적인 self-supervised task이며, decoder의 이미지 코드 생성 능력도 향상시킨다. 그러나 이미지 캡셔닝과 VQA에서는 성능을 저해한다. 두 task 모두 텍스트 생성에 강력한 능력을 요구하며, decoder가 이미지 생성을 학습하는 것은 자연스럽게 캡셔닝(-0.7 CIDEr)과 VQA(-0.3 Acc.)에서 성능 저하를 가져온다.

Figure 4: Unseen task grounded QA에 대한 정성적 결과. 우리는 이미지의 특정 영역에 대한 질문에 모델이 답해야 하는 grounded question answering이라는 새로운 task를 설계했다. 더 많은 샘플은 Appendix C의 Figure 10에 제공된다.

Figure 5: Unseen domain VQA에 대한 정성적 결과. 사전학습 동안에는 실제 사진만 VQA에 사용되었다. 우리는 도메인 외부 이미지, 즉 아이코닉 이미지와 공상 과학 이미지에 대한 VQA 사례를 제시하고, 보지 못한 도메인으로 전이하는 능력을 보여준다. 더 많은 샘플은 Appendix C의 Figure 9에 제공된다.

또한, 우리는 멀티모달 task가 성능에 미치는 영향을 평가한다. 이전 연구들은 MLM, MOC, ITM, VQA, 이미지 캡셔닝 등과 같은 기존 사전학습 task의 기여에 대한 증거를 제공했다 [14, 17]. 그러나 이들은 detection 및 visual grounding & grounded captioning과 같은 다른 task들을 놓치고 있다. 우리는 이러한 task들에 대한 실험을 수행했으며, 영역을 예측하는 task들이 멀티모달 task에 중요하다는 것을 발견했다. 이는 이미지 캡셔닝(+2.3 CIDEr & +1.4 CIDEr)과 VQA(+0.6 Acc. & +0.5 Acc.)에서 성능 향상으로 이어진다. 이는 detection 및 visual grounding & grounded captioning이 모델이 vision과 language 간의 미세한 정렬(fined-grained alignments)을 파악하는 데 도움이 됨을 시사한다.

Table 10: OFA의 Ablation 결과. 모든 모델은 250k 스텝 동안 사전학습되었다. w/o ground.는 visual grounding과 grounded captioning task를 모두 제거한 것을 나타낸다. 모든 모델은 이미지 캡셔닝에서 cross-entropy loss로만 fine-tuning되었다.

Model	Caption CIDEr	VQA Test-dev	ImageNet Top-1 Acc.	Image Generation FID / CLIPSIM / IS
OFA $_{\text {Base }}$	135.6	76.0	82.2	20.8 / 31.6 / 21.5
w/o text infill.	134.8	75.6	83.2	20.3 / 31.7 / 21.8
w/o image infill.	136.3	76.3	81.8	23.2 / 31.0 / 20.0
w/o det.	133.3	75.4	81.4	20.9 / 31.5 / 21.6
w/o ground.	134.2	75.5	82.0	21.2 / 31.5 / 21.5

영역 정보는 text-to-image generation에는 거의 기여하지 않는다(+0.1 CLIPSIM & +0.1 CLIPSIM). 이 task는 텍스트-영역 정렬 정보가 훨씬 덜 필요하기 때문이다. 우리는 detection이 시각 이해(+0.8 Acc.)에서 성능을 향상시킬 수 있다는 놀라운 사실을 발견했다. 이는 영역 정보를 통합하는 것이 시각 이해, 특히 복잡한 객체가 있는 이미지에서 필수적일 수 있음을 나타낸다.

5 Conclusion

본 연구에서는 Task Comprehensiveness를 지원하는 Task-Agnostic 및 Modality-Agnostic 프레임워크인 OFA를 제안한다. OFA는 아키텍처, task, modality를 통합하여, 추가적인 layer나 task에 대한 명시 없이도 멀티모달 및 유니모달 이해와 생성이 가능하다. 실험 결과, OFA는 이미지 캡셔닝, VQA, visual entailment, referring expression comprehension을 포함한 여러 task에서 새로운 SOTA를 달성하였다. 또한 OFA는 GLUE, abstractive summarization, 이미지 분류와 같은 유니모달 이해 및 생성 task에서 기존의 언어/비전 사전학습 SOTA 모델들과 비교할 만한 성능을 보여준다. 우리는 zero-shot learning 및 domain & task transfer 능력을 입증하기 위한 추가 분석을 제공하며, 사전학습 task의 효과도 검증한다.

향후 연구에서는 본 연구에서 발견된 문제점들을 계속해서 탐구할 것이다. 또한, 복잡한 실제 세계에 본질적으로 일반화될 수 있는 **옴니 모델(omni-model)**을 구축하기 위한 합리적인 해결책을 찾는 데 노력할 것이다.

Acknowledgments

본 프로젝트에 지원을 아끼지 않은 Jie Zhang, Yong Li, Jiamang Wang, Shao Yuan, Zheng Cao에게 감사드리며, 본 논문에 통찰력 있는 의견을 제공해 준 Guangxiang Zhao와 Fei Sun에게도 감사드린다.

A Implementation Details

A. 1 Pretraining Datasets

우리는 **Vision & Language 데이터(즉, 이미지-텍스트 쌍), Vision 데이터(즉, 원본 이미지 데이터, 객체 레이블 데이터), Language 데이터(즉, 일반 텍스트)**를 통합하여 사전학습 데이터셋을 구축한다. 재현성을 위해 사전학습 데이터셋은 공개적으로 이용 가능하다. 우리는 데이터 유출을 방지하기 위해 사전학습 데이터를 신중하게 필터링하고 다운스트림 task의 validation 및 test 세트에 나타나는 이미지를 제외한다. 사전학습 데이터셋에 대한 통계는 Table 11에 나열되어 있다.

Cross-modal Data
vision & language 사전학습을 위해 우리는 주로 이미지-캡션 쌍, 이미지-QA 쌍, 이미지-영역 쌍을 포함한 이미지-텍스트 쌍을 사전학습 데이터로 적용한다. 이미지 캡셔닝 및 이미지-텍스트 매칭의 사전학습 task를 위해 우리는 **Conceptual Caption 12M (CC12M) [91], Conceptual Captions (CC3M) [92], SBU [93], MSCOCO image captions (COCO) [74], Visual Genome Captions (VG Captions) [94]**를 수집한다. 특히, VG의 데이터 중 일부는 추가적인 처리가 필요하다. VG 캡션의 텍스트는 이미지의 로컬 영역을 설명하므로, 우리는 16,384 픽셀보다 큰 영역을 검색하여 영역-캡션 쌍을 구축한다. visual question answering을 위해 우리는 **VQAv2 [95], VG-QA [94], GQA [96]**를 수집한다. VQAv2는 COCO의 실제 사진을 포함하는 visual question answering 데이터셋이다. VG-QA 또한 VG의 실제 사진을 포함하는 visual question answering 데이터셋이다. VG-QA의 질문은 이미지의 특정 영역과 관련이 있다. GQA는 **복합적인 질문(compositional questions)**을 특징으로 하는 대규모 VQA 데이터셋이다. GQA의 이미지 또한 VG에서 수집된다. visual grounding 및 grounded captioning을 위해 우리는 RefCOCO [75], RefCOCO+ [75], RefCOCOg [76] 및 VG 캡션에서 데이터를 수집한다. 이 task를 위해 VG 캡션에 추가적인 처리가 적용된다. 특히, 우리는 모델이 비전과 언어 간의 세밀한 정렬(fine-grained alignments)을 파악하도록 장려하기 위해, VG 데이터 중 16,384 픽셀보다 작은 영역을 포함하는 데이터를 Visual Grounding에 사용한다.

Uni-modal Data
Uni-modal 데이터는 vision 및 language 데이터를 포함한다. Vision 데이터는 이미지 인페인팅(image infilling)을 위한 원본 이미지와 객체 탐지(object detection)를 위한 객체 레이블 이미지로 구성된다. 이미지 인페인팅을 위해 우리는 OpenImages, YFCC100M [97] 및 ImageNet-21K [81]에서 원본 이미지를 수집하고 주석(annotations)은 제외한다. 따라서 모델은 사전학습 단계에서 레이블에 접근할 수 없다. 객체 탐지를 위해 우리는 OpenImages [98], Object365 [99], VG 및 COCO를 수집한다. Language 데이터는 일반 텍스트, 즉 문장으로 구성된 단락으로 이루어져 있다. 우리는 Pile [100]에서 약 140GB의 데이터를 사용하여 그 다양성을 활용한다. 특히, 우리는 자연어 데이터를 추출하고 512 길이로 자르는(truncation) 것을 포함한 전처리 방법을 구현한다.

Table 11: 사전학습 task 데이터셋에 대한 통계. "#Image"는 고유 이미지의 수를 나타내고, "#Sample"은 샘플의 수를 나타낸다. *언어 데이터의 경우, 이전 연구 [2, 28]에 따라 저장 용량을 보고한다.

Type	Pretraining Task	Source	#Image	#Sample
Vision & Language	Image Captioning Image-Text Matching	CC12M, CC3M, SBU, COCO, VG-Cap	14.78 M	15.25 M
	Visual Question Answering	VQAv2, VG-QA, GQA	178 K	2.92 M
	Visual Grounding Grounded Captioning	RefCOCO, RefCOCO+, RefCOCOg, VG-Cap	131 K	3.20 M
Vision	Detection	OpenImages, Object365, VG, COCO	2.98 M	3.00 M
	Image Infilling	OpenImages, YFCC100M, ImageNet-21K	36.27 M	-
Language	Masked Language Modeling	Pile (Filtered)	-	140GB*

A. 2 Pretraining Details

이미지 처리의 경우, 우리는 먼저 이미지를 다양한 해상도로 **크기 조정 및 자르기(resize and crop)**를 수행한다.

**OFA $_{\text{Tiny}}$ 및 OFA $_{\text{Medium}}$ **의 경우 $256 \times 256$ ,
**OFA $_{\text{Base}}$ **의 경우 $384 \times 384$ ,
**OFA $_{\text{Large}}$ 및 OFA $_{\text{Huge}}$ **의 경우 $480 \times 480$ 해상도를 사용하며, **고정된 patch size는 $16 \times 16$ **이다. **OFA $_{\text{Large}}$ 및 OFA $_{\text{Huge}}$ **의 학습은 시간과 연산 비용이 많이 들기 때문에, 우리는 먼저 $384 \times 384$ 및 $256 \times 256$ 해상도의 이미지로 학습한 후, $480 \times 480$ 해상도의 이미지로 사전학습(pretraining)을 계속한다.

각 patch에 대해, 우리는 ResNet [101]의 첫 세 블록을 사용하여 feature vector를 얻는다. ResNet 모듈은 Transformer 모듈과 함께 공동으로 학습된다. 광범위한 실험을 통해 random sampling patches [47]가 우리 시나리오에서 추가적인 이점을 가져오지 않음을 발견했다. 텍스트 처리의 경우, 우리는 BART [31]와 동일한 BPE Tokenizer [63]를 사용하여 텍스트를 토큰화한다. encoder와 decoder의 최대 텍스트 시퀀스 길이는 256으로 설정된다. 우리는 embedding과 decoder softmax 출력 layer 간에 파라미터를 공유한다.

예비 실험을 통해 우리는 Transformer의 초기화가 중요한 역할을 한다는 것을 발견했다. **OFA $_{\text{Base}}$ 및 OFA $_{\text{Large}}$ **의 경우, Sec 3.1에서 설명된 OFA Transformer와 BART 간의 약간의 차이를 고려하여 BART $_{\text{Base}}$ 및 BART $_{\text{Large}}$ 의 대부분의 가중치로 Transformer를 초기화한다. 다른 크기의 OFA 모델의 경우, BART와 동일한 사전학습 전략으로 언어 모델을 사전학습하고, 사전학습된 가중치를 사용하여 OFA의 Transformer를 초기화한다.

우리는 AdamW [102] optimizer를 $\left(\beta_{1}, \beta_{2}\right)=(0.9,0.999)$ 및 $\epsilon=1 e-8$ 로 설정하여 모델을 사전학습한다. 최대 학습률(peak learning rate)은 $2e-4$ 로 설정하고, warmup ratio 0.01의 linear decay scheduler를 적용하여 학습률을 제어한다. 규제(regulation)를 위해 dropout은 0.1로 설정하고, weight decay는 0.01을 사용한다. 우리는 stochastic depth [103]를 0.1 비율로 적용한다 (convolution block을 제외한 encoder와 decoder에 적용). 우리는 각 배치 내의 모든 사전학습 데이터를 혼합하며, 이 배치에는 2,048개의 vision&language 샘플, 256개의 object detection 샘플, 256개의 이미지 전용 샘플, 512개의 텍스트 전용 샘플이 포함된다. ablation study에 사용된 모델을 제외한 모든 모델은 최소 300K 스텝 동안 사전학습된다.

A. 3 Details of Downstream Tasks

우리는 fine-tuning 및 zero-shot 설정 모두에서 다양한 다운스트림 task에 대한 OFA의 능력을 검증한다. 사전학습을 통해 학습된 지식을 다운스트림 task에 효과적으로 전달하기 위해 다양한 task-specific instruction을 설계한다. 다양한 task의 instruction은 Table 12에 나열되어 있다. Fine-tuning의 경우, 특별히 명시되지 않는 한 입력 이미지 해상도는 $480 \times 480$ 으로 설정되며, 다른 하이퍼파라미터는 사전학습과 동일하게 유지된다. 멀티모달 및 유니모달 task를 포함한 다양한 다운스트림 task의 실험 세부 사항은 다음과 같다:

Image Captioning
Image captioning은 이미지에 대한 적절하고 유창한 캡션을 생성해야 하는 표준 vision&language task이다. 우리는 OFA의 멀티모달 생성 능력을 평가하기 위해 가장 널리 사용되는 **MSCOCO Image Caption 데이터셋 [74]**을 채택한다. **Karpathy test split [108]**에서 BLEU-4 [104], METEOR [105], CIDEr [106], SPICE [107] 점수를 보고한다. 이전의 표준 관행에 따라, 우리는 먼저 cross-entropy loss로 OFA를 2 epoch 동안 batch size 128, learning rate $1e-5$ 로 fine-tuning하고, label smoothing은 0.1로 설정한다. 그런 다음 CIDEr optimization으로 모델을 3 epoch 동안 batch size 64로 fine-tuning하며, dropout과 stochastic depth는 비활성화한다. 우리는 두 단계 모두에서 점수를 보고한다.

Visual Question Answering
Visual question answering (VQA)은 이미지에 대한 질문에 답해야 하는 cross-modal task이다. VLMo [48] 또는 SimVLM [22]과 같은 이전 연구들은 VQA를 분류 task로 정의한다. 이들은 선형 출력 layer를 사용하여 주어진 후보 집합에 대한 각 후보 답변의 확률을 예측한다. 이러한 연구들과 달리, 생성형 OFA 모델을 VQA 벤치마크에 적용하기 위해, Sec. 3.4에서 언급된 Trie-based search strategy를 사용하여 OFA가 생성하는 답변이 후보 집합 내에 있도록 제한한다. 우리는 일반적으로 사용되는 **VQAv2 데이터셋 [95]**에서 다른 baseline과 함께 모델을 평가한다. test-dev 및 test-std 세트 모두에서 정확도 점수가 보고된다. 보고된 모든 크기의 OFA 모델은 batch size 512로 40,000 step 동안 fine-tuning된다. Learning rate는 $5e-5$ 이고 label smoothing은 0.1이다. $\mathrm{OFA}_{\text {Large}}$ 및 $\mathrm{OFA}_{\text {Huge}}$ 를 fine-tuning할 때, 이미지 해상도를 480에서 640으로 증가시킨다. 사전학습된 OFA를 VQA fine-tuning으로 전이할 때 [6]에서 제안된 **이미지 절대 위치 임베딩의 선형 보간(linear interpolation)**이 사용된다. Trie-based 검색 중에는 가장 빈번한 3,129개의 답변 후보로 생성된 답변을 제한한다. Fine-tuning에는 **decay rate 0.9999의 Exponential moving average (EMA)**가 사용된다.

Visual Entailment
Visual entailment는 주어진 이미지와 텍스트가 의미적으로 어떻게 연관되어 있는지, 즉 entailment, neutral, contradiction을 평가하도록 모델에 요구한다. 우리는 **SNLI-VE 데이터셋 [73]**에서 실험을 수행한다. 이미지 전제(premise), 텍스트 전제, 텍스트 가설(hypothesis)이 encoder에 입력되고, decoder는 적절한 레이블을 생성한다. 사전학습을 통해 학습된 지식을 이 task로 전이하기 위해, 우리는 entailment/neutral/contradiction 레이블을 yes/maybe/no로 변환한다. 또한 Trie-based search strategy를 사용하여 생성된 레이블을 후보 집합 내로 제한한다. dev 및 test 세트 모두에서 정확도를 보고한다. OFA 모델은 learning rate $2e-5$ , batch size 256으로 6 epoch 동안 fine-tuning된다.

Referring Expression Comprehension
Referring expression comprehension은 모델이 언어 쿼리로 설명된 이미지 영역을 찾아내도록 요구한다. 사전학습된 객체 detector에 의해 감지된 후보 bounding box 집합의 순위를 매기는 대부분의 이전 방법들 [13, 14]과 달리, 우리의 방법은 어떠한 제안(proposal) 없이 가장 잘 일치하는 bounding box를 직접 예측한다. 우리는 **RefCOCO [75], RefCOCO+ [75], RefCOCOg [76]**에서 실험을 수행한다. 다른 다운스트림 task와 일관되게, 우리는 referring expression comprehension을 조건부 시퀀스 생성 task로 공식화한다. 자세히 말하면, 이미지와 언어 쿼리가 주어지면, OFA는 box 시퀀스(예: $\left\langle x_{1}, y_{1}, x_{2}, y_{2}\right\rangle$ )를 autoregressive 방식으로 생성한다. 우리는 validation 및 test 세트에서 표준 metric Acc@0.5를 보고한다.

Table 12: 다운스트림 task를 위한 Instruction.

Task	Dataset	Instruction	Target
Image Captioning	COCO	[Image] What does the image describe?	{Caption }
Visual Question Answering	VQA	[Image] {Question}	{Answer}
Visual Entailment	SNLI-VE	[Image] Can image and text1 "{Text1}" imply text2 "{Text2}"?	Yes/No/Maybe
Referring Expression Comprehension	RefCOCO, RefCOCO+, RefCOCOg	[Image] Which region does the text "{Text}" describe?	{Location}
Image Generation	COCO	What is the complete image? caption: {Caption }	{Image}
Image Classification	ImageNet-1K	[Image] What does the image describe?	{Label}
Single-Sentence Classification	SST-2	Is the sentiment of text "{ Text}" positive or negative?	Positive/Negative
Sentence-Pair Classification	RTE MRPC <br> QQP MNLI QNLI	Can text1 "{Text1}" imply text2 "{Text2}"? Does text1 "{Text1}" and text2 "{Text2}" have the same semantics? Is question "{Question1}" and question "{Question2}" equivalent? Can text1 "{Text1}" imply text2 "{Text2}"? Does " $\{$ Text $\}$ " contain the answer to question "{Question}"?	Yes/No Yes/No Yes/No Yes/No/Maybe Yes/No
Text Summarization	Gigaword	What is the summary of article "{Article}"?	{Summary}

Fine-tuning을 위해 입력 이미지 해상도는 $512 \times 512$ 로 설정된다. 우리는 각 데이터셋에서 약 10 epoch 동안 batch size 128로 OFA 모델을 fine-tuning한다. Learning rate는 $3e-5$ 이고 label smoothing은 0.1이다. 각 쿼리는 이미지 영역에만 해당하므로, 추론 시 최대 생성 길이를 4로 제한한다.

Image Generation
[52]와 동일한 설정에 따라, 우리는 MS COCO train split에서 모델을 학습시키고 validation split에서 30,000개의 이미지를 무작위로 샘플링하여 모델을 평가한다. 이미지 품질을 평가하기 위해 **Fréchet Inception Distance (FID) [109] 및 Inception Score (IS) [110]**를 사용한다. 이전 연구들 [78, 52]에 따라, 우리는 쿼리 텍스트와 생성된 이미지 간의 **의미적 유사성을 평가하기 위해 CLIP Similarity Score (CLIPSIM)**도 계산한다. Fine-tuning 동안 OFA는 주어진 텍스트 쿼리에 따라 이미지 코드 시퀀스를 생성하는 방법을 학습한다. 모델은 먼저 cross-entropy로 fine-tuning된 다음 [111, 78]에 따라 CLIPSIM optimization으로 fine-tuning된다. 첫 번째 단계에서는 batch size 512, learning rate $1e-3$ 로 약 50 epoch 동안 OFA 모델을 fine-tuning한다. 두 번째 단계에서는 batch size 32, learning rate $1e-6$ 로 5000 step을 추가로 fine-tuning한다. 평가 중에는 각 쿼리에 대해 $256 \times 256$ 해상도의 이미지 24개를 샘플링하고 사전학습된 **CLIP 모델 [49]**을 사용하여 가장 좋은 것을 선택한다.
사례 연구를 위해 OFA를 CogView 및 GLIDE와 비교한다. CogView는 API 웹사이트를 제공한다. 이 API는 각 쿼리에 대해 $512 \times 512$ 해상도의 이미지 8개를 샘플링한다. 우리는 생성된 이미지 중 첫 번째 것을 선택하고 $256 \times 256$ 해상도로 크기를 조정한다. GLIDE는 Colab 노트북을 제공한다. 공개적으로 사용 가능한 유일한 GLIDE 모델은 기본 크기( $\sim 385 \mathrm{M}$ )이다.

Image Classification
우리는 컴퓨터 비전을 위한 self-supervised learning의 최근 연구들을 따라 **ImageNet-1K [81]**에 대한 fine-tuning 결과를 제공한다. Fine-tuning 및 추론 동안, Trie-based search strategy가 사용되어 생성된 텍스트를 1,000개의 후보 레이블 집합 내로 제한한다. 우리는 OFA를 32 epoch 동안 batch size 256으로 fine-tuning한다. Learning rate는 $5e-5$ 이다. Label smoothing 비율은 0.1이다. [112]에서 제안된 encouraging loss는 하이퍼파라미터 LE를 0.75로 설정하여 사용된다. [36]에 따라, 우리는 동일한 random resize cropping, random flipping, RandAug [113] 및 random erasing [114] 변환을 데이터 증강 전략으로 사용한다. **Mixup [115] 및 CutMix [116]**는 각 배치에서 수행될 전체 0.5 확률로 사용되며, alpha는 각각 0.8 및 1.0이다. Fine-tuning 동안 Mixup 및 CutMix의 혼합된 soft target을 생성 패러다임에 적용하기 위해, 우리는 decoder를 두 번 실행하며, 각각 혼합될 대상 시퀀스 중 하나를 사용하고 혼합 비율로 가중치를 부여하여 loss를 합산한다.

Natural Language Understanding
OFA의 자연어 이해 능력을 검증하기 위해, 우리는 **GLUE 벤치마크 [79]**에서 단일 문장 분류 task와 문장 쌍 분류 task를 포함한 6개의 언어 이해 task를 선택한다. 문장 쌍 분류에 적응하기 위해, 이전 모델들 [2, 28]은 일반적으로 segment embedding을 사용하여 다른 문장을 구별한다. 이러한 모델들과 달리, OFA는 추가적인 segment embedding을 도입하지 않고 적절한 instruction을 구성하여 모델을 문장 쌍 분류 task에 적용할 수 있다. Fine-tuning의 하이퍼파라미터는 학습 epoch를 $\{5,7,10\}$ 중에서, learning rate를 $\{3e-5,5e-5,6e-5,7e-5,1e-4\}$ 중에서, batch size를 $\{32,64,128\}$ 중에서, weight decay를 $\{0.01,0.05\}$ 중에서, dropout rate를 $\{0.0,0.1\}$ 중에서 튜닝한다. 각 task에 대한 개발 세트에서 최고의 성능을 보고한다.

Natural Language Generation
우리는 **Gigaword 데이터셋 [80]**에서 OFA의 자연어 생성 능력을 검증한다. [80]에 따라 ROUGE-1/ROUGE-2/ROUGE-L을 보고하여 생성 결과를 평가한다. 우리는 batch size 512로 6 epoch 동안 OFA 모델을 fine-tuning한다. Learning rate는 $1e-4$ 이고 label smoothing은 0.1이며, 최대 입력 텍스트 시퀀스 길이는 512로 설정된다. 추론 시 length penalty는 0.7, beam size는 6으로 설정하고, 최대 생성 길이는 32로 제한한다.

B Trie-based Search

이 섹션에서는 Trie 기반 검색을 사용하여 다운스트림 분류 task에서 모델 성능을 향상시키는 방법을 설명한다. 분류 task를 다룰 때, 우리는 먼저 후보 레이블 세트(candidate label-set)의 토큰으로 노드가 주석된 Trie를 구성한다. fine-tuning 동안, 모델은 Trie 상의 위치를 기반으로 대상 토큰의 log-probability를 계산한다. Figure 6에서 보듯이, 대상 토큰 "sky"의 log-probability를 계산할 때, 우리는 {"sky", "ocean"}에 있는 토큰만 고려하고 모든 유효하지 않은 토큰의 logit을 강제로 $-\infty$ 로 설정한다. 추론(inference) 동안에는 생성된 레이블을 후보 세트 내로 제한한다. Table 13에서 보듯이, Trie 기반 검색 전략은 다양한 다운스트림 분류 task에서 OFA의 성능을 향상시킬 수 있다.

Figure 6: 제약 레이블이 "blue sky", "blue ocean", "green"인 Trie 기반 검색의 예시. 토큰 "sky"의 log-probability를 계산할 때, 우리는 {"sky", "ocean"}에 있는 토큰만 고려하고 모든 유효하지 않은 토큰의 logit을 강제로 $-\infty$ 로 설정한다.

Table 13: Trie의 ablation 결과. Trie 기반 검색을 제거하면 다운스트림 task의 성능이 저하된다. baseline OFA Base는 250k step 동안만 사전학습되었으며, 이는 Table 10에서도 사용되었다.

Model	VQA <br> Test-dev Acc.	SNLI-VE <br> Dev Acc.	ImageNet <br> Top-1 Acc.	MRPC <br> F1	QQP <br> F1
OFA $_{\text {Base }}$	76.03	89.2	82.2	90.6	88.4
w/o Trie	$75.86(-0.17)$	$89.0(-0.2)$	$81.9(-0.3)$	$90.1(-0.5)$	$88.2(-0.2)$

C Qualitative Examples

이 섹션에서는 OFA의 생성 결과를 통해 text-to-image generation, open-domain VQA, grounded question answering, open-domain visual grounding을 포함한 다양한 task의 정성적(qualitative) 예시를 제공한다. 이 섹션을 통해 독자들이 OFA를 더 잘 이해할 수 있기를 바란다.

An eagle view of a magic city.

A pathway to a temple with sakura trees in full bloom, HD.

A beautiful painting of native forest landscape photography, HD.

An art painting of a soldier, in the style of cyperpunk.

The golden palace of the land of clouds.

Rustic interior of an alchemy shop.

An art painting of a dog, in the style of steampunk, white background.

A strawberry splashing in the coffee in a mug under the starry sky.

Elf elk in the forest illustration, HD, fantasy art.

Figure 7: text-to-image generation의 예시. 더 나은 시연을 위해, 우리는 LAION-400M [117]의 서브셋으로 OFA를 계속 fine-tuning하였다.

An art painting of a city, in the style of cyberpunk.

An art painting of a city, in the style of steampunk.

An oil painting of a pizza on the beach.

A painting of the sunset cliffs in the style of fantasy art.

A painting of the sunset cliffs in the style of dark fantasy art.

An oil painting of a computer in the sky.

A painting of the superman.

A painting of the superman, in the dark style.

A painting of the ship in the style of etching, HD.

Figure 8: text-to-image generation의 예시.

Figure 9: unseen domain에서의 VQA task 추가 샘플. 답변은 fine-tuning 없이 사전학습된 OFA에 의해 생성되었다. VQA 사전학습 task에 사용된 데이터셋은 실제 사진만 포함한다. 우리는 out-of-domain (비사진) 이미지에 대한 VQA task의 더 많은 사례를 제시하고, OFA를 이러한 unseen domain으로 전이하는 능력을 보여준다.

Figure 10: unseen grounded question answering task의 샘플. 이 task에서 모델은 이미지의 특정 영역에 대한 질문에 답해야 한다. 이 task는 사전학습에서 다루지 않은 task이다. 우리는 사전학습된 OFA를 이 새로운 task에 fine-tuning 없이 직접 전이하는 것이 잘 작동함을 보여준다.

Figure 11: 다양한 unseen domain에 대해 OFA가 생성한 visual grounding task 샘플: (a) 애니메이션 (해당 애니메이션은 Pokemon 및 One Piece); (b) 속성 조합을 가진 합성 이미지.