Multimodal Pretraining

1개의 포스트

2025. 9. 1.

OFA: 아키텍처, 태스크, 모달리티를 통합하는 단일 Sequence-to-Sequence 프레임워크

OFA는 복잡한 태스크 및 모달리티별 커스터마이징을 벗어나기 위해 제안된 통합 멀티모달 사전학습 패러다임이다. 이 모델은 Task-Agnostic하고 Modality-Agnostic한 프레임워크로, 이미지 생성, visual grounding, 이미지 캡셔닝, VQA 등 다양한 cross-modal 및 uni-modal 태스크를 단일 sequence-to-sequence 학습 프레임워크로 통합한다. OFA는 사전학습과 파인튜닝 모두에서 instruction-based learning을 따르며, 다운스트림 태스크를 위한 추가적인 태스크별 레이어가 필요 없다. 상대적으로 적은 2,000만 개의 공개 이미지-텍스트 쌍으로 학습되었음에도 불구하고, OFA는 여러 cross-modal 태스크에서 새로운 SOTA를 달성하며 uni-modal 태스크에서도 높은 경쟁력을 보여준다. 논문 제목: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

모든 태그 보기