Instruction Tuning
7개의 포스트
OPT-IML: 일반화 관점에서 본 언어 모델 Instruction Meta Learning 확장 연구
본 논문은 대규모 언어 모델의 instruction-tuning 과정에서 다양한 결정들이 제로샷 및 퓨샷 일반화 성능에 미치는 영향을 체계적으로 분석합니다. 이를 위해 8개의 벤치마크를 통합한 2000개의 NLP 과제로 구성된 대규모 벤치마크 OPT-IML Bench를 구축했습니다. 이 프레임워크를 통해 과제 샘플링 전략, reasoning 및 dialogue 데이터셋 활용, fine-tuning 목표 등의 효과를 분석하고, 그 결과를 바탕으로 instruction-tuned된 OPT-IML 30B 및 175B 모델을 개발했습니다. OPT-IML 모델은 기본 OPT 모델을 크게 능가하며 다양한 평가 벤치마크에서 뛰어난 일반화 성능을 보여줍니다. 논문 제목: OPT-IML : Scaling Language Model Instruction Meta Learning through the Lens of Generalization
Flan Collection: 효과적인 Instruction Tuning을 위한 데이터와 방법론 설계
이 논문은 효과적인 Instruction Tuning을 위한 데이터 및 방법론 설계에 대해 다루는 Flan Collection을 소개합니다. 저자들은 Flan 2022 모델의 개발 과정을 상세히 분석하고, ablation studies를 통해 어떤 설계 결정이 성능 향상에 기여했는지 밝혀냅니다. 연구 결과, task balancing, 데이터 증강 기법, 그리고 특히 zero-shot, few-shot, Chain-of-Thought (CoT) 프롬프트를 혼합하여 훈련하는 것이 모든 평가 환경에서 성능을 크게 향상시킨다는 점을 발견했습니다. 이렇게 훈련된 Flan-T5는 이전의 공개 Instruction Tuning 방법론들보다 우수한 성능을 보였으며, 새로운 단일 downstream task에 대해 미세 조정할 때 더 적은 계산 비용으로 더 빠르고 높은 성능에 도달하는 효율적인 시작점(checkpoint)이 됨을 입증합니다. 논문 제목: The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
FLAN: Fine-tuned 언어 모델을 활용한 Zero-Shot 학습
이 논문은 instruction tuning이라는 간단한 방법으로 언어 모델의 zero-shot 학습 능력을 향상시키는 방법을 제안합니다. 이 방법은 자연어 instruction으로 설명된 데이터셋 모음으로 언어 모델을 finetuning하는 것입니다. 137B 파라미터의 pretrained 언어 모델을 60개 이상의 NLP 데이터셋에서 instruction tuning하여 FLAN(Finetuned Language Net)이라는 모델을 만들었습니다. FLAN은 이전에 보지 못한 task에 대해 기존 모델보다 훨씬 향상된 성능을 보였으며, 평가한 25개 데이터셋 중 20개에서 zero-shot 175B GPT-3를 능가했습니다. 논문 제목: Finetuned Language Models Are Zero-Shot Learners
M³IT: 대규모 다중모드 다국어 Instruction Tuning 데이터셋
본 논문은 Vision-Language Model (VLM)의 발전을 위해 Multi-Modal, Multilingual Instruction Tuning (M³IT) 데이터셋을 제안합니다. M³IT는 40개의 데이터셋, 240만 개의 인스턴스, 400개의 수동 작성된 task instruction을 포함하는 대규모 데이터셋으로, VLM이 인간의 지시를 더 잘 따르도록 학습시키는 것을 목표로 합니다. 주요 task들은 80개 언어로 번역되어 언어적 다양성을 확보했습니다. 이 데이터셋으로 학습된 Ying-VLM 모델은 외부 지식이 필요한 복잡한 VQA task와 보지 못한 비디오 및 중국어 task에 대해서도 뛰어난 일반화 성능을 보여줍니다. 논문 제목: M³IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
mPLUG-Owl: 모듈화로 멀티모달리티를 구현한 Large Language Model
mPLUG-Owl은 foundation LLM, visual knowledge module, visual abstractor module의 모듈화된 학습을 통해 LLM에 멀티모달 능력을 부여하는 새로운 학습 패러다임입니다. 이 접근법은 2단계 학습을 통해 이미지와 텍스트를 정렬하며, 1단계에서는 LLM을 고정한 채 visual module들을 학습시키고, 2단계에서는 LoRA를 사용하여 LLM과 abstractor module을 공동으로 미세 조정합니다. 이를 통해 mPLUG-Owl은 강력한 지시 이해, 시각 이해, 다중 턴 대화 및 추론 능력을 보여줍니다. 논문 제목: mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality
InstructBLIP: Instruction Tuning을 통한 범용 Vision-Language 모델
InstructBLIP은 사전 학습된 BLIP-2 모델을 기반으로 Vision-Language Instruction Tuning에 대한 체계적이고 포괄적인 연구를 제시합니다. 26개의 공개 데이터셋을 Instruction Tuning 형식으로 변환하여 학습에 사용했으며, 주어진 Instruction에 맞춰 정보를 추출하는 Instruction-aware Query Transformer를 도입했습니다. 이를 통해 InstructBLIP은 13개의 unseen 데이터셋에서 SOTA zero-shot 성능을 달성하여 BLIP-2 및 Flamingo와 같은 대규모 모델을 능가하는 성능을 보여줍니다. 논문 제목: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
LLaVA: Visual Instruction Tuning을 통한 범용 시각 보조 모델
LLaVA는 대규모 언어 모델(LLM)에 시각적 이해 능력을 부여하는 Visual Instruction Tuning을 제안하는 논문입니다. 언어 전용 GPT-4를 활용해 멀티모달 지시-따름(instruction-following) 데이터를 생성하고, 이를 통해 사전 학습된 Vision Encoder(CLIP)와 LLM(Vicuna)을 연결하여 종단간(end-to-end) 학습을 수행합니다. 그 결과 LLaVA는 별도의 학습 없이도 새로운 이미지와 지시에 대해 GPT-4와 유사한 멀티모달 채팅 능력을 보이며, Science QA 벤치마크에서는 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: Visual Instruction Tuning