논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Transformer#Multimodal Learning#Instruction Tuning#self-supervised learning#Large Language Model#DETR
    모든 태그 보기 →

Multimodal LLM

1개의 포스트

2025. 7. 30.
Multimodal LLMInstruction Tuning

mPLUG-Owl: 모듈화로 멀티모달리티를 구현한 Large Language Model

mPLUG-Owl은 foundation LLM, visual knowledge module, visual abstractor module의 모듈화된 학습을 통해 LLM에 멀티모달 능력을 부여하는 새로운 학습 패러다임입니다. 이 접근법은 2단계 학습을 통해 이미지와 텍스트를 정렬하며, 1단계에서는 LLM을 고정한 채 visual module들을 학습시키고, 2단계에서는 LoRA를 사용하여 LLM과 abstractor module을 공동으로 미세 조정합니다. 이를 통해 mPLUG-Owl은 강력한 지시 이해, 시각 이해, 다중 턴 대화 및 추론 능력을 보여줍니다. 논문 제목: mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality

모든 태그 보기

© 2025 junhan.blog