#LLM

"LLM" 태그가 있는 글들 (2개)

SpeechGPT: 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델

SpeechGPT는 다중 모달 콘텐츠를 인식하고 생성할 수 있는 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델입니다. 이 모델은 기존의 캐스케이드 방식을 벗어나 이산적인 음성 표현을 활용하여 모달 간 지식 전달을 가능하게 합니다. 대규모 크로스모달 음성 지시 데이터셋인 SpeechInstruct를 구축하고, 3단계 학습 전략(모달리티 적응 사전학습, 크로스모달 지시 미세조정, Chain-of-Modality 지시 미세조정)을 통해 학습되었습니다. 논문 제목: SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

Date

멀티모달 대규모 언어 모델(MLLM)의 모든 것: 최신 연구 동향 총정리

최근 GPT-4V와 같은 Multimodal Large Language Model(MLLM)의 최신 연구 동향을 종합적으로 살펴봅니다. 본 논문은 MLLM의 기본 개념, 아키텍처, 학습 전략, 평가 방법을 다루고, Multimodal ICL (M-ICL), Multimodal CoT (M-CoT)와 같은 확장 기술과 멀티모달 환각 현상 및 해결 과제를 논의합니다. 논문 제목: A Survey on Multimodal Large Language Models

Date