논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Speech AI

1개의 포스트

2025. 7. 14.
Speech AILLM

SpeechGPT: 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델

SpeechGPT는 다중 모달 콘텐츠를 인식하고 생성할 수 있는 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델입니다. 이 모델은 기존의 캐스케이드 방식을 벗어나 이산적인 음성 표현을 활용하여 모달 간 지식 전달을 가능하게 합니다. 대규모 크로스모달 음성 지시 데이터셋인 SpeechInstruct를 구축하고, 3단계 학습 전략(모달리티 적응 사전학습, 크로스모달 지시 미세조정, Chain-of-Modality 지시 미세조정)을 통해 학습되었습니다. 논문 제목: SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

모든 태그 보기

© 2025 junhan.blog