Let's Go Real Talk: 얼굴을 마주보고 대화하는 음성 대화 모델
본 논문은 사용자의 시청각 음성 입력을 처리하고 시청각 음성으로 응답을 생성하는 새로운 Face-to-Face 음성 대화 모델을 소개합니다. 이는 텍스트를 거치지 않는 아바타 챗봇 시스템을 향한 첫걸음입니다. 이를 위해 340시간 분량의 MultiDialog 데이터셋을 구축했으며, 사전 학습된 LLM을 음성-텍스트 공동 사전 학습을 통해 시청각 대화 도메인에 적용했습니다. 논문 제목: Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation
- Date