Whisper

1개의 포스트

2025. 7. 15.

Whisper-Flamingo: 시각 정보를 활용한 Whisper의 진화, 시청각 음성 인식 및 번역

Whisper-Flamingo는 Flamingo 모델에서 영감을 받아 기존 Whisper 모델에 Gated Cross Attention을 사용하여 시각적 특징(입술 움직임)을 통합하는 새로운 오디오-비주얼 음성 인식(AVSR) 모델입니다. 이 모델은 잡음이 많은 환경에서 오디오 전용 Whisper보다 뛰어난 성능을 보이며, LRS3 및 LRS2 데이터셋에서 최첨단(SOTA) 성능을 달성했습니다. 또한, 단일 모델로 영어 음성 인식과 6개 언어로의 번역 작업을 모두 수행할 수 있는 다재다능함을 보여줍니다. 논문 제목: Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

모든 태그 보기