논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Whisper

1개의 포스트

2025. 7. 15.
AVSRWhisper

Whisper-Flamingo: 시각 정보를 활용한 Whisper의 진화, 시청각 음성 인식 및 번역

Whisper-Flamingo는 Flamingo 모델에서 영감을 받아 기존 Whisper 모델에 Gated Cross Attention을 사용하여 시각적 특징(입술 움직임)을 통합하는 새로운 오디오-비주얼 음성 인식(AVSR) 모델입니다. 이 모델은 잡음이 많은 환경에서 오디오 전용 Whisper보다 뛰어난 성능을 보이며, LRS3 및 LRS2 데이터셋에서 최첨단(SOTA) 성능을 달성했습니다. 또한, 단일 모델로 영어 음성 인식과 6개 언어로의 번역 작업을 모두 수행할 수 있는 다재다능함을 보여줍니다. 논문 제목: Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

모든 태그 보기

© 2025 junhan.blog