Unsupervised Learning

1개의 포스트

2025. 7. 14.

wav2vec: 음성 인식을 위한 비지도 사전 학습(Unsupervised Pre-training)

본 논문은 원시 오디오로부터 표현을 학습하여 음성 인식을 위한 비지도 사전 학습(unsupervised pre-training) 방법인 wav2vec을 제안합니다. wav2vec은 레이블이 없는 대량의 오디오 데이터로 학습되며, 결과 표현은 음향 모델 훈련을 개선하는 데 사용됩니다. 간단한 다층 convolutional neural network를 noise contrastive binary classification 작업을 통해 최적화합니다. WSJ 데이터셋 실험에서 적은 양의 전사 데이터만 있을 때 강력한 문자 기반 로그-멜 필터뱅크 기준 모델의 단어 오류율(WER)을 최대 36%까지 줄였습니다. 이 접근 방식은 기존 문자 기반 시스템인 Deep Speech 2보다 훨씬 적은 레이블 데이터를 사용하면서도 더 나은 성능을 보입니다. 논문 제목: wav2vec: Unsupervised Pre-training for Speech Recognition

모든 태그 보기