#Speech Recognition

"Speech Recognition" 태그가 있는 글들 (2개)

wav2vec: 음성 인식을 위한 비지도 사전 학습(Unsupervised Pre-training)

본 논문은 원시 오디오로부터 표현을 학습하여 음성 인식을 위한 비지도 사전 학습(unsupervised pre-training) 방법인 wav2vec을 제안합니다. wav2vec은 레이블이 없는 대량의 오디오 데이터로 학습되며, 결과 표현은 음향 모델 훈련을 개선하는 데 사용됩니다. 간단한 다층 convolutional neural network를 noise contrastive binary classification 작업을 통해 최적화합니다. WSJ 데이터셋 실험에서 적은 양의 전사 데이터만 있을 때 강력한 문자 기반 로그-멜 필터뱅크 기준 모델의 단어 오류율(WER)을 최대 36%까지 줄였습니다. 이 접근 방식은 기존 문자 기반 시스템인 Deep Speech 2보다 훨씬 적은 레이블 데이터를 사용하면서도 더 나은 성능을 보입니다. 논문 제목: wav2vec: Unsupervised Pre-training for Speech Recognition

Date

DiscreteBERT: Self-Supervised Pre-Training을 통한 음성 인식의 혁신

이 논문은 음성 데이터를 명시적으로 양자화하는 방식과 그렇지 않은 Self-Supervised 표현 학습 알고리즘을 비교합니다. vq-wav2vec을 통해 음성 데이터의 어휘를 구축하고 BERT로 학습하는 방식이 더 효과적임을 보여줍니다. 특히, 사전 학습된 BERT 모델을 Connectionist Temporal Classification (CTC) loss를 사용하여 직접 fine-tuning함으로써, 단 10분의 레이블 데이터만으로도 높은 음성 인식 성능을 달성할 수 있음을 입증했습니다. 이는 Self-Supervision이 거의 제로에 가까운 전사 데이터로도 음성 인식 시스템을 가능하게 함을 보여줍니다. 논문 제목: EFFECTIVENESS OF SELF-SUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION

Date