
wav2vec 2.0: 자기 지도 학습(Self-Supervised Learning)을 통한 음성 표현의 혁신
wav2vec 2.0은 음성 오디오만으로 강력한 표현을 학습한 후, 전사된 데이터로 미세 조정하여 기존의 반지도 학습(semi-supervised) 방법을 능가하는 프레임워크입니다. 이 모델은 잠재 공간(latent space)에서 음성 입력을 마스킹하고, 공동으로 학습된 잠재 표현의 양자화(quantization)를 통해 정의된 Contrastive loss를 해결합니다. 이 방식은 Transformer를 사용하여 문맥화된 표현을 구축하며, 단 10분의 레이블 데이터만으로도 초저자원 음성 인식의 가능성을 입증했습니다. 논문 제목: wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations