VQ-WAV2VEC: 음성을 이산적인 표현으로 학습하는 자기지도학습 방법
VQ-WAV2VEC은 wav2vec 방식의 자기지도 컨텍스트 예측 과제를 통해 오디오 세그먼트의 이산적인 표현을 학습하는 방법론입니다. 이 알고리즘은 Gumbel-Softmax 또는 온라인 k-means 클러스터링을 사용하여 밀집된 표현을 양자화하며, 이를 통해 자연어 처리(NLP) 커뮤니티의 알고리즘을 음성 데이터에 직접 적용할 수 있게 합니다. 특히, BERT 사전 학습을 적용하여 TIMIT 음소 분류 및 WSJ 음성 인식에서 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: VQ-WAV2VEC: Self-Supervised Learning of Discrete Speech Representations
- Date