
HuBERT: 은닉 유닛의 마스크된 예측을 통한 자기지도 음성 표현 학습
HuBERT(Hidden-Unit BERT)는 오프라인 클러스터링을 통해 BERT와 유사한 예측 손실을 위한 정렬된 타겟 레이블을 생성하는 자기지도 음성 표현 학습 접근법입니다. 이 모델의 핵심은 마스킹된 영역에만 예측 손실을 적용하여, 연속적인 음성 입력에 대해 음향 모델과 언어 모델을 결합하여 학습하도록 하는 것입니다. HuBERT는 단순한 k-means 클러스터링으로 시작하여 반복적인 개선을 통해 최첨단 wav2vec 2.0 모델의 성능과 동등하거나 이를 능가하는 결과를 보여줍니다. 논문 제목: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units