#speech representation

"speech representation" 태그가 있는 글들 (2개)

VQ-WAV2VEC: 음성을 이산적인 표현으로 학습하는 자기지도학습 방법

VQ-WAV2VEC은 wav2vec 방식의 자기지도 컨텍스트 예측 과제를 통해 오디오 세그먼트의 이산적인 표현을 학습하는 방법론입니다. 이 알고리즘은 Gumbel-Softmax 또는 온라인 k-means 클러스터링을 사용하여 밀집된 표현을 양자화하며, 이를 통해 자연어 처리(NLP) 커뮤니티의 알고리즘을 음성 데이터에 직접 적용할 수 있게 합니다. 특히, BERT 사전 학습을 적용하여 TIMIT 음소 분류 및 WSJ 음성 인식에서 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: VQ-WAV2VEC: Self-Supervised Learning of Discrete Speech Representations

Date

HuBERT: 은닉 유닛의 마스크된 예측을 통한 자기지도 음성 표현 학습

HuBERT(Hidden-Unit BERT)는 오프라인 클러스터링을 통해 BERT와 유사한 예측 손실을 위한 정렬된 타겟 레이블을 생성하는 자기지도 음성 표현 학습 접근법입니다. 이 모델의 핵심은 마스킹된 영역에만 예측 손실을 적용하여, 연속적인 음성 입력에 대해 음향 모델과 언어 모델을 결합하여 학습하도록 하는 것입니다. HuBERT는 단순한 k-means 클러스터링으로 시작하여 반복적인 개선을 통해 최첨단 wav2vec 2.0 모델의 성능과 동등하거나 이를 능가하는 결과를 보여줍니다. 논문 제목: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

Date