#self-supervised learning

"self-supervised learning" 태그가 있는 글들 (4개)

VQ-WAV2VEC: 음성을 이산적인 표현으로 학습하는 자기지도학습 방법

VQ-WAV2VEC은 wav2vec 방식의 자기지도 컨텍스트 예측 과제를 통해 오디오 세그먼트의 이산적인 표현을 학습하는 방법론입니다. 이 알고리즘은 Gumbel-Softmax 또는 온라인 k-means 클러스터링을 사용하여 밀집된 표현을 양자화하며, 이를 통해 자연어 처리(NLP) 커뮤니티의 알고리즘을 음성 데이터에 직접 적용할 수 있게 합니다. 특히, BERT 사전 학습을 적용하여 TIMIT 음소 분류 및 WSJ 음성 인식에서 새로운 최고 성능(SOTA)을 달성했습니다. 논문 제목: VQ-WAV2VEC: Self-Supervised Learning of Discrete Speech Representations

Date

wav2vec 2.0: 자기 지도 학습(Self-Supervised Learning)을 통한 음성 표현의 혁신

wav2vec 2.0은 음성 오디오만으로 강력한 표현을 학습한 후, 전사된 데이터로 미세 조정하여 기존의 반지도 학습(semi-supervised) 방법을 능가하는 프레임워크입니다. 이 모델은 잠재 공간(latent space)에서 음성 입력을 마스킹하고, 공동으로 학습된 잠재 표현의 양자화(quantization)를 통해 정의된 Contrastive loss를 해결합니다. 이 방식은 Transformer를 사용하여 문맥화된 표현을 구축하며, 단 10분의 레이블 데이터만으로도 초저자원 음성 인식의 가능성을 입증했습니다. 논문 제목: wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

Date

InternVideo: 생성 및 판별 학습을 통한 일반 비디오 파운데이션 모델

InternVideo는 생성적(generative) 및 판별적(discriminative) 자기지도 비디오 학습을 활용하여 범용 비디오 파운데이션 모델을 제시합니다. 이 모델은 masked video modeling과 video-language contrastive learning을 사전 학습 목표로 삼아 두 프레임워크의 비디오 표현을 학습 가능한 방식으로 조정하여 다양한 비디오 애플리케이션의 성능을 향상시킵니다. InternVideo는 비디오 액션 인식, 비디오-언어 정렬 등 39개의 비디오 데이터셋에서 최고의 성능을 달성하여 비디오 이해를 위한 일반성을 입증했습니다. 논문 제목: InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Date

HuBERT: 은닉 유닛의 마스크된 예측을 통한 자기지도 음성 표현 학습

HuBERT(Hidden-Unit BERT)는 오프라인 클러스터링을 통해 BERT와 유사한 예측 손실을 위한 정렬된 타겟 레이블을 생성하는 자기지도 음성 표현 학습 접근법입니다. 이 모델의 핵심은 마스킹된 영역에만 예측 손실을 적용하여, 연속적인 음성 입력에 대해 음향 모델과 언어 모델을 결합하여 학습하도록 하는 것입니다. HuBERT는 단순한 k-means 클러스터링으로 시작하여 반복적인 개선을 통해 최첨단 wav2vec 2.0 모델의 성능과 동등하거나 이를 능가하는 결과를 보여줍니다. 논문 제목: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

Date