Self-supervised Learning

2개의 포스트

Semantic CorrespondenceSelf-supervised Learning

웹 비디오를 활용한 Semantic Correspondence의 Self-supervised 학습 방법

기존 Semantic Correspondence 데이터셋은 수작업 레이블링 비용으로 인해 데이터 양과 다양성에 한계가 있었습니다. 이 논문은 웹에서 자동으로 수집한 대규모 비디오를 활용하는 최초의 Self-supervised learning 프레임워크를 제안합니다. 연속적인 비디오 프레임 간의 부드러운 변화를 이용해 별도의 감독 없이 정확한 space-time correspondence를 구축하고, 이를 통해 비디오 내의 멀리 떨어진 프레임 간의 pseudo correspondence label을 생성하여 학습에 사용합니다. 이 방법은 기존 self-supervised 모델을 능가하며, 사전 학습으로 활용될 경우 supervised learning 모델의 성능도 크게 향상시킵니다. 논문 제목: Self-supervised Learning of Semantic Correspondence Using Web Videos

Self-supervised LearningSpeech Recognition

DiscreteBERT: Self-Supervised Pre-Training을 통한 음성 인식의 혁신

이 논문은 음성 데이터를 명시적으로 양자화하는 방식과 그렇지 않은 Self-Supervised 표현 학습 알고리즘을 비교합니다. vq-wav2vec을 통해 음성 데이터의 어휘를 구축하고 BERT로 학습하는 방식이 더 효과적임을 보여줍니다. 특히, 사전 학습된 BERT 모델을 Connectionist Temporal Classification (CTC) loss를 사용하여 직접 fine-tuning함으로써, 단 10분의 레이블 데이터만으로도 높은 음성 인식 성능을 달성할 수 있음을 입증했습니다. 이는 Self-Supervision이 거의 제로에 가까운 전사 데이터로도 음성 인식 시스템을 가능하게 함을 보여줍니다. 논문 제목: EFFECTIVENESS OF SELF-SUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION