논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Audio Classification

1개의 포스트

2025. 7. 14.
Audio ClassificationTransformer

Audio Spectrogram Transformer (AST): CNN을 넘어선 오디오 분류의 새로운 접근

Audio Spectrogram Transformer(AST)는 오디오 분류를 위해 제안된 최초의 Convolution-free, 순수 attention 기반 모델입니다. 기존 CNN 기반 모델과 달리, AST는 오디오 Spectrogram에서 직접적으로 장거리 전역 컨텍스트를 학습하여 AudioSet, ESC-50, Speech Commands V2와 같은 주요 벤치마크에서 SOTA(State-of-the-Art) 성능을 달성했습니다. ImageNet으로 사전 학습된 Vision Transformer (ViT)의 지식을 활용하여 성능을 크게 향상시키는 방법 또한 제안합니다. 논문 제목: AST: Audio Spectrogram Transformer

모든 태그 보기

© 2025 junhan.blog