논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Transformer#Video Moment Retrieval#DETR#Multimodal#LLM
    모든 태그 보기 →

Audio Recognition

1개의 포스트

2025. 9. 5.
Audio RecognitionAudio Dataset

EPIC-SOUNDS: 소리로 행동을 인식하는 대규모 데이터셋

본 논문은 egocentric 비디오의 오디오 스트림 내에서 시간적 범위와 클래스 레이블을 포착하는 대규모 오디오 주석 데이터셋인 EPIC-SOUNDS를 소개합니다. 이 데이터셋은 시각적 이벤트와 청각적 이벤트가 시간적으로나 의미적으로 항상 일치하지 않는다는 문제의식에서 출발하여, 오디오에만 집중한 새로운 주석을 제공합니다. EPIC-SOUNDS는 44개의 클래스에 걸쳐 78.4k개의 분류된 오디오 이벤트 세그먼트를 포함하며, 특히 물체가 충돌할 때 발생하는 소리를 기반으로 해당 물체의 재질(예: 유리, 나무)까지 주석으로 달아 세밀함을 더했습니다. 이 데이터셋을 활용하여 최신 오디오 인식(audio recognition) 및 탐지(detection) 모델의 성능을 평가하고, 소리가 나는 행동을 이해하는 현재 모델의 한계와 가능성을 분석합니다. 논문 제목: EPIC-SOUNDS: A Large-Scale Dataset of Actions that Sound

모든 태그 보기

© 2025 junhan.blog