논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Sequence Modeling

1개의 포스트

2025. 8. 15.
State Space ModelSequence Modeling

Mamba: 선택적 상태 공간을 이용한 선형 시간 시퀀스 모델링

Mamba는 Transformer의 긴 시퀀스에 대한 계산 비효율성을 해결하기 위해 제안된 Structured State Space Models (SSMs) 기반의 아키텍처입니다. 기존 SSM의 약점인 content-based reasoning 능력 부재를 해결하기 위해, 입력에 따라 SSM 파라미터가 동적으로 변하는 selection mechanism을 도입했습니다. 이를 통해 모델은 시퀀스를 따라 정보를 선택적으로 전파하거나 잊을 수 있습니다. 또한, 이로 인해 기존의 효율적인 convolution 연산을 사용할 수 없게 되는 문제를 하드웨어 친화적인 병렬 스캔 알고리즘으로 해결했습니다. Mamba는 attention이나 MLP 블록 없이 단순화된 종단 간 신경망 아키텍처로, 빠른 추론 속도와 시퀀스 길이에 대한 선형적인 확장성을 가지며 언어, 오디오, 유전체 등 다양한 데이터에서 SOTA 성능을 달성했습니다. 논문 제목: Mamba: Linear-Time Sequence Modeling with Selective State Spaces

모든 태그 보기

© 2025 junhan.blog