Mamba-2: Transformers와 SSM의 관계를 재정의하다
Mamba-2는 State-Space Models (SSMs)와 Transformers 아키텍처 간의 깊은 이론적 연결을 제시하는 State Space Duality (SSD) 프레임워크를 소개합니다. 이 논문은 두 모델 계열이 structured semiseparable matrices를 통해 어떻게 연결되는지를 보여주며, 이를 바탕으로 기존 Mamba보다 2-8배 빠른 Mamba-2 아키텍처를 제안합니다. Mamba-2는 향상된 속도와 효율성을 가지면서도 언어 모델링 성능에서 Transformers와 경쟁력을 유지합니다. 논문 제목: Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality