TransformerSelf-Attention
Attention Is All You Need: 순환과 합성곱을 넘어선 Transformer 모델
Transformer는 복잡한 recurrent나 convolutional neural network 대신 오직 attention 메커니즘에만 기반한 새로운 네트워크 아키텍처입니다. 이 모델은 recurrence와 convolutions를 완전히 제거하여 병렬 처리를 극대화하고 훈련 시간을 크게 단축시켰으며, 기계 번역 작업에서 최고의 성능을 달성했습니다. Transformer는 encoder와 decoder 구조를 사용하며, multi-head self-attention을 통해 입력과 출력 시퀀스 간의 global dependency를 효과적으로 학습합니다. 논문 제목: Attention Is All You Need