Reinforcement LearningReasoning
DeepSeek-R1: 강화학습(RL)을 통해 LLM의 추론 능력을 극대화하다
DeepSeek-R1은 대규모 Reinforcement Learning(RL)을 통해 언어 모델의 추론 능력을 강화하는 방법을 제시합니다. SFT(Supervised Fine-Tuning) 없이 순수 RL만으로 학습한 DeepSeek-R1-Zero는 뛰어난 추론 능력을 보였지만, 가독성 문제를 드러냈습니다. 이를 개선하기 위해 소량의 cold-start 데이터와 다단계 학습을 적용한 DeepSeek-R1은 OpenAI-o1-1217에 필적하는 성능을 달성했습니다. 또한, 이 모델의 추론 능력을 더 작은 모델에 성공적으로 증류(distillation)하여, LLM의 추론 능력 향상에 대한 새로운 가능성을 보여줍니다. 논문 제목: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning