DeepSeek-R1: 강화학습(RL)을 통해 LLM의 추론 능력을 극대화하다

DeepSeek-R1은 대규모 Reinforcement Learning(RL)을 통해 언어 모델의 추론 능력을 강화하는 방법을 제시합니다. SFT(Supervised Fine-Tuning) 없이 순수 RL만으로 학습한 DeepSeek-R1-Zero는 뛰어난 추론 능력을 보였지만, 가독성 문제를 드러냈습니다. 이를 개선하기 위해 소량의 cold-start 데이터와 다단계 학습을 적용한 DeepSeek-R1은 OpenAI-o1-1217에 필적하는 성능을 달성했습니다. 또한, 이 모델의 추론 능력을 더 작은 모델에 성공적으로 증류(distillation)하여, LLM의 추론 능력 향상에 대한 새로운 가능성을 보여줍니다. 논문 제목: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv preprint arXiv:2501.12948 (2025).

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI<br>research@deepseek.com

Abstract

우리는 1세대 추론 모델인 DeepSeek-R1-ZeroDeepSeek-R1을 소개한다. DeepSeek-R1-Zero는 사전 단계로 supervised fine-tuning (SFT) 없이 대규모 reinforcement learning (RL)을 통해 학습된 모델로, 놀라운 추론 능력을 보여준다. RL을 통해 DeepSeek-R1-Zero는 다양하고 강력하며 흥미로운 추론 행동들을 자연스럽게 발현한다. 그러나 이 모델은 가독성 저하 및 언어 혼합(language mixing)과 같은 문제에 직면한다. 이러한 문제들을 해결하고 추론 성능을 더욱 향상시키기 위해, 우리는 RL 이전에 다단계 학습(multi-stage training)과 cold-start 데이터를 통합한 DeepSeek-R1을 도입한다. DeepSeek-R1은 추론 task에서 OpenAI-o1-1217과 비견되는 성능을 달성한다. 연구 커뮤니티를 지원하기 위해, 우리는 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 **Qwen 및 Llama를 기반으로 DeepSeek-R1에서 증류(distilled)된 6개의 dense 모델 (1.5B, 7B, 8B, 14B, 32B, 70B)**을 오픈 소스로 공개한다.

Figure 1 | DeepSeek-R1의 벤치마크 성능.

Contents

1 Introduction ..... 3 1.1 Contributions ..... 4 1.2 Summary of Evaluation Results ..... 4 2 Approach ..... 5 2.1 Overview ..... 5 2.2 DeepSeek-R1-Zero: Reinforcement Learning on the Base Model ..... 5 2.2.1 Reinforcement Learning Algorithm ..... 5 2.2.2 Reward Modeling ..... 6 2.2.3 Training Template ..... 6 2.2.4 Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero ..... 6 2.3 DeepSeek-R1: Reinforcement Learning with Cold Start ..... 9 2.3.1 Cold Start ..... 9 2.3.2 Reasoning-oriented Reinforcement Learning ..... 10 2.3.3 Rejection Sampling and Supervised Fine-Tuning ..... 10 2.3.4 Reinforcement Learning for all Scenarios ..... 11 2.4 Distillation: Empower Small Models with Reasoning Capability ..... 11 3 Experiment ..... 11 3.1 DeepSeek-R1 Evaluation ..... 13 3.2 Distilled Model Evaluation ..... 14 4 Discussion ..... 14 4.1 Distillation v.s. Reinforcement Learning ..... 14 4.2 Unsuccessful Attempts ..... 15 5 Conclusion, Limitations, and Future Work ..... 16 A Contributions and Acknowledgments ..... 20

1. Introduction

최근 몇 년간 **Large Language Model (LLM)**은 급격한 발전과 진화를 거듭하며 (Anthropic, 2024, Google, 2024, OpenAI, 2024a), **인공 일반 지능(AGI)**에 대한 격차를 점진적으로 줄여나가고 있다.

최근에는 post-training이 전체 학습 파이프라인의 중요한 구성 요소로 부상했다. 이는 사전학습(pre-training)에 비해 상대적으로 적은 연산 자원을 요구하면서도, 추론 task의 정확도를 향상시키고, 사회적 가치에 부합하며, 사용자 선호도에 적응하는 능력을 보여주었다. 추론 능력과 관련하여, OpenAI의 o1 (OpenAI, 2024b) 시리즈 모델Chain-of-Thought 추론 과정의 길이를 늘려 추론 시간(inference-time) 스케일링을 도입한 최초의 모델이다. 이 접근 방식은 수학, 코딩, 과학 추론과 같은 다양한 추론 task에서 상당한 개선을 이루었다. 그러나 효과적인 test-time 스케일링의 과제는 여전히 연구 커뮤니티의 미해결 문제로 남아있다. 여러 선행 연구들은 process-based reward model (Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023), 강화 학습(reinforcement learning) (Kumar et al., 2024), 그리고 Monte Carlo Tree Search 및 Beam Search와 같은 탐색 알고리즘 (Feng et al., 2024; Trinh et al., 2024, Xin et al., 2024)을 포함한 다양한 접근 방식을 탐구해왔다. 하지만 이러한 방법들 중 어느 것도 OpenAI의 o1 시리즈 모델에 필적하는 일반적인 추론 성능을 달성하지 못했다.

본 논문에서는 순수 강화 학습(RL)을 사용하여 언어 모델의 추론 능력을 향상시키는 첫걸음을 내딛는다. 우리의 목표는 어떠한 supervised 데이터 없이도 LLM이 추론 능력을 개발할 수 있는 잠재력을 탐구하는 것이며, 순수 RL 프로세스를 통한 LLM의 자기 진화(self-evolution)에 초점을 맞춘다. 구체적으로, 우리는 DeepSeek-V3-Base를 기본 모델로 사용하고, **GRPO (Shao et al., 2024)**를 RL 프레임워크로 활용하여 추론에서 모델 성능을 향상시킨다. 학습 과정에서 DeepSeek-R1-Zero는 수많은 강력하고 흥미로운 추론 행동을 자연스럽게 보여주었다. 수천 번의 RL 단계를 거친 후, DeepSeek-R1-Zero는 추론 벤치마크에서 뛰어난 성능을 보인다. 예를 들어, AIME 2024의 pass@1 점수는 15.6%에서 71.0%로 증가했으며, majority voting을 적용하면 점수는 86.7%로 더욱 향상되어 OpenAI-o1-0912의 성능과 일치한다.

그러나 DeepSeek-R1-Zero는 낮은 가독성(readability) 및 언어 혼합(language mixing)과 같은 문제에 직면한다. 이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해, 우리는 소량의 cold-start 데이터와 다단계 학습 파이프라인을 통합한 DeepSeek-R1을 소개한다. 구체적으로, 우리는 수천 개의 cold-start 데이터를 수집하여 DeepSeek-V3-Base 모델을 fine-tune하는 것으로 시작한다. 이어서, DeepSeek-R1-Zero와 유사하게 추론 중심의 RL을 수행한다. RL 프로세스가 수렴에 가까워지면, RL checkpoint에서 rejection sampling을 통해 새로운 SFT 데이터를 생성하고, 이를 DeepSeek-V3의 supervised 데이터(예: 글쓰기, 사실 기반 QA, 자기 인식 등)와 결합하여 DeepSeek-V3-Base 모델을 재학습시킨다. 새로운 데이터로 fine-tuning한 후, 해당 checkpoint는 모든 시나리오의 prompt를 고려하여 추가적인 RL 프로세스를 거친다. 이러한 단계를 거쳐 우리는 OpenAI-o1-1217과 동등한 성능을 달성하는 DeepSeek-R1이라는 checkpoint를 얻었다.

우리는 DeepSeek-R1에서 더 작은 dense 모델로의 distillation을 추가로 탐구한다. **Qwen2.5-32B (Qwen, 2024b)**를 기본 모델로 사용하여, DeepSeek-R1로부터 직접 distillation하는 것이 해당 모델에 RL을 적용하는 것보다 더 나은 성능을 보인다. 이는 더 큰 기본 모델이 발견한 추론 패턴이 추론 능력 향상에 결정적임을 보여준다. 우리는 distilled Qwen 및 Llama (Dubey et al., 2024) 시리즈를 오픈 소스로 공개한다. 특히, 우리의 distilled 14B 모델은 state-of-the-art 오픈 소스 QwQ-32B-Preview (Qwen, 2024a)를 큰 차이로 능가하며, distilled 32B 및 70B 모델은 dense 모델 중 추론 벤치마크에서 새로운 기록을 세웠다.

1.1. Contributions

Post-Training: Large-Scale Reinforcement Learning on the Base Model

  • 우리는 사전 단계로서 supervised fine-tuning (SFT)에 의존하지 않고 RL을 base model에 직접 적용한다. 이 접근 방식은 모델이 복잡한 문제를 해결하기 위해 chain-of-thought (CoT)를 탐색하도록 허용하며, 그 결과 DeepSeek-R1-Zero가 개발되었다. DeepSeek-R1-Zero는 자기 검증(self-verification), 반성(reflection), 긴 CoT 생성과 같은 능력을 보여주며, 연구 커뮤니티에 중요한 이정표를 세웠다. 특히, 이는 SFT 없이 순수하게 RL을 통해서도 LLM의 추론 능력을 강화할 수 있음을 검증한 최초의 공개 연구라는 점에서 주목할 만하다. 이 돌파구는 이 분야의 미래 발전을 위한 길을 열어준다.
  • 우리는 DeepSeek-R1을 개발하기 위한 우리의 파이프라인을 소개한다. 이 파이프라인은 향상된 추론 패턴을 발견하고 인간의 선호도에 맞추기 위한 두 단계의 RL과, 모델의 추론 및 비추론 능력의 씨앗 역할을 하는 두 단계의 SFT를 포함한다. 우리는 이 파이프라인이 더 나은 모델을 만들어 산업에 기여할 것이라고 믿는다.

Distillation: Smaller Models Can Be Powerful Too

  • 우리는 더 큰 모델의 reasoning 패턴이 더 작은 모델로 증류(distill)될 수 있음을 보여주며, 이는 작은 모델에서 RL을 통해 발견된 reasoning 패턴보다 더 나은 성능을 가져온다. 오픈 소스 DeepSeek-R1과 그 API는 향후 더 나은 작은 모델을 증류하는 데 연구 커뮤니티에 기여할 것이다.
  • DeepSeek-R1이 생성한 reasoning 데이터를 사용하여, 우리는 연구 커뮤니티에서 널리 사용되는 여러 dense model을 fine-tuning했다. 평가 결과는 증류된 더 작은 dense model이 벤치마크에서 탁월한 성능을 보임을 입증한다. DeepSeek-R1-Distill-Qwen-7B는 AIME 2024에서 55.5%를 달성하여 QwQ-32B-Preview를 능가한다. 또한, DeepSeek-R1-Distill-Qwen-32B는 AIME 2024에서 72.6%, MATH-500에서 94.3%, LiveCodeBench에서 57.2%를 기록했다. 이러한 결과는 이전의 오픈소스 모델들을 크게 능가하며, o1-mini와도 견줄 만한 수준이다. 우리는 Qwen2.5 및 Llama3 시리즈를 기반으로 증류된 1.5B, 7B, 8B, 14B, 32B, 70B 체크포인트를 커뮤니티에 오픈소스로 공개한다.

1.2. Summary of Evaluation Results

  • 추론(Reasoning) task:

    • (1) DeepSeek-R1은 AIME 2024에서 79.8% Pass@1을 달성하여 OpenAI-o1-1217을 근소하게 앞선다. MATH-500에서는 **97.3%**라는 인상적인 점수를 기록하며 OpenAI-o1-1217과 동등한 성능을 보이고 다른 모델들을 크게 능가한다.
    • (2) 코딩 관련 task에서 DeepSeek-R1은 코드 경쟁 task에서 전문가 수준을 보여준다. Codeforces에서 2,029 Elo rating을 달성하여 경쟁에 참여한 인간 참가자의 96.3%를 능가한다. 엔지니어링 관련 task에서는 DeepSeek-R1이 DeepSeek-V3보다 약간 더 나은 성능을 보여, 실제 개발자들의 업무에 도움을 줄 수 있다.
  • 지식(Knowledge):

    • MMLU, MMLU-Pro, GPQA Diamond와 같은 벤치마크에서 DeepSeek-R1은 **MMLU 90.8%, MMLU-Pro 84.0%, GPQA Diamond 71.5%**라는 뛰어난 결과를 달성하며 DeepSeek-V3를 크게 능가한다. 이 벤치마크들에서 OpenAI-o1-1217보다는 약간 낮은 성능을 보이지만, DeepSeek-R1은 다른 closed-source 모델들을 능가하며 교육 관련 task에서 경쟁 우위를 입증한다.
    • 사실 기반 벤치마크인 SimpleQA에서 DeepSeek-R1은 DeepSeek-V3를 능가하며 사실 기반 쿼리 처리 능력을 보여준다. 이 벤치마크에서 OpenAI-o1이 4o를 능가하는 유사한 경향이 관찰된다.
  • 기타(Others):

    • DeepSeek-R1은 창의적 글쓰기, 일반 질문 답변, 편집, 요약 등 다양한 task에서도 뛰어난 성능을 보인다. AlpacaEval 2.0에서 **87.6%의 길이 제어 승률(length-controlled win-rate)**을, ArenaHard에서 92.3%의 승률을 달성하여 시험 지향적이지 않은 쿼리를 지능적으로 처리하는 강력한 능력을 보여준다.
    • 또한 DeepSeek-R1은 긴 context 이해를 요구하는 task에서 뛰어난 성능을 보여주며, long-context 벤치마크에서 DeepSeek-V3를 크게 능가한다.

2. Approach

2.1. Overview

이전 연구들은 모델 성능 향상을 위해 대규모 supervised 데이터에 크게 의존해왔다. 본 연구에서는 supervised fine-tuning (SFT)을 cold start로 사용하지 않고도, 대규모 강화 학습(RL)을 통해 reasoning 능력을 크게 향상시킬 수 있음을 보여준다. 나아가, 소량의 cold-start 데이터를 포함하면 성능을 더욱 향상시킬 수 있다. 다음 섹션에서는 다음 내용을 제시한다:

  1. DeepSeek-R1-Zero: SFT 데이터 없이 base model에 RL을 직접 적용한 모델.
  2. DeepSeek-R1: 수천 개의 긴 Chain-of-Thought (CoT) 예시로 fine-tuning된 checkpoint에서 RL을 시작한 모델.
  3. DeepSeek-R1의 **reasoning 능력을 작은 dense model로 증류(distill)**하는 방법.

2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

**강화 학습(Reinforcement learning)**은 이전 연구들(Shao et al., 2024; Wang et al., 2023)에서 입증되었듯이 추론(reasoning) task에서 상당한 효과를 보여주었다. 그러나 이러한 연구들은 시간 집약적인 supervised 데이터에 크게 의존했다. 이 섹션에서는 어떠한 supervised 데이터 없이도 LLM이 추론 능력을 개발할 수 있는 잠재력을 탐구하며, **순수한 강화 학습 프로세스를 통한 LLM의 자기 진화(self-evolution)**에 초점을 맞춘다. 우리는 먼저 RL 알고리즘에 대한 간략한 개요를 제시한 다음, 몇 가지 흥미로운 결과를 소개하며, 이를 통해 커뮤니티에 가치 있는 통찰력을 제공하기를 희망한다.

2.2.1. Reinforcement Learning Algorithm

Group Relative Policy Optimization
RL 학습 비용을 절감하기 위해, 우리는 Group Relative Policy Optimization (GRPO) (Shao et al., 2024)를 채택한다. GRPO는 일반적으로 policy model과 동일한 크기의 critic model을 사용하지 않고, 대신 그룹 점수로부터 baseline을 추정한다. 구체적으로, 각 질문 qq에 대해 GRPO는 이전 policy πθold \pi_{\theta_{\text {old }}}로부터 출력 그룹 {o1,o2,,oG}\left\{o_{1}, o_{2}, \cdots, o_{G}\right\}을 샘플링한 다음, 다음 목적 함수를 최대화하여 policy model πθ\pi_{\theta}를 최적화한다:

JGRPO(θ)=E[qP(Q),{oi}i=1Gπθold(Oq)]1Gi=1G(min(πθ(oiq)πθold(oiq)Ai,clip(πθ(oiq)πθold(oiq),1ε,1+ε)Ai)βDKL(πθπref)),DKL(πθπref)=πref(oiq)πθ(oiq)logπref(oiq)πθ(oiq)1,\begin{gathered} \mathcal{J}_{G R P O}(\theta)=\mathbb{E}\left[q \sim P(Q),\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{o l d}}(O \mid q)\right] \\ \frac{1}{G} \sum_{i=1}^{G}\left(\min \left(\frac{\pi_{\theta}\left(o_{i} \mid q\right)}{\pi_{\theta_{o l d}}\left(o_{i} \mid q\right)} A_{i}, \operatorname{clip}\left(\frac{\pi_{\theta}\left(o_{i} \mid q\right)}{\pi_{\theta_{o l d}}\left(o_{i} \mid q\right)}, 1-\varepsilon, 1+\varepsilon\right) A_{i}\right)-\beta \mathbb{D}_{K L}\left(\pi_{\theta}| | \pi_{r e f}\right)\right), \\ \mathbb{D}_{K L}\left(\pi_{\theta}| | \pi_{r e f}\right)=\frac{\pi_{r e f}\left(o_{i} \mid q\right)}{\pi_{\theta}\left(o_{i} \mid q\right)}-\log \frac{\pi_{r e f}\left(o_{i} \mid q\right)}{\pi_{\theta}\left(o_{i} \mid q\right)}-1, \end{gathered}

여기서 ε\varepsilonβ\beta하이퍼파라미터이며, AiA_{i}는 각 그룹 내 출력에 해당하는 보상 그룹 {r1,r2,,rG}\left\{r_{1}, r_{2}, \ldots, r_{G}\right\}을 사용하여 계산되는 advantage이다:

Ai=rimean({r1,r2,,rG})std({r1,r2,,rG}).A_{i}=\frac{r_{i}-\operatorname{mean}\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)}{\operatorname{std}\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)} .

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

Table 1 | DeepSeek-R1-Zero용 템플릿. prompt는 학습 중 특정 추론 질문으로 대체된다.

2.2.2. Reward Modeling

보상은 RL의 최적화 방향을 결정하는 학습 신호의 원천이다. DeepSeek-R1-Zero를 학습시키기 위해 우리는 주로 두 가지 유형의 보상으로 구성된 **규칙 기반 보상 시스템(rule-based reward system)**을 채택한다:

  • 정확도 보상(Accuracy rewards): 정확도 보상 모델은 응답이 올바른지 평가한다. 예를 들어, 결정론적 결과가 있는 수학 문제의 경우, 모델은 지정된 형식(예: 상자 안)으로 최종 답안을 제공해야 하며, 이를 통해 정확성을 규칙 기반으로 안정적으로 검증할 수 있다. 유사하게, LeetCode 문제의 경우, 미리 정의된 테스트 케이스를 기반으로 컴파일러를 사용하여 피드백을 생성할 수 있다.
  • 형식 보상(Format rewards): 정확도 보상 모델 외에도, 모델이 사고 과정을 '<think>'와 '</think>' 태그 사이에 넣도록 강제하는 형식 보상 모델을 사용한다.

우리는 DeepSeek-R1-Zero 개발에 outcome 또는 process neural reward model을 적용하지 않았다. 그 이유는 neural reward model이 대규모 강화 학습 과정에서 reward hacking으로 어려움을 겪을 수 있으며, 보상 모델을 재학습하는 데 추가적인 학습 자원이 필요하고 전체 학습 파이프라인을 복잡하게 만들기 때문이다.

2.2.3. Training Template

DeepSeek-R1-Zero를 학습시키기 위해, 우리는 기반 모델이 우리가 지정한 지침을 따르도록 안내하는 간단한 템플릿을 설계하는 것부터 시작한다. Table 1에 나타난 바와 같이, 이 템플릿은 DeepSeek-R1-Zero가 먼저 추론 과정을 생성한 다음 최종 답변을 제시하도록 요구한다. 우리는 RL(Reinforcement Learning) 과정에서 모델의 자연스러운 진행을 정확하게 관찰할 수 있도록, 반성적 추론을 강제하거나 특정 문제 해결 전략을 장려하는 것과 같은 내용 관련 편향을 피하고, 이러한 구조적 형식으로만 제약을 의도적으로 제한하였다.

2.2.4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

DeepSeek-R1-Zero의 성능
Figure 2는 RL 학습 과정 전반에 걸친 AIME 2024 벤치마크에서 DeepSeek-R1-Zero의 성능 궤적을 보여준다. 그림에서 볼 수 있듯이, DeepSeek-R1-Zero는 RL 학습이 진행됨에 따라 꾸준하고 일관된 성능 향상을 보인다. 특히, AIME 2024에서의 평균 pass@1 점수는 초기 15.6%에서 71.0%로 크게 증가하여, OpenAI-o1-0912와 비교할 만한 성능 수준에 도달한다. 이러한 상당한 개선은 시간에 따른 모델 성능 최적화에 있어 우리 RL 알고리즘의 효율성을 강조한다.

Table 2는 DeepSeek-R1-Zero와 OpenAI의 o1-0912 모델들을 다양한 추론 관련 벤치마크에서 비교 분석한 결과를 제공한다. 이 결과는 RL이 DeepSeek-R1-Zero에게 어떠한 supervised fine-tuning 데이터 없이도 강력한 추론 능력을 부여한다는 것을 보여준다. 이는 RL만으로 모델이 효과적으로 학습하고 일반화할 수 있는 능력을 강조하는 주목할 만한 성과이다.

ModelAIME 2024MATH-500GPQA DiamondLiveCode BenchCodeForces <br> rating
pass@1cons@64pass@1pass@1pass@1
OpenAI-o1-mini63.680.090.060.053.81820
OpenAI-o1-091274.483.394.877.363.41843
DeepSeek-R1-Zero71.086.795.973.350.01444

Table 2 | DeepSeek-R1-Zero와 OpenAI o1 모델의 추론 관련 벤치마크 비교.

Figure 2 | 학습 중 DeepSeek-R1-Zero의 AIME 정확도. 각 질문에 대해 16개의 응답을 샘플링하고 전반적인 평균 정확도를 계산하여 안정적인 평가를 보장한다.

또한, DeepSeek-R1-Zero의 성능은 다수결 투표(majority voting)를 적용함으로써 더욱 향상될 수 있다. 예를 들어, AIME 벤치마크에 다수결 투표를 적용하면 DeepSeek-R1-Zero의 성능은 71.0%에서 86.7%로 상승하여 OpenAI-o1-0912의 성능을 능가한다. 다수결 투표 적용 여부와 관계없이 DeepSeek-R1-Zero가 이처럼 경쟁력 있는 성능을 달성할 수 있다는 점은 강력한 기본 능력과 추론 task에서의 추가 발전 가능성을 보여준다.

DeepSeek-R1-Zero의 자기 진화 과정 (Self-evolution Process)
DeepSeek-R1-Zero의 자기 진화 과정은 RL이 모델의 추론 능력을 자율적으로 향상시키는 방식을 보여주는 매력적인 시연이다. 기본 모델에서 직접 RL을 시작함으로써, 우리는 supervised fine-tuning 단계의 영향 없이 모델의 진행 상황을 면밀히 모니터링할 수 있다. 이 접근 방식은 모델이 시간이 지남에 따라 어떻게 진화하는지, 특히 복잡한 추론 task를 처리하는 능력 측면에서 어떻게 발전하는지에 대한 명확한 시야를 제공한다.

Figure 3에 나타난 바와 같이, DeepSeek-R1-Zero의 사고 시간(thinking time)은 학습 과정 전반에 걸쳐 꾸준한 개선을 보인다. 이러한 개선은 외부 조정의 결과가 아니라 모델 내부의 본질적인 발전이다. DeepSeek-R1-Zero는 확장된 test-time 계산을 활용하여 점점 더 복잡한 추론 task를 해결하는 능력을 자연스럽게 습득한다. 이 계산은 수백에서 수천 개의 추론 token을 생성하는 범위에 걸쳐 이루어지며, 모델이 사고 과정을 더 깊이 탐색하고 정제할 수 있도록 한다.

Figure 3 | RL 과정 중 학습 세트에서 DeepSeek-R1-Zero의 평균 응답 길이. DeepSeek-R1-Zero는 더 많은 사고 시간을 들여 추론 task를 해결하는 방법을 자연스럽게 학습한다.

이러한 자기 진화의 가장 놀라운 측면 중 하나는 test-time 계산이 증가함에 따라 정교한 행동들이 출현한다는 점이다. 모델이 이전 단계를 다시 검토하고 재평가하는 reflection과 같은 행동문제 해결을 위한 대안적 접근 방식의 탐색자발적으로 발생한다. 이러한 행동들은 명시적으로 프로그래밍된 것이 아니라, 모델이 강화 학습 환경과 상호작용한 결과로 나타나는 것이다. 이러한 자발적인 발전은 DeepSeek-R1-Zero의 추론 능력을 크게 향상시켜, 더욱 효율적이고 정확하게 더 어려운 task를 해결할 수 있도록 한다.

DeepSeek-R1-Zero의 아하 모멘트 (Aha Moment)
DeepSeek-R1-Zero 학습 중 관찰된 특히 흥미로운 현상은 "아하 모멘트(aha moment)"의 발생이다. Table 3에 나타난 바와 같이, 이 순간은 모델의 중간 버전에서 발생한다. 이 단계에서 DeepSeek-R1-Zero는 초기 접근 방식을 재평가함으로써 문제에 더 많은 사고 시간을 할애하는 방법을 학습한다. 이러한 행동은 모델의 성장하는 추론 능력에 대한 증거일 뿐만 아니라, 강화 학습이 예상치 못하고 정교한 결과를 어떻게 이끌어낼 수 있는지를 보여주는 매혹적인 예시이다.

이 순간은 모델에게 "아하 모멘트"일 뿐만 아니라, 모델의 행동을 관찰하는 연구자들에게도 "아하 모멘트"이다. 이는 강화 학습의 힘과 아름다움을 강조한다: 모델에게 문제 해결 방법을 명시적으로 가르치는 대신, 우리는 단순히 올바른 인센티브를 제공하고, 모델은 자율적으로 고급 문제 해결 전략을 개발한다. "아하 모멘트"는 RL이 인공 시스템에서 새로운 수준의 지능을 발휘할 잠재력이 있음을 강력하게 상기시켜주며, 미래에 더욱 자율적이고 적응적인 모델을 위한 길을 열어준다.

Question: If a>1a>1, then the sum of the real solutions of aa+x=x\sqrt{a-\sqrt{a+x}}=x is equal to Response: <think> To solve the equation aa+x=x\sqrt{a-\sqrt{a+x}}=x, let's start by squaring both \cdots (aa+x)2=x2aa+x=x2(\sqrt{a-\sqrt{a+x}})^{2}=x^{2} \Longrightarrow a-\sqrt{a+x}=x^{2}. Rearrange to isolate the inner square root term: (ax2)2=a+xa22ax2+(x2)2=a+xx42ax2x+(a2a)=0\left(a-x^{2}\right)^{2}=a+x \Longrightarrow a^{2}-2 a x^{2}+\left(x^{2}\right)^{2}=a+x \Longrightarrow x^{4}-2 a x^{2}-x+\left(a^{2}-a\right)=0

Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step to identify if the correct sum can be . . . We started with the equation: aa+x=x\sqrt{a-\sqrt{a+x}}=x First, let's square both sides: aa+x=x2a+x=ax2a-\sqrt{a+x}=x^{2} \Longrightarrow \sqrt{a+x}=a-x^{2} Next, I could square both sides again, treating the equation: \cdots

Table 3 | DeepSeek-R1-Zero 중간 버전의 흥미로운 "아하 모멘트". 모델은 의인화된 어조를 사용하여 다시 생각하는 방법을 학습한다. 이는 우리에게도 아하 모멘트이며, 강화 학습의 힘과 아름다움을 목격할 수 있게 해준다.

DeepSeek-R1-Zero의 단점
DeepSeek-R1-Zero는 강력한 추론 능력을 보여주고 예상치 못하고 강력한 추론 행동을 자율적으로 개발하지만, 몇 가지 문제에 직면한다. 예를 들어, DeepSeek-R1-Zero는 낮은 가독성(readability)과 언어 혼합(language mixing)과 같은 문제로 어려움을 겪는다. 추론 과정을 더욱 가독성 있게 만들고 개방형 커뮤니티와 공유하기 위해, 우리는 인간 친화적인 cold-start 데이터를 RL과 함께 활용하는 방법인 DeepSeek-R1을 탐구한다.

2.3. DeepSeek-R1: Reinforcement Learning with Cold Start

DeepSeek-R1-Zero의 유망한 결과에 영감을 받아, 두 가지 자연스러운 질문이 제기된다:

  1. 소량의 고품질 데이터를 cold start로 활용하여 reasoning 성능을 더욱 향상시키거나 수렴 속도를 가속화할 수 있을까?
  2. 명확하고 일관된 **Chain of Thought (CoT)**를 생성할 뿐만 아니라 강력한 일반 능력을 보여주는 사용자 친화적인 모델을 어떻게 훈련할 수 있을까?

이러한 질문에 답하기 위해, 우리는 DeepSeek-R1을 훈련하기 위한 파이프라인을 설계했다. 이 파이프라인은 다음과 같이 네 단계로 구성된다.

2.3.1. Cold Start

DeepSeek-R1-Zero와 달리, RL 학습의 초기 불안정한 cold start 단계를 방지하기 위해, DeepSeek-R1의 경우 소량의 긴 CoT(Chain-of-Thought) 데이터를 구축하고 수집하여 모델을 초기 RL actor로 fine-tuning한다. 이러한 데이터를 수집하기 위해 우리는 여러 접근 방식을 탐색했다:

  • 긴 CoT를 예시로 포함하는 few-shot prompting 사용,
  • reflection 및 verification을 통해 모델이 상세한 답변을 생성하도록 직접 prompting,
  • DeepSeek-R1-Zero의 출력을 가독성 있는 형식으로 수집,
  • 인간 어노테이터의 후처리를 통한 결과 정제.

본 연구에서는 수천 개의 cold-start 데이터를 수집하여 DeepSeek-V3-Base를 RL의 시작점으로 fine-tuning한다. DeepSeek-R1-Zero와 비교했을 때, cold start 데이터의 장점은 다음과 같다:

  • 가독성 (Readability): DeepSeek-R1-Zero의 주요 한계점은 콘텐츠가 종종 읽기에 적합하지 않다는 것이다. 응답이 여러 언어를 혼합하거나, 사용자에게 답변을 강조하기 위한 markdown 형식이 부족할 수 있다. 이와 대조적으로, DeepSeek-R1을 위한 cold-start 데이터를 생성할 때 우리는 각 응답의 끝에 요약을 포함하고, 독자 친화적이지 않은 응답을 필터링하는 가독성 있는 패턴을 설계한다. 여기서 우리는 출력 형식을 | special_token | <reasoning_process> | special_token | <summary>로 정의하는데, 여기서 reasoning process는 쿼리에 대한 CoT이며, summary는 추론 결과를 요약하는 데 사용된다.
  • 잠재력 (Potential): 인간의 사전 지식(prior)을 활용하여 cold-start 데이터의 패턴을 신중하게 설계함으로써, 우리는 DeepSeek-R1-Zero에 비해 더 나은 성능을 관찰한다. 우리는 반복적인 학습(iterative training)이 추론 모델에 더 나은 방법이라고 믿는다.

2.3.2. Reasoning-oriented Reinforcement Learning

콜드 스타트 데이터로 DeepSeek-V3-Base를 fine-tuning한 후, 우리는 DeepSeek-R1-Zero에서 사용된 것과 동일한 대규모 강화 학습(RL) 훈련 프로세스를 적용한다. 이 단계는 모델의 추론 능력을 향상시키는 데 중점을 둔다. 특히 코딩, 수학, 과학, 논리 추론과 같이 명확한 해결책을 가진 잘 정의된 문제를 포함하는 추론 집약적인 task에 초점을 맞춘다.

훈련 과정에서 우리는 CoT(Chain-of-Thought)가 종종 언어 혼합(language mixing)을 보인다는 것을 관찰했다. 특히 RL prompt가 여러 언어를 포함할 때 이러한 현상이 두드러졌다. 언어 혼합 문제를 완화하기 위해, 우리는 RL 훈련 중에 **언어 일관성 보상(language consistency reward)**을 도입했다. 이 보상은 CoT에서 목표 언어 단어의 비율로 계산된다. Ablation 실험 결과, 이러한 정렬(alignment)이 모델 성능에 약간의 저하를 가져오지만, 이 보상은 인간의 선호도와 일치하여 CoT의 가독성을 높인다.

마지막으로, 우리는 추론 task의 정확도와 언어 일관성 보상을 직접 합산하여 최종 보상(final reward)을 형성한다. 그런 다음, fine-tuned된 모델에 대해 추론 task에서 수렴할 때까지 RL 훈련을 적용한다.

2.3.3. Rejection Sampling and Supervised Fine-Tuning

추론 중심의 RL이 수렴하면, 우리는 그 결과로 얻은 checkpoint를 활용하여 다음 라운드를 위한 SFT(Supervised Fine-Tuning) 데이터를 수집한다. 초기 cold-start 데이터가 주로 추론에 초점을 맞춘 것과 달리, 이 단계에서는 모델의 글쓰기, 역할극, 기타 범용 task 능력을 향상시키기 위해 다른 도메인의 데이터를 통합한다. 구체적으로, 우리는 다음과 같이 데이터를 생성하고 모델을 fine-tuning한다.

추론 데이터 (Reasoning data)
우리는 추론 prompt를 선별하고, 위 RL 학습에서 얻은 checkpoint로부터 rejection sampling을 수행하여 추론 trajectory를 생성한다. 이전 단계에서는 규칙 기반 reward로 평가할 수 있는 데이터만 포함했지만, 이 단계에서는 추가 데이터를 통합하여 데이터셋을 확장한다. 이 중 일부 데이터는 ground-truth와 모델 예측을 DeepSeek-V3에 입력하여 판단하게 함으로써 generative reward model을 사용한다. 또한, 모델 출력이 때때로 혼란스럽고 읽기 어렵기 때문에, 혼합 언어, 긴 문단, 코드 블록이 포함된 chain-of-thought는 필터링하였다. 각 prompt에 대해 여러 응답을 샘플링하고 정답만 유지한다. 총 약 60만 개의 추론 관련 학습 샘플을 수집한다.

비추론 데이터 (Non-Reasoning data)
글쓰기, 사실 기반 QA, 자기 인식, 번역과 같은 비추론 데이터의 경우, DeepSeek-V3 파이프라인을 채택하고 DeepSeek-V3의 SFT 데이터셋 일부를 재사용한다. 특정 비추론 task의 경우, 우리는 DeepSeek-V3를 호출하여 질문에 답하기 전에 잠재적인 chain-of-thought를 생성하도록 prompting한다. 그러나 "hello"와 같은 간단한 쿼리에는 CoT를 제공하지 않는다. 최종적으로, 추론과 관련 없는 약 20만 개의 학습 샘플을 수집하였다.

우리는 위에서 선별된 약 80만 개의 샘플로 구성된 데이터셋을 사용하여 DeepSeek-V3-Base를 두 epoch 동안 fine-tuning한다.

2.3.4. Reinforcement Learning for all Scenarios

모델을 인간의 선호도에 더욱 부합시키기 위해, 우리는 모델의 유용성(helpfulness)과 무해성(harmlessness)을 향상시키면서 동시에 추론 능력(reasoning capabilities)을 정교화하는 것을 목표로 하는 2차 강화 학습(reinforcement learning) 단계를 구현한다. 구체적으로, 우리는 보상 신호(reward signals)와 다양한 prompt 분포를 조합하여 모델을 학습시킨다.

**추론 데이터(reasoning data)**의 경우, 우리는 DeepSeek-R1-Zero에서 제시된 방법론을 따른다. 이 방법론은 수학, 코드, 논리적 추론 영역에서 학습 과정을 안내하기 위해 규칙 기반 보상(rule-based rewards)을 활용한다.

**일반 데이터(general data)**의 경우, 우리는 복잡하고 미묘한 시나리오에서 인간의 선호도를 포착하기 위해 reward model을 사용한다. 우리는 DeepSeek-V3 pipeline을 기반으로 하며, 선호도 쌍(preference pairs)과 학습 prompt의 유사한 분포를 채택한다.

유용성(helpfulness) 측면에서는 최종 요약(final summary)에만 집중하여, 응답의 유용성과 사용자 관련성을 강조하고 기저의 추론 과정에 대한 간섭을 최소화한다.

무해성(harmlessness) 측면에서는 모델의 전체 응답(reasoning 과정과 요약 모두 포함)을 평가하여, 생성 과정에서 발생할 수 있는 잠재적 위험, 편향 또는 유해한 콘텐츠를 식별하고 완화한다.

궁극적으로, 보상 신호와 다양한 데이터 분포의 통합을 통해 우리는 추론에 탁월하면서도 유용성과 무해성을 우선시하는 모델을 학습할 수 있다.

2.4. Distillation: Empower Small Models with Reasoning Capability

DeepSeek-R1과 같은 추론 능력을 갖춘 더 효율적인 소형 모델을 구축하기 위해, 우리는 Qwen (Qwen, 2024b) 및 **Llama (AI@Meta, 2024)**와 같은 오픈소스 모델을 DeepSeek-R1으로 큐레이션된 80만 개의 샘플을 사용하여 직접 fine-tuning했다. 자세한 내용은 $2.3.3에 설명되어 있다. 우리의 연구 결과는 이러한 직접적인 distillation 방법이 소형 모델의 추론 능력을 크게 향상시킨다는 것을 보여준다. 여기서 사용된 기본 모델은 Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B, Llama-3.3-70B-Instruct이다. 우리는 Llama-3.3을 선택했는데, 이는 Llama-3.1보다 추론 능력이 약간 더 우수하기 때문이다.

distilled 모델의 경우, 우리는 SFT만 적용하고 RL 단계는 포함하지 않았다. 비록 RL을 포함하면 모델 성능을 크게 향상시킬 수 있지만, 우리의 주요 목표는 distillation 기술의 효과를 입증하는 것이며, RL 단계에 대한 탐구는 더 넓은 연구 커뮤니티에 맡긴다.

3. Experiment

벤치마크 (Benchmarks)
우리는 MMLU (Hendrycks et al., 2020), MMLU-Redux (Gema et al., 2024), MMLU-Pro (Wang et al., 2024), C-Eval (Huang et al., 2023), CMMLU (Li et al., 2023), IFEval (Zhou et al., 2023), FRAMES (Krishna et al., 2024), GPQA Diamond (Rein et al., 2023), SimpleQA (OpenAI, 2024c), C-SimpleQA (He et al., 2024), SWE-Bench Verified (OpenAI, 2024d), Aider, LiveCodeBench (Jain et al., 2024) (2024년 8월 - 2025년 1월), Codeforces, Chinese National High School Mathematics Olympiad (CNMO 2024), 그리고 American Invitational Mathematics Examination 2024 (AIME 2024) (MAA, 2024) 벤치마크에서 모델을 평가한다.
표준 벤치마크 외에도, 우리는 LLM을 심사위원으로 활용하여 open-ended 생성 task에 대해서도 모델을 평가한다. 특히, 우리는 GPT-4-Turbo-1106을 쌍별 비교(pairwise comparison) 심사위원으로 활용하는 AlpacaEval 2.0 (Dubois et al., 2024) 및 Arena-Hard (Li et al., 2024)의 원본 설정을 따른다. 여기서는 길이 편향(length bias)을 피하기 위해 최종 요약(final summary)만을 평가에 사용한다. distilled 모델의 경우, AIME 2024, MATH-500, GPQA Diamond, Codeforces, LiveCodeBench에서 대표적인 결과를 보고한다.

평가 프롬프트 (Evaluation Prompts)
DeepSeek-V3의 설정에 따라, MMLU, DROP, GPQA Diamond, SimpleQA와 같은 표준 벤치마크는 simpleevals 프레임워크의 프롬프트를 사용하여 평가된다. MMLU-Redux의 경우, zero-shot 설정에서 Zero-Eval 프롬프트 형식 (Lin, 2024)을 채택한다. MMLU-Pro, C-Eval, CLUE-WSC의 경우, 원본 프롬프트가 few-shot이므로 zero-shot 설정으로 프롬프트를 약간 수정하였다. few-shot에서의 CoT는 DeepSeek-R1의 성능을 저해할 수 있다. 다른 데이터셋은 생성자가 제공하는 기본 프롬프트와 함께 원본 평가 프로토콜을 따른다.
코드 및 수학 벤치마크의 경우, HumanEval-Mul 데이터셋은 8가지 주요 프로그래밍 언어(Python, Java, C++, C#, JavaScript, TypeScript, PHP, Bash)를 포함한다. LiveCodeBench에서의 모델 성능은 CoT 형식을 사용하여 평가되며, 데이터는 2024년 8월부터 2025년 1월 사이에 수집되었다. Codeforces 데이터셋은 10개의 Div. 2 대회 문제와 전문가가 작성한 테스트 케이스를 사용하여 평가되며, 이후 예상 등급과 경쟁자 비율이 계산된다. SWE-Bench verified 결과는 **agentless 프레임워크 (Xia et al., 2024)**를 통해 얻어진다. AIDER 관련 벤치마크는 "diff" 형식을 사용하여 측정된다. DeepSeek-R1의 출력은 각 벤치마크에 대해 최대 32,768 토큰으로 제한된다.

기준 모델 (Baselines)
우리는 DeepSeek-V3, Claude-Sonnet-3.5-1022, GPT-4o-0513, OpenAI-o1-mini, OpenAI-o1-1217을 포함한 여러 강력한 기준 모델들과 포괄적인 평가를 수행한다. 중국 본토에서는 OpenAI-o1-1217 API에 접근하기 어렵기 때문에, 해당 모델의 성능은 공식 보고서를 기반으로 보고한다. distilled 모델의 경우, 오픈 소스 모델인 QwQ-32B-Preview (Qwen, 2024a)와도 비교한다.

평가 설정 (Evaluation Setup)
모델의 최대 생성 길이는 32,768 토큰으로 설정하였다. 긴 출력 추론 모델을 평가하기 위해 greedy decoding을 사용하면 반복률이 높아지고 체크포인트마다 상당한 가변성이 발생한다는 것을 발견했다. 따라서 우리는 기본적으로 pass@k 평가 (Chen et al., 2021)를 사용하고, 0이 아닌 온도(temperature)를 사용하여 pass@1을 보고한다. 구체적으로, 각 질문에 대해 0.6의 샘플링 온도와 0.95의 top-pp을 사용하여 kk개의 응답(일반적으로 테스트 세트 크기에 따라 4에서 64 사이)을 생성한다. Pass@1은 다음과 같이 계산된다:

 pass@1 = 1ki=1kpi,\text { pass@1 = } \frac{1}{k} \sum_{i=1}^{k} p_{i},

여기서 pip_{i}ii번째 응답의 정확성을 나타낸다. 이 방법은 더 신뢰할 수 있는 성능 추정치를 제공한다. AIME 2024의 경우, 64개의 샘플을 사용하여 consensus (다수결) 결과 (Wang et al., 2022)도 보고하며, 이는 cons@64로 표기된다.

3.1. DeepSeek-R1 Evaluation

Benchmark (Metric)Claude-3.5-Sonnet-1022GPT-4o DeepSeekOpenAI OpenAI o1-mini o1-1217DeepSeek R1
0513V3
Architecture--MoE--
# Activated Params--37B--37B
# Total Params--671 B--671 B
MMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (Em)88.988.089.186.7-92.9
MMLU-Pro (Em)78.072.675.980.3-84.0
DROP (3-shot F1)88.383.791.683.990.292.2
EnglishIF-Eval (Prompt Strict)86.584.386.184.8-83.3
GPQA Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (Correct)28.438.224.97.047.030.1
FRAMES (Acc.)72.580.573.376.9-82.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.8-87.6
ArenaHard (GPT-4-1106)85.280.485.592.0-92.3
CodeLiveCodeBench (Pass@1-cot)38.932.936.253.863.465.9
Codeforces (Percentile)20.323.658.793.496.696.3
Codeforces (Rating)7177591134182020612029
SWE Verified (Resolved)50.838.842.041.648.949.2
Aider-Polyglot (Acc.)45.316.049.632.961.753.3
MathAIME 2024 (Pass@1)16.09.339.263.679.279.8
MATH-500 (Pass@1)78.374.690.290.096.497.3
CNMO 2024 (Pass@1)13.110.843.267.6-78.8
ChineseCLUEWSC (EM)85.487.990.989.9-92.8
C-Eval (em)76.776.086.568.9-91.8
C-SimpleQA (Correct)55.458.768.040.3-63.7

Table 4 | DeepSeek-R1과 다른 대표 모델들의 비교.

MMLU, MMLU-Pro, GPQA Diamond와 같은 교육 지향 지식 벤치마크에서 DeepSeek-R1은 DeepSeek-V3에 비해 우수한 성능을 보인다. 이러한 개선은 주로 STEM 관련 질문에서의 정확도 향상에 기인하며, 이는 대규모 강화 학습(RL)을 통해 상당한 성과를 달성했다. 또한, DeepSeek-R1은 긴 문맥 의존형 QA task인 FRAMES에서도 뛰어난 성능을 보여주며, 강력한 문서 분석 능력을 입증한다. 이는 AI 기반 검색 및 데이터 분석 task에서 reasoning 모델의 잠재력을 강조한다. 사실 기반 벤치마크인 SimpleQA에서 DeepSeek-R1은 DeepSeek-V3를 능가하며, 사실 기반 쿼리 처리 능력을 보여준다. OpenAI-o1이 GPT-4o를 이 벤치마크에서 능가하는 유사한 경향도 관찰된다. 그러나 DeepSeek-R1은 Chinese SimpleQA 벤치마크에서 DeepSeek-V3보다 낮은 성능을 보이는데, 이는 주로 안전 RL 이후 특정 쿼리에 대한 답변을 거부하는 경향 때문이다. 안전 RL이 없었다면 DeepSeek-R1은 70% 이상의 정확도를 달성할 수 있었을 것이다.

DeepSeek-R1은 모델의 형식 지시(format instruction) 준수 능력을 평가하도록 설계된 벤치마크인 IF-Eval에서도 인상적인 결과를 보여준다. 이러한 개선은 supervised fine-tuning (SFT) 및 RL 학습의 최종 단계에서 instruction-following 데이터가 포함된 것과 관련이 있다. 또한, AlpacaEval2.0 및 ArenaHard에서 놀라운 성능이 관찰되었는데, 이는 DeepSeek-R1의 글쓰기 task 및 open-domain question answering에서의 강점을 나타낸다. DeepSeek-V3를 크게 능가하는 성능대규모 RL의 일반화 이점을 강조하며, 이는 추론 능력뿐만 아니라 다양한 도메인에 걸쳐 성능을 향상시킨다. 더욱이, DeepSeek-R1이 생성하는 요약의 길이는 간결하며, ArenaHard에서는 평균 689 토큰, AlpacaEval 2.0에서는 평균 2,218자를 기록했다. 이는 DeepSeek-R1이 GPT 기반 평가에서 길이 편향(length bias)을 도입하지 않음을 나타내며, 여러 task에 걸친 견고성을 더욱 공고히 한다.

수학 task에서 DeepSeek-R1은 OpenAI-o1-1217과 동등한 성능을 보이며, 다른 모델들을 큰 차이로 능가한다. LiveCodeBench 및 Codeforces와 같은 코딩 알고리즘 task에서도 유사한 경향이 관찰되는데, 추론 중심 모델들이 이 벤치마크들을 지배한다. 엔지니어링 지향 코딩 task에서는 OpenAI-o1-1217이 Aider에서 DeepSeek-R1을 능가하지만, SWE Verified에서는 비슷한 성능을 달성한다. 현재 관련 RL 학습 데이터의 양이 매우 제한적이기 때문에, DeepSeek-R1의 엔지니어링 성능은 다음 버전에서 개선될 것으로 예상한다.

3.2. Distilled Model Evaluation

ModelAIME 2024MATH-500GPQA DiamondLiveCode BenchCodeForces
pass@1cons@64pass@1pass@1pass@1rating
GPT-4o-05139.313.474.649.932.9759
Claude-3.5-Sonnet-102216.026.778.365.038.9717
OpenAI-o1-mini63.680.090.060.053.81820
QwQ-32B-Preview50.060.090.654.541.91316
DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954
DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189
DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691
DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205
DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633

Table 5 | DeepSeek-R1 distilled 모델과 다른 유사 모델들의 reasoning 관련 벤치마크 비교.

Table 5에서 볼 수 있듯이, DeepSeek-R1의 출력을 단순히 distillation하는 것만으로도 효율적인 DeepSeek-R1-7B (즉, DeepSeek-R1-Distill-Qwen-7B, 이하 유사하게 약칭)가 GPT-4o-0513과 같은 비-reasoning 모델들을 모든 면에서 능가한다. DeepSeek-R1-14B는 모든 평가 지표에서 QwQ-32B-Preview를 뛰어넘으며, DeepSeek-R1-32B와 DeepSeek-R1-70B는 대부분의 벤치마크에서 o1-mini를 크게 상회한다. 이러한 결과는 distillation의 강력한 잠재력을 보여준다. 또한, 우리는 이러한 distilled 모델에 RL을 적용하면 상당한 추가적인 성능 향상을 얻을 수 있음을 발견했다. 우리는 이 부분이 추가 탐색의 가치가 있다고 판단하여, 여기서는 단순한 SFT-distilled 모델의 결과만을 제시한다.

4. Discussion

4.1. Distillation v.s. Reinforcement Learning

Section 3.2에서 DeepSeek-R1을 **증류(distilling)**함으로써 작은 모델이 인상적인 결과를 달성할 수 있음을 확인했다. 그러나 여전히 한 가지 질문이 남는다: 증류 없이 논문에서 논의된 대규모 RL 학습만으로도 모델이 비슷한 성능을 달성할 수 있을까?

이 질문에 답하기 위해, 우리는 Qwen-32B-Base 모델에 대해 수학, 코드, STEM 데이터를 사용하여 10,000 스텝 이상 대규모 RL 학습을 수행하여 DeepSeek-R1-Zero-Qwen-32B를 만들었다. Table 6에 제시된 실험 결과는 32B base 모델이 대규모 RL 학습 후 QwQ-32B-Preview와 동등한 성능을 달성했음을 보여준다. 그러나 DeepSeek-R1에서 증류된 DeepSeek-R1-Distill-Qwen-32B는 모든 벤치마크에서 DeepSeek-R1-Zero-Qwen-32B보다 훨씬 뛰어난 성능을 보인다.

ModelAIME 2024MATH-500GPQA DiamondLiveCodeBench
pass@1cons@64pass@1pass@1pass@1
QwQ-32B-Preview50.060.090.654.541.9
DeepSeek-R1-Zero-Qwen-32B47.060.091.655.040.2
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.2

Table 6 | 추론 관련 벤치마크에서 증류 모델과 RL 모델의 비교.

따라서 우리는 두 가지 결론을 내릴 수 있다: 첫째, 더 강력한 모델을 작은 모델로 증류하는 것은 탁월한 결과를 가져오는 반면, 본 논문에서 언급된 대규모 RL에 의존하는 작은 모델은 막대한 계산 능력을 요구하며 증류 모델의 성능조차 달성하지 못할 수 있다. 둘째, 증류 전략은 경제적이고 효과적이지만, 지능의 한계를 넘어서기 위해서는 여전히 더 강력한 base 모델과 더 큰 규모의 강화 학습이 필요할 수 있다.

4.2. Unsuccessful Attempts

DeepSeek-R1 개발 초기 단계에서 우리는 여러 실패와 좌절을 겪었다. 이러한 실패 경험을 공유하여 통찰력을 제공하고자 하지만, 이는 이러한 접근 방식이 효과적인 reasoning 모델을 개발할 수 없다는 것을 의미하지는 않는다.

Process Reward Model (PRM)
PRM은 모델이 reasoning task를 해결하기 위한 더 나은 접근 방식을 학습하도록 유도하는 합리적인 방법이다 (Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023). 그러나 실제 적용에서 PRM은 궁극적인 성공을 저해할 수 있는 세 가지 주요 한계를 가지고 있다. 첫째, 일반적인 reasoning에서 fine-grain step을 명시적으로 정의하는 것이 어렵다. 둘째, 현재의 중간 단계가 올바른지 판단하는 것이 어려운 task이다. 모델을 사용한 자동 어노테이션은 만족스러운 결과를 내지 못할 수 있으며, 수동 어노테이션은 확장에 적합하지 않다. 셋째, 모델 기반 PRM이 도입되면 필연적으로 reward hacking으로 이어지며 (Gao et al., 2022), reward model을 재학습하는 데 추가적인 학습 자원이 필요하고 전체 학습 파이프라인을 복잡하게 만든다. 결론적으로, PRM은 모델이 생성한 top-N 응답을 rerank하거나 guided search를 지원하는 데 좋은 능력을 보여주지만 (Snell et al., 2024), 우리의 실험에서 대규모 강화 학습 과정에서 도입하는 추가적인 계산 오버헤드에 비해 그 장점이 제한적이다.

Monte Carlo Tree Search (MCTS)
AlphaGo (Silver et al., 2017b) 및 AlphaZero (Silver et al., 2017a)에서 영감을 받아, 우리는 test-time compute scalability를 향상시키기 위해 Monte Carlo Tree Search (MCTS)를 사용하는 것을 탐구했다. 이 접근 방식은 답변을 더 작은 부분으로 나누어 모델이 solution space를 체계적으로 탐색할 수 있도록 한다. 이를 용이하게 하기 위해, 우리는 모델이 검색에 필요한 특정 reasoning step에 해당하는 여러 태그를 생성하도록 prompt를 구성한다. 학습을 위해, 우리는 먼저 수집된 prompt를 사용하여 사전학습된 value model의 안내에 따라 MCTS를 통해 답변을 찾는다. 이어서, 결과로 생성된 질문-답변 쌍을 사용하여 actor model과 value model을 모두 학습시키고, 이 과정을 반복적으로 개선한다.

그러나 이 접근 방식은 학습을 확장할 때 여러 가지 문제에 직면한다. 첫째, search space가 비교적 잘 정의된 체스와 달리, token 생성은 기하급수적으로 더 큰 search space를 제공한다. 이를 해결하기 위해 우리는 각 노드에 최대 확장 제한을 설정했지만, 이는 모델이 local optima에 갇히게 할 수 있다. 둘째, value model은 검색 과정의 각 단계를 안내하므로 생성 품질에 직접적인 영향을 미친다. fine-grained value model을 학습하는 것은 본질적으로 어렵기 때문에, 모델이 반복적으로 개선하기 어렵다. AlphaGo의 핵심 성공은 value model을 학습하여 성능을 점진적으로 향상시키는 데 의존했지만, token 생성의 복잡성으로 인해 이 원칙은 우리의 설정에서 재현하기 어렵다는 것이 입증되었다.

결론적으로, MCTS는 사전학습된 value model과 결합될 때 추론 중 성능을 향상시킬 수 있지만, self-search를 통해 모델 성능을 반복적으로 향상시키는 것은 여전히 중요한 과제이다.

5. Conclusion, Limitations, and Future Work

본 연구에서는 강화 학습(reinforcement learning)을 통해 모델의 추론 능력(reasoning abilities)을 향상시킨 과정을 공유한다. DeepSeek-R1-Zerocold-start 데이터에 의존하지 않는 순수한 RL 접근 방식을 대표하며, 다양한 task에서 강력한 성능을 달성한다. DeepSeek-R1cold-start 데이터와 반복적인 RL fine-tuning을 함께 활용하여 더욱 강력한 성능을 보인다. 궁극적으로 DeepSeek-R1은 다양한 task에서 OpenAI-o1-1217과 견줄 만한 성능을 달성한다.

우리는 나아가 추론 능력을 작은 dense 모델로 증류(distillation)하는 방법을 탐구한다. DeepSeek-R1을 teacher 모델로 사용하여 80만 개의 학습 샘플을 생성하고, 여러 작은 dense 모델을 fine-tuning하였다. 그 결과는 매우 유망하다: DeepSeek-R1-Distill-Qwen-1.5B수학 벤치마크에서 AIME 28.9%, MATH 83.9%의 성능을 기록하며 GPT-4o와 Claude-3.5-Sonnet을 능가한다. 다른 dense 모델들도 동일한 기반 체크포인트를 사용하는 다른 instruction-tuned 모델들을 크게 능가하는 인상적인 결과를 달성했다.

향후 DeepSeek-R1에 대해 다음과 같은 방향으로 연구 투자를 계획하고 있다.

  • General Capability: 현재 DeepSeek-R1의 기능은 function calling, multi-turn, 복잡한 role-playing, JSON 출력과 같은 task에서 DeepSeek-V3에 미치지 못한다. 앞으로 우리는 이러한 분야의 task를 향상시키기 위해 CoT(Chain-of-Thought)를 얼마나 오랫동안 활용할 수 있을지 탐구할 계획이다.
  • Language Mixing: DeepSeek-R1은 현재 중국어와 영어에 최적화되어 있어, 다른 언어로 된 쿼리를 처리할 때 언어 혼합(language mixing) 문제가 발생할 수 있다. 예를 들어, 쿼리가 영어 또는 중국어 외의 언어일지라도 DeepSeek-R1이 추론 및 응답에 영어를 사용할 수 있다. 우리는 향후 업데이트에서 이러한 한계점을 해결하고자 한다.
  • Prompting Engineering: DeepSeek-R1을 평가할 때, prompt에 민감하게 반응한다는 것을 관찰했다. Few-shot prompting은 일관되게 성능을 저하시킨다. 따라서 최적의 결과를 위해 zero-shot 설정에서 사용자가 직접 문제를 설명하고 출력 형식을 지정할 것을 권장한다.
  • Software Engineering Tasks: 긴 평가 시간이 RL 프로세스의 효율성에 영향을 미치기 때문에, 대규모 RL은 소프트웨어 엔지니어링 task에 광범위하게 적용되지 못했다. 그 결과, DeepSeek-R1은 소프트웨어 엔지니어링 벤치마크에서 DeepSeek-V3에 비해 큰 개선을 보이지 못했다. 향후 버전에서는 소프트웨어 엔지니어링 데이터에 대한 rejection sampling을 구현하거나, RL 프로세스 중에 비동기 평가를 통합하여 효율성을 개선함으로써 이 문제를 해결할 것이다.