논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Reasoning

1개의 포스트

2025. 8. 15.
Reinforcement LearningReasoning

DeepSeek-R1: 강화학습(RL)을 통해 LLM의 추론 능력을 극대화하다

DeepSeek-R1은 대규모 Reinforcement Learning(RL)을 통해 언어 모델의 추론 능력을 강화하는 방법을 제시합니다. SFT(Supervised Fine-Tuning) 없이 순수 RL만으로 학습한 DeepSeek-R1-Zero는 뛰어난 추론 능력을 보였지만, 가독성 문제를 드러냈습니다. 이를 개선하기 위해 소량의 cold-start 데이터와 다단계 학습을 적용한 DeepSeek-R1은 OpenAI-o1-1217에 필적하는 성능을 달성했습니다. 또한, 이 모델의 추론 능력을 더 작은 모델에 성공적으로 증류(distillation)하여, LLM의 추론 능력 향상에 대한 새로운 가능성을 보여줍니다. 논문 제목: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

모든 태그 보기

© 2025 junhan.blog