Reasoning
2개의 포스트
ReAct: 언어 모델에서 추론과 행동의 시너지 효과
ReAct는 Large Language Models (LLMs)이 추론(reasoning)과 행동(acting)을 상호보완적으로 수행하도록 하는 프레임워크이다. 이 접근법은 모델이 추론 과정을 통해 행동 계획을 수립하고, 외부 환경(예: Wikipedia API)과의 상호작용을 통해 얻은 새로운 정보로 추론을 보강하는 시너지를 창출한다. ReAct는 Chain-of-thought (CoT)와 같은 순수 추론 방식에서 발생하는 환각(hallucination) 및 오류 전파 문제를 해결하며, 더 해석 가능하고 신뢰도 높은 문제 해결 과정을 보여준다. 논문 제목: ReAct: Synergizing Reasoning and Acting in Language Models
DeepSeek-R1: 강화학습(RL)을 통해 LLM의 추론 능력을 극대화하다
DeepSeek-R1은 대규모 Reinforcement Learning(RL)을 통해 언어 모델의 추론 능력을 강화하는 방법을 제시합니다. SFT(Supervised Fine-Tuning) 없이 순수 RL만으로 학습한 DeepSeek-R1-Zero는 뛰어난 추론 능력을 보였지만, 가독성 문제를 드러냈습니다. 이를 개선하기 위해 소량의 cold-start 데이터와 다단계 학습을 적용한 DeepSeek-R1은 OpenAI-o1-1217에 필적하는 성능을 달성했습니다. 또한, 이 모델의 추론 능력을 더 작은 모델에 성공적으로 증류(distillation)하여, LLM의 추론 능력 향상에 대한 새로운 가능성을 보여줍니다. 논문 제목: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning