Chain-of-Thought

2개의 포스트

Chain-of-ThoughtLarge Language Models

Chain-of-Thought Prompting: 거대 언어 모델의 추론 능력 발현

Chain-of-Thought Prompting은 Large Language Model이 복잡한 추론을 수행하는 능력을 크게 향상시키는 방법입니다. 이 논문은 중간 추론 과정을 단계별로 제시하는 소수의 예시(exemplars)를 프롬프트에 포함시키는 간단한 방법을 통해, 거대 언어 모델이 산술, 상식, 기호 추론과 같은 복잡한 과제에서 어떻게 뛰어난 성능을 발휘하는지 보여줍니다. 특히 PaLM 540B와 같은 대규모 모델에서는 이러한 능력이 자연스럽게 발현되며, 별도의 finetuning 없이도 기존 모델들의 성능을 뛰어넘는 결과를 달성합니다. 논문 제목: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

MultimodalChain-of-Thought

언어 모델의 Multimodal Chain-of-Thought 추론

기존의 Chain-of-Thought (CoT) 연구는 주로 언어 modality에 집중되어 있었습니다. 이 논문에서는 언어(텍스트)와 비전(이미지) modality를 통합하는 2단계 프레임워크인 Multimodal-CoT를 제안합니다. 이 프레임워크는 논리적 근거(rationale) 생성과 답변 추론을 분리하여, 다중 모드 정보를 기반으로 생성된 더 나은 논리적 근거를 답변 추론에 활용할 수 있도록 합니다. 10억개 미만의 파라미터를 가진 모델로 ScienceQA 벤치마크에서 SOTA 성능을 달성했으며, 이 접근법이 hallucination을 완화하고 수렴 속도를 높이는 이점이 있음을 보여줍니다. 논문 제목: Multimodal Chain-of-Thought Reasoning in Language Models