Yao, Shunyu, et al. "React: Synergizing reasoning and acting in language models." The eleventh international conference on learning representations. 2022.

ReAct: Synergizing Reasoning and Acting in Language Models

Abstract

대규모 언어 모델(LLM)은 언어 이해 및 대화형 의사 결정 task 전반에 걸쳐 인상적인 성능을 보여주었지만, 추론(예: chain-of-thought prompting) 및 행동(예: action plan 생성) 능력은 주로 별개의 주제로 연구되어 왔다. 본 논문에서는 LLM을 사용하여 추론 과정(reasoning trace)과 task-specific 행동을 교차(interleaved) 방식으로 생성하는 방법을 탐구한다. 이는 두 가지 요소 간의 더 큰 시너지를 가능하게 한다:

추론 과정: 모델이 행동 계획을 유도, 추적, 업데이트하고 예외 상황을 처리하는 데 도움을 준다.
행동: 지식 베이스나 환경과 같은 외부 소스와 상호작용하여 추가 정보를 수집할 수 있게 한다.

우리는 ReAct라는 이름의 이 접근 방식을 다양한 언어 및 의사 결정 task에 적용하여, 향상된 인간 해석 가능성(human interpretability)과 신뢰성 외에도 state-of-the-art baseline 대비 효과적임을 입증한다. 구체적으로, 질문 응답(HotpotQA) 및 사실 확인(Fever) task에서 ReAct는 간단한 Wikipedia API와 상호작용함으로써 chain-of-thought 추론에서 흔히 발생하는 환각(hallucination) 및 오류 전파 문제를 극복한다. 또한, 추론 과정이 없는 baseline보다 더 해석 가능한 인간과 유사한 task 해결 궤적(trajectory)을 생성한다. 나아가, **두 가지 대화형 의사 결정 벤치마크(ALFWorld 및 WebShop)**에서 ReAct는 단 한두 개의 in-context 예시만으로도 모방 학습(imitation learning) 및 강화 학습(reinforcement learning) 방법보다 각각 34% 및 10%의 절대 성공률로 더 우수한 성능을 보인다.

1 Introduction

인간 지능의 독특한 특징은 task 지향적 행동과 언어적 추론(또는 내적 언어, Alderson-Day & Fernyhough, 2015)을 매끄럽게 결합하는 능력이다. 이는 자기 조절이나 전략화(Vygotsky, 1987; Luria, 1965; Fernyhough, 2010)를 가능하게 하고 작업 기억(working memory)을 유지하는 데(Baddeley, 1992) 중요한 역할을 하는 것으로 이론화되어 왔다. 주방에서 요리를 하는 예를 생각해보자. 두 가지 특정 행동 사이에서 우리는 다음과 같은 이유로 언어로 추론할 수 있다:

진행 상황을 추적하기 위해: ("이제 모든 재료를 다 썰었으니, 물 냄비를 데워야겠어")
예외를 처리하거나 상황에 따라 계획을 조정하기 위해: ("소금이 없으니 대신 간장과 후추를 사용해야겠다")
외부 정보가 필요할 때를 인지하기 위해: ("반죽은 어떻게 준비하지? 인터넷에서 찾아봐야겠다")

우리는 또한 추론을 지원하고 질문에 답하기 위해 행동할 수도 있다 (요리책을 펼쳐 레시피를 읽거나, 냉장고를 열거나, 재료를 확인하는 등). ("지금 어떤 요리를 만들 수 있지?"). 이처럼 "행동"과 "추론" 사이의 긴밀한 시너지는 인간이 새로운 task를 빠르게 학습하고, 이전에 경험하지 못한 상황이나 정보 불확실성에 직면했을 때도 강건한 의사 결정 또는 추론을 수행할 수 있도록 해준다.

최근 연구 결과들은 자율 시스템에서 언어적 추론과 상호작용적 의사 결정을 결합할 가능성을 시사하고 있다. 한편으로, 적절하게 prompt된 **Large Language Model (LLM)**은 산술, 상식, 상징적 추론 task에서 질문에 대한 답을 도출하기 위해 여러 단계의 추론 과정을 수행하는 emergent capability를 보여주었다 (Wei et al., 2022). 그러나 이러한 "chain-of-thought" 추론은 정적인 블랙박스이다. 즉, 모델이 자체 내부 표현을 사용하여 생각을 생성하며 외부 세계에 기반을 두지 않기 때문에, 반응적으로 추론하거나 지식을 업데이트하는 능력이 제한된다. 이는 사실 환각(fact hallucination) 및 추론 과정 전반에 걸친 오류 전파와 같은 문제로 이어질 수 있다 (Figure 1(1b)). 다른 한편으로, 최근 연구는 사전학습된 language model을 사용하여 상호작용 환경에서 계획 및 행동하는 것을 탐구해왔으며 (Ahn et al., 2022; Nakano et al., 2021; Yao et al., 2020; Huang et al., 2022a), 주로 언어적 사전 지식(language priors)을 통해 행동을 예측하는 데 초점을 맞추었다. 이러한 접근 방식은 일반적으로 멀티모달 관찰을 텍스트로 변환하고, language model을 사용하여 domain-specific 행동이나 계획을 생성한 다음, controller를 사용하여 이를 선택하거나 실행한다. 그러나 이들은 language model을 사용하여 고수준 목표에 대해 추상적으로 추론하거나, 행동을 지원하기 위한 작업 기억을 유지하지 않는다. (Huang et al., 2022b는 현재 상태에 대한 공간적 사실을 반복하기 위해 제한된 형태의 언어적 추론을 수행하지만). 몇 개의 블록과 상호작용하는 간단한 embodied task를 넘어, 일반적인 task 해결을 위해 추론과 행동이 어떻게 시너지 효과를 내며 결합될 수 있는지, 그리고 그러한 결합이 추론 또는 행동 단독으로 수행하는 것보다 체계적인 이점을 가져올 수 있는지에 대한 연구는 아직 부족하다.

Figure 1: (1) HotpotQA (Yang et al., 2018) 질문을 해결하는 4가지 prompting 방법 비교: (a) Standard, (b) Chain-of-thought (CoT, Reason Only), (c) Act-only, (d) ReAct (Reason+Act). (2) AlfWorld (Shridhar et al., 2020b) 게임을 해결하는 (a) Act-only와 (b) ReAct prompting 비교. 두 도메인 모두에서 prompt 내 in-context 예시는 생략하고, 모델(Act, Thought)과 환경(Obs)이 생성한 task 해결 궤적만 보여준다.

본 연구에서는 ReAct를 제안한다. ReAct는 다양한 언어 추론 및 의사 결정 task를 해결하기 위해 language model과 추론 및 행동을 결합하는 일반적인 패러다임이다 (Figure 1). ReAct는 LLM이 언어적 추론 과정과 task 관련 행동을 interleaved 방식으로 생성하도록 prompt한다. 이를 통해 모델은 **행동을 위한 고수준 계획을 생성, 유지 및 조정하기 위한 동적 추론(reason to act)**을 수행할 수 있으며, 동시에 **외부 환경(예: Wikipedia)과 상호작용하여 추가 정보를 추론에 통합(act to reason)**할 수 있다.

우리는 ReAct와 state-of-the-art baseline에 대해 4가지 다양한 벤치마크에서 실증적 평가를 수행했다:

질문 응답 (HotPotQA, Yang et al., 2018)
사실 확인 (Fever, Thorne et al., 2018)
텍스트 기반 게임 (ALFWorld, Shridhar et al., 2020b)
웹페이지 탐색 (WebShop, Yao et al., 2022)

HotPotQA와 Fever의 경우, 모델이 상호작용할 수 있는 Wikipedia API에 접근하여, ReAct는 vanilla action generation model보다 우수한 성능을 보였으며, chain-of-thought (CoT) 추론 (Wei et al., 2022)과도 경쟁력 있는 성능을 나타냈다. 전반적으로 가장 좋은 접근 방식은 ReAct와 CoT의 조합으로, 추론 과정에서 내부 지식과 외부에서 얻은 정보를 모두 활용할 수 있게 한다. ALFWorld와 WebShop에서는 2-shot 또는 심지어 1-shot ReAct prompting이 $10^3 \sim 10^5$ 개의 task instance로 학습된 모방 학습(imitation learning) 또는 강화 학습(reinforcement learning) 방법보다 우수한 성능을 보였으며, 성공률에서 각각 34% 및 10%의 절대적인 개선을 이루었다. 우리는 또한 행동만 사용하는 통제된 baseline보다 일관된 이점을 보여줌으로써 의사 결정에서 희소하고 다재다능한 추론의 중요성을 입증한다. 일반적인 적용 가능성과 성능 향상 외에도, 추론과 행동의 결합은 모든 도메인에서 모델의 해석 가능성(interpretability), 신뢰성(trustworthiness), 진단 가능성(diagnosability)에 기여한다. 이는 인간이 모델의 내부 지식과 외부 환경에서 얻은 정보를 쉽게 구별할 수 있을 뿐만 아니라, 추론 과정을 검토하여 모델 행동의 결정 근거를 이해할 수 있기 때문이다.

요약하자면, 우리의 주요 기여는 다음과 같다: (1) 일반적인 task 해결을 위해 language model에서 추론과 행동을 시너지 효과를 내도록 하는 새로운 prompt 기반 패러다임인 ReAct를 소개한다. (2) 다양한 벤치마크에 걸쳐 광범위한 실험을 수행하여, 추론 또는 행동 생성 중 하나만 단독으로 수행하는 이전 접근 방식보다 few-shot learning 설정에서 ReAct의 이점을 입증한다. (3) 추론 task에서 행동의 중요성과 상호작용 task에서 추론의 중요성을 이해하기 위한 체계적인 ablation 및 분석을 제시한다. (4) prompting 설정(즉, 추론 및 행동 동작에 대한 제한된 지원)에서 ReAct의 한계를 분석하고, 추가 학습 데이터로 ReAct가 개선될 수 있는 잠재력을 보여주는 초기 fine-tuning 실험을 수행한다.

ReAct를 더 많은 task에서 학습하고 운영하도록 확장하고, 강화 학습과 같은 보완적인 패러다임과 결합하면 large language model의 잠재력을 더욱 발휘할 수 있을 것이다.

2 ReAct: Synergizing Reasoning + Acting

task solving을 위해 에이전트가 환경과 상호작용하는 일반적인 설정을 고려해 보자. 시간 $t$ 에 에이전트는 환경으로부터 관측 $o_t \in \mathcal{O}$ 를 받고, 정책 $\pi(a_t \mid c_t)$ 에 따라 행동 $a_t \in \mathcal{A}$ 를 취한다. 여기서 $c_t = (o_1, a_1, \cdots, o_{t-1}, a_{t-1}, o_t)$ 는 에이전트에게 주어진 context이다. 매핑 $c_t \mapsto a_t$ 가 매우 암묵적이고 광범위한 연산을 요구할 때, 정책 학습은 어렵다. 예를 들어, Figure 1.1c)에 나타난 에이전트는 궤적 context (Question, Act 1-3, Obs 1-3)에 대한 복잡한 추론이 필요하기 때문에 QA task를 완료하기 위한 올바른 최종 행동(Act 4)을 생성할 수 없다. 마찬가지로, Figure 1. (2a)에 나타난 에이전트는 context로부터 sinkbasin 1에 peppershaker 1이 포함되어 있지 않다는 것을 이해하지 못하여, 계속해서 환각(hallucinating) 행동을 생성한다.

ReAct의 아이디어는 간단하다: 우리는 에이전트의 행동 공간을 $\hat{\mathcal{A}} = \mathcal{A} \cup \mathcal{L}$ 로 확장한다. 여기서 $\mathcal{L}$ 은 언어 공간이다. 언어 공간에서의 행동 $\hat{a}_t \in \mathcal{L}$ 은 우리가 thought 또는 reasoning trace라고 부를 것이며, 외부 환경에 영향을 미치지 않으므로 관측 피드백을 유발하지 않는다. 대신, thought $\hat{a}_t$ 는 현재 context $c_t$ 에 대한 추론을 통해 유용한 정보를 구성하고, 미래의 추론이나 행동을 지원하기 위해 context $c_{t+1} = (c_t, \hat{a}_t)$ 를 업데이트하는 것을 목표로 한다. Figure 1.에 나타난 바와 같이, 다양한 유형의 유용한 thought가 있을 수 있다. 예를 들어, task 목표를 분해하고 행동 계획을 생성하거나 (2b, Act 1; 1d, Thought 1), task 해결과 관련된 상식 지식을 주입하거나 (2b, Act 1), 관측에서 중요한 부분을 추출하거나 (1d, Thought2, 4), 진행 상황을 추적하고 행동 계획을 전환하거나 (2b, Act 8), 예외를 처리하고 행동 계획을 조정하는 것 (1d, Thought 3) 등이다.

그러나 언어 공간 $\mathcal{L}$ 은 무한하기 때문에, 이 확장된 행동 공간에서의 학습은 어렵고 강력한 언어 사전 지식(prior)을 요구한다. 본 논문에서는 주로 **frozen large language model인 PaLM-540B (Chowdhery et al. 2022)**가 few-shot in-context example로 prompt되어 task 해결을 위한 domain-specific 행동과 자유 형식의 언어 thought를 모두 생성하는 설정에 초점을 맞춘다 (Figure 1(1d), (2b)). 각 in-context example은 task 인스턴스를 해결하기 위한 행동, thought, 환경 관측으로 구성된 인간의 궤적이다 (Appendix C 참조). 추론이 가장 중요한 task의 경우 (Figure 1.1)), thought와 행동의 생성을 번갈아 수행하여 task 해결 궤적이 여러 thought-action-observation 단계로 구성되도록 한다. 반대로, 잠재적으로 많은 수의 행동을 포함하는 의사 결정 task의 경우 (Figure 1.2)), thought는 궤적의 가장 관련성 높은 위치에 드물게 나타나기만 하면 되므로, 언어 모델이 thought와 행동의 비동기적 발생을 스스로 결정하도록 한다.

의사 결정 및 추론 능력이 large language model에 통합되어 있기 때문에, ReAct는 몇 가지 독특한 특징을 가진다: A) 직관적이고 설계하기 쉬움: ReAct prompt를 설계하는 것은 인간 주석자가 자신이 취한 행동 위에 자신의 thought를 언어로 입력하기만 하면 되므로 간단하다. 본 논문에서는 임시적인 형식 선택, thought 설계 또는 예시 선택을 사용하지 않는다. 각 task에 대한 prompt 설계는 Section 3과 4에서 자세히 설명한다. B) 일반적이고 유연함: 유연한 thought 공간과 thought-action 발생 형식 덕분에, ReAct는 QA, 사실 확인, 텍스트 게임, 웹 탐색을 포함하되 이에 국한되지 않는 다양한 행동 공간과 추론 요구 사항을 가진 다양한 task에 적용 가능하다. C) 성능이 우수하고 견고함: ReAct는 단 1개에서 6개의 in-context example만으로 학습하면서 새로운 task 인스턴스에 강력한 일반화 능력을 보여주며, 다양한 도메인에서 추론 또는 행동만 수행하는 baseline보다 지속적으로 우수한 성능을 보인다. 또한 Section 3에서는 fine-tuning이 활성화될 때의 추가적인 이점을 보여주고, Section 4에서는 ReAct 성능이 prompt 선택에 얼마나 견고한지를 보여준다. D) 인간 친화적이고 제어 가능함: ReAct는 인간이 추론 및 사실적 정확성을 쉽게 검사할 수 있는 해석 가능한 순차적 의사 결정 및 추론 프로세스를 약속한다. 또한, Section 4의 Figure 5에서 보여주듯이, 인간은 thought 편집을 통해 에이전트의 행동을 즉석에서 제어하거나 수정할 수도 있다.

3 Knowledge-Intensive Reasoning Tasks

우리는 먼저 multi-hop question answering 및 fact verification과 같은 지식 집약적(knowledge-intensive) reasoning task부터 시작한다. Figure 1.1d)에서 볼 수 있듯이, ReAct는 Wikipedia API와 상호작용하여 reasoning을 뒷받침하는 정보를 검색할 수 있으며, 동시에 reasoning을 사용하여 다음에 무엇을 검색할지 결정함으로써 reasoning과 acting의 시너지를 보여준다.

3.1 Setup

도메인 (Domains)
우리는 지식 검색 및 추론에 도전적인 두 가지 데이터셋을 고려한다:
(1) HotPotQA (Yang et al., 2018): 두 개 이상의 Wikipedia 문단을 기반으로 추론해야 하는 multi-hop question answering 벤치마크.
(2) FEVER (Thorne et al., 2018): 각 주장이 Wikipedia 문단으로 검증 가능한지에 따라 SUPPORTS, REFUTES, NOT ENOUGH INFO로 주석된 fact verification 벤치마크.
본 연구에서는 두 task 모두 질문 전용(question-only) 설정으로 진행한다. 즉, 모델은 질문/주장만을 입력으로 받으며 support 문단에는 접근할 수 없다. 따라서 모델은 내부 지식에 의존하거나 외부 환경과의 상호작용을 통해 지식을 검색하여 추론을 뒷받침해야 한다.

액션 공간 (Action Space)
우리는 대화형 정보 검색을 지원하기 위해 세 가지 유형의 액션을 가진 간단한 Wikipedia 웹 API를 설계했다:
(1) search[entity]: 해당 entity의 위키 페이지가 존재하면 첫 5문장을 반환하고, 그렇지 않으면 Wikipedia 검색 엔진에서 상위 5개의 유사 entity를 제안한다.
(2) lookup[string]: 페이지에서 string을 포함하는 다음 문장을 반환하여 브라우저의 Ctrl+F 기능을 시뮬레이션한다.
(3) finish[answer]: answer로 현재 task를 완료한다.
이 액션 공간은 정확한 문단 이름을 기반으로 문단의 작은 부분만을 검색할 수 있으며, 이는 state-of-the-art lexical 또는 neural retriever보다 현저히 약하다는 점에 주목한다. 이의 목적은 인간이 Wikipedia와 상호작용하는 방식을 시뮬레이션하고, 모델이 언어를 통한 명시적인 추론을 통해 정보를 검색하도록 강제하는 것이다.

3.2 Methods

ReAct Prompting
HotpotQA와 FEVER의 경우, 우리는 학습 세트에서 각각 6개와 3개의 사례를 무작위로 선택하고, 이를 ReAct 형식의 궤적(trajectory)으로 수동으로 구성하여 prompt에서 few-shot 예시로 사용한다. Figure 1d)와 유사하게, 각 궤적은 **여러 thought-action-observation 단계(즉, dense thought)**로 구성되며, 여기서 자유 형식의 thought는 다양한 목적으로 사용된다. 구체적으로, 우리는 다음과 같은 thought 조합을 사용한다:

질문을 분해하는 thought ("x를 검색하고, y를 찾고, z를 찾아야 해"),
Wikipedia 관찰에서 정보를 추출하는 thought ("x는 1844년에 시작되었다", "단락에 x는 나와 있지 않다"),
상식적 추론을 수행하는 thought ("x는 y가 아니므로 z여야 한다...") 또는 산술적 추론 ("1844 < 1989"),
검색 재구성(search reformulation)을 안내하는 thought ("대신 x를 검색/찾아볼 수 있을 것 같다"),
최종 답변을 종합하는 thought ("...따라서 답은 x이다").

자세한 내용은 Appendix C를 참조하라.

Prompt Method ${ }^{a}$	HotpotQA (EM)	Fever (Acc)
Standard	28.7	57.1
CoT Wei et al., 2022)	29.4	56.3
CoT-SC Wang et al., 2022a	33.4	60.4
Act	25.7	58.9
ReAct	27.4	60.9
CoT-SC $\rightarrow$ ReAct	34.2	64.6
ReAct $\rightarrow$ CoT-SC	35.1	62.0
Supervised SoTA ${ }^{b}$	67.5	89.5

Table 1: HotpotQA 및 FEVER에 대한 PaLM-540B prompting 결과.

${ }^{a}$ HotpotQA EM은 Wang et al. 2022b에서 Standard 27.1, CoT 28.9, CoT-SC 33.8이다.

| $b$ | Zhu et al. 2021 | Lewis et al. 2020 | | :--- | :--- | :--- |

Figure 2: 사용된 CoT-SC 샘플 수에 따른 PaLM-540B prompting 결과.

Baselines
우리는 ReAct 궤적을 체계적으로 ablation하여 여러 baseline에 대한 prompt를 구성한다 (Figure 1(1a-1c)와 같은 형식):
(a) Standard prompting (Standard): ReAct 궤적의 모든 thought, action, observation을 제거한다.
(b) Chain-of-thought prompting (CoT) (Wei et al., 2022): action과 observation을 제거하고, 추론 전용 baseline으로 사용된다. 또한, 추론 시 decoding temperature 0.7로 21개의 CoT 궤적을 샘플링하고 다수결 답변을 채택하여 self-consistency baseline (CoT-SC) (Wang et al., 2022ab)을 구축하는데, 이는 CoT보다 일관되게 성능을 향상시키는 것으로 나타났다.
(c) Acting-only prompt (Act): ReAct 궤적의 thought를 제거한다. 이는 WebGPT (Nakano et al., 2021)가 인터넷과 상호작용하여 질문에 답하는 방식과 느슨하게 유사하지만, WebGPT는 다른 task 및 action space에서 작동하고 prompting 대신 imitation 및 reinforcement learning을 사용한다.

내부 및 외부 지식 결합 (Combining Internal and External Knowledge)
Section 3.3에서 자세히 설명하겠지만, 우리는 ReAct가 보여주는 문제 해결 과정이 더 사실적이고 근거에 기반하는 반면, CoT는 추론 구조를 공식화하는 데 더 정확하지만, 환각된 사실이나 thought로 인해 쉽게 어려움을 겪을 수 있음을 관찰했다. 따라서 우리는 ReAct와 CoT-SC를 통합하고, 다음 휴리스틱을 기반으로 모델이 언제 다른 방법으로 전환할지 결정하도록 제안한다:
A) ReAct $\rightarrow$ CoT-SC: ReAct가 주어진 단계 내에서 답변을 반환하지 못하면 CoT-SC로 전환한다. HotpotQA와 FEVER의 경우, 더 많은 단계가 ReAct 성능을 향상시키지 않는다는 것을 발견했으므로 각각 7단계와 5단계로 설정한다.
B) CoT-SC $\rightarrow$ ReAct: $n$ 개의 CoT-SC 샘플 중 다수결 답변이 $n/2$ 회 미만으로 발생하면 (즉, 내부 지식이 task를 자신 있게 지원하지 못할 수 있음), ReAct로 전환한다.

Finetuning
대규모로 추론 trace와 action을 수동으로 주석하는 어려움 때문에, 우리는 Zelikman et al. (2022)와 유사한 부트스트랩(bootstrapping) 접근 방식을 고려한다. ReAct (다른 baseline도 포함)에 의해 생성된 정답이 있는 3,000개의 궤적을 사용하여 더 작은 language model (PaLM-8/62B)을 finetuning하여 입력 질문/주장에 따라 궤적 (모든 thought, action, observation)을 디코딩한다. 자세한 내용은 Appendix B.1을 참조하라.

3.3 Results and Observations

ReAct는 Act보다 일관되게 우수하다.
Table 1은 PaLM540B를 기본 모델로 사용하여 다양한 prompting 방법을 적용했을 때의 HotpotQA 및 Fever 결과를 보여준다. 우리는 ReAct가 두 task 모두에서 Act보다 우수하다는 점에 주목한다. 이는 acting을 안내하는 reasoning의 가치를 입증하며, 특히 Figure 1 (1c-d)에서 보여주듯이 최종 답변을 종합하는 데 있어 더욱 중요하다. Fine-tuning 결과 [3] 또한 더욱 정보에 기반한 acting을 위한 reasoning trace의 이점을 확인시켜준다.

	유형	정의	ReAct	CoT
성공	True positive	올바른 reasoning trace 및 사실	94%	86%
	False positive	환각된 reasoning trace 또는 사실	6%	14%
실패	Reasoning error	잘못된 reasoning trace (반복적인 단계에서 복구 실패 포함)	47%	16%
	Search result error	검색 결과가 비어 있거나 유용한 정보를 포함하지 않음	23%	-
	Hallucination	환각된 reasoning trace 또는 사실	0%	56%
	Label ambiguity	올바른 예측이지만 label과 정확히 일치하지 않음	29%	28%

Table 2: HotpotQA에서 ReAct와 CoT의 성공 및 실패 유형과, 인간이 무작위로 선택한 예시에서 연구된 각 유형의 비율.

ReAct vs. CoT
반면에 ReAct는 Fever에서 CoT를 능가하며 (60.9 vs. 56.3), HotpotQA에서는 CoT에 약간 뒤처진다 (27.4 vs. 29.4). Fever의 SUPPORTS/REFUTES 주장은 미미한 차이만 있을 수 있으므로 (Appendix D.1 참조), 정확하고 최신 지식을 검색하는 acting이 매우 중요하다. HotpotQA에서 ReAct와 CoT 간의 행동 차이를 더 잘 이해하기 위해, 우리는 ReAct와 CoT에서 각각 정답 및 오답 (EM으로 판단) trajectory 50개를 무작위로 샘플링하여 (총 200개 예시), Table 2에 그 성공 및 실패 유형을 수동으로 labeling하였다. 몇 가지 주요 관찰 결과는 다음과 같다:
A) Hallucination은 CoT의 심각한 문제로, 성공 모드에서 ReAct보다 훨씬 높은 false positive rate (14% vs. 6%)를 초래하며, 주요 실패 모드 (56%)를 구성한다. 이와 대조적으로, ReAct의 문제 해결 trajectory는 외부 지식 베이스에 접근할 수 있는 덕분에 더 근거 있고, 사실 기반이며, 신뢰할 수 있다.
B) reasoning, action, observation 단계를 교차(interleave)하는 것이 ReAct의 groundedness와 신뢰성을 향상시키지만, 이러한 구조적 제약은 reasoning 단계 구성의 유연성을 감소시켜 CoT보다 더 높은 reasoning error rate를 초래한다. 우리는 ReAct에 특유한 빈번한 오류 패턴이 있는데, 모델이 이전 thought와 action을 반복적으로 생성하는 경우이며, 이는 모델이 적절한 다음 action을 추론하고 루프에서 벗어나지 못하는 경우이므로 "reasoning error"의 일부로 분류한다.
C) ReAct의 경우, 검색을 통해 유익한 지식을 성공적으로 검색하는 것이 중요하다. 오류 사례의 23%를 차지하는 비정보성 검색은 모델의 reasoning을 방해하고, 모델이 생각을 복구하고 재구성하는 데 어려움을 겪게 한다. 이는 사실성(factuality)과 유연성(flexibility) 사이의 예상되는 trade-off일 수 있으며, 두 가지 방법을 결합하는 우리가 제안하는 전략의 동기가 된다.
각 성공 및 실패 모드에 대한 예시는 Appendix E.1에 제공한다. 또한 일부 HotpotQA 질문에는 오래된 답변 label이 포함될 수 있음을 발견했으며, 예를 들어 Figure 4를 참조하라.

ReAct + CoT-SC는 LLM prompting에 가장 우수하다.
Table 1에서도 보여지듯이, HotpotQA 및 Fever에서 가장 좋은 prompting 방법은 각각 ReAct $\rightarrow$ CoT-SC와 CoT-SC $\rightarrow$ ReAct이다. 또한, Figure 2는 사용된 CoT-SC 샘플 수에 따라 다른 방법들이 어떻게 수행되는지를 보여준다. 두 ReAct + CoT-SC 방법은 각각 하나의 task에서 유리하지만, 두 방법 모두 다양한 샘플 수에 걸쳐 CoT-SC를 일관되게 크게 능가하며, 단 3-5개의 샘플만으로 21개의 샘플을 사용한 CoT-SC 성능에 도달한다. 이러한 결과는 reasoning task를 위해 모델의 내부 지식과 외부 지식을 적절히 결합하는 것의 가치를 나타낸다.

ReAct는 fine-tuning에 가장 우수하다.
Figure 3은 HotpotQA에서 네 가지 방법 (Standard, CoT, Act, ReAct)의 prompting/fine-tuning 스케일링 효과를 보여준다. PaLM-8/62B를 사용했을 때, ReAct prompting은 in-context 예시로부터 reasoning과 acting을 모두 학습하는 어려움 때문에 네 가지 방법 중 가장 낮은 성능을 보인다. 그러나 단 3,000개의 예시로 fine-tuning했을 때, ReAct는 네 가지 방법 중 가장 좋은 방법이 되며, PaLM-8B fine-tuned ReAct는 모든 PaLM-62B prompting 방법을 능가하고, PaLM-62B fine-tuned ReAct는 모든 540B prompting 방법을 능가한다. 이와 대조적으로, Standard 또는 CoT를 fine-tuning하는 것은 PaLM-8/62B 모두에서 ReAct 또는 Act를 fine-tuning하는 것보다 훨씬 나쁘다. 전자는 본질적으로 모델에게 (잠재적으로 환각된) 지식 사실을 암기하도록 가르치고, 후자는 모델에게 Wikipedia에서 정보를 접근하는 방법 (reasoning 및 acting)을 가르치는데, 이는 지식 reasoning에 더 일반화 가능한 기술이다. 모든 prompting 방법이 domain-specific state-of-the-art 접근 방식과는 여전히 상당히 거리가 멀기 때문에 (Table 1), 우리는 더 많은 인간이 작성한 데이터로 fine-tuning하는 것이 ReAct의 잠재력을 발휘하는 더 좋은 방법이라고 믿는다.

Figure 3: HotPotQA에서 ReAct (본 연구) 및 baseline의 prompting 및 fine-tuning에 대한 스케일링 결과.

4 Decision Making Tasks

우리는 또한 ReAct를 ALFWorld와 WebShop이라는 두 가지 언어 기반의 대화형 의사결정(interactive decision-making) task에서 테스트했다. 이 두 환경은 모두 희소한 보상(sparse rewards)으로 인해 에이전트가 장기적인 관점에서 행동해야 하는 복잡한 환경을 특징으로 하며, 효과적인 행동 및 탐색을 위한 reasoning의 필요성을 보여준다.

ALFWorld
ALFWorld (Shridhar et al. 2020b) (Figure 1)는 embodied ALFRED 벤치마크 (Shridhar et al., 2020a)와 일치하도록 설계된 합성 텍스트 기반 게임이다. 이 게임은 에이전트가 **텍스트 액션(예: go to coffeetable 1, take paper 2, use desklamp 1)**을 통해 시뮬레이션된 가정 환경을 탐색하고 상호작용하여 고수준 목표(예: examine paper under desklamp)를 달성해야 하는 6가지 유형의 task를 포함한다.
하나의 task 인스턴스는 50개 이상의 위치를 가질 수 있으며, 전문가 정책(expert policy)으로도 50단계 이상이 걸릴 수 있어, 에이전트에게 하위 목표(subgoals)를 계획하고 추적하며, **체계적으로 탐색(예: desklamp를 찾기 위해 모든 책상을 하나씩 확인)**하는 데 도전 과제를 제시한다. 특히, ALFWorld에 내재된 한 가지 도전 과제는 **일반적인 가정용품의 예상 위치를 결정해야 하는 필요성(예: desklamp는 책상, 선반 또는 서랍장에 있을 가능성이 높음)**인데, 이는 LLM이 사전학습된 상식(commonsense knowledge)을 활용하기에 좋은 환경이다.
ReAct에 prompt를 주기 위해, 우리는 각 task 유형별로 훈련 세트에서 세 개의 궤적(trajectory)을 무작위로 주석했다. 각 궤적에는 다음과 같은 희소한 thought가 포함된다: (1) 목표를 분해하고, (2) 하위 목표 완료를 추적하며, (3) 다음 하위 목표를 결정하고, (4) 상식을 통해 객체를 어디서 찾고 무엇을 할지 reasoning한다.
ALFWorld에 사용된 prompt는 Appendix C.4에 제시되어 있다. Shridhar et al. (2020b)에 따라, 우리는 task-specific 설정에서 134개의 보지 못한(unseen) 평가 게임에 대해 평가한다. 견고성을 위해, 우리는 주석한 3개의 궤적 중 2개의 주석된 궤적의 각 순열을 통해 각 task 유형별로 6개의 prompt를 구성한다. Act prompt는 동일한 궤적을 사용하지만, thought는 포함하지 않는다. task 인스턴스는 훈련 세트에서 무작위로 선택되므로, 이는 ReAct나 Act 중 어느 쪽에도 유리하지 않으며, 희소한 thought의 중요성을 테스트하기 위한 공정하고 통제된 비교를 제공한다. baseline으로는, 각 task 유형별로 $10^5$ 개의 전문가 궤적에 대해 훈련된 모방 학습(imitation learning) 에이전트인 BUTLER (Shridhar et al., 2020b)를 사용한다.

WebShop
ReAct는 실제 응용 프로그램을 위해 노이즈가 많은 실제 언어 환경과도 상호작용할 수 있을까? 우리는 최근 제안된 온라인 쇼핑 웹사이트 환경인 WebShop (Yao et al., 2022)을 조사한다. 이 환경은 118만 개의 실제 제품과 1만 2천 개의 인간 지시를 포함한다. ALFWorld와 달리, Webshop은 **다양한 구조화 및 비구조화된 텍스트(예: Amazon에서 크롤링된 제품 제목, 설명 및 옵션)**를 포함하며, 에이전트가 **사용자 지시(예: "서랍이 있는 협탁을 찾고 있습니다. 니켈 마감이어야 하고, 가격은 140달러 미만이어야 합니다.")**에 따라 **웹 상호작용(예: "nightstand drawers" 검색, "color: modern-nickel-white" 또는 "back to search"와 같은 버튼 선택)**을 통해 제품을 구매하도록 요구한다. 이 task는 **평균 점수(선택된 제품이 모든 에피소드에서 다루는 원하는 속성의 백분율을 평균)**와 **성공률(선택된 제품이 모든 요구 사항을 충족하는 에피소드의 백분율)**로 500개의 테스트 지시에 대해 평가된다. 우리는 Act prompt를 검색, 제품 선택, 옵션 선택, 구매 액션으로 구성하며, ReAct prompt는 추가적으로 무엇을 탐색할지, 언제 구매할지, 어떤 제품 옵션이 지시와 관련이 있는지 reasoning한다. prompt 예시는 Table 6을, 모델 예측은 Appendix의 Table 10을 참조하라. 우리는 1,012개의 인간 주석 궤적으로 훈련된 모방 학습(IL) 방법과 10,587개의 훈련 지시로 추가 훈련된 모방 + 강화 학습(IL + RL) 방법과 비교한다.

Method	Pick	Clean	Heat	Cool	Look	Pick 2	All
Act (best of 6)	88	42	74	67	72	$\mathbf{41}$	45
ReAct (avg)	65	39	83	76	55	24	57
ReAct (best of 6)	$\mathbf{9 2}$	58	$\mathbf{9 6}$	86	$\mathbf{7 8}$	$\mathbf{41}$	$\mathbf{7 1}$
ReAct-IM (avg) $^{2}$	55	59	60	55	23	24	48
ReAct-IM (best of 6) $^{2}$	62	$\mathbf{6 8}$	87	57	39	33	53
BUTLER $_{g \text { (best of 8) }}$	33	26	70	76	17	12	22
BUTLER $_{\text {(best of 8) }}$	46	39	74	$\mathbf{100}$	22	24	37

Table 3: AlfWorld task-specific 성공률 (%). BUTLER 및 BUTLER $_{g}$ 결과는 Shridhar et al. (2020b)의 Table 4에서 가져왔다. BUTLER는 beam search를 사용하는 것을 제외하고 모든 방법은 greedy decoding을 사용한다.

Method	Score	SR
Act	62.3	30.1
ReAct	$\mathbf{6 6.6}$	$\mathbf{40.0}$
IL	59.9	29.1
IL+RL	62.4	28.7
Human	82.1	59.6
Expert

Table 4: Webshop의 Score 및 성공률 (SR). IL/IL+RL은 Yao et al. (2022)에서 가져왔다.

결과
ReAct는 **ALFWorld (Table 3)**와 Webshop (Table 4) 모두에서 Act보다 뛰어난 성능을 보인다. ALFWorld에서 최고의 ReAct 시도는 평균 71%의 성공률을 달성하여, 최고의 Act (45%) 및 BUTLER (37%) 시도를 크게 능가한다. 사실, 가장 낮은 ReAct 시도(48%)조차도 두 방법의 최고 시도를 능가한다. 더욱이, ReAct가 Act에 비해 우위를 점하는 것은 6개의 통제된 시도 전반에 걸쳐 일관적이며, **상대적 성능 향상은 33%에서 90%까지 다양하고 평균 62%**이다. 정성적으로, 우리는 Act가 thought가 전혀 없을 때 목표를 더 작은 하위 목표로 올바르게 분해하지 못하거나 환경의 현재 상태를 추적하지 못하는 것을 확인했다. ReAct와 Act를 비교하는 궤적 예시는 Appendix D.2.1 및 Appendix D.2.2에서 찾을 수 있다.
Webshop에서 one-shot Act prompting은 이미 IL 및 IL+RL 방법과 동등한 성능을 보인다. 추가적인 희소한 reasoning을 통해 ReAct는 이전 최고 성공률보다 절대적으로 10% 향상된 훨씬 더 나은 성능을 달성한다. 예시를 확인한 결과, ReAct는 노이즈가 많은 관찰과 액션 사이의 간극을 메우기 위해 reasoning함으로써 지시와 관련된 제품 및 옵션을 식별할 가능성이 더 높다는 것을 발견했다 (예: "'공간 절약형 오토만 벤치 거실용'의 경우, 이 항목은 '39 x 18 x 18인치' 및 '파란색' 옵션이 있으며 구매하기에 좋아 보입니다."). 그러나 기존 방법들은 여전히 전문가 인간의 성능(Table 4)과는 거리가 멀다. 전문가 인간은 prompting 기반 방법으로는 여전히 어려운 훨씬 더 많은 제품 탐색 및 쿼리 재구성을 수행한다.

내부 reasoning 대 외부 피드백의 가치
우리가 아는 한, ReAct는 LLM을 사용하여 폐쇄 루프 시스템 내에서 대화형 환경에 적용된 reasoning과 액션의 결합을 처음으로 시연한 것이다. 아마도 가장 가까운 이전 연구는 Huang et al. (2022b)의 **Inner Monologue (IM)**일 것이다. 이 연구에서는 embodied agent의 액션이 동명의 "inner monologue"에 의해 동기 부여된다. 그러나 IM의 "inner monologue"는 환경 상태의 관찰과 목표 달성을 위해 에이전트가 완료해야 할 사항에 국한된다. 대조적으로, ReAct의 의사결정을 위한 reasoning trace는 유연하고 희소하여, 다양한 reasoning 유형(Section 2 참조)을 다른 task에 대해 유도할 수 있다.
ReAct와 IM의 차이점을 보여주고, 내부 reasoning 대 단순한 외부 피드백 반응의 중요성을 강조하기 위해, 우리는 IM과 유사한 밀집된 외부 피드백으로 구성된 thought 패턴을 사용하여 ablation 실험을 수행했다. Table 3에서 볼 수 있듯이, ReAct는 IM 스타일 prompting (ReAct-IM)을 크게 능가하며 (전체 성공률 71% 대 53%), 6개 task 중 5개에서 일관된 우위를 보인다. 정성적으로, 우리는 ReAct-IM이 고수준 목표 분해의 부족으로 인해 하위 목표가 언제 완료되었는지 또는 다음 하위 목표가 무엇이어야 하는지를 식별하는 데 종종 실수를 저지르는 것을 관찰했다. 또한, 많은 ReAct-IM 궤적은 상식 reasoning의 부족으로 인해 ALFWorld 환경 내에서 항목이 어디에 있을지 결정하는 데 어려움을 겪었다. 두 가지 단점 모두 ReAct 패러다임에서 해결될 수 있다. ReAct-IM에 대한 자세한 내용은 Appendix B.2에 있으며, ReAct-IM의 prompt 예시는 Appendix C.4에서, 궤적 예시는 Appendix D.2.3에서 찾을 수 있다.

추론을 위한 Language Model
아마도 LLM을 추론에 활용하는 가장 잘 알려진 연구는 Chain-of-Thought (CoT) (Wei et al., 2022)일 것이다. 이 연구는 LLM이 문제 해결을 위해 스스로 "사고 절차"를 구성하는 능력을 보여주었다. 이후 복잡한 task 해결을 위한 least-to-most prompting (Zhou et al., 2022), zero-shot CoT (Kojima et al., 2022), 그리고 self-consistency를 이용한 추론 (Wang et al., 2022a) 등 여러 후속 연구들이 진행되었다. 최근 (Madaan & Yazdanbakhsh, 2022)는 CoT의 공식화 및 구조를 체계적으로 연구하여, 기호, 패턴, 텍스트의 존재가 CoT의 효과에 결정적인 역할을 한다는 것을 관찰했다.
다른 연구들은 단순한 prompting을 넘어 더 정교한 추론 아키텍처로 확장되기도 했다. 예를 들어, Selection-Inference (Creswell et al., 2022)는 추론 과정을 "선택(selection)"과 "추론(inference)"의 두 단계로 나눈다. STaR (Zelikman et al., 2022)는 모델이 스스로 생성한 올바른 추론(rationale)으로 모델을 fine-tuning하여 추론 과정을 bootstrapping한다. Faithful reasoning (Creswell & Shanahan, 2022)은 다단계 추론을 세 단계로 분해하며, 각 단계는 전용 LM에 의해 수행된다. 중간 계산 단계에 대해 LM을 fine-tuning하는 Scratchpad (Nye et al., 2021)와 같은 유사한 접근 방식도 다단계 계산 문제에서 개선을 보여주었다.
이러한 방법들과 대조적으로, ReAct는 단순히 고립되고 고정된 추론을 넘어, 모델의 행동과 그에 상응하는 관찰(observation)을 일관된 입력 스트림으로 통합하여 모델이 더 정확하게 추론하고 추론을 넘어선 task(예: 대화형 의사 결정)를 해결할 수 있도록 한다.

의사 결정을 위한 Language Model
LLM의 강력한 능력은 언어 생성 이상의 task를 수행할 수 있게 했으며, 특히 대화형 환경에서 LLM을 의사 결정을 위한 policy model로 활용하는 것이 점점 더 보편화되고 있다. WebGPT (Nakano et al., 2021)는 LM을 사용하여 웹 브라우저와 상호 작용하고, 웹 페이지를 탐색하며, ELI5 (Fan et al., 2019)의 복잡한 질문에 대한 답을 추론한다. ReAct와 비교할 때, WebGPT는 사고 및 추론 절차를 명시적으로 모델링하지 않고, 강화 학습을 위해 값비싼 인간 피드백에 의존한다.
대화 모델링에서는 BlenderBot (Shuster et al., 2022b) 및 Sparrow (Glaese et al., 2022)와 같은 챗봇과 SimpleTOD (Hosseini-Asl et al., 2020)와 같은 task-oriented dialogue system도 API 호출에 대한 의사 결정을 위해 LM을 학습시킨다. ReAct와 달리, 이들 또한 추론 절차를 명시적으로 고려하지 않으며, policy 학습을 위해 값비싼 데이터셋과 인간 피드백 수집에 의존한다. 이와 대조적으로, ReAct는 의사 결정 과정이 추론 절차에 대한 언어적 설명만을 요구하기 때문에 훨씬 저렴한 방식으로 policy를 학습한다. 6
LLM은 또한 계획 및 의사 결정을 위해 대화형 및 embodied 환경에서 점점 더 많이 활용되고 있다. 이와 관련하여 ReAct와 가장 관련성이 높은 연구는 SayCan (Ahn et al., 2022)과 Inner Monologue (Huang et al., 2022b)로, 이들은 로봇 행동 계획 및 의사 결정을 위해 LLM을 사용한다. SayCan에서는 LLM이 로봇이 취할 수 있는 가능한 행동을 직접 예측하도록 prompting되었고, 이는 시각 환경에 기반한 affordance model에 의해 재순위화되어 최종 예측을 수행한다. Inner Monologue는 **환경으로부터 주입된 피드백으로 구현된 "inner monologue"**를 추가하여 추가적인 개선을 이루었다. 우리가 아는 한, Inner Monologue는 ReAct가 기반으로 하는 이러한 closed-loop 시스템을 시연한 최초의 연구이다. 그러나 우리는 Inner Monologue가 진정한 의미의 내적 사고를 포함하지 않는다고 주장하며, 이는 Section 4에서 자세히 설명한다.
또한, 대화형 의사 결정 과정에서 언어를 의미론적으로 풍부한 입력으로 활용하는 것이 다른 설정에서도 성공적임이 입증되었다 (Abramson et al., 2020; Karamcheti et al., 2021; Huang et al., 2022a; Li et al., 2022). LLM의 도움으로 언어가 근본적인 인지 메커니즘으로서 상호 작용 및 의사 결정에 중요한 역할을 할 것이라는 점이 더욱 분명해지고 있다. 더욱이, LLM의 발전은 Reed et al. (2022)와 같은 다재다능하고 일반적인 에이전트의 개발에도 영감을 주었다.

6 Conclusion

우리는 대규모 언어 모델(LLM)에서 reasoning과 acting을 시너지를 내는 간단하면서도 효과적인 방법인 ReAct를 제안했다. multi-hop question-answering, fact checking, 그리고 interactive decision-making task에 대한 다양한 실험을 통해, ReAct가 해석 가능한 의사결정 과정을 통해 우수한 성능을 달성함을 보여준다.

우리 방법의 단순성에도 불구하고, action space가 큰 복잡한 task는 잘 학습하기 위해 더 많은 demonstration을 필요로 하며, 이는 아쉽게도 in-context learning의 입력 길이 제한을 쉽게 초과할 수 있다. 우리는 HotpotQA에 대한 fine-tuning 접근 방식을 탐구하여 초기에는 유망한 결과를 얻었지만, 더 높은 품질의 인간 주석(human annotation)으로부터 학습하는 것이 성능을 더욱 향상시키기 위한 필수적인 요소가 될 것이다.

multi-task training을 통해 ReAct를 확장하고, 강화 학습(reinforcement learning)과 같은 보완적인 패러다임과 결합한다면, LLM의 잠재력을 더 많은 애플리케이션에 활용할 수 있는 더욱 강력한 agent를 만들 수 있을 것이다.

Acknowledgments

Google Brain 팀과 Princeton NLP Group의 많은 분들의 지원과 피드백에 감사드립니다. 본 연구는 국립과학재단(National Science Foundation)의 Grant No. 2107048의 부분적인 지원을 받았습니다. 본 자료에 표현된 의견, 발견, 결론 또는 권고 사항은 전적으로 저자(들)의 것이며, 반드시 국립과학재단의 견해를 반영하는 것은 아닙니다.

Reproducibility Statement

우리의 주요 실험은 아직 공개적으로 접근할 수 없는 모델인 PaLM (Chowdhery et0al., 2022)을 기반으로 수행되었다. 재현성을 높이기 위해, 우리는 사용된 모든 prompt를 Appendix C에 포함시켰고, GPT-3 (Brown et al., 2020)를 사용한 추가 실험은 Appendix A.1에 수록했으며, 관련 GPT-3 ReAct prompting 코드는 https://anonymous.4open.science/r/ReAct-2268/에서 확인할 수 있다.

Ethics Statement

ReAct는 기존 방법들보다 더 인간이 해석 가능하고, 진단 가능하며, 제어 가능한 task-solving trajectory를 생성하도록 대규모 언어 모델을 유도한다. 그러나 외부 환경(예: 웹, 물리적 환경)과 상호작용하기 위한 action space를 대규모 언어 모델에 연결하는 것은 잠재적인 위험을 수반한다. 예를 들어, 부적절하거나 사적인 정보를 검색하거나, 환경에서 해로운 행동을 취할 수 있다.

우리의 실험은 이러한 위험을 최소화하기 위해 상호작용을 특정 웹사이트(Wikipedia 또는 WebShop)로 제한했다. 이 웹사이트들은 사적인 정보가 없으며, action space 설계에 위험한 행동이 포함되어 있지 않다 (즉, 모델은 연구 벤치마크인 WebShop에서 실제로 제품을 구매하거나 Wikipedia를 편집할 수 없다). 우리는 향후 더 광범위한 실험을 설계하기 전에 연구자들이 이러한 위험을 인지해야 한다고 생각한다.

A Additional Results

A. 1 GPT-3 Experiments

	PaLM-540B	GPT-3
HotpotQA (exact match)	29.4	$\mathbf{30 . 8}$
ALFWorld (success rate %)	70.9	$\mathbf{78 . 4}$

Table 5: PaLM-540B vs. GPT-3 (text-davinci-002, greedy decoding)를 사용한 ReAct prompting 결과.
HotpotQA에서는 500개의 validation 질문을 무작위로 샘플링했다. ALFWorld에서는 134개의 모든 unseen validation task instance를 사용했으며, PaLM-540B에 따라 최적의 prompt set을 사용했다.

우리는 ReAct prompting 성능이 다양한 large language model에 걸쳐 일반적임을 확인하기 위해 추가적인 GPT-3 (Brown et al. 2020) 실험을 수행했다. Table 5에서 볼 수 있듯이, GPT-3 (text-davinci-002, greedy decoding)는 HotpotQA와 ALFWorld에서 PaLM-540B를 일관되게 능가하는데, 이는 GPT-3가 인간의 지시를 따르도록 fine-tuning되었기 때문일 수 있다. 이는 ReAct prompting이 다양한 task에서 여러 large language model에 걸쳐 효과적임을 시사한다. 이 실험들의 코드는 https://react-lm.github.io/ 에서 확인할 수 있다.

A. 2 ReAct obtains up-to-date knowledge on HotpotQA

Figure 4: 또 다른 HotpotQA 질문 예시로, 원본 레이블이 오래된 경우이다. ReAct만이 실제 웹 상호작용과 추론 덕분에 최신 답변을 얻을 수 있다.

trajectory를 검사하는 동안, 우리는 때때로 ReAct가 데이터셋 레이블과 일치하지 않는 경우를 발견했는데, 이는 레이블 자체가 오래되었을 수 있기 때문이다. 예를 들어, Figure 4에서 보여지듯이, 질문은 호텔의 규모에 대해 묻고 있으며, 이 규모는 HotpotQA 데이터셋 구축 시점 이후로 증가했다. Standard와 CoT는 hallucination으로 인해 잘못된 답변을 제공하는 반면, Act는 실제 웹 상호작용에 접근할 수 있음에도 불구하고 실패한다. 이는 QA를 위해 인터넷과 어떻게 상호작용해야 할지 안내할 추론 능력의 부족 때문이다. ReAct만이 인터넷에서 최신 정보를 검색하여 합리적인 답변을 제공할 수 있다. 따라서, 추론 능력을 더 잘 통합하는 것은 최신 task 해결을 위해 최근의 인터넷 증강 language model (Nakano et al., 2021, Lazaridou et al., 2022; Shuster et al., 2022a)에 도움이 될 수 있다.

A. 3 Human-in-the-loop behavior correction on AlfWorld

우리는 또한 ReAct의 추론 과정을 사람이 검사하고 편집할 수 있도록 ReAct와 human-in-the-loop 상호작용을 탐구한다. Figure 5는 Act 17에서 환각(hallucinating) 문장을 단순히 제거하고 Act 23에 몇 가지 힌트를 추가함으로써, ReAct가 이러한 사람의 사고 편집에 맞춰 행동을 급격히 변화시키고 task를 성공할 수 있음을 보여준다. 사람의 관점에서 이러한 task를 해결하는 것은 수십 개의 action을 입력하는 것에서 단 몇 개의 thought를 편집하는 것으로 훨씬 쉬워지며, 이는 새로운 형태의 인간-기계 협업을 가능하게 한다. 우리는 이러한 즉각적인(on-the-go) 정책 편집이

Figure 5: AlfWorld에서 ReAct를 사용한 human-in-the-loop 행동 수정 예시. (a) ReAct 궤적은 환각적인 thought(Act 17)로 인해 실패한다. (b) 사람이 두 개의 thought(Act 17, 23)를 간단히 편집함으로써, ReAct 궤적은 바람직한 추론 과정과 action을 생성하고 성공한다.

Act 및 이전 RL 방법들에서는 어렵다는 점에 주목한다. 왜냐하면 사람은 모델 파라미터를 변경할 수 없으며, 몇몇 action을 변경하는 것만으로는 모델의 나머지 행동을 편집하지 못할 수 있기 때문이다. 이 패러다임은 또한 Huang et al. (2022b)에서처럼 목표나 하위 목표를 업데이트하기 위한 인간 대화 그 이상이다. ReAct thought를 편집하는 것은 이러한 작업을 수행할 수 있을 뿐만 아니라, 모델의 내부 신념, 추론 스타일 또는 유연한 thought 공간이 지원하는 모든 것을 수정하여 더 나은 task 해결을 가능하게 한다. 우리는 이것이 인간 정렬(human alignment)을 위한 흥미로운 방향이라고 믿으며, 더 체계적인 연구는 향후 과제로 남긴다.

B Experiment Details

B. 1 HotpotQA Finetuning Details

모든 fine-tuning에 대해 batch size는 64를 사용한다. PaLM-8B의 경우, ReAct 및 Act 방법은 4,000 steps 동안 fine-tuning하고, Standard 및 CoT 방법은 2,000 steps 동안 fine-tuning한다. PaLM-62B의 경우, ReAct 및 Act 방법은 4,000 steps 동안 fine-tuning하고, Standard 및 CoT 방법은 1,000 steps 동안 fine-tuning한다. 우리는 ReAct 및 Act 방법이 일반적으로 더 많은 학습 steps (및 더 많은 학습 데이터)로부터 이점을 얻는 반면, Standard 및 CoT 방법은 fine-tuning 직후 성능이 저하되는 것을 발견했다.

B. 2 AlfWorld IM-Style Details

IM-style ablation의 경우, ReAct에서 사용된 것과 동일한 expert trajectory들이 dense external feedback thoughts로 재주석(reannotated)된다. 이 feedback thoughts는 ReAct-IM이 다음 두 가지에 대해서만 생각하도록 제한한다: (1) 현재 목표를 분해하는 것, (2) 완료해야 할 현재 하위 목표(subgoal).

특히, ReAct-IM은 다음과 같은 thought가 부족하다: (1) 하위 목표가 언제 완료되는지 결정하는 것, (2) 다음 하위 목표가 무엇이 되어야 하는지 결정하는 것, (3) LLM이 환경 내에서 아이템이 어디에 있을 수 있는지 식별하기 위해 내부 사전학습 지식(internal pretraining knowledge)을 참조하도록 유도하는 것.

C Prompts

C. 1 HotpotQA

Hotpot QA Prompts

Original
Question	Colorado orogeny의 동부 지역이 확장되는 지역의 고도 범위는 얼마입니까?
Answer	1,800 to $7,000 \mathrm{ft}$
Question	음악가이자 풍자가인 Allie Goertz는 "The Simpsons" 캐릭터 Milhouse에 대한 노래를 썼는데, Matt Groening은 누구의 이름을 따서 Milhouse를 지었습니까?
Answer	Richard Nixon
Question	핀란드 록 그룹에 대한 다큐멘터리는 Adam Clayton Powell입니까 아니면 The Saimaa Gesture입니까?
Answer	The Saimaa Gesture
Question	Nicholas Ray와 Elia Kazan이 공통으로 가진 직업은 무엇입니까?
Question Answer	Arthur's Magazine과 First for Women 중 어떤 잡지가 먼저 창간되었습니까? Arthur's Magazine
Question	Pavel Urysohn과 Leonid Levin은 같은 종류의 작업으로 알려져 있었습니까?
Act
Question	Colorado orogeny의 동부 지역이 확장되는 지역의 고도 범위는 얼마입니까?
Action 1	Search[Colorado orogeny]
Observation 1	Colorado orogeny는 콜로라도 및 주변 지역에서 발생한 조산 운동(orogeny)의 한 에피소드였습니다.
Action 2	Lookup[eastern sector]
Observation 2	(Result 1 / 1) 동부 지역은 High Plains로 확장되며 Central Plains orogeny라고 불립니다.
Action 3	Search[High Plains]
Observation 3	High Plains는 두 가지 뚜렷한 지형 지역 중 하나를 지칭합니다.
Action 4	Search[High Plains (United States)]
Observation 4	High Plains는 Great Plains의 하위 지역입니다. 동쪽에서 서쪽으로, High Plains는 고도가 약 1,800에서 $7,000 \mathrm{ft}$ (550에서 2,130m)까지 상승합니다. [3]
Action 5	Finish[1,800 to 7,000 ft]
Question	음악가이자 풍자가인 Allie Goertz는 "The Simpsons" 캐릭터 Milhouse에 대한 노래를 썼는데, Matt Groening은 누구의 이름을 따서 Milhouse를 지었습니까?
Action 1	Search[Milhouse]
Observation 1	Milhouse Mussolini Van Houten은 Pamela Hayden이 목소리를 맡고 Matt Groening이 만든 Fox 애니메이션 TV 시리즈 The Simpsons의 반복되는 캐릭터입니다.
Action 2	Lookup [named after]
Observation 2	(Result 1/ 1) Milhouse는 미국 대통령 Richard Nixon의 이름을 따서 명명되었으며, 그의 중간 이름은 Milhous였습니다.
Action 3	Finish[Richard Nixon]
Question	핀란드 록 그룹에 대한 다큐멘터리는 Adam Clayton Powell입니까 아니면 The Saimaa Gesture입니까?
Action 1	Search[Adam Clayton Powell]
Observation 1	[Adam Clayton Powell]을 찾을 수 없습니다. 유사 항목: ['Adam Clayton Powell III', 'Seventh Avenue (Manhattan)', 'Adam Clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell', 'Adam Clayton Powell (film)', 'Giancarlo Esposito'].
Action 2	Search[Adam Clayton Powell (film)]
Observation 2	Adam Clayton Powell은 Richard Kilberg가 감독한 1989년 미국 다큐멘터리 영화입니다. 이 영화는 영향력 있는 아프리카계 미국인 정치인 Adam Clayton Powell Jr.의 흥망성쇠에 관한 것입니다. [3][4] 나중에 PBS 시리즈 The American Experience의 일부로 방영되었습니다.
Action 3	Finish[The Saimaa Gesture]
Question	Nicholas Ray와 Elia Kazan이 공통으로 가진 직업은 무엇입니까?
Action 1	Search[Nicholas Ray]
Observation 1	Nicholas Ray (본명 Raymond Nicholas Kienzle Jr., 1911년 8월 7일 – 1979년 6월 16일)는 1955년 영화 Rebel Without a Cause로 가장 잘 알려진 미국 영화 감독, 시나리오 작가, 배우였습니다.
Action 2	Search[Elia Kazan]
Observation 2	Elia Kazan은 미국 영화 및 연극 감독, 프로듀서, 시나리오 작가, 배우였습니다.

Hotpot QA Prompts - 이전 페이지에서 계속

Action 3	Finish[director, screenwriter, actor]
Question	Arthur's Magazine과 First for Women 중 어떤 잡지가 먼저 창간되었습니까?
Action 1	Search[Arthur's Magazine]
Observation 1	Arthur's Magazine (1844-1846)은 19세기 필라델피아에서 발행된 미국 문학 정기 간행물이었습니다.
Action 2	Search[First for Women]
Observation 2	First for Women은 미국 Bauer Media Group에서 발행하는 여성 잡지입니다. [1] 이 잡지는 1989년에 창간되었습니다.
Action 3	Finish[Arthur's Magazine]
Question	Pavel Urysohn과 Leonid Levin은 같은 종류의 작업으로 알려져 있었습니까?
Action 1	Search[Pavel Urysohn]
Observation 1	Pavel Samuilovich Urysohn (1898년 2월 3일 – 1924년 8월 17일)은 차원 이론에 대한 공헌으로 가장 잘 알려진 소련 수학자였습니다.
Action 2	Search[Leonid Levin]
Observation 2	Leonid Anatolievich Levin은 소련계 미국인 수학자이자 컴퓨터 과학자입니다.
Action 3	Finish[yes]
CoT
Question	Colorado orogeny의 동부 지역이 확장되는 지역의 고도 범위는 얼마입니까?
Thought	단계별로 생각해 봅시다. Colorado orogeny의 동부 지역은 High Plains로 확장됩니다. High Plains는 고도가 약 1,800에서 $7,000 \mathrm{ft}$ 까지 상승하므로, 답은 1,800에서 $7,000 \mathrm{ft}$ 입니다.
Answer	1,800 to $7,000 \mathrm{ft}$
Question	음악가이자 풍자가인 Allie Goertz는 "The Simpsons" 캐릭터 Milhouse에 대한 노래를 썼는데, Matt Groening은 누구의 이름을 따서 Milhouse를 지었습니까?
Thought	단계별로 생각해 봅시다. Milhouse는 미국 대통령 Richard Nixon의 이름을 따서 명명되었으므로, 답은 Richard Nixon입니다.
Answer	Richard Nixon
Question	핀란드 록 그룹에 대한 다큐멘터리는 Adam Clayton Powell입니까 아니면 The Saimaa Gesture입니까?
Thought	단계별로 생각해 봅시다. Adam Clayton Powell (film)은 아프리카계 미국인 정치인에 대한 다큐멘터리이며, 핀란드 록 그룹에 대한 것이 아닙니다. 따라서 핀란드 록 그룹에 대한 다큐멘터리는 The Saimaa Gesture여야 합니다.
Answer	The Saimaa Gesture
Question Thought
Answer	Nicholas Ray와 Elia Kazan이 공통으로 가진 직업은 무엇입니까? 단계별로 생각해 봅시다. Nicholas Ray의 직업은 감독, 시나리오 작가, 배우입니다. Elia Kazan의 직업은 감독, 프로듀서, 시나리오 작가, 배우입니다. 따라서 Nicholas Ray와 Elia Kazan이 공통으로 가진 직업은 감독, 시나리오 작가, 배우입니다. director, screenwriter, actor
Question	Arthur's Magazine과 First for Women 중 어떤 잡지가 먼저 창간되었습니까? 단계별로 생각해 봅시다. Arthur's Magazine은 1844년에 창간되었습니다. First for Women은 1989년에 창간되었습니다. 1844 (Arthur's Magazine) < 1989 (First for Women)이므로, Arthur's Magazine이 먼저 창간되었습니다.
Thought
Answer	Arthur's Magazine
Question Thought
	Pavel Urysohn과 Leonid Levin은 같은 종류의 작업으로 알려져 있었습니까? 단계별로 생각해 봅시다. Pavel Urysohn은 수학자입니다. Leonid Levin은 수학자이자 컴퓨터 과학자입니다. 따라서 Pavel Urysohn과 Leonid Levin은 같은 종류의 작업을 했습니다.
Answer	Yes
ReAct
Question	Colorado orogeny의 동부 지역이 확장되는 지역의 고도 범위는 얼마입니까?
Thought 1	Colorado orogeny를 검색하고, Colorado orogeny의 동부 지역이 확장되는 지역을 찾은 다음, 그 지역의 고도 범위를 찾아야 합니다.
Action 1	Search[Colorado orogeny]
Observation 1	Colorado orogeny는 콜로라도 및 주변 지역에서 발생한 조산 운동(orogeny)의 한 에피소드였습니다.
Thought 2	동부 지역에 대한 언급이 없습니다. 따라서 동부 지역을 찾아봐야 합니다.
Action 2	Lookup[eastern sector]
Observation 2	(Result 1 / 1) 동부 지역은 High Plains로 확장되며 Central Plains orogeny라고 불립니다.
Thought 3	Colorado orogeny의 동부 지역은 High Plains로 확장됩니다. 따라서 High Plains를 검색하고 그 고도 범위를 찾아야 합니다.
Action 3	Search[High Plains]
Observation 3	High Plains는 두 가지 뚜렷한 지형 지역 중 하나를 지칭합니다.
Thought 4	대신 High Plains (United States)를 검색해야 합니다.
Action 4	Search[High Plains (United States)]

Hotpot QA Prompts - 이전 페이지에서 계속

Observation 4	High Plains는 Great Plains의 하위 지역입니다. 동쪽에서 서쪽으로, High Plains는 고도가 약 1,800에서 $7,000 \mathrm{ft}$ (550에서 2,130m)까지 상승합니다. [3]
Thought 5	High Plains는 고도가 약 1,800에서 $7,000 \mathrm{ft}$ 까지 상승하므로, 답은 1,800에서 $7,000 \mathrm{ft}$ 입니다.
Action 5	Finish[1,800 to 7,000 ft]
Question	음악가이자 풍자가인 Allie Goertz는 "The Simpsons" 캐릭터 Milhouse에 대한 노래를 썼는데, Matt Groening은 누구의 이름을 따서 Milhouse를 지었습니까?
Thought 1	질문은 "The Simpsons" 캐릭터 Milhouse가 누구의 이름을 따서 명명되었는지로 단순화됩니다. Milhouse를 검색하고 누구의 이름을 따서 명명되었는지 찾기만 하면 됩니다.
Action 1	Search[Milhouse]
Observation 1	Milhouse Mussolini Van Houten은 Pamela Hayden이 목소리를 맡고 Matt Groening이 만든 Fox 애니메이션 TV 시리즈 The Simpsons의 반복되는 캐릭터입니다.
Thought 2	단락에 Milhouse가 누구의 이름을 따서 명명되었는지 나와 있지 않습니다. "named after"를 찾아볼 수 있을 것 같습니다.
Action 2	Lookup[named after]
Observation 2	(Result 1 / 1) Milhouse는 미국 대통령 Richard Nixon의 이름을 따서 명명되었으며, 그의 중간 이름은 Milhous였습니다.
Thought 3	Milhouse는 미국 대통령 Richard Nixon의 이름을 따서 명명되었으므로, 답은 Richard Nixon입니다.
Action 3	Finish[Richard Nixon]
Question	핀란드 록 그룹에 대한 다큐멘터리는 Adam Clayton Powell입니까 아니면 The Saimaa Gesture입니까?
Thought 1	Adam Clayton Powell과 The Saimaa Gesture를 검색하여 어떤 다큐멘터리가 핀란드 록 그룹에 대한 것인지 찾아야 합니다.
Action 1	Search[Adam Clayton Powell]
Observation 1	[Adam Clayton Powell]을 찾을 수 없습니다. 유사 항목: ['Adam Clayton Powell III', 'Seventh Avenue (Manhattan)', 'Adam Clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell', 'Adam Clayton Powell (film)', 'Giancarlo Esposito'].
Thought 2	다큐멘터리를 찾기 위해 Adam Clayton Powell (film)을 검색할 수 있습니다.
Action 2	Search[Adam Clayton Powell (film)]
Observation 2	Adam Clayton Powell은 Richard Kilberg가 감독한 1989년 미국 다큐멘터리 영화입니다. 이 영화는 영향력 있는 아프리카계 미국인 정치인 Adam Clayton Powell Jr.의 흥망성쇠에 관한 것입니다. [3][4] 나중에 PBS 시리즈 The American Experience의 일부로 방영되었습니다.
Thought 3	Adam Clayton Powell (film)은 아프리카계 미국인 정치인에 대한 다큐멘터리이며, 핀란드 록 그룹에 대한 것이 아닙니다. 따라서 핀란드 록 그룹에 대한 다큐멘터리는 The Saimaa Gesture여야 합니다.
Action 3	Finish[The Saimaa Gesture]
Question Thought 1
	Nicholas Ray와 Elia Kazan이 공통으로 가진 직업은 무엇입니까? Nicholas Ray와 Elia Kazan을 검색하고, 그들의 직업을 찾은 다음, 그들이 공통으로 가진 직업을 찾아야 합니다.
Action 1	Search[Nicholas Ray]
Observation 1	Nicholas Ray (본명 Raymond Nicholas Kienzle Jr., 1911년 8월 7일 – 1979년 6월 16일)는 1955년 영화 Rebel Without a Cause로 가장 잘 알려진 미국 영화 감독, 시나리오 작가, 배우였습니다.
Thought 2	Nicholas Ray의 직업은 감독, 시나리오 작가, 배우입니다. 다음으로 Elia Kazan을 검색하고 그의 직업을 찾아야 합니다.
Action 2	Search[Elia Kazan]
Observation 2	Elia Kazan은 미국 영화 및 연극 감독, 프로듀서, 시나리오 작가, 배우였습니다.
Thought 3	Elia Kazan의 직업은 감독, 프로듀서, 시나리오 작가, 배우입니다. 따라서 Nicholas Ray와 Elia Kazan이 공통으로 가진 직업은 감독, 시나리오 작가, 배우입니다.
Action 3	Finish[director, screenwriter, actor]
Question Thought 1
	Arthur's Magazine과 First for Women 중 어떤 잡지가 먼저 창간되었습니까? Arthur's Magazine과 First for Women을 검색하고, 어떤 잡지가 먼저 창간되었는지 찾아야 합니다.
Action 1	Search[Arthur's Magazine]
Observation 1	Arthur's Magazine (1844-1846)은 19세기 필라델피아에서 발행된 미국 문학 정기 간행물이었습니다.
Thought 2	Arthur's Magazine은 1844년에 창간되었습니다. 다음으로 First for Women을 검색해야 합니다.
Action 2	Search[First for Women]
Observation 2	First for Women은 미국 Bauer Media Group에서 발행하는 여성 잡지입니다. [1] 이 잡지는 1989년에 창간되었습니다.
Thought 3	First for Women은 1989년에 창간되었습니다. 1844 (Arthur's Magazine) < 1989 (First for Women)이므로, Arthur's Magazine이 먼저 창간되었습니다.
Action 3	Finish[Arthur's Magazine]
Question Thought 1
	Pavel Urysohn과 Leonid Levin은 같은 종류의 작업으로 알려져 있었습니까? Pavel Urysohn과 Leonid Levin을 검색하고, 그들의 작업 유형을 찾은 다음, 같은지 여부를 찾아야 합니다.
Action 1	Search[Pavel Urysohn]

Hotpot QA Prompts - 이전 페이지에서 계속

Observation 1	Pavel Samuilovich Urysohn (1898년 2월 3일 – 1924년 8월 17일)은 차원 이론에 대한 공헌으로 가장 잘 알려진 소련 수학자였습니다.
Thought 2	Pavel Urysohn은 수학자입니다. 다음으로 Leonid Levin을 검색하고 그의 작업 유형을 찾아야 합니다.
Action 2	Search[Leonid Levin]
Observation 2	Leonid Anatolievich Levin은 소련계 미국인 수학자이자 컴퓨터 과학자입니다.
Thought 3	Leonid Levin은 수학자이자 컴퓨터 과학자입니다. 따라서 Pavel Urysohn과 Leonid Levin은 같은 종류의 작업을 했습니다.
Action 3	Finish[yes]

C. 2 Fever

FEVER Prompts

Original	Determine if there is Observation that SUPPORTS or REFUTES a Claim, or if there is NOT ENOUGH INFORMATION.
Claim Answer	Nikolaj Coster-Waldau worked with the Fox Broadcasting Company. SUPPORTS
Claim Answer	Stranger Things is set in Bloomington, Indiana. REFUTES
Claim Answer	Beautiful reached number two on the Billboard Hot 100 in 2003. NOT ENOUGH INFO
Act	Determine if there is Observation that SUPPORTS or REFUTES a Claim, or if there is NOT ENOUGH INFORMATION.
Claim <br> Action2 <br> Observation 1	Nikolaj Coster-Waldau worked with the Fox Broadcasting Company. <br> Search[Nikolaj Coster-Waldau] <br> Nikolaj William Coster-Waldau (born 27 July 1970) is a Danish actor and producer. He graduated from the Danish National School of Performing Arts in Copenhagen in 1993, and had his breakthrough role in Denmark with the film Nightwatch (1994). He played Jaime Lannister in the HBO fantasy drama series Game of Thrones, for which he received two Primetime Emmy Award nominations for Outstanding Supporting Actor in a Drama Series.. Coster-Waldau has appeared in numerous films in his native Denmark and Scandinavia, including Headhunters (2011) and A Thousand Times Good Night (2013). In the U.S, his debut film role was in the war film Black Hawk Down (2001), playing Medal of Honor recipient Gary Gordon. He then played a detective in the short-lived Fox television series New Amsterdam (2008), and appeared in the 2009 Fox television film Virtuality, originally intended as a pilot. <br> Finish[SUPPORTS]
Claim <br> Action 1 <br> Observation 1	Stranger Things is set in Bloomington, Indiana. <br> Search[Stranger Things] <br> Stranger Things is an American science fiction horror drama television series created by the Duffer Brothers. Set in the 1980s, primarily in the fictional town of Hawkins, Indiana, the series centers on a number of mysteries and supernatural events occurring around the town and their impact on an ensemble of child and adult characters. <br> Finish[REFUTES]
Claim <br> Action 1 <br> Observation 1	Could not find [Beautiful]. Similar: ['Beautiful', 'Beautiful, Beautiful', <br> Could not find [Beautiful]. Similar: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film)', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
CoT	Determine if there is Observation that SUPPORTS or REFUTES a Claim, or if there is NOT ENOUGH INFORMATION.
Answer	SUPPORTS
Claim <br> Thought <br> Answer	Stranger Things is set in Bloomington, Indiana. <br> Stranger Things is in the fictional town of Hawkins, Indiana, not in Bloomington, Indiana. <br> REFUTES

Fever Prompts - 이전 페이지에서 계속

Claim	Beautiful reached number two on the Billboard Hot 100 in 2003.
Thought	The song peaked at number two on the Billboard Hot 100 in the United States, but not sure if it was in 2003.
Answer	NOT ENOUGH INFO
ReAct	Determine if there is Observation that SUPPORTS or REFUTES a Claim, or if there is NOT ENOUGH INFORMATION.
Claim	Nikolaj Coster-Waldau worked with the Fox Broadcasting Company.
Thought 1	I need to search Nikolaj Coster-Waldau and find if he has worked with the Fox Broadcasting Company.
Action 1	Search[Nikolaj Coster-Waldau]
Observation 1	Nikolaj William Coster-Waldau (born 27 July 1970) is a Danish actor and producer. He graduated from the Danish National School of Performing Arts in Copenhagen in 1993, and had his breakthrough role in Denmark with the film Nightwatch (1994). He played Jaime Lannister in the HBO fantasy drama series Game of Thrones, for which he received two Primetime Emmy Award nominations for Outstanding Supporting Actor in a Drama Series.. Coster-Waldau has appeared in numerous films in his native Denmark and Scandinavia, including Headhunters (2011) and A Thousand Times Good Night (2013). In the U.S, his debut film role was in the war film Black Hawk Down (2001), playing Medal of Honor recipient Gary Gordon. He then played a detective in the short-lived Fox television series New Amsterdam (2008), and appeared in the 2009 Fox television film Virtuality, originally intended as a pilot.
Thought 2	Because he "appeared in the 2009 Fox television film Virtuality", he should have worked with the Fox Broadcasting Company.
Action 2	Finish[SUPPORTS]
Claim	Stranger Things is set in Bloomington, Indiana.
Thought 1	I should search for Stranger Things, and see if it is set in Bloomington, Indiana.
Action 1	Search[Stranger Things]
Observation 1	Stranger Things is an American science fiction horror drama television series created by the Duffer Brothers. Set in the 1980s, primarily in the fictional town of Hawkins, Indiana, the series centers on a number of mysteries and supernatural events occurring around the town and their impact on an ensemble of child and adult characters.
Thought 2	The observation says that it is set in a "fictional town of Hawkins, Indiana", so it is not set in Bloomington.
Action 2	Finish[REFUTES]
Claim	Beautiful reached number two on the Billboard Hot 100 in 2003.
Thought 1	I need to search the song Beautiful and find if it reached number two on the Billboard Hot 100 in 2003.
Action 1	Search[Beautiful]
Observation 1	Could not find [Beautiful]. Similar: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film)', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
Thought 2	From suggestions, I should search "Beautiful (Christina Aguilera song)" to find the song.
Action 2	Search[Beautiful (Christina Aguilera song)]
Observation 2	"Beautiful" is a song recorded by American singer Christina Aguilera for her fourth studio album, Stripped (2002).
Thought 3	It does not mention Billboard, so I need to look up "Billboard Hot 100" to find if it reached number two on it in 2003.
Action 3	Lookup[Billboard Hot 100]
Observation 3	(Result 1 / 3) The song peaked at number two on the Billboard Hot 100 in the United States, where it was certified Gold for 500,000 units shipped.
Thought 4	It only says the song peaked at number two on the Billboard Hot 100, but not if it was in 2003. I am not sure if this claim is true or not.
Action 4	Finish[NOT ENOUGH INFO]

C. 3 Webshop

Table 6: Section 4의 Webshop 실험에 사용된 prompt. 왼쪽 prompt는 Act에 사용되었고, 오른쪽 prompt(추론 추가)는 ReAct에 사용되었다.

Instruction: i would like a 3 ounce bottle of bright citrus deodorant for sensitive skin, and price lower than 50.00 dollars
Act	ReAct
Action: search [3 ounce bright citrus deodorant sensitive skin] Observation:	Action: search [3 ounce bright citrus deodorant sensitive skin Observation:
[ Back to Search ]	[ Back to Search ]
Page 1 (Total results: 50)	Page 1 (Total results: 50)
[Next]	[Next]
[B078GWRC1J]	[B078GWRC1J]
Bright Citrus Deodorant by Earth Mama \| Natural and Safe for	Bright Citrus Deodorant by Earth Mama \| Natural and Safe for
$10.99	$10.99
[B078GTKVXY]	[B078GTKVXY]
Ginger Fresh Deodorant by Earth Mama I Natural and Safe for	Ginger Fresh Deodorant by Earth Mama I Natural and Safe for
Sensitive Skin, Pregnancy and Breastfeeding, Contains Organic	Sensitive Skin, Pregnancy and Breastfeeding, Contains Organic
$10.99	$10.99
[B08KBVJ4XN]	[B08KBVJ4XN]
2.7 oz , 2-Pack)	Barrel and Oak - Aluminum-Free Deodorant, Deodorant for Men
$15.95	$15.95
Action: click [B078GWRC1J]	Action: think[B078GWRC1J and B078GTKVXY are bright citrus
Observation:	deodorant less then 50 dollars. I can check B078GWRC1J first.
[Back to Search]	Observation: OK.
scent [assorted scents][bright citrus][calming lavender][ginger	Action: click [B078GWRC1J]
[fresh] simply non-scents]	Observation:
size [travel set (4-pack)][3 ounce (pack of 1)][3-ounce (2	[Back to Search]
Bright Citrus Deodorant by Earth Mama I Natural and Safe for	scent [assorted scents][bright citrus][calming lavender][ginger
Calendula 3-Ounce	size [travel set (4-pack)][3 ounce (pack of 1)][3-ounce (2
Rating: N.A.	Bright Citrus Deodorant by Earth Mama \| Natural and Safe for
[Description]	Sensitive Skin, Pregnancy and Breastfeeding, Contains Organic
[Features]	Calendula 3-Ounce
[Reviews]	Price: $10.99
[Buy Now]	Rating: N.A.
Action: click[bright citrus]	[Features]
Observation: You have clicked bright citrus.	[Reviews]
	[Buy Now]
Action: click[3 ounce (pack of 1)]
Observation: You have clicked 3 ounce (pack of 1).	Action: think[For 3 ounce bottle of bright citrus deodorant
Action: click[Buy Now]	Observation: OK.
	Action: click[bright citrus]
	Observation: You have clicked bright citrus.
	Action: click[3 ounce (pack of 1)]
	Observation: You have clicked 3 ounce (pack of 1).
	Action: click[Buy Now]

C. 4 ALFWORLD

Table 7: ALFWorld clean task에 대한 Act prompt. Thought는 제공되지 않는다.

당신은 방 한가운데에 있습니다. 주위를 빠르게 둘러보니, 캐비닛 13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 스토브 버너 4, 스토브 버너 3, 스토브 버너 2, 스토브 버너 1, 그리고 토스터 1이 보입니다.
당신의 임무는: 깨끗한 상추를 식탁에 놓는 것입니다.
> go to fridge 1
냉장고 1이 닫혀 있습니다.
> open fridge 1
냉장고 1을 엽니다. 냉장고 1이 열려 있습니다. 그 안에는 컵 3, 달걀 2, 감자 3, 감자 2가 보입니다.
> go to diningtable 1
식탁 1 위에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 포크 2, 나이프 2, 나이프 1, 국자 1, 상추 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 뒤집개 3, 토마토 2, 토마토 1이 보입니다.
> take lettuce 1 from diningtable 1
식탁 1에서 상추 1을 집어 듭니다.
> go to sinkbasin 1
싱크대 1 위에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 보입니다.
> clean lettuce 1 with sinkbasin 1
싱크대 1을 사용하여 상추 1을 씻습니다.
> think: 이제 상추 (1)를 씻었습니다. 다음으로, 식탁 1에 놓아야 합니다.
OK.
> go to diningtable 1
식탁 1 위에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 포크 2, 나이프 2, 나이프 1, 국자 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 뒤집개 3, 토마토 2, 토마토 1이 보입니다.
> put lettuce 1 in/on diningtable 1
상추 1을 식탁 1에 놓습니다.

Table 8: ALFWorld clean task에 대한 ReAct prompt.

당신은 방 한가운데에 있습니다. 주위를 빠르게 둘러보니, 캐비닛 13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 스토브 버너 4, 스토브 버너 3, 스토브 버너 2, 스토브 버너 1, 그리고 토스터 1이 보입니다.
당신의 임무는: 깨끗한 상추를 식탁에 놓는 것입니다.
> think: 이 task를 해결하려면, 상추를 찾아서 집어 들고, 싱크대에서 씻은 다음, 식탁에 놓아야 합니다.
OK.
> think: 먼저 상추를 찾아야 합니다. 상추는 냉장고 (1), 식탁 (1), 싱크대 (1), 스토브 버너 (1-3), 캐비닛 (1-13)에 있을 가능성이 높습니다. 냉장고 1부터 하나씩 확인해 보겠습니다.
OK.
> go to fridge 1
냉장고 1이 닫혀 있습니다.
> open fridge 1
냉장고 1을 엽니다. 냉장고 1이 열려 있습니다. 그 안에는 컵 3, 달걀 2, 감자 3, 감자 2가 보입니다.
> go to diningtable 1
식탁 1 위에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 포크 2, 나이프 2, 나이프 1, 국자 1, 상추 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 뒤집개 3, 토마토 2, 토마토 1이 보입니다.
> think: 이제 상추 (1)를 찾았습니다. 다음으로, 집어 들어야 합니다.
OK.
> take lettuce 1 from diningtable 1
식탁 1에서 상추 1을 집어 듭니다.
> think: 이제 상추 (1)를 집어 들었습니다. 다음으로, 싱크대 (1)로 가서 씻어야 합니다.
OK.
> go to sinkbasin 1
싱크대 1 위에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 보입니다.
> clean lettuce 1 with sinkbasin 1
싱크대 1을 사용하여 상추 1을 씻습니다.
> think: 이제 상추 (1)를 씻었습니다. 다음으로, 식탁 1에 놓아야 합니다.
OK.
> go to diningtable 1
식탁 1 위에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 포크 2, 나이프 2, 나이프 1, 국자 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 뒤집개 3, 토마토 2, 토마토 1이 보입니다.
> put lettuce 1 in/on diningtable 1
상추 1을 식탁 1에 놓습니다.

Table 9: ALFWorld clean task에 대한 ReAct-IM prompt.

당신은 방 한가운데에 있습니다. 주위를 빠르게 둘러보니, 캐비닛 13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 스토브 버너 4, 스토브 버너 3, 스토브 버너 2, 스토브 버너 1, 그리고 토스터 1이 보입니다.
당신의 임무는: 깨끗한 상추를 식탁에 놓는 것입니다.
> think: 이 task를 해결하려면, 상추를 찾아서 집어 들고, 싱크대에서 씻은 다음, 식탁에 놓아야 합니다.
OK.
> think: 먼저 상추를 찾아야 합니다.
OK.
> go to fridge 1
냉장고 1이 닫혀 있습니다.
> think: 먼저 상추를 찾아야 합니다.
OK.
> open fridge 1
냉장고 1을 엽니다. 냉장고 1이 열려 있습니다. 그 안에는 컵 3, 달걀 2, 감자 3, 감자 2가 보입니다.
> think: 먼저 상추를 찾아야 합니다.
OK.
> go to diningtable 1
식탁 1 위에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 포크 2, 나이프 2, 나이프 1, 국자 1, 상추 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 뒤집개 3, 토마토 2, 토마토 1이 보입니다.
> think: 먼저 상추를 찾아야 합니다.
OK.
> take lettuce 1 from diningtable 1
식탁 1에서 상추 1을 집어 듭니다.
> think: 이 상추 (1)를 싱크대 1을 사용하여 씻어야 합니다.
OK.
> go to sinkbasin 1
싱크대 1 위에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 보입니다.
> think: 이 상추 (1)를 싱크대 1을 사용하여 씻어야 합니다.
OK.
> clean lettuce 1 with sinkbasin 1
싱크대 1을 사용하여 상추 1을 씻습니다.
> think: 이 씻은 상추 (1)를 식탁 1에 놓아야 합니다.
OK.
> go to diningtable 1
식탁 1 위에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 포크 2, 나이프 2, 나이프 1, 국자 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 뒤집개 3, 토마토 2, 토마토 1이 보입니다.
> think: 이 씻은 상추 (1)를 식탁 1에 놓아야 합니다.
OK.
> put lettuce 1 in/on diningtable 1
상추 1을 식탁 1에 놓습니다.

D Trajectories

D. 1 FEVER Trajectories

우리는 FEVER dev 세트에서 무작위로 선택된 몇 가지 예시에 대해 ReAct, CoT 및 Act가 생성한 trajectory를 아래에 제시한다. 검색 결과는 공간 절약을 위해 생략되었다.

예시 2491 (gt: REFUTES)

ReAct
Claim:	Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Thought 1:	I need to search Bermuda Triangle and find if it is in the Pacific Ocean.
Action 1:	Search[Bermuda Triangle]
Observation 1:	Reportedly haunted locations...
Thought 2:	The observation says that it is in the western part of the North Atlantic Ocean, so it is not in the Pacific Ocean.
Action 2:	Finish[REFUTES]
Observation 2:	Episode finished
Act
Claim:	Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Action 1	: Search[Bermuda Triangle]
Observation 1	: Reportedly haunted locations:...
Action 2:	Finish[REFUTES]
Observation 2:	Episode finished
CoT
Claim:	Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Thought:	Let's think step by step. The Bermuda Triangle is a loosely-defined region in the Atlantic Ocean. The Pacific Ocean is not the Atlantic Ocean.
Answer :	REFUTES

예시 5908 (gt: SUPPORTS)

ReAct
Claim:	Princess Mononoke is a film.
Thought 1:	I need to search Princess Mononoke and find if it is a film.
Action 1:	Search[Princess Mononoke]
Observation 1:	Princess Mononoke ...
Thought 2:	From the observation, it says that Princess Mononoke is a film.
Action 2:	Finish[SUPPORTS]
Observation 2:	Episode finished
Act
Claim:	Princess Mononoke is a film.
Action 1:	Search[Princess Mononoke]
Observation 1:	Princess Mononoke ...
Action 2:	Finish[SUPPORTS]
Observation 2:	Episode finished
CoT
Claim:	Princess Mononoke is a film.
Thought:	Let's think step by step. Princess Mononoke is a movie, and movies are films.
Answer :	SUPPORTS

예시 1951 (gt: REFUTES)

ReAct
Claim:	Soyuz was part of the American space program.
Thought 1:	I need to search Soyuz and find if it was part of the American space program.
Action 1:	Search[Soyuz]
Observation 1:	Soyuz is a transliteration...
Thought 2:	It does not mention the American space program, so I need to search "American space program" to find if it was part of it.
Action 2:	Search[American space program]
Observation 2:	The space policy...
Thought 3:	It does not mention Soyuz, so I am not sure if this claim is true or not.
Action 3:	Finish[NOT ENOUGH INFO]
Observation 3:	Episode finished
Act
Claim:	Soyuz was part of the American space program.
Action 1:	Search[Soyuz]
Observation 1:	Soyuz is a transliteration...
Action 2:	Finish[NOT ENOUGH INFO]
Observation 2:	Episode finished
CoT
Claim:	Soyuz was part of the American space program.
Thought:	Let's think step by step. Soyuz is a Russian spacecraft. The American space program is NASA. NASA and Russia have worked together on the International Space Station.
Answer:	SUPPORTS

예시 3208 (gt: REFUTES)

ReAct
Claim:	Reign Over Me is an American film made in 2010.
Thought 1:	I need to search for Reign Over Me and find if it is an American film made in 2010.
Action 1:	Search[Reign Over Me]
Observation 1:	Reign Over Me ...
Thought 2:	The observation says that it is an American film made in 2007, so it is not made in 2010.
Action 2:	Finish[REFUTES]
Observation 2:	Episode finished
Act
Claim:	Reign Over Me is an American film made in 2010.
Action 1:	Search[Reign Over Me]
Action 2:	Finish[SUPPORTS]
Observation 2:	Episode finished
CoT
Claim:	Reign Over Me is an American film made in 2010.
Thought:	Let's think step by step. First, is Reign Over Me an American film? Yes, it is. Second, was it made in 2010? Yes, it was.
Answer:	SUPPORTS

D. 2 ALFWorld Trajectories

우리는 동일한 ALFWorld 게임인 pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754에 대한 ReAct, Act, ReAct-IM의 예시 trajectory를 제공한다.

D.2.1 ReAct trajectory

ReAct는 칼을 정확하게 찾아 깨끗하게 닦은 다음 조리대 위에 놓을 수 있다.

ReAct ALFWorld trajectory

You are in the middle of a room. Looking quickly around you, you see a cabinet 6, a
cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet 1, a coffeemachine 1, a
countertop 3, a countertop 2, a countertop 1, a drawer 3, a drawer 2, a drawer 1, a
fridge 1, a garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin
1, a stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster
1.
Your task is to: put a clean knife in countertop.
> think: To solve the task, I need to find and take a knife, then clean it with
sinkbasin, then put it in countertop.
OK.
> think: First I need to find a knife. A knife is more likely to appear in cabinet
(1-6), drawer (1-3), countertop (1-3), fridge (1), garbagecan (1), shelf (1-3),
sinkbasin (1), stoveburner (1-4), toaster (1). I can check one by one, starting with
cabinet 1.
OK.
> go to cabinet 1
On the cabinet 1, you see a bowl 1.
> go to cabinet 2
The cabinet 2 is closed.
> go to cabinet 3
On the cabinet 3, you see a glassbottle 1.
> go to cabinet 4
On the cabinet 4, you see a mug 1.
> go to cabinet 5
The cabinet 5 is closed.
> go to cabinet 6
The cabinet 6 is closed.
> go to drawer 1
The drawer 1 is closed.
> go to drawer 2
The drawer 2 is closed.
> go to drawer 3
The drawer 3 is closed.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> go to countertop 2
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a knife 1, a
plate 2, a potato 3, and a statue 1.
> think: Now I find a knife (1). Next, I need to take it.
OK.
> take knife 1 from countertop 2
You pick up the knife 1 from the countertop 2.
> think: Now I take a knife (1). Next, I need to go to sinkbasin (1) and clean it.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a fork 3, a lettuce 3, and a spatula 2.
> clean knife 1 with sinkbasin 1
You clean the knife 1 using the sinkbasin 1.
> think: Now I clean a knife (1). Next, I need to put it in/on countertop 1.
OK.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> put knife 1 in/on countertop 1
You put the knife 1 in/on the countertop 1.

D.2.2 Act trajectory

Act는 칼을 정확히 찾아내지만, 실제로 sinkbasin으로 가기 전에 sinkbasin을 사용하여 칼을 닦으려고 시도한다. 그 이후로 모델은 회복하지 못하고 동일한 명령어 시퀀스를 반복하는 데 갇히게 된다. ReAct를 사용했다면, 기존의 thought는 칼이 집어졌고 다음 하위 목표는 칼을 닦기 위해 sinkbasin으로 가는 것이라는 점을 구체적으로 식별했을 것이다.

Act ALFWorld 궤적

You are in the middle of a room. Looking quickly around you, you see a cabinet 6, a
cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet 1, a coffeemachine 1, a
countertop 3, a countertop 2, a countertop 1, a drawer 3, a drawer 2, a drawer 1, a
fridge 1, a garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin
1, a stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster
1.
Your task is to: put a clean knife in countertop.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> go to countertop 2
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a knife 1, a
plate 2, a potato 3, and a statue 1.
> take knife 1 from countertop 2
You pick up the knife 1 from the countertop 2.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> clean knife 1 with sinkbasin 1
Nothing happens.
> go to countertop 3
On the countertop 3, you see a bread 3, a butterknife 2, a cellphone 1, a creditcard
1, a fork 2, a houseplant 1, a knife 2, a spatula 1, a statue 3, a tomato 3, a tomato
2, a tomato 1, and a vase 2.
> take knife 2 from countertop 3
Nothing happens.
> go to countertop 2
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a plate 2, a
potato 3, and a statue 1.
> take knife 1 from countertop 2
Nothing happens.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> clean knife 1 with sinkbasin 1
Nothing happens.
> go to countertop 3
On the countertop 3, you see a bread 3, a butterknife 2, a cellphone 1, a creditcard
1, a fork 2, a houseplant 1, a knife 2, a spatula 1, a statue 3, a tomato 3, a tomato
2, a tomato 1, and a vase 2.
> take knife 2 from countertop 3
Nothing happens.
> go to countertop 2
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a plate 2, a
potato 3, and a statue 1.
> take knife 1 from countertop 2
Nothing happens.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> clean knife 1 with sinkbasin 1
Nothing happens.
> go to countertop 3
On the countertop 3, you see a bread 3, a butterknife 2, a cellphone 1, a creditcard
1, a fork 2, a houseplant 1, a knife 2, a spatula 1, a statue 3, a tomato 3, a tomato
2, a tomato 1, and a vase 2.
> take knife 2 from countertop 3
Nothing happens.
> go to countertop 2
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a plate 2, a
potato 3, and a statue 1.
> take knife 1 from countertop 2
Nothing happens.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> clean knife 1 with sinkbasin 1
Nothing happens.

D.2.3 ReACT-IM TRAJECTORY

ReAct-IM은 칼을 정확히 찾아내지만, 칼을 닦는 데는 실패한다. 이후 LLM은 이 칼을 조리대(countertop)에 놓으려고 계속 시도하며 막히게 된다. 한 가지 가능한 문제는 "think: I need to find a clean knife." 라는 잘못된 사고(thought)이다. 이는 LLM이 칼이 이미 깨끗하다고 믿게 만드는 것으로 보인다. ReAct에서는 이러한 하위 목표(subgoals)의 시퀀스가 각 thought에 의해 구체적으로 포착된다.

ReAct-IM ALFWorld 궤적

You are in the middle of a room. Looking quickly around you, you see a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet 1, a coffeemachine 1, a countertop 3, a countertop 2, a countertop 1, a drawer 3, a drawer 2, a drawer 1, a fridge 1, a garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
> think: To solve the task, I need to find and take a clean knife, then put it in countertop.
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a knife 1, a plate 2 , a potato 3 , and a statue 1 . <br> > think: I need to find a clean knife.
> go to countertop 1
> put knife 1 in/on countertop 1
> put knife 1 in/on countertop 1
> put knife 1 in/on countertop 1
> put knife 1 in/on countertop 1
> put knife 1 in/on countertop 1 <br> Nothing happens.
> think: I need to put this knife (1) in/on countertop 1.
> put knife 1 in/on countertop 1 <br> Nothing happens.
> think: I need to put this knife (1) in/on countertop 1. OK.

D. 3 Webshop Trajectories

Table 10: Act와 ReAct가 Webshop에서 예측한 예시 trajectory. Act와 비교하여 ReAct는 추론(reasoning)을 사용하여 모든 목표 속성을 만족하는 제품을 찾는다.

Instruction: get me a sixteen pack of apple cinnamon freeze dried banana chips, and price lower than 50.00 dollars
Act	ReAct
Action: search [sixteen pack apple cinnamon freeze dried banana chips]	Action: search [sixteen pack apple cinnamon freeze dried banana chips]
Observation:	Observation:
[ Back to Search ]	[ Back to Search ]

Page 1 (Total results: 50) [Next]	Page 1 (Total results: 50) [Next]
[B0061IVFZE]	[B0061IVFZE]
Brothers-ALL-Natural Fruit Crisps, Strawberry Banana, 0.42 Ounce (Pack of 100)	Brothers-ALL-Natural Fruit Crisps, Strawberry Banana, 0.42 Ounce (Pack of 100)

$85.0 [B096H2P6G2]	$85.0 [B096H2P6G2]
Moon Fruit Freeze Dried Fruit Snacks. Fruit Snacks for Kids (Variety Pack)	Moon Fruit Freeze Dried Fruit Snacks. Fruit Snacks for Kids (Variety Pack)

$18.99 [B092JLLYK6]	$18.99 [B092JLLYK6]
Nature's Turn Freeze-Dried Fruit Snacks - Banana Crisps - Perfect	Nature's Turn Freeze-Dried Fruit Snacks - Banana Crisps - Perfect
For School Lunches or an On-The-Go Snack - No Sugar Added, Non GMO, Gluten Free, Nothing Artificial ( 0.53 oz ) 6-Pack $12.99	For School Lunches or an On-The-Go Snack - No Sugar Added, Non GMO, Gluten Free, Nothing Artificial (0.53oz) 6-Pack $12.99
Action: click [B0061IVFZE]	Action: think[B0061IVFZE는 strawberry banana이며, apple cinnamon이 아니다. B096H2P6G2는 fruit snacks이며, freeze dried banana chips가 아니다.
[Back to Search] Prev	B092JLLYK6는 banana crisps이며, apple cinnamon이 아니다. B092JLLYK6를 먼저 확인할 수 있다.]
	Observation: OK.
0.42 Ounce (Pack of 100)	Action: click [B092JLLYK6]
Price: $\$ 85.0$	Observation:
Rating: N.A.	[Back to Search]
[Description]	[Prev]
[Features]	flavor name [apple][apple cinnamon][banana][cantaloupe][peach][pear]
[Reviews]	[strawberry][strawberry banana][sampler variety pack][mega variety
[Buy Now]	pack][orchard variety pack]
Action: click[Buy Now]	size [ 0.53 ounce (pack of 6 )][ 0.53 ounce (pack of 8)][0.53 ounce (pack of 16)]
	Nature's Turn Freeze-Dried Fruit Snacks - Banana Crisps - Perfect For School Lunches or an On-The-Go Snack - No Sugar Added, Non GMO, Gluten Free, Nothing Artificial (0.53oz) 6-Pack <br> Price: $\$ 12.99$ <br> Rating: N.A. <br> [Description] <br> [Features] <br> [Reviews] <br> [Buy Now]
	Action: think[sixteen pack의 apple cinnamon freeze dried banana chips의 경우, 해당 품목은 'apple cinnamon'과 '0.53 ounce (pack of 16)' 옵션을 가지고 있으며 구매하기에 적합해 보인다.]
	Action: click[apple cinnamon]
	Observation: You have clicked apple cinnamon.
	Action: click[0.53 ounce (pack of 16)]
	Observation: You have clicked 0.53 ounce (pack of 16).
	Action: click[Buy Now]
Score: 0.125	Score: 1.0

E More Analysis

E. 1 Success and Failure Modes Analysis

우리는 Sec. 3.3에 제시된 성공 및 오류 모드 분석에 해당하는 몇 가지 예시를 제공한다. 공간 절약을 위해 검색 결과 및 대표성이 낮은 단계는 생략되었다.

성공: True positive
ReAct
Question:	작가 David Chanoff는 어떤 대통령 밑에서 영국 대사를 지낸 미 해군 제독과 협력했습니까?
Thought 1:	David Chanoff를 검색하여 그가 협력한 미 해군 제독을 찾아야 한다.
Action 1:	Search[David Chanoff]
Observation 1:	David Chanoff는 저명한 작가이다...
Action 2:	Search[William J. Crowe]
Observation 2:	William J. Crowe는...
Thought 3:	William J. Crowe는 Bill Clinton 대통령 밑에서 영국 대사를 지냈다. 따라서 정답은 Bill Clinton이다.
Action 3:	Finish[Bill Clinton]
Observation 3:	에피소드 종료
CoT
Question:	애리조나, 캘리포니아, 뉴멕시코를 포함한 미국 서부의 넓은 지역을 아우르는 컨퍼런스에서 애리조나 대학을 대표했던 팀의 이름은 무엇이었습니까?
Thought:	단계별로 생각해보자. 애리조나, 캘리포니아, 뉴멕시코를 포함한 미국 서부의 넓은 지역을 아우르는 컨퍼런스에서 애리조나 대학을 대표했던 팀의 이름은 Arizona State Sun Devils이다.
Answer:	Arizona State Sun Devils

성공: False positive
ReAct
Question:	보드게임 San Marco와 About Time 중 어느 것이 먼저 출시되었습니까?
Thought 1:	San Marco와 About Time을 검색하여 어느 것이 먼저 출시되었는지 찾아야 한다.
Action 1:	Search[San Marco]
Observation 1:	San Marco는 ... 베니스에 지어졌다.
Thought 2:	San Marco는 베니스의 세스티에레(sestiere)이다. 다음으로 About Time을 검색해야 한다.
Action 2:	Search[About Time]
Observation 2:	[About Time]을 찾을 수 없습니다. 유사 항목: [...].
Thought 3:	About Time은 2013년 영화이다. 따라서 San Marco가 먼저 출시되었다.
Action 3:	Finish[San Marco]
Observation 3:	에피소드 종료
CoT
Question:	Vanderbilt University와 Emory University 중 어느 대학이 먼저 설립되었습니까?
Thought:	단계별로 생각해보자. Vanderbilt University는 1873년에 설립되었다. Emory


Answer :	Emory University

실패: 추론 오류 (Reasoning error)
ReAct
Question:	Hairspray에서 Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, Marissa Jaret Winokur와 함께 캐스팅된 여배우의 중간 이름은 무엇입니까?
Thought 1:	Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, Marissa Jaret Winokur를 검색하여 Hairspray에서 그들과 함께 캐스팅된 여배우를 찾은 다음, 그 여배우의 중간 이름을 찾아야 한다.
Action 1:	Search[Harvey Fierstein]
Observation 1:	Harvey Forbes Fierstein ...
Thought 2:	Harvey Fierstein은 배우, 극작가, 시나리오 작가이다. 다음으로 Linda Hart를 검색해야 한다...
Action 2:	Search[Linda Hart]...
CoT
Question:	Danny Green과 James Worthy 중 누가 더 나이가 많습니까?
Thought:	단계별로 생각해보자. Danny Green은 1987년에 태어났다. James Worthy는 1961년에 태어났다. 1987 (Danny Green) > 1961 (James Worthy)이므로, Danny Green이 더 나이가 많다.
Answer:	Danny Green

실패: 검색 오류 (Search error)
ReAct
Question:	여신 Frigg와 관련된 여신은 어떤 이야기들로 구성되어 있습니까?
Thought 1:	여신 Frigg를 검색하여 그와 관련된 여신을 찾아야 한다.
Action 1:	Search[goddess frigg]
Observation 1:	goddess frigg를 찾을 수 없습니다. 유사 항목: ['Frigg', 'Frigg and Freyja common origin hypothesis', 'Freyja (section Relation to Frigg and other goddesses and figures)', 'Eir (redirect from Eir (goddess))', 'Baldr'].
Thought 2:	대신 Frigg를 검색해야 한다...

실패: 환각 (Hallucination)
CoT
Question:	Bronx에 위치한 기관에서 발행한 과학 저널이 처음 출판된 해는 언제입니까?
Thought:	단계별로 생각해보자. Bronx에 위치한 기관에서 발행한 과학 저널이 처음 출판된 해는 1916년이다.
Answer:	1916 (Label: 1909)

실패: Label ambiguity

ReAct
Question:	독재자 게임을 개발한 남자의 국적은 무엇입니까?
Thought 1:	독재자 게임을 검색하여 개발한 남자를 찾은 다음, 그의 국적을 찾아야 한다.
Action 1:	Search[dictator game]
Observation 1:	독재자 게임은 사회 심리학 및 경제학에서 인기 있는 실험 도구이다...
Action 3:	Search[Amos Tversky]
Observation 3:	Amos Nathan Tversky...
Thought 4:	Amos Tversky는 이스라엘의 인지 및 수학 심리학자이다. 따라서 독재자 게임을 개발한 남자는 이스라엘인이다.
Action 4:	Finish[Israeli] (label: Israel-American)
CoT
Question:	캘리포니아 스톡턴 출신의 Kurt Fuller는 Steve Franks가 만든 어떤 미국 탐정 코미디 드라마 TV 시리즈에 출연했습니까?
Thought:	단계별로 생각해보자. 캘리포니아 스톡턴 출신의 Kurt Fuller는 Psych에 출연했다. Psych는 Steve Franks가 만든 미국 탐정 코미디 드라마 TV 시리즈이다.
Answer:	Psych (label: Psych는 미국 탐정 코미디 드라마이다)

ReAct: Synergizing Reasoning and Acting in Language Models

Abstract

1 Introduction

2 ReAct: Synergizing Reasoning + Acting

3 Knowledge-Intensive Reasoning Tasks

3.1 Setup

3.2 Methods

3.3 Results and Observations

4 Decision Making Tasks

5 Related Work

6 Conclusion

Acknowledgments

Reproducibility Statement

Ethics Statement

A Additional Results

A. 1 GPT-3 Experiments

A. 2 ReAct obtains up-to-date knowledge on HotpotQA

A. 3 Human-in-the-loop behavior correction on AlfWorld

B Experiment Details

B. 1 HotpotQA Finetuning Details

B. 2 AlfWorld IM-Style Details

C Prompts

C. 1 HotpotQA

C. 2 Fever

C. 3 Webshop

C. 4 ALFWORLD

D Trajectories

D. 1 FEVER Trajectories

D. 2 ALFWorld Trajectories

D.2.1 ReAct trajectory

D.2.2 Act trajectory

D.2.3 ReACT-IM TRAJECTORY

D. 3 Webshop Trajectories

E More Analysis

E. 1 Success and Failure Modes Analysis