PaLM-E: An Embodied Multimodal Language Model

PaLM-E는 로보틱스 문제 해결을 위해 실제 세계의 연속적인 센서 데이터(예: 이미지)를 Large Language Models (LLMs)에 직접 통합하여 언어와 인식 사이의 연결, 즉 grounding 문제를 해결하는 Embodied Language Model입니다. 이 모델은 이미지나 상태와 같은 다양한 modality의 입력을 텍스트 토큰과 함께 "multimodal sentences"로 처리하며, pre-trained된 LLM과 함께 end-to-end로 학습됩니다. PaLM-E는 로봇 조작 계획, visual question answering 등 다양한 embodied reasoning task에서 높은 성능을 보이며, 인터넷 스케일의 언어 및 비전 데이터를 함께 학습함으로써 지식 전이(transfer learning) 효과를 입증했습니다. 논문 제목: PaLM-E: An Embodied Multimodal Language Model

Driess, Danny, et al. "Palm-e: An embodied multimodal language model." (2023).

PaLM-E: An Embodied Multimodal Language Model

Figure 1: PaLM-Eembodied reasoning task, visual-language task, language task를 위한 단일 범용 멀티모달 language model이다. PaLM-E는 visual-language domain의 지식을 embodied reasoning으로 전이시킨다. 이는 복잡한 역학 및 물리적 제약이 있는 환경에서의 로봇 계획부터 관찰 가능한 세계에 대한 질문에 답하는 것까지 포함한다. PaLM-E는 멀티모달 문장으로 작동한다. 즉, 임의의 modality(예: 이미지, neural 3D representation 또는 상태(녹색 및 파란색))의 입력이 텍스트 토큰(주황색)과 함께 LLM의 입력으로 삽입되는 토큰 시퀀스이며, end-to-end로 학습된다.

Abstract

대규모 language model은 복잡한 task를 수행할 수 있음이 입증되었다. 그러나 로봇 공학 문제와 같이 실세계에서 일반적인 추론(general inference)을 가능하게 하는 것은 grounding이라는 도전 과제를 제기한다. 우리는 embodied language model을 제안하여 실세계의 연속적인 센서 모달리티를 language model에 직접 통합하고, 이를 통해 단어와 지각(percepts) 사이의 연결을 구축한다.

우리의 embodied language model의 입력은 시각, 연속적인 상태 추정, 텍스트 입력 인코딩이 섞여 있는(interleave) 멀티모달 문장이다. 우리는 이러한 인코딩을 사전학습된 대규모 language model과 함께 end-to-end로 학습시키며, 여기에는 순차적인 로봇 조작 계획, visual question answering, captioning을 포함한 여러 embodied task가 포함된다.

우리의 평가는 단일 대규모 embodied multimodal model인 PaLM-E다양한 관측 모달리티와 여러 embodiment에 걸쳐 다양한 embodied reasoning task를 해결할 수 있음을 보여준다. 나아가, PaLM-E는 긍정적인 전이(positive transfer) 효과를 보인다: 즉, 인터넷 규모의 언어, 비전, visual-language 도메인에 걸친 다양한 공동 학습으로부터 모델이 이점을 얻는다.

우리의 가장 큰 모델인 5,620억 개의 파라미터를 가진 PaLM-E-562B는 로봇 공학 task 외에도 OK-VQA에서 state-of-the-art 성능을 달성하는 visual-language generalist이며, 규모가 커질수록 일반적인 언어 능력도 유지한다.

1. Introduction

대규모 언어 모델(LLM)은 대화 (Glaese et al., 2022; Thoppilan et al., 2022), 단계별 추론 (Wei et al., 2022; Kojima et al., 2022), 수학 문제 해결 (Lewkowycz et al., 2022; Polu et al., 2022), 코드 작성 (Chen et al., 2021a) 등 다양한 영역에서 강력한 추론 능력을 보여준다. 그러나 실제 세계에서의 추론을 위한 이러한 모델의 한계점은 grounding 문제이다. LLM을 방대한 텍스트 데이터로 학습시키는 것이 물리적 세계와 관련된 표현을 이끌어낼 수 있지만, 컴퓨터 비전 및 로봇 공학 분야에서 더 넓은 범위의 grounded된 실제 문제들을 해결하기 위해서는 이러한 표현들을 실제 세계의 시각 및 물리적 센서 모달리티와 연결하는 것이 필수적이다 (Tellex et al., 2020). 이전 연구 (Ahn et al., 2022)는 LLM의 출력을 학습된 로봇 정책 및 affordance 함수와 연결하여 의사결정을 내리지만, LLM 자체에 텍스트 입력만 제공되어 장면의 기하학적 구성이 중요한 많은 task에는 불충분하다는 한계가 있다. 또한, 우리의 실험에서 VQA(Visual Question Answering)와 같은 일반적인 vision-language task로 학습된 현재 state-of-the-art visual-language model은 로봇 추론 task를 직접적으로 해결할 수 없음을 보여준다.

본 논문에서는 embodied language model을 제안한다. 이 모델은

Figure 2: PaLM-E-562B는 zero-shot multimodal chain-of-thought 추론을 수행할 수 있고, 이미지가 주어졌을 때 시각적으로 조건화된 농담을 할 수 있으며, 인지, 시각적으로 grounded된 대화, 계획을 포함한 다양한 로봇 관련 멀티모달 정보 기반 능력을 보여준다. PaLM-E는 또한 단일 이미지 prompt로만 학습되었음에도 불구하고, multi-image prompt에 대해 zero-shot으로 일반화된다. PaLM-E는 텍스트와 섞인 손글씨 숫자가 있는 이미지가 주어졌을 때 수학 문제도 풀 수 있다. 또한, 이 모델은 (Zeng et al., 2022)에서 보여준 것과 유사하게 시간적으로 주석이 달린 egocentric vision에 대해 zero-shot으로 질문 및 답변을 수행할 수 있으며, 이 모든 것이 하나의 모델에서 end-to-end로 이루어진다.

embodied agent의 센서 모달리티로부터 연속적인 입력을 직접 통합하여, language model 자체가 실제 세계에서 순차적인 의사결정을 위한 더 grounded된 추론을 할 수 있도록 한다. 이미지 및 상태 추정치와 같은 입력은 언어 토큰과 동일한 잠재 임베딩으로 임베딩되고, Transformer 기반 LLM의 self-attention layer에 의해 텍스트와 동일한 방식으로 처리된다. 우리는 사전학습된 LLM에서 시작하여 encoder를 통해 연속적인 입력을 주입한다. 이 encoder들은 저수준 정책을 조건화하거나 embodied 질문에 답변함으로써 embodied agent가 해석할 수 있는 자연어 텍스트 형태의 순차적 의사결정을 출력하도록 end-to-end로 학습된다. 우리는 다양한 설정에서 이 접근 방식을 평가하며, 서로 다른 입력 표현 (예: 시각 입력에 대한 표준 ViT 인코딩 vs. object-centric ViT 인코딩), encoder 학습 시 language model의 freezing vs. finetuning, 그리고 여러 task에 대한 co-training이 전이 학습을 가능하게 하는지를 조사한다.

이 접근 방식의 폭넓은 적용 가능성을 조사하기 위해, 우리는 세 가지 로봇 조작 도메인 (이 중 두 가지는 실제 세계에서 closed-loop), VQA 및 이미지 캡셔닝과 같은 표준 visual-language task, 그리고 언어 task에 대해 평가한다. 우리의 결과는 멀티태스크 학습이 개별 task에 대해 모델을 학습시키는 것보다 성능을 향상시킨다는 것을 나타낸다. 우리는 이러한 task 간 전이가 로봇 task에 대한 높은 데이터 효율성으로 이어질 수 있음을 보여준다. 예를 들어, 소수의 학습 예시만으로 학습 성공률을 크게 높이고, 심지어 객체의 새로운 조합이나 보지 못한 객체에 대해 one-shot 또는 zero-shot 일반화를 보여준다.

우리는 PaLM-E를 562B 파라미터 규모로 확장했으며, 540B PaLM (Chowdhery et al., 2022) LLM과 22B Vision Transformer (ViT) (Dehghani et al., 2023)를 통합하여, 우리가 아는 한 현재까지 보고된 가장 큰 vision-language model을 만들었다. PaLM-E-562B는 task-specific finetuning에 의존하지 않고 OK-VQA (Marino et al., 2019) 벤치마크에서 state-of-the-art 성능을 달성한다. 비록 우리의 실험의 주요 초점은 아니지만, 우리는 또한 (Fig. 2) PaLM-E-562B가 단일 이미지 예시로만 학습되었음에도 불구하고, zero-shot multimodal chain-of-thought (CoT) 추론, few-shot prompting, OCR-free 수학 추론, multi-image 추론을 포함한 광범위한 능력을 보여준다는 것을 발견했다. 원래 언어 전용 개념이었던 **Zero-shot CoT (Kojima et al., 2022)**는 task-specific 프로그램 (Zeng et al., 2022)을 통해 멀티모달 데이터에서 시연되었지만, 우리가 아는 한 end-to-end 모델을 통해서는 시연된 바 없다.

우리의 주요 기여를 요약하면 다음과 같다: (1) 우리는 embodied 데이터를 멀티모달 대규모 언어 모델 학습에 혼합함으로써 범용적이고 전이 학습된 다중 embodiment 의사결정 agent를 학습할 수 있음을 제안하고 시연한다. (2) 현재 state-of-the-art 범용 visual-language model이 out-of-the-box (zero-shot) 상태에서 embodied 추론 문제를 잘 해결하지 못하지만, 효율적인 embodied reasoner이기도 한 유능한 범용 visual-language model을 학습하는 것이 가능함을 보여준다. 이러한 모델을 최적으로 학습하는 방법을 연구하면서, (3) 우리는 신경 장면 표현(neural scene representation) 및 entity-labeling 멀티모달 토큰과 같은 새로운 아키텍처 아이디어를 도입한다. 마지막으로, embodied reasoner로서의 PaLM-E에 대한 우리의 초점 외에도, (4) 우리는 PaLM-E가 정량적으로 유능한 vision 및 language generalist임을 보여주고, (5) language model 크기를 확장하는 것이 catastrophic forgetting을 줄이면서 멀티모달 finetuning을 가능하게 함을 시연한다.

범용 vision-language 모델링.
대규모 language model (Brown et al., 2020; Devlin et al., 2018) 및 vision model (Dosovitskiy et al., 2020)의 성공에 힘입어, 최근 몇 년간 대규모 vision-language model (VLM) (Li et al., 2019; Lu et al., 2019; Hao et al., 2022; Gan et al., 2022)에 대한 관심이 증가하고 있다. 기존 모델과 달리, VLM은 이미지와 텍스트를 동시에 이해할 수 있으며, visual question answering (Zhou et al., 2020; Zellers et al., 2021b), captioning (Hu et al., 2022), optical character recognition (Li et al., 2021), object detection (Chen et al., 2021b)과 같은 task에 적용될 수 있다.
이미지를 통합하는 방식은 다양하다. 예를 들어, Alayrac et al. (2022)은 사전학습된 language model에 단일 context 이미지에 직접 attend하는 메커니즘을 추가한다. 이와 대조적으로, PaLM-E는 이미지와 텍스트를 latent vector로 구성된 "multimodal sentence"로 표현하여, 문장의 어느 부분에서든 여러 이미지를 유연하게 처리할 수 있도록 한다.
우리의 연구와 더 밀접하게 관련된 것은 Frozen (Tsimpoukelli et al., 2021)으로, 여기서는 vision encoder 파라미터가 frozen된 LLM (Lu et al., 2021)을 통해 역전파 방식으로 최적화된다. 이 연구에서 영감을 받아, 우리는 대체 입력 modality (예: neural scene representation)를 도입하여 더 넓은 범위에서 설계를 탐구했으며, 우리의 제안된 접근 방식은 VQAv2 벤치마크에서 Frozen보다 45% 이상 우수한 성능을 경험적으로 보여준다. 더 중요한 것은, PaLM-E가 지각(perceptual) task뿐만 아니라 embodied task에도 적용 가능함을 입증한다는 점이다.

Actions-output 모델.
기존 연구들은 embodied setting에서 비전 및 언어 입력을 결합하여 직접적인 action 예측을 목표로 한다 (Guhur et al., 2022; Shridhar et al., 2022b;a; Zhang & Chai, 2021; Silva et al., 2021; Jang et al., 2022; Nair et al., 2022; Lynch et al., 2022; Brohan et al., 2022). 이들 방법 중 VIMA (Jiang et al., 2022)는 PaLM-E와 유사하게 multimodal prompt를 탐구한다. 이 연구들에서 언어의 역할은 task specification으로 가장 적절하게 설명될 수 있다. 이와 대조적으로, PaLM-E는 고수준의 지시(high-level instructions)를 텍스트로 생성한다. 이를 통해 모델은 자신의 예측에 자연스럽게 조건을 부여하고, 파라미터에 내재된 세계 지식(world knowledge)을 직접 활용할 수 있다. 이는 우리의 실험에서 입증되었듯이, embodied reasoning뿐만 아니라 질문 응답(question answering)도 가능하게 한다. action을 출력하는 모델 중 가장 유사한 접근 방식은 Gato (Reed et al., 2022)에서 제안된 것으로, PaLM-E와 마찬가지로 범용적인 multi-embodiment agent이다. Gato와 달리, 우리는 **모델이 여러 도메인에 걸친 다양한 공동 학습(diverse joint training)을 통해 이점을 얻는, 서로 다른 task 간의 긍정적인 전이(positive transfer)**를 보여준다.

Embodied task planning에서의 LLM 활용.
embodied domain에서 LLM을 활용하기 위한 여러 방법들이 제안되어 왔다. 많은 연구들이 자연어 목표 이해에 초점을 맞추는 반면 (Lynch & Sermanet, 2020; Shridhar et al., 2022a; Nair et al., 2022; Lynch et al., 2022), 자연어를 계획(planning)을 위한 표현으로 고려하는 연구는 적다. LLM은 세계에 대한 방대한 양의 내재화된 지식을 포함하고 있지만 (Bommasani et al., 2021), grounding 없이는 생성된 계획을 실행하는 것이 불가능할 수 있다.
한 연구 분야에서는 prompting을 사용하여 LLM으로부터 직접 일련의 지시를 유도하는 방법을 사용했다. 이는 LLM의 생성과 적합한 지시 집합 간의 의미론적 유사성을 활용하거나 (Huang et al., 2022b), affordance function을 통합하거나 (Ahn et al., 2022), 시각적 피드백을 활용하거나 (Huang et al., 2022c), world model을 생성하거나 (Nottingham et al., 2023; Zellers et al., 2021a), 그래프 및 지도 기반 계획을 세우거나 (Shah et al., 2022; Huang et al., 2022a), 시각적 설명을 제공하거나 (Wang et al., 2023), 프로그램을 생성하거나 (Liang et al., 2022; Singh et al., 2022), 또는 prompt에 정보를 주입하는 방식 (Zeng et al., 2022) 등을 포함한다. 이와 대조적으로, PaLM-E는 grounding을 위한 보조 모델에 의존하지 않고 직접 계획을 생성하도록 학습된다. 이는 사전학습된 LLM에 저장된 풍부한 의미론적 지식(semantic knowledge)을 계획 과정에 직접 통합할 수 있게 한다.
몇 가지 예외를 제외하고, 이들 연구에서 사용된 LLM의 파라미터는 추가 학습 없이 그대로 사용된다. LID (Li et al., 2022)에서는 이러한 제약이 완화되어, LLM 파라미터가 고수준 지시(high-level instructions)를 생성하는 계획 네트워크를 만들기 위해 fine-tuning된다. (SL)3^3 (Sharma et al., 2021)은 두 개의 LLM을 동시에 fine-tuning하는 더 어려운 task를 다룬다: 고수준 지시를 생성하는 계획 네트워크와 action을 선택하는 저수준 정책 네트워크. PaLM-E의 경우, 우리의 관심사는 이들과는 다르면서도 상호 보완적이다. 우리는 다양한 modality에 걸쳐 범용적이고 multi-embodiment 모델을 탐구한다.

3. PaLM-E: An Embodied Multimodal Language Model

PaLM-E의 주요 아키텍처 아이디어는 이미지, 상태 추정치 또는 기타 센서 모달리티와 같은 연속적인 embodied 관측치(observations)를 사전학습된 language model의 언어 임베딩 공간에 주입하는 것이다. 이는 연속적인 관측치들을 언어 토큰의 임베딩 공간과 동일한 차원을 가진 벡터 시퀀스로 인코딩함으로써 구현된다. 따라서 연속적인 정보는 언어 토큰과 유사한 방식으로 language model에 주입된다. PaLM-E는 prefix 또는 prompt가 주어졌을 때 텍스트 완성을 autoregressive하게 생성하는 decoder-only LLM이다. 우리는 PaLM (Chowdhery et al., 2022)을 사전학습된 language model로 사용하고 이를 Embodied하게 만들었기 때문에 우리 모델을 PaLM-E라고 부른다.

PaLM-E의 입력은 텍스트와 (다수의) 연속적인 관측치로 구성된다. 이러한 관측치에 해당하는 멀티모달 토큰들은 텍스트와 섞여(interleaved) 멀티모달 문장을 형성한다. 이러한 멀티모달 문장의 예시는 QQ: What happened between <img_1> and <img_2>? 이며, 여기서 <img_i>는 이미지의 임베딩을 나타낸다. PaLM-E의 출력은 모델에 의해 autoregressive하게 생성된 텍스트이며, 이는 질문에 대한 답변이거나, 로봇이 실행해야 할 **PaLM-E가 텍스트 형태로 생성한 일련의 결정(decisions)**일 수 있다. PaLM-E가 결정이나 계획을 생성하는 task를 맡을 때, 우리는 이러한 결정들을 저수준(low-level) 행동으로 변환할 수 있는 저수준 policy 또는 planner가 존재한다고 가정한다. 선행 연구들은 이러한 저수준 policy를 학습하는 다양한 방법들을 논의해왔으며 (Lynch & Sermanet, 2020; Brohan et al., 2022), 우리는 이러한 기존 방법들을 수정 없이 직접 사용한다. 다음에서는 우리의 접근 방식을 더 공식적으로 설명한다.

Decoder-only LLMs. **Decoder-only large language model (LLM)**은 텍스트 w1:L=(w1,,wL)w_{1:L}=\left(w_{1}, \ldots, w_{L}\right)의 확률 p(w1:L)p\left(w_{1: L}\right)을 예측하도록 학습된 생성 모델이다. 여기서 텍스트는 토큰 wiWw_{i} \in \mathcal{W}의 시퀀스로 표현된다. 일반적인 신경망 아키텍처는 이를 다음과 같이 분해하여 구현한다:

p(w1:L)=l=1LpLM(wlw1:l1)p\left(w_{1: L}\right)=\prod_{l=1}^{L} p_{\mathrm{LM}}\left(w_{l} \mid w_{1: l-1}\right)

여기서 pLMp_{\mathrm{LM}}은 대규모 Transformer 네트워크이다.

Prefix-decoder-only LLMs. LLM은 autoregressive하므로, 사전학습된 모델은 아키텍처 변경 없이 prefix w1:nw_{1:n}에 조건화될 수 있다:

p(wn+1:Lw1:n)=l=n+1LpLM(wlw1:l1)p\left(w_{n+1: L} \mid w_{1: n}\right)=\prod_{l=n+1}^{L} p_{\mathrm{LM}}\left(w_{l} \mid w_{1: l-1}\right)

Prefix 또는 prompt w1:nw_{1:n}은 LLM이 후속 토큰 wn+1:Lw_{n+1:L}을 예측하는 데 기반이 되는 context를 제공한다. 이는 종종 모델의 예측을 유도하기 위한 추론(inference)에 사용된다. 예를 들어, prompt는 LLM이 해결해야 할 task에 대한 설명이나 유사한 task에 대한 원하는 텍스트 완성 예시를 포함할 수 있다.

Token embedding space. 토큰 wiw_{i}고정된 어휘 W\mathcal{W}의 요소이며, 이는 자연어의 (하위)단어에 해당하는 이산적이고 유한한 집합이다. 내부적으로 LLM은 wiw_{i}단어 토큰 임베딩 공간 XRk\mathcal{X} \subset \mathbb{R}^{k}γ:WX\gamma: \mathcal{W} \rightarrow \mathcal{X}를 통해 임베딩한다. 즉, pLM(wlx1:l1)p_{\mathrm{LM}}\left(w_{l} \mid x_{1: l-1}\right)이며 xi=γ(wi)Rkx_{i}=\gamma\left(w_{i}\right) \in \mathbb{R}^{k}이다. 매핑 γ\gamma는 일반적으로 크기 k×Wk \times|\mathcal{W}|의 대규모 임베딩 행렬로 표현되며 end-to-end로 학습된다. 우리의 경우, W=256000|\mathcal{W}|=256000이다 (Chowdhery et al., 2022).

Multi-modal sentences: 연속적인 관측치 주입. 이미지 관측치와 같은 멀티모달 정보는 이산적인 토큰 수준을 건너뛰고 연속적인 관측치를 언어 임베딩 공간 X\mathcal{X}에 직접 매핑함으로써 LLM에 주입될 수 있다. 이를 위해 우리는 (연속적인) 관측 공간 O\mathcal{O} (자세한 내용은 Sec. 4 참조)를 X\mathcal{X} 내의 qq개 벡터 시퀀스로 매핑하는 encoder ϕ:OXq\phi: \mathcal{O} \rightarrow \mathcal{X}^{q}를 학습한다. 이 벡터들은 일반적인 임베딩된 텍스트 토큰과 섞여(interleaved) LLM의 prefix를 형성한다. 이는 prefix의 각 벡터 xix_{i}가 단어 토큰 임베더 γ\gamma 또는 encoder ϕi\phi_{i} 중 하나로부터 형성됨을 의미한다:

xi={γ(wi) if i a is text token, or ϕj(Oj)i if i corresponds to observation Ojx_{i}= \begin{cases}\gamma\left(w_{i}\right) & \text { if } i \text { a is text token, or } \\ \phi_{j}\left(O_{j}\right)_{i} & \text { if } i \text { corresponds to observation } O_{j}\end{cases}

단일 관측치 OjO_{j}는 일반적으로 여러 임베딩 벡터로 인코딩된다는 점에 유의하라. 예를 들어, 서로 다른 관측 공간의 정보를 결합하기 위해 prefix의 다른 위치에 다른 encoder ϕi\phi_{i}를 interleave하는 것이 가능하다. 이러한 방식으로 연속적인 정보를 LLM에 주입하면 기존의 positional encoding을 재사용할 수 있다. 다른 VLM 접근 방식 (예: (Chen et al., 2022))과 달리, 관측 임베딩은 고정된 위치에 삽입되지 않고, 주변 텍스트 내에 동적으로 배치된다.

출력의 Embodiment: 로봇 제어 루프 내의 PaLM-E. PaLM-E는 멀티모달 문장을 입력으로 받아 텍스트를 생성하는 생성 모델이다. 모델의 출력을 embodiment와 연결하기 위해 두 가지 경우를 구분한다. 만약 task가 embodied question answering 또는 장면 설명 task와 같이 텍스트 출력만으로 완료될 수 있다면, 모델의 출력은 task에 대한 해결책으로 직접 간주된다.

대안적으로, PaLM-E가 embodied planning 또는 control task를 해결하는 데 사용된다면, 저수준 명령(low-level commands)을 조건화하는 텍스트를 생성한다. 특히, 우리는 (작은) 어휘에서 저수준 기술(low-level skills)을 수행할 수 있는 policy에 접근할 수 있다고 가정하며, PaLM-E의 성공적인 계획은 이러한 기술들의 시퀀스로 구성되어야 한다. PaLM-E는 학습 데이터와 prompt를 기반으로 어떤 기술을 사용할 수 있는지 스스로 결정해야 하며, 출력을 제한하거나 필터링하는 다른 메커니즘은 사용되지 않는다. 이러한 policy들은 언어 조건화되어 있지만, 장기적인 task를 해결하거나 복잡한 지시를 받아들일 수는 없다. 따라서 PaLM-E는 제어 루프(control-loop)에 통합되며, 예측된 결정은 로봇에 의해 저수준 policy를 통해 실행되고, 이는 새로운 관측치로 이어져 PaLM-E가 필요할 경우 재계획(replan)할 수 있도록 한다. 이러한 의미에서 PaLM-E는 저수준 policy들을 순서화하고 제어하는 고수준 policy로 이해될 수 있다.

4. Input & Scene Representations for Different Sensor Modalities

이 섹션에서는 PaLM-E에 통합하는 개별 모달리티와 해당 인코더를 설정하는 방법을 설명한다. 우리는 각 인코더 ϕ:OX\phi: \mathcal{O} \rightarrow \mathcal{X}가 해당 모달리티를 language embedding space로 매핑하도록 다양한 아키텍처 선택을 제안한다. 우리는 state estimation vector, 2D 이미지 feature를 위한 Vision Transformer (ViT) (Dosovitskiy et al., 2020; Chen et al., 2022; Ryoo et al., 2021), 그리고 3D-aware Object Scene Representation Transformer (OSRT) (Sajjadi et al., 2022a)를 조사한다. 입력 장면을 전역적으로 표현하는 인코더 외에도, 우리는 장면 내 개별 객체를 나타내는 token으로 관측치를 분해하는 **객체 중심 표현(object-centric representation)**을 고려한다.

State estimation vector. 로봇이나 객체에 대한 상태 추정치에서 얻은 상태 벡터는 PaLM-E에 입력하기에 가장 간단한 형태일 수 있다. 장면 내 객체의 상태를 설명하는 벡터를 sRSs \in \mathbb{R}^{S}라고 하자. 예를 들어, ss는 해당 객체들의 pose, size, color 등을 포함할 수 있다. 이때, MLP ϕstate \phi_{\text {state }}sslanguage embedding space로 매핑한다.

Vision Transformer (ViT). ViT ϕ~ViT \tilde{\phi}_{\text {ViT }} (Dosovitskiy et al., 2020)는 이미지 II를 여러 token embedding x~1:m=ϕ~ViT(I)Rm×k~\tilde{x}_{1: m}=\tilde{\phi}_{\mathrm{ViT}}(I) \in \mathbb{R}^{m \times \tilde{k}}으로 매핑하는 Transformer 아키텍처이다. 우리는 **Chen et al. (2022)의 40억 개 파라미터 모델(ViT-4B)**과 유사한 220억 개 파라미터 모델(ViT-22B) (Dehghani et al., 2023)을 포함한 여러 변형을 고려하며, 이 두 모델은 모두 이미지 분류로 사전학습되었다. 우리는 또한 end-to-end로 scratch부터 학습되는 ViT token learner 아키텍처 (ViT + TL) (Ryoo et al., 2021)를 조사한다. ViT embedding의 차원 k~\tilde{k}는 language model의 차원과 반드시 같을 필요는 없다. 따라서 우리는 학습된 affine transformation ψ\psi를 사용하여 각 embeddingxi=ϕViT(I)i=ψ(ϕ~ViT(I)i)x_{i}=\phi_{\mathrm{ViT}}(I)_{i}=\psi\left(\tilde{\phi}_{\mathrm{ViT}}(I)_{i}\right)로 투영한다.

객체 중심 표현 (Object-centric representations). 언어와 달리, 시각 입력은 의미 있는 개체와 관계로 미리 구조화되어 있지 않다. ViT가 의미론을 포착할 수 있지만, 표현의 구조는 객체 인스턴스 컬렉션보다는 정적 그리드에 가깝다. 이는 기호로 사전학습된 LLM과의 인터페이스물리적 객체와의 상호작용이 필요한 embodied reasoning을 해결하는 데 모두 어려움을 제기한다. 따라서 우리는 시각 입력을 LLM에 주입하기 전에 개별 객체로 분리하는 것을 목표로 하는 구조화된 인코더도 탐색한다. Ground-truth object instance mask MjM_{j}가 주어지면, 객체 jj에 대해 ViT의 표현x1:mj=ϕViT(MjI)x_{1: m}^{j}=\phi_{\mathrm{ViT}}\left(M_{j} \circ I\right)로 분해할 수 있다.

Object Scene Representation Transformer (OSRT). Ground-truth segmentation이 필요 없는 대안은 OSRT (Sajjadi et al., 2022a)이다. 이 모델은 객체에 대한 외부 지식에 의존하기보다는, 아키텍처 내의 inductive bias를 통해 비지도 방식으로 객체를 발견한다 (Locatello et al., 2020). SRT (Sajjadi et al., 2022b)를 기반으로 하는 OSRTnovel view synthesis task를 통해 in-domain 데이터에 대한 3D 중심 신경 장면 표현을 학습한다. 이 장면 표현은 객체 슬롯(object slots) oj=ϕˉOSRT (I1:v)jRkˉo_{j}=\bar{\phi}_{\text {OSRT }}\left(I_{1: v}\right)_{j} \in \mathbb{R}^{\bar{k}}으로 구성된다. 우리는 MLP ψ\psi를 사용하여 이들 각 슬롯을 x1:mj=ψ(ϕˉOSRT (I1:v)j)x_{1: m}^{j}=\psi\left(\bar{\phi}_{\text {OSRT }}\left(I_{1: v}\right)_{j}\right)로 투영한다. 개별 객체는 항상 여러 embedding으로 token화되며, 즉 OSRTψ:RkˉRm×k\psi: \mathbb{R}^{\bar{k}} \rightarrow \mathbb{R}^{m \times k}mm개의 embedding으로 매핑된다.

Entity referrals. Embodied planning task의 경우, PaLM-E는 생성된 계획에서 객체를 참조할 수 있어야 한다. 대부분의 실험을 포함하여 많은 경우에, 장면 내 객체는 고유한 속성 중 일부를 통해 자연어로 식별될 수 있다. 그러나, 언어로 몇 마디로 객체를 쉽게 식별하기 어려운 설정도 존재한다. 예를 들어, 테이블 위에 같은 색상의 여러 블록이 다른 위치에 있는 경우이다. OSRT와 같은 객체 중심 표현의 경우, 입력 prompt에서 객체에 해당하는 멀티모달 token을 다음과 같이 레이블링한다: Object 1 is <obj_1>. ... Object jj is <obj j>. 이를 통해 PaLM-E는 생성된 출력 문장에서 obj\mathrm{ob}_{-} j 형태의 특수 token을 통해 객체를 참조할 수 있다. 이 경우, 우리는 저수준 정책(low-level policies)도 이러한 token을 기반으로 작동한다고 가정한다.

5. Training Recipes

PaLM-E는 D={(I1:uii,w1:Lii,ni)}i=1ND= \left\{\left(I_{1: u_{i}}^{i}, w_{1: L_{i}}^{i}, n_{i}\right)\right\}_{i=1}^{N} 형태의 데이터셋으로 학습된다. 여기서 각 예시 iiuiu_i개의 연속적인 관측치 IjiI_j^i, 텍스트 w1:Liiw_{1:L_i}^i, 그리고 인덱스 nin_i로 구성된다. decoder-only 모델임에도 불구하고, 텍스트는 멀티모달 문장으로 구성된 인덱스 nin_i까지의 prefix 부분과, 텍스트 토큰만 포함하는 예측 대상으로 이루어져 있다. 따라서 손실 함수는 개별 non-prefix 토큰 wni+1:Liiw_{n_i+1:L_i}^i에 대해 평균화된 cross-entropy loss이다. 모델 내에서 멀티모달 문장을 구성하기 위해, 우리는 텍스트 내에 특수 토큰을 사용하며, 이 토큰들은 해당 위치에서 인코더의 임베딩 벡터로 대체된다. 우리는 PaLM-E를 사전학습된 8B, 62B, 540B 파라미터 PaLM 모델을 기반으로 하며, 이 decoder-only LLM입력 인코더를 통해 연속적인 관측치를 주입한다. 이 인코더들은 사전학습되거나 scratch부터 학습된다 (Sec. 4 참조). 우리는 8B LLM과 4B ViT를 결합한 모델을 PaLM-E-12B라고 부르며, 유사하게 62B LLM + 22B ViT는 PaLM-E-84B, 540B LLM + 22B ViT는 PaLM-E-562B라고 부른다.

모델 freezing을 통한 변형 (Variation with Model freezing)
대부분의 우리 아키텍처는 인코더 ϕ~\tilde{\phi}, 프로젝터 ψ\psi, 그리고 LLM pLMp_{\text{LM}}의 세 부분으로 구성된다. PaLM-E를 학습할 때, 한 가지 방법은 이 모든 구성 요소의 파라미터를 업데이트하는 것이다. 그러나 LLM은 적절한 prompt가 주어지면 인상적인 추론 능력을 보여준다 (Wei et al., 2022). 따라서 우리는 LLM을 freeze하고 입력 인코더만 학습하는 것이 가능한지, 그리고 그렇다면 서로 다른 모달리티 인코더들이 어떻게 비교되는지를 조사한다. 이 경우, 인코더는 frozen LLM이 관측치에 기반하도록 임베딩 벡터를 생성해야 하며, 또한 embodiment의 능력에 대한 정보를 LLM에 전달해야 한다. 이러한 인코딩 학습은 일반적인 soft prompt (Lester et al., 2021)와 관련하여, 입력 조건부 soft-prompting (Tsimpoukelli et al., 2021)의 한 형태로 이해될 수 있다. ϕOSRT\phi_{\text{OSRT}}를 사용한 실험에서는 slot representation도 freeze한다. 즉, OSRT와 LLM 사이의 인터페이스 역할을 하는 작은 프로젝터 ψ\psi만 업데이트한다.

Task 간 공동 학습 (Co-training across tasks)
우리의 실험에서는 다양한 데이터에 대해 모델을 공동 학습(co-training)하는 효과를 조사한다. App. A에 설명된 "full mixture"는 주로 다양한 task에서 수집된 인터넷 규모의 vision-and-language 데이터로 구성된다. 샘플링 빈도는 전체 혼합 데이터 중 8.9%만이 embodied 데이터이며, 각 embodiment에 대해 여러 task가 존재하도록 설정되었다.

6. Experiments

우리의 실험은 시뮬레이션 환경과 두 가지 실제 로봇을 사용하여 **세 가지 다른 로봇 형태(embodiment)**에 걸쳐 다양한 로봇 (모바일) 조작(manipulation) task를 고려한다. 해당 task에서 PaLM-E의 능력을 보여주는 비디오는 https://palm-e.github.io 에서 확인할 수 있다. 본 연구의 주요 초점은 아니지만, 우리는 PaLM-Evisual-question-answering (VQA), image captioning과 같은 일반적인 vision-language task 및 기존의 language modeling task에서도 평가한다.

우리는 실험 조사를 크게 두 가지 범주로 나눈다. 첫째, Section 4의 다양한 입력 표현(input representation)들을 성능, 일반화(generalization), 데이터 효율성(data-efficiency) 측면에서 비교한다. 두 번째 실험은 하나의 아키텍처, 즉 PaLM-E의 주요 버전에 초점을 맞춘다. 이 버전은 사전학습된 ViT와 PaLM language model로 구성되며, raw 이미지를 연속적인 입력으로 받는다. 여기서 우리는 다양한 task와 로봇 형태에 걸쳐 여러 데이터셋의 혼합으로 학습된 단일 모델모든 task에서 동시에 높은 성능을 달성할 수 있음을 보여준다. 결정적으로, 우리는 이러한 데이터셋에 대한 co-training이 전이(transfer)를 가능하게 하는지를 조사한다 (Figure 3). 즉, task와 로봇 형태가 다름에도 불구하고, task 혼합 데이터셋으로 학습함으로써 개별 task의 성능이 향상되는지를 확인한다. 우리는 co-training 전략과 모델 파라미터 크기가 성능, 일반화, 데이터 효율성에 미치는 영향을 연구한다. 마지막으로, LLM을 고정하고 LLM에 비전 정보를 주입하는 ViT만 학습하는 것이 실행 가능한 경로인지를 고려한다.

기준선(baselines)으로는 **로봇 형태 데이터로 학습되지 않은 state-of-the-art visual language model인 PaLI (Chen et al., 2022)**와 **oracle affordance가 제공된 SayCan 알고리즘 (Ahn et al., 2022)**을 고려한다.

Figure 3: PaLM-E에 의해 시연된 전이 학습(transfer learning) 개요: 세 가지 다른 로봇 공학 도메인에 걸쳐, PaLM과 ViT 사전학습을 로봇 공학 및 일반 visual-language 데이터의 전체 혼합과 함께 사용하면, 각 도메인 내 데이터만으로 학습하는 것보다 성능이 크게 향상된다. 각 도메인에 대한 추가 데이터는 Table 1, Figure 4, Table 2, Table 4를 참조하라.

6.1. Robot Environments / Tasks

우리의 세 가지 로봇 환경(Fig. 1)은 로봇이 물체를 조작(잡고 쌓는)해야 하는 Task and Motion Planning (TAMP) 도메인, 테이블 위 밀기(table-top pushing) 환경, 그리고 모바일 조작(mobile manipulation) 도메인을 포함한다. 각 도메인에서 PaLM-E는 해당 도메인의 전문가 데이터(expert data)로 학습된다. 많은 경우, 이는 task당 소량의 데이터이다.

TAMP task는 가능한 계획에 대한 **대규모 조합론(large combinatorics)**을 포함하며, 많은 결정 시퀀스가 실행 불가능하다. PaLM-E는 복잡한 결정 경계(decision boundaries)를 가진 여러 단계로 구성된 계획을 생성해야 한다.

다중 객체 테이블 위 밀기 환경은 공개된 **Language-Table 데이터셋 (Lynch et al., 2022)**에서 가져왔으며, 여러 객체, 높은 언어 카디널리티(large cardinality of language), 그리고 **복잡한 밀기 역학(complex pushing dynamics)**을 포함하기 때문에 도전적이다. TAMP 및 Language-Table 환경 모두에서 PaLM-E는 객체의 pose에 대해 추론해야 한다. 단순히 어떤 객체가 테이블 위에 있는지 또는 대략적인 관계를 아는 것만으로는 충분하지 않으며, 장면 기하학에 대한 더 세밀한 정보가 task 해결에 중요하다.

마지막으로, 우리는 SayCan (Ahn et al., 2022)과 유사한 모바일 조작 도메인을 고려한다. 이 도메인에서 로봇은 주방 환경에서 다양한 task를 해결해야 하며, 여기에는 서랍에서 물건 찾기, 물건 집기, 사람에게 가져다주기 등이 포함된다.

모든 도메인에서 우리는 해당 환경에서의 계획(planning) 및 VQA task를 모두 고려한다. 모바일 조작 및 Language-Table 환경의 경우, PaLM-E는 실제 세계에서 계획을 실행하기 위해 제어 루프(control loop)에 통합되며, 외부 교란이나 저수준 제어 정책의 실패 시 계획을 조정해야 한다.

6.2. TAMP Environment

Tab. 7 (appendix)는 TAMP 환경에 대한 계획 성공률(planning success rates)과 VQA 성능을 보여준다. 이 실험들에서 LLM은 frozen 상태이다 (사전학습된 LLM의 경우). Tab. 7에 보고된 결과의 경우, 입력 표현(input representations)은 오직 TAMP 환경의 96,000개 훈련 장면으로 구성된 데이터셋으로 학습되었으며, 즉 다른 데이터는 혼합되지 않았다.
장면에 3-5개의 객체가 있을 때(훈련 세트와 동일한 수), 대부분의 입력 표현은 유사하게 좋은 성능을 보인다. 그러나 객체 수가 증가하면, 사전학습된 LLM을 사용하는 것이 성능을 상당히 향상시키며, 특히 entity referrals에서 두드러진다. 또한, 62B LLM이 8B 변형에 비해 더 나은 out-of-distribution 일반화 능력을 보이며, 사전학습되지 않은 LLM은 out-of-distribution 일반화 능력이 거의 없음을 보여준다. SayCan baseline (Ahn et al., 2022)은 oracle affordance function을 활용하지만, affordance function이 현재 가능한 것만 제약할 뿐, LLM이 TAMP 환경에서 장기적인 계획을 수립하기에 충분한 정보를 제공하지 못하기 때문에 이 환경을 해결하는 데 어려움을 겪는다.

Tab. 1은 데이터셋의 1% (두 가지 계획 task 각각에 대해 320개의 예시) 로 학습했을 때 3-5개의 객체에 대한 결과를 보여준다. 여기서 우리는 입력 표현들 사이에 상당한 차이가 있음을 확인하며, 특히 계획 task에서 더욱 그렇다.
첫째, state 입력의 경우, 저데이터(low data) 환경에서 LLM을 사전학습하는 것이 유리하다.
둘째, 두 ViT 변형 (ViT+TL, ViT-4B) 모두 이 적은 데이터로는 계획 task를 해결하는 데 좋은 성능을 보이지 못한다. 그러나 다른 모든 로봇 환경 및 일반적인 vision-language 데이터셋과 함께 공동 학습(co-train)하면 (ViT-4B generalist), ViT-4B의 성능이 두 배 이상 향상된다. 이는 서로 다른 로봇 구현체(embodiments)와 task 간의 상당한 전이 효과(transfer effect) 를 보여준다.
마지막으로, OSRT를 입력 표현으로 사용하는 것이 여기서 최고의 성능을 이끌어내며, 3D-aware 객체 표현의 강점을 입증한다. 우리는 여기서 또 다른 전이 사례를 관찰한다: TAMP VQA 데이터를 제거하고 640개의 계획 task 예시만으로 학습했을 때, 성능이 (약간) 하락한다. 로봇 데이터로 학습되지 않은 state-of-the-art vision-language model인 PaLI (Chen et al., 2022)는 이 task들을 해결할 수 없다. 우리는 PaLI를 q2 (테이블 위 객체의 왼쪽/오른쪽/중앙 위치)와 q3 (수직 객체 관계)에 대해서만 평가했는데, 이는 이들이 가장 일반적인 VQA task와 유사하기 때문이다.

6.3. Language-Table Environment

Tab. 2는 Language-Table 환경(Lynch et al., 2022)에서 long-horizon task에 대한 성공률을 보고한다. PaLM-Elong-horizon task와 현재 이미지를 입력으로 받아 low-level policy에 대한 지시를 출력하는 제어 루프(control loop)에 통합된다. 우리는 인터넷 규모의 vision 및 language 데이터에 대한 공동 학습로봇 계획(robot planning)에 더 효과적인 모델을 만들어내며, 특히 task당 10개의 데모만 사용하는 few-shot regime에서 더욱 그러함을 확인했다. 12B 모델을 84B 모델로 확장하면 3개 task 중 2개에서 성능 향상이 나타난다. TAMP 환경에서와 마찬가지로, SayCan이나 zero-shot PaLI는 효과적이지 못했으며, 테스트된 가장 쉬운 task조차 해결하지 못했다.

Figure 4: TAMP 환경(1% 데이터)에서 PaLM-E-12B의 계획 성공 결과. PaLM-E 모델의 효과를 비교한다: (i) 전체 학습 혼합(full training mixture) 사용, (ii) 사전학습(ViT 및 PaLM), (iii) language model 고정(freezing) 또는 fine-tuning. 전체 혼합(full mixture)으로부터의 전이(transfer)가 특히 효과적이다. 여기서 전체 혼합은 평가된 task에 대해 학습 데이터의 1% (각 320개 예시)만을 포함한다. task p1,p2\mathrm{p}_{1}, \mathrm{p}_{2}의 평균이 표시되어 있다.

실제 로봇 결과 및 Few-Shot 일반화 (Real Robot Results and Few-Shot Generalization)
Fig. 7, a)에서 우리는 PaLM-E가 실제 로봇을 다단계 테이블탑 조작 task를 통해 안내할 수 있으며, 적대적인 방해(adversarial disturbances)에도 강건함을 확인한다. 관찰된 이미지와 "블록을 색깔별로 코너에 정렬해라"와 같은 long-horizon 목표가 주어지면, PaLM-E는 Lynch et al. (2022)의 policy에 1Hz로 언어 서브 목표(language subgoals)를 출력하고, 이 policy는 5Hz로 low-level 로봇 동작을 출력한다. 이전 연구(Lynch et al., 2022)에서는 인간이 루프에 개입하여 서브 목표와 수정을 상호작용적으로 안내했다. Fig. 5, b)에서 우리는 PaLM-E가 one-shot 및 zero-shot 학습이 가능함을 확인한다. 여기서는 "모든 블록을 중앙에 놓아라", "파란색 블록을 줄에서 제거해라"와 같이 각각 단일 학습 예시를 가진 100개의 다른 long-horizon task에 대해 PaLM-E를 fine-tuning했다. 또한 PaLM-E는 새로운 객체 쌍을 포함하는 task (Fig. 7, c))와 원래 로봇 데이터셋 또는 fine-tuning 데이터셋에서 볼 수 없었던 객체(예: 장난감 거북이, Fig. 5, d))를 포함하는 task에 대해 zero-shot으로 일반화할 수 있음을 확인했다.

6.4. Mobile Manipulation Environment

우리는 도전적이고 다양한 모바일 조작(mobile manipulation) task에서 PaLM-E의 성능을 입증한다. 우리는 Ahn et al. (2022)의 설정을 주로 따르는데, 이 설정에서는 로봇이 인간의 지시에 따라 내비게이션 및 조작 동작 시퀀스를 계획해야 한다. 예를 들어, "음료를 쏟았으니, 닦을 것을 가져다줄 수 있니?"라는 지시가 주어지면, 로봇은 "1. 스펀지를 찾는다, 2. 스펀지를 집어든다, 3. 사용자에게 가져다준다, 4. 스펀지를 내려놓는다"와 같은 시퀀스를 계획해야 한다. 이러한 task에서 영감을 받아, 우리는 PaLM-E의 embodied reasoning 능력을 테스트하기 위해 3가지 사용 사례를 개발했다: affordance prediction, failure detection, long-horizon planning.
저수준 정책(low-level policies)은 RT-1 (Brohan et al., 2022)에서 가져왔는데, 이는 RGB 이미지와 자연어 지시를 입력으로 받아 end-effector 제어 명령을 출력하는 Transformer 모델이다.

Figure 5: 단일 PaLM-E 모델이 두 대의 실제 로봇의 저수준 정책을 지시한다. 주방에서의 long-horizon mobile manipulation task테이블탑 조작 로봇을 이용한 one-shot / zero-shot 일반화가 나타나 있다.

ObjectcentricLLM pre-trainEmbodied VQAPlanning
q1\mathrm{q}_{1}q2\mathrm{q}_{2}q3\mathrm{q}_{3}q4\mathrm{q}_{4}p1\mathrm{p}_{1}p2\mathrm{p}_{2}
\checkmark----38.733.3
PaLI (zero-shot) (Chen et al., 2022)\checkmark-0.00.0---
PaLM-E (ours) w/ input enc:
State\checkmark (GT)x\boldsymbol{x}99.489.890.388.345.046.1
State\checkmark (GT)\checkmark100.096.395.193.155.949.7
ViT + TL\checkmark (GT)\checkmark34.754.674.691.624.014.7
ViT-4B single robot×\times\checkmark-45.978.492.230.632.9
ViT-4B full mixture×\times\checkmark-70.793.492.174.174.6
OSRT (no VQA)\checkmark\checkmark----71.975.1
OSRT\checkmark\checkmark99.798.2100.093.782.576.2

Table 1: TAMP 환경에서의 다양한 입력 표현 방식 비교 (성공률 기준). TAMP 데이터는 전체 학습 데이터 크기의 **단 1% (즉, p1,p2\mathrm{p}_{1}, \mathrm{p}_{2} 각각 320개 샘플)**만을 구성한다. PaLM-E는 embodied VQA 및 planning task에서 PaLI와 SayCan을 모두 능가한다. 우리의 전체 데이터 혼합으로 학습된 ViT-4B를 사용하는 PaLM-E에서 cross-domain transfer가 관찰되어 planning 성능이 향상되었다. OSRT는 대규모 데이터를 사용하지 않음에도 불구하고, 학습을 위한 가장 효과적인 입력 인코딩을 제공한다. (GT)는 ground-truth object-centric 정보가 제공됨을 의미한다. 모든 실험에서 LLM은 frozen 상태이다. non-object centric ViT-4B 변형은 객체를 참조하기 위해 색상을 활용하므로, q1\mathrm{q}_{1}은 여기서 평가할 수 없다. 이 실험들에서 LLM은 frozen 상태이다 (사전학습되지 않은 경우 제외). Sec. B. 1은 task q1q4,p1,q2\mathrm{q}_{1}-\mathrm{q}_{4}, \mathrm{p}_{1}, \mathrm{q}_{2}를 설명한다.

Affordance prediction. 우리는 PaLM-E의 affordance prediction 성능을 조사한다. 즉, 저수준 정책의 skill이 현재 환경에서 실행될 수 있는지 여부를 예측하는 것이다. 이는 VQA 문제로 "Given <img>. Q: Is it possible to <skill> here?"와 같이 정식화될 수 있다. PaLM-E는 PaLI (zero-shot)뿐만 아니라 QT-OPT로 학습된 value function에 대한 thresholding 방식보다도 우수한 성능을 보인다 (Tab. 4).

Failure detection. 로봇이 closed-loop planning을 수행하기 위해서는 (Huang et al., 2022c)에서 보여주듯이 실패를 감지하는 것 또한 중요하다. 이 task의 multi-modal prompt는 "Given <img>. Q: Was <skill> successful?"이다. Tab. 4는 PaLM-E가 PaLI (zero-shot)뿐만 아니라 이 데이터셋에서 fine-tuning된 CLIP 버전보다도 우수한 성능을 보임을 나타낸다. PaLM-E는 또한 hindsight relabeled data로 학습된 두 개의 CLIP 모델을 활용하는 Xiao et al. (2022)에서 제안된 알고리즘보다도 우수한 성능을 보인다. 이 방법은 우리 방법보다 더 많은 정보에 접근할 수 있었고, 이 데이터셋에서 failure detection만을 해결하도록 특별히 설계되었다.

실제 로봇 결과: Long-horizon planning. 마지막으로, 우리는 PaLM-E를 사용하여 모바일 조작 task에 대한 embodied planning을 end-to-end로 수행한다. 이 task의 prompt 구조는 "Human: <instruction> Robot: <step history>. I see <img>."이다. PaLM-E는 수행된 단계의 이력과 현재 장면의 이미지 관찰에 조건화되어 계획의 다음 단계를 생성하도록 학습된다. 각 단계가 디코딩된 후, 우리는 이를 Ahn et al. (2022)에 정의된 저수준 정책에 매핑한다. 이 과정은 PaLM-E가 "terminate"를 출력할 때까지 autoregressive 방식으로 진행된다. 우리는 (Ahn et al., 2022)의 실행 기록을 사용하여 모델을 학습시켰으며, 이는 2912개의 시퀀스를 포함한다. 우리는 실제 주방에서 모델을 정성적으로 평가했으며, 모델이 적대적인 방해(adversarial disturbances) 하에서도 long-horizon mobile manipulation task를 수행할 수 있음을 확인했다 (Fig. 5).

6.5. Performance on General Visual-Language Tasks

본 연구의 주요 초점은 아니지만, 우리는 일반적인 vision-language task에 대한 결과를 Table 5에 보고한다. 여기에는 OKVQA (Marino et al., 2019), VQA v2 (Goyal et al., 2017), COCO captioning (Chen et al., 2015) 등이 포함된다. 단일의 범용적인

Zero-shot BaselinesTask 1Task 2Task 3
SayCan (oracle afford.) (Ahn et al., 2022)0.0-- <br> -
PaLI (Chen et al., 2022)0.0-
PaLM-E-trainedfrom scratchLLM+ViT pretrainLLM frozenTask finetune# Demos102040102080
12BSingle robot\checkmark×\timesn/a\checkmark20.030.050.02.56.32.511.316.928.3
12BFull mixture×\times\checkmark\checkmark×\times--20.0--36.3--29.4
12BFull mixturexx\checkmark×\times×\times--80.0--57.5--50.0
12BFull mixture×\times\checkmark×\times\checkmark70.080.080.031.358.858.857.554.456.3
84BFull mixturexx\checkmark×\timesχ\chi--90.0--53.8--64.4

Table 2: Lynch et al. (2022)의 시뮬레이션 환경에서 계획(planning) task에 대한 결과.

Task 1. Q: There is a block that is closest to {\{ i.e., top right corner }\}. Push that block to the other block of the same color.
Task 2. Q: How to sort the blocks by colors into corners?
Task 3. Q: How to push all the blocks that are on the {\{ left // right }\} side together, without bringing over any of the blocks that are on the {\{ right/left }\} side?

Table 3: Table 2의 task prompt.

BaselinesFailure det.Affordance
PaLI (Zero-shot) (Chen et al., 2022)0.730.62
CLIP-FT (Xiao et al., 2022)0.65-
CLIP-FT-hindsight (Xiao et al., 2022)0.89-
QT-OPT (Kalashnikov et al., 2018)-0.63
PaLM-E-12B trained onfrom scratchLLM+ViT pretrainLLM frozen
Single robot\checkmark×\timesn/a0.540.46
Single robot×\times\checkmark\checkmark0.910.78
Full mixturexx\checkmark\checkmark0.910.87
Full mixture×\times\checkmark×\times0.770.91

Table 4: 모바일 조작 환경: 실패 감지(failure detection) 및 affordance 예측(F1 score).

ModelVQAv2OK-VQACOCO Karpathy test
test-devtest-stdval
Generalist (one model)
PaLM-E-12B76.2-55.5135.0
PaLM-E-562B80.0-66.1138.7
Task-specific finetuned models
Flamingo (Alayrac et al., 2022)82.082.157.857.8 \dagger138.1
PaLI (Chen et al., 2022)84.384.364.5149.1
PaLM-E-12B77.777.960.1136.0
PaLM-E-66B--62.9-
PaLM-E-84B80.5-63.3138.0
Generalist (one model), with frozen LLM
(Tsimpoukelli et al., 2021)48.4---
PaLM-E-12B frozen70.3-51.5128.0

Table 5: 일반적인 visual-language task에 대한 결과. Generalist 모델의 경우, 여러 평가에서 동일한 체크포인트를 사용한 반면, task-specific finetuned 모델은 각 task에 대해 다른 finetuned 모델을 사용한다. COCO는 Karpathy split을 사용한다. \dagger는 OK-VQA에서 32-shot (fine-tuning 없음) 결과이다.

PaLM-E-562B 모델OK-VQA에서 보고된 최고 성능을 달성했으며, 이는 OK-VQA에 특화되어 fine-tuning된 모델들보다도 우수한 결과이다. (Tsimpoukelli et al., 2021)과 비교했을 때, PaLM-E는 frozen LLM을 사용한 VQA v2에서 우리가 아는 한 가장 높은 성능을 달성했다. 이는 PaLM-E가 로봇 task에서 embodied reasoner일 뿐만 아니라, 경쟁력 있는 visual-language generalist임을 입증한다.

6.6. Performance on General Language Tasks

Table 8PaLM-E의 **21개 일반 언어 벤치마크(NLU 및 NLG task)**에 대한 평균 성능을 보고한다. 주목할 만한 경향은 모델 규모가 커질수록 언어 능력의 catastrophic forgetting이 현저히 줄어든다는 점이다. Figure 6에서 볼 수 있듯이, 가장 작은 모델인 PaLM-E-12B의 경우 멀티모달 학습 과정에서 NLG 성능의 87.3%가 저하된 반면, 가장 큰 모델인 PaLM-E-562B단 3.9%만 저하되었다.

Figure 6: 일반 언어 task (NLG = natural language generation) 결과: 모델 규모가 커질수록 해당 PaLM-E 모델과 그 기반이 되는 PaLM 모델 간의 catastrophic forgetting이 감소한다. 전체 task 및 결과는 Table 8을 참조하라.

7. Summary of Experiments & Discussion

Generalist vs specialist 모델 - 전이 학습(transfer)
Figure 3에 요약된 바와 같이, 본 연구에서는 전이 학습(transfer)의 여러 사례를 보여주었다. 이는 다양한 task와 데이터셋으로 동시에 학습된 PaLM-E가 각 task별로 개별적으로 학습된 모델에 비해 성능이 크게 향상된다는 것을 의미한다. Figure 4에서는 "full mixture"로 공동 학습(co-training)했을 때 성능이 두 배 이상 증가하는 것을 확인할 수 있다. Table 9에서는 LLM/ViT 사전학습을 추가하고, 모바일 조작 데이터만으로 학습하는 대신 full mixture로 학습했을 때 성능이 크게 향상되는 것을 볼 수 있다. Table 2의 Language-Table 실험에서도 유사한 경향을 관찰할 수 있다.

데이터 효율성(Data efficiency)
현재 사용 가능한 대규모 언어 또는 vision-language 데이터셋과 비교할 때, 로봇 공학 데이터는 훨씬 부족하다. 앞 단락에서 논의했듯이, 우리 모델은 전이 학습(transfer) 특성을 보여주며, 이는 PaLM-E가 로봇 도메인에서 매우 적은 학습 예시만으로 로봇 task를 해결하는 데 도움을 준다. 예를 들어, Language Table의 경우 10~80개, TAMP의 경우 320개의 예시만으로도 가능하다. OSRT 결과는 기하학적 입력 표현을 사용하여 데이터 효율성을 높이는 또 다른 사례를 보여준다. 향후 연구에서는 이를 대규모 시각 데이터의 이점을 활용하는 방법과 결합하는 것이 유망한 기회가 될 것이다.

언어 능력 유지(Retaining language capabilities)
우리는 멀티모달 학습 중 모델의 언어 능력을 유지하는 두 가지 방법을 보여주었다. 첫 번째 옵션으로, LLM을 고정(freeze)하고 입력 인코더만 학습하는 것은 embodied language model을 구축하는 데 유효한 방법이지만, 이 접근 방식은 로봇 task에서 때때로 어려움을 겪었다 (Table 2). 대안으로, 전체 모델을 end-to-end로 학습할 경우, 모델 규모가 커질수록 원래의 언어 성능을 훨씬 더 많이 유지하는 것을 확인할 수 있다 (Figure 6).

8. Conclusion

우리는 사전학습된 LLM의 embedding space에 이미지를 포함한 멀티모달 정보를 주입하여 embodied language model을 구축하는 방법을 제안했다. 실험 결과, 일반적인 VQA 및 captioning task로 학습된 기존의 state-of-the-art vision-language model들은 embodied reasoning task에 충분하지 않음을 보여주었으며, affordance를 통해 language model을 grounding하려는 최근 제안의 한계점도 확인했다. 이러한 한계점을 극복하기 위해 우리는 PaLM-E를 제안했다. PaLM-E는 시뮬레이션 및 실제 환경에서 다양한 로봇을 제어할 수 있으며, 동시에 일반 VQA 및 captioning task에서도 정량적으로 뛰어난 성능을 보이는 단일 모델이다. 특히, 신경 장면 표현(neural scene representation, 즉 OSRT)을 모델에 주입하는 새로운 아키텍처 아이디어는 대규모 데이터 없이도 특히 효과적이었다. PaLM-E는 다양한 로봇 embodiment에 걸친 여러 task와 일반 vision-language task의 혼합 데이터로 학습되었다. 중요한 점은, 이러한 다양한 학습이 vision-language domain에서 embodied decision making으로의 여러 전이(transfer) 경로를 이끌어내어, 로봇 계획(planning) task를 데이터 효율적으로 달성할 수 있게 한다는 것을 입증했다는 것이다. 우리의 결과는 frozen language model이 언어 능력을 완전히 유지하는 범용 embodied multimodal model을 향한 유효한 경로임을 시사하지만, 우리는 unfrozen model을 통한 대안적인 경로도 제시했다: language model의 크기를 확장하면 catastrophic forgetting이 현저히 줄어들면서 embodied agent가 될 수 있다. 우리의 가장 큰 모델인 PaLM-E-562B단일 이미지 prompt로만 학습되었음에도 불구하고, 멀티모달 chain of thought reasoning여러 이미지에 대한 추론 능력과 같은 새로운 emergent capability를 보여준다.