Embodied AI

3개의 포스트

Embodied AIFew-shot Learning

FLARE: 환경에 기반한 멀티모달 계획과 효율적인 재계획을 통한 Embodied Agent 학습

FLARE는 소수의 예시 데이터만으로 Embodied Agent를 학습시키기 위한 멀티모달 기반 계획 및 효율적인 재계획 프레임워크입니다. 기존 LLM 기반 planner들이 주로 언어적 상식에 의존하여 환경 상태를 무시하는 문제를 해결하기 위해, FLARE는 언어 지시와 에이전트의 시각적 인식을 모두 활용하는 'Multi-Modal Planner (MMP)'를 통해 환경에 기반한 초기 계획을 생성합니다. 또한, 계획 실행 중 오류가 발생하면 'Environment Adaptive Replanning (EAR)' 모듈이 LLM 재호출 없이 시각적 단서만으로 계획을 빠르고 효율적으로 수정하여 실제 환경과의 불일치를 해결합니다. 논문 제목: Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples

Embodied AIMultimodal Language Model

PaLM-E: An Embodied Multimodal Language Model

PaLM-E는 로보틱스 문제 해결을 위해 실제 세계의 연속적인 센서 데이터(예: 이미지)를 Large Language Models (LLMs)에 직접 통합하여 언어와 인식 사이의 연결, 즉 grounding 문제를 해결하는 Embodied Language Model입니다. 이 모델은 이미지나 상태와 같은 다양한 modality의 입력을 텍스트 토큰과 함께 "multimodal sentences"로 처리하며, pre-trained된 LLM과 함께 end-to-end로 학습됩니다. PaLM-E는 로봇 조작 계획, visual question answering 등 다양한 embodied reasoning task에서 높은 성능을 보이며, 인터넷 스케일의 언어 및 비전 데이터를 함께 학습함으로써 지식 전이(transfer learning) 효과를 입증했습니다. 논문 제목: PaLM-E: An Embodied Multimodal Language Model

Video GenerationEmbodied AI

실세계 의사결정을 위한 새로운 언어, 비디오

이 논문은 비디오 생성이 디지털 세계의 언어 모델처럼 물리적 세계에서 중요한 역할을 할 수 있다고 주장합니다. 비디오는 인터넷 규모의 지식을 흡수하고 다양한 실제 과업을 표현하는 통일된 인터페이스(unified interface)로 기능할 수 있습니다. 논문은 비디오 생성 모델이 in-context learning, planning, reinforcement learning과 같은 기술을 통해 로보틱스, 자율 주행, 과학과 같은 분야에서 planner, agent, 그리고 환경 simulator로 활용될 수 있는 가능성을 제시합니다. 이를 통해 비디오는 물리 세계에서의 복잡한 의사결정을 위한 새로운 언어가 될 수 있습니다. 논문 제목: Video as the New Language for Real-World Decision Making