Multimodal Language Model

1개의 포스트

2025. 10. 4.

PaLM-E: An Embodied Multimodal Language Model

PaLM-E는 로보틱스 문제 해결을 위해 실제 세계의 연속적인 센서 데이터(예: 이미지)를 Large Language Models (LLMs)에 직접 통합하여 언어와 인식 사이의 연결, 즉 grounding 문제를 해결하는 Embodied Language Model입니다. 이 모델은 이미지나 상태와 같은 다양한 modality의 입력을 텍스트 토큰과 함께 "multimodal sentences"로 처리하며, pre-trained된 LLM과 함께 end-to-end로 학습됩니다. PaLM-E는 로봇 조작 계획, visual question answering 등 다양한 embodied reasoning task에서 높은 성능을 보이며, 인터넷 스케일의 언어 및 비전 데이터를 함께 학습함으로써 지식 전이(transfer learning) 효과를 입증했습니다. 논문 제목: PaLM-E: An Embodied Multimodal Language Model

모든 태그 보기