논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Multimodal Language Model

1개의 포스트

2025. 10. 4.
Embodied AIMultimodal Language Model

PaLM-E: An Embodied Multimodal Language Model

PaLM-E는 로보틱스 문제 해결을 위해 실제 세계의 연속적인 센서 데이터(예: 이미지)를 Large Language Models (LLMs)에 직접 통합하여 언어와 인식 사이의 연결, 즉 grounding 문제를 해결하는 Embodied Language Model입니다. 이 모델은 이미지나 상태와 같은 다양한 modality의 입력을 텍스트 토큰과 함께 "multimodal sentences"로 처리하며, pre-trained된 LLM과 함께 end-to-end로 학습됩니다. PaLM-E는 로봇 조작 계획, visual question answering 등 다양한 embodied reasoning task에서 높은 성능을 보이며, 인터넷 스케일의 언어 및 비전 데이터를 함께 학습함으로써 지식 전이(transfer learning) 효과를 입증했습니다. 논문 제목: PaLM-E: An Embodied Multimodal Language Model

모든 태그 보기

© 2025 junhan.blog