Few-shot Learning

3개의 포스트

Embodied AIFew-shot Learning

FLARE: 환경에 기반한 멀티모달 계획과 효율적인 재계획을 통한 Embodied Agent 학습

FLARE는 소수의 예시 데이터만으로 Embodied Agent를 학습시키기 위한 멀티모달 기반 계획 및 효율적인 재계획 프레임워크입니다. 기존 LLM 기반 planner들이 주로 언어적 상식에 의존하여 환경 상태를 무시하는 문제를 해결하기 위해, FLARE는 언어 지시와 에이전트의 시각적 인식을 모두 활용하는 'Multi-Modal Planner (MMP)'를 통해 환경에 기반한 초기 계획을 생성합니다. 또한, 계획 실행 중 오류가 발생하면 'Environment Adaptive Replanning (EAR)' 모듈이 LLM 재호출 없이 시각적 단서만으로 계획을 빠르고 효율적으로 수정하여 실제 환경과의 불일치를 해결합니다. 논문 제목: Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples

Large Language ModelFew-shot Learning

GPT-3: Language Models are Few-Shot Learners

GPT-3는 1750억 개의 파라미터를 가진 autoregressive language model로, 대규모 언어 모델의 스케일링이 task-agnostic few-shot 성능을 크게 향상시킴을 보여줍니다. 이 모델은 별도의 gradient 업데이트나 fine-tuning 없이, 오직 텍스트 상호작용을 통해 few-shot demonstrations 만으로 다양한 NLP 태스크(번역, 질의응답, 문장 완성 등)에서 강력한 성능을 달성합니다. 특히, GPT-3는 실시간 추론이나 도메인 적응이 필요한 새로운 태스크에서도 뛰어난 능력을 보이며, 인간이 작성한 기사와 구별하기 어려운 수준의 텍스트를 생성할 수 있습니다. 논문 제목: Language Models are Few-Shot Learners

Visual Language ModelFew-shot Learning

Flamingo: a Visual Language Model for Few-Shot Learning

Flamingo는 이미지와 텍스트가 혼합된 입력을 처리할 수 있으며, few-shot 학습 환경에서도 높은 성능을 보이는 Visual Language Model (VLM)이다. Flamingo는 pretrained된 vision-only 및 language-only 모델을 효과적으로 연결하고, 임의의 순서로 interleaved된 이미지 및 텍스트 시퀀스를 처리할 수 있도록 설계되었다. 이 모델은 이미지와 텍스트가 섞인 대규모 웹 데이터로 학습되며, in-context few-shot 학습 능력을 통해 다양한 multimodal task (예: visual question answering, image captioning 등)에 빠르게 적응하는 성능을 보여준다. 논문 제목: Flamingo: a Visual Language Model for Few-Shot Learning