Large Language Model

3개의 포스트

Model ParallelismLarge Language Model

Megatron-LM: 모델 병렬 처리를 이용한 수십억 파라미터 언어 모델 훈련

Megatron-LM은 메모리 제약으로 인해 훈련이 어려운 대규모 Transformer 모델을 위한 효율적인 layer 내부 모델 병렬 처리(intra-layer model parallelism) 기법을 제시합니다. 이 접근법은 새로운 컴파일러나 라이브러리 변경 없이 PyTorch에 몇 가지 통신 연산만을 추가하여 구현할 수 있으며, 수십억 개의 파라미터를 가진 GPT-2 및 BERT와 유사한 모델을 512개의 GPU를 사용하여 성공적으로 훈련시켰습니다. 특히, 이 논문은 모델 크기가 커질 때 BERT와 같은 모델에서 layer normalization의 배치가 성능에 매우 중요함을 보여주었고, 이를 통해 WikiText103, LAMBADA, RACE 데이터셋에서 최고 수준(SOTA)의 성능을 달성했습니다. 논문 제목: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Large Language ModelFew-shot Learning

GPT-3: Language Models are Few-Shot Learners

GPT-3는 1750억 개의 파라미터를 가진 autoregressive language model로, 대규모 언어 모델의 스케일링이 task-agnostic few-shot 성능을 크게 향상시킴을 보여줍니다. 이 모델은 별도의 gradient 업데이트나 fine-tuning 없이, 오직 텍스트 상호작용을 통해 few-shot demonstrations 만으로 다양한 NLP 태스크(번역, 질의응답, 문장 완성 등)에서 강력한 성능을 달성합니다. 특히, GPT-3는 실시간 추론이나 도메인 적응이 필요한 새로운 태스크에서도 뛰어난 능력을 보이며, 인간이 작성한 기사와 구별하기 어려운 수준의 텍스트를 생성할 수 있습니다. 논문 제목: Language Models are Few-Shot Learners

Vision-Language ModelLarge Language Model

MiniGPT-4: 고급 LLM을 활용한 시각-언어 이해 능력의 향상

MiniGPT-4는 frozen visual encoder와 frozen advanced LLM (Vicuna)를 단 하나의 projection layer로 연결하여, GPT-4와 유사한 고급 멀티모달 능력을 구현하는 모델입니다. 이 논문은 별도의 복잡한 모듈 없이, 시각적 특징을 강력한 LLM과 정렬하는 것만으로도 이미지 상세 묘사, 손으로 그린 초안으로 웹사이트 제작, 이미지 기반 시 작성 등 다양한 emergent abilities를 발현할 수 있음을 보여줍니다. 특히, 초반 학습에서 발생하는 부자연스러운 언어 생성을 해결하기 위해, 2단계에서 고품질 이미지 설명 데이터셋으로 미세 조정하여 모델의 신뢰성과 사용성을 크게 향상시켰습니다. 논문 제목: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models