Large Language Model
16개의 포스트
PaLM: Pathways를 이용한 언어 모델링 스케일링
PaLM은 5400억 개의 파라미터를 가진 대규모 고밀도 Transformer 언어 모델로, Pathways라는 새로운 ML 시스템을 사용하여 6144개의 TPU v4 칩에서 효율적으로 학습되었습니다. 이 모델은 수백 개의 언어 이해 및 생성 벤치마크에서 최첨단 few-shot 학습 성능을 달성했으며, 특히 chain-of-thought prompting과 결합되었을 때 다단계 추론 작업에서 획기적인 성능을 보여줍니다. 또한 모델 규모가 커짐에 따라 특정 작업에서 성능이 급격히 향상되는 불연속적인 개선(discontinuous improvements) 현상을 나타내며, 이는 대규모 모델에서 새로운 능력이 나타날 수 있음을 시사합니다. 논문 제목: PaLM: Scaling Language Modeling with Pathways
OPT-IML: 일반화 관점에서 본 언어 모델 Instruction Meta Learning 확장 연구
본 논문은 대규모 언어 모델의 instruction-tuning 과정에서 다양한 결정들이 제로샷 및 퓨샷 일반화 성능에 미치는 영향을 체계적으로 분석합니다. 이를 위해 8개의 벤치마크를 통합한 2000개의 NLP 과제로 구성된 대규모 벤치마크 OPT-IML Bench를 구축했습니다. 이 프레임워크를 통해 과제 샘플링 전략, reasoning 및 dialogue 데이터셋 활용, fine-tuning 목표 등의 효과를 분석하고, 그 결과를 바탕으로 instruction-tuned된 OPT-IML 30B 및 175B 모델을 개발했습니다. OPT-IML 모델은 기본 OPT 모델을 크게 능가하며 다양한 평가 벤치마크에서 뛰어난 일반화 성능을 보여줍니다. 논문 제목: OPT-IML : Scaling Language Model Instruction Meta Learning through the Lens of Generalization
Galactica: 과학을 위한 대규모 언어 모델
Galactica는 과학 분야의 정보 과부하 문제를 해결하기 위해 설계된 대규모 언어 모델(Large Language Model)입니다. 논문, 참조 자료, 지식 베이스 등 고품질의 엄선된 과학 корпу스(corpus)로 학습되었으며, 이는 비선별적인 데이터에 의존하는 기존 모델들과 차별화됩니다. Galactica는 LaTeX 수식, 화학식(SMILES), 단백질 서열 등 다양한 과학적 양식을 처리하고, <work> 토큰을 활용한 단계별 추론(step-by-step reasoning)을 통해 복잡한 과학 문제 해결에 뛰어난 성능을 보입니다. 이 모델은 MMLU, MATH와 같은 수학 추론 벤치마크와 PubMedQA 등 과학 분야의 다운스트림 태스크에서 기존의 대형 모델들을 능가하는 결과를 보여주며, 과학 지식을 저장, 결합, 추론하는 새로운 인터페이스로서의 가능성을 제시합니다. 논문 제목: Galactica: A Large Language Model for Science
GLM-130B: 오픈소스 이중 언어(영어/중국어) 사전 학습 모델
GLM-130B는 1,300억 개의 파라미터를 가진 오픈소스 이중 언어(영어, 중국어) Large Language Model(LLM)이다. GPT-3(davinci) 이상의 성능을 목표로 개발되었으며, GPT 스타일의 단방향 아키텍처 대신 양방향 attention을 활용하는 GLM(General Language Model)을 기반으로 한다. 이 모델은 DeepNorm, Embedding Gradient Shrink 등 독자적인 학습 안정화 전략을 통해 훈련 중 발생하는 loss spike 문제를 해결했다. 특히, 사후 학습 없이 INT4 quantization을 성공적으로 적용하여 4개의 RTX 3090 GPU에서도 추론이 가능하게 함으로써 100B 규모 모델의 접근성을 크게 낮춘 것이 핵심적인 특징이다. 논문 제목: GLM-130B: An Open Bilingual Pre-Trained Model
BLOOM: 176B 파라미터의 오픈 액세스 다국어 언어 모델
BLOOM은 수백 명의 연구자들이 협력하여 구축한 176B 파라미터의 오픈 액세스 다국어 거대 언어 모델(LLM)로, 강력한 AI 기술의 민주화를 목표로 합니다. 이 모델은 46개의 자연어와 13개의 프로그래밍 언어로 구성된 ROOTS 코퍼스를 사용하여 학습된 decoder-only Transformer 아키텍처를 기반으로 합니다. BLOOM은 다양한 벤치마크에서 경쟁력 있는 성능을 달성했으며, multitask prompted finetuning을 통해 성능이 더욱 향상되었습니다. 모델과 코드는 Responsible AI License에 따라 공개되어 LLM에 대한 연구 및 응용 프로그램 개발을 촉진합니다. 논문 제목: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
Megatron-Turing NLG 530B: DeepSpeed와 Megatron을 활용한 5300억 파라미터 언어 모델 학습
본 논문은 Microsoft와 NVIDIA의 협력으로 개발된 5300억 개의 파라미터를 가진 거대 단일(monolithic) transformer 기반 언어 모델인 Megatron-Turing NLG 530B (MT-NLG)의 학습 과정을 상세히 설명합니다. DeepSpeed와 Megatron을 활용한 3D parallelism 방법론과 인프라, 고품질 학습 말뭉치 설계 및 데이터 큐레이션 기술을 중점적으로 다룹니다. MT-NLG는 여러 NLP 벤치마크에서 뛰어난 zero-shot, one-shot, few-shot 학습 정확도를 달성하며 새로운 SOTA(state-of-the-art) 결과를 수립했습니다. 논문 제목: Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model
Gopher: 2800억 파라미터 언어 모델의 스케일링, 분석 및 인사이트
이 논문은 DeepMind가 개발한 2800억 파라미터의 대규모 언어 모델 Gopher에 대한 심층 분석을 제공합니다. Gopher는 152개의 다양한 태스크에서 평가되었으며, 대부분의 태스크에서 기존 SOTA 성능을 능가했습니다. 특히 독해, 사실 확인(fact-checking)과 같은 지식 집약적 분야에서 스케일의 이점이 크게 나타났지만, 논리 및 수학적 추론에서는 상대적으로 이점이 적었습니다. 또한 이 논문은 모델의 학습 데이터셋, 편향성(bias) 및 유해성(toxicity)에 대한 포괄적인 분석과 함께 AI 안전에 대한 언어 모델의 적용 가능성을 논의합니다. 논문 제목: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
Evaluating Large Language Models Trained on Code: Codex
이 논문은 GitHub의 공개 코드로 fine-tuned된 GPT 언어 모델인 Codex를 소개하고 Python 코드 작성 능력을 평가합니다. GitHub Copilot의 기반이 되는 Codex는, docstring으로부터 프로그램을 합성하는 기능적 정확성(functional correctness)을 측정하기 위해 새롭게 공개된 HumanEval 데이터셋에서 평가되었습니다. Codex는 GPT-3나 GPT-J와 같은 기존 모델들보다 월등한 성능을 보였으며, 반복적인 sampling을 통해 정답률을 크게 높일 수 있음을 입증했습니다. 이 연구는 코드 생성 모델의 능력과 한계를 조명하고, 강력한 코드 생성 기술의 잠재적 사회적 영향에 대해서도 논의합니다. 논문 제목: Evaluating Large Language Models Trained on Code
OPT: Open Pre-trained Transformer Language Models
Open Pre-trained Transformers (OPT)는 125M부터 175B 파라미터에 이르는 decoder-only pre-trained Transformer 모델 모음입니다. 이 모델들은 GPT-3와 유사한 성능을 목표로 개발되었으며, 연구자들이 대규모 언어 모델(Large Language Models)에 더 쉽게 접근하고 연구할 수 있도록 모든 모델과 학습 과정을 투명하게 공개하는 것을 목표로 합니다. 특히 OPT-175B 모델은 GPT-3 대비 1/7의 탄소 발자국으로 개발되었으며, 이 논문은 학습 과정에서 겪었던 인프라 문제와 해결 과정을 담은 로그북까지 함께 공개하여 재현 가능하고 책임감 있는 연구를 촉진하고자 합니다. 논문 제목: OPT: Open Pre-trained Transformer Language Models
Llama 2: 오픈소스 기반의 사전 훈련 및 미세 조정된 채팅 모델
Llama 2는 70억에서 700억 파라미터 규모의 사전 훈련 및 미세 조정된 대규모 언어 모델(LLM) 모음입니다. 특히, 대화형 사용 사례에 최적화된 Llama 2-Chat 모델은 대부분의 벤치마크에서 기존 오픈소스 채팅 모델을 능가하며, 인간 평가 기반의 유용성과 안전성 측면에서 비공개 소스 모델의 대안이 될 수 있음을 보여줍니다. 이 논문은 Llama 2-Chat의 미세 조정, 특히 Supervised Fine-Tuning(SFT)과 Reinforcement Learning with Human Feedback(RLHF)을 통한 안전성 향상 접근법을 상세히 설명하여 커뮤니티의 발전에 기여하고자 합니다. 논문 제목: Llama 2: Open Foundation and Fine-Tuned Chat Models
LLaMA: 공개적이고 효율적인 파운데이션 언어 모델
LLaMA는 7B부터 65B 파라미터까지 다양한 크기를 갖는 파운데이션 언어 모델 모음입니다. 이 모델들은 독점적이고 접근 불가능한 데이터셋에 의존하지 않고, 오직 공개적으로 사용 가능한 데이터셋만을 사용하여 최첨단 성능을 달성할 수 있음을 보여줍니다. 특히, LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)를 능가하며, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 같은 최고의 모델들과 경쟁력 있는 성능을 보입니다. 논문 제목: LLaMA: Open and Efficient Foundation Language Models
GPT-4 기술 보고서 요약
GPT-4는 이미지와 텍스트 입력을 모두 처리할 수 있는 대규모 멀티모달(multimodal) 모델입니다. 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 보이며, 모의 변호사 시험에서는 상위 10% 수준의 점수를 기록했습니다. GPT-4는 Transformer 기반 모델로, 사전 훈련 후 RLHF(Reinforcement Learning from Human Feedback)를 통해 사실성과 원하는 행동 준수 능력을 향상시켰습니다. 이 프로젝트의 핵심은 예측 가능한 스케일링을 위한 인프라와 최적화 방법을 개발하여, 훨씬 적은 컴퓨팅으로 훈련된 모델로부터 GPT-4의 성능을 정확하게 예측한 것입니다. 논문 제목: GPT-4 Technical Report
Chinchilla: 더 적은 파라미터와 더 많은 데이터로 최적화된 대규모 언어 모델
이 논문은 주어진 컴퓨팅 예산 하에서 Transformer 언어 모델을 훈련하기 위한 최적의 모델 크기와 토큰 수를 탐구합니다. 연구 결과, 기존의 대규모 언어 모델들이 훈련 데이터 양에 비해 모델 크기가 지나치게 크다는 점을 발견했습니다. 최적의 훈련을 위해서는 모델 크기를 두 배로 늘릴 때마다 훈련 토큰 수도 두 배로 늘려야 한다는 결론을 제시합니다. 이러한 가설을 검증하기 위해 Gopher와 동일한 컴퓨팅 예산을 사용하지만, 파라미터는 70B로 4배 더 작고 데이터는 4배 더 많은 Chinchilla 모델을 훈련했습니다. Chinchilla는 Gopher, GPT-3 등 기존의 거대 모델들을 광범위한 평가에서 압도적인 성능으로 능가하며, 모델 크기가 작아 추론 및 파인튜닝 비용이 훨씬 효율적임을 입증했습니다. 논문 제목: Training Compute-Optimal Large Language Models
Megatron-LM: 모델 병렬 처리를 이용한 수십억 파라미터 언어 모델 훈련
Megatron-LM은 메모리 제약으로 인해 훈련이 어려운 대규모 Transformer 모델을 위한 효율적인 layer 내부 모델 병렬 처리(intra-layer model parallelism) 기법을 제시합니다. 이 접근법은 새로운 컴파일러나 라이브러리 변경 없이 PyTorch에 몇 가지 통신 연산만을 추가하여 구현할 수 있으며, 수십억 개의 파라미터를 가진 GPT-2 및 BERT와 유사한 모델을 512개의 GPU를 사용하여 성공적으로 훈련시켰습니다. 특히, 이 논문은 모델 크기가 커질 때 BERT와 같은 모델에서 layer normalization의 배치가 성능에 매우 중요함을 보여주었고, 이를 통해 WikiText103, LAMBADA, RACE 데이터셋에서 최고 수준(SOTA)의 성능을 달성했습니다. 논문 제목: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
GPT-3: Language Models are Few-Shot Learners
GPT-3는 1750억 개의 파라미터를 가진 autoregressive language model로, 대규모 언어 모델의 스케일링이 task-agnostic few-shot 성능을 크게 향상시킴을 보여줍니다. 이 모델은 별도의 gradient 업데이트나 fine-tuning 없이, 오직 텍스트 상호작용을 통해 few-shot demonstrations 만으로 다양한 NLP 태스크(번역, 질의응답, 문장 완성 등)에서 강력한 성능을 달성합니다. 특히, GPT-3는 실시간 추론이나 도메인 적응이 필요한 새로운 태스크에서도 뛰어난 능력을 보이며, 인간이 작성한 기사와 구별하기 어려운 수준의 텍스트를 생성할 수 있습니다. 논문 제목: Language Models are Few-Shot Learners
MiniGPT-4: 고급 LLM을 활용한 시각-언어 이해 능력의 향상
MiniGPT-4는 frozen visual encoder와 frozen advanced LLM (Vicuna)를 단 하나의 projection layer로 연결하여, GPT-4와 유사한 고급 멀티모달 능력을 구현하는 모델입니다. 이 논문은 별도의 복잡한 모듈 없이, 시각적 특징을 강력한 LLM과 정렬하는 것만으로도 이미지 상세 묘사, 손으로 그린 초안으로 웹사이트 제작, 이미지 기반 시 작성 등 다양한 emergent abilities를 발현할 수 있음을 보여줍니다. 특히, 초반 학습에서 발생하는 부자연스러운 언어 생성을 해결하기 위해, 2단계에서 고품질 이미지 설명 데이터셋으로 미세 조정하여 모델의 신뢰성과 사용성을 크게 향상시켰습니다. 논문 제목: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models