전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 6 페이지)

GLM-130B: 오픈소스 이중 언어(영어/중국어) 사전 학습 모델
·
#Large Language Model#Quantization

GLM-130B: 오픈소스 이중 언어(영어/중국어) 사전 학습 모델

GLM-130B는 1,300억 개의 파라미터를 가진 오픈소스 이중 언어(영어, 중국어) Large Language Model(LLM)이다. GPT-3(davinci) 이상의 성능을 목표로 개발되었으며, GPT 스타일의 단방향 아키텍처 대신 양방향 attention을 활용하는 GLM(General Language Model)을 기반으로 한다. 이 모델은 DeepNorm, Embedding Gradient Shrink 등 독자적인 학습 안정화 전략을 통해 훈련 중 발생하는 loss spike 문제를 해결했다. 특히, 사후 학습 없이 INT4 quantization을 성공적으로 적용하여 4개의 RTX 3090 GPU에서도 추론이 가능하게 함으로써 100B 규모 모델의 접근성을 크게 낮춘 것이 핵심적인 특징이다. 논문 제목: GLM-130B: An Open Bilingual Pre-Trained Model

Instruction Finetuning 스케일링을 통한 언어 모델 성능 극대화
·
#Instruction Finetuning#Scaling

Instruction Finetuning 스케일링을 통한 언어 모델 성능 극대화

이 논문은 Instruction Finetuning을 통해 언어 모델의 성능과 일반화 능력을 향상시키는 방법을 탐구합니다. 특히, (1) finetuning task의 수, (2) 모델의 크기, (3) chain-of-thought (CoT) 데이터의 포함 여부라는 세 가지 핵심 요소를 확장하는 것에 집중합니다. 연구 결과, 이러한 요소들을 확장한 Instruction Finetuning은 PaLM, T5, U-PaLM과 같은 다양한 모델 클래스와 zero-shot, few-shot, CoT 같은 프롬프팅 방식 전반에 걸쳐 성능을 극적으로 향상시켰습니다. 예를 들어, 1,800개의 task로 instruction-finetuned된 Flan-PaLM 540B 모델은 기존 PaLM 540B 모델의 성능을 크게 뛰어넘었으며, MMLU와 같은 여러 벤치마크에서 최고 수준의 성능을 달성했습니다. 또한, CoT 데이터로 finetuning하는 것이 모델의 추론 능력을 유지하고 향상시키는 데 매우 중요하다는 점을 보여줍니다. 논문 제목: Scaling Instruction-Finetuned Language Models

Flan Collection: 효과적인 Instruction Tuning을 위한 데이터와 방법론 설계
·
#Instruction Tuning#Language Model

Flan Collection: 효과적인 Instruction Tuning을 위한 데이터와 방법론 설계

이 논문은 효과적인 Instruction Tuning을 위한 데이터 및 방법론 설계에 대해 다루는 Flan Collection을 소개합니다. 저자들은 Flan 2022 모델의 개발 과정을 상세히 분석하고, ablation studies를 통해 어떤 설계 결정이 성능 향상에 기여했는지 밝혀냅니다. 연구 결과, task balancing, 데이터 증강 기법, 그리고 특히 zero-shot, few-shot, Chain-of-Thought (CoT) 프롬프트를 혼합하여 훈련하는 것이 모든 평가 환경에서 성능을 크게 향상시킨다는 점을 발견했습니다. 이렇게 훈련된 Flan-T5는 이전의 공개 Instruction Tuning 방법론들보다 우수한 성능을 보였으며, 새로운 단일 downstream task에 대해 미세 조정할 때 더 적은 계산 비용으로 더 빠르고 높은 성능에 도달하는 효율적인 시작점(checkpoint)이 됨을 입증합니다. 논문 제목: The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

대규모 언어 모델의 창발적 능력 (Emergent Abilities)
·
#Emergent Abilities#LLM

대규모 언어 모델의 창발적 능력 (Emergent Abilities)

이 논문은 대규모 언어 모델(Large Language Models)의 스케일을 키울 때 예측 가능하게 성능이 향상되는 현상과는 달리, 특정 규모에 도달했을 때 갑자기 나타나는 "창발적 능력(Emergent Abilities)"이라는 예측 불가능한 현상을 다룹니다. 창발적 능력이란 작은 모델에서는 보이지 않다가 일정 임계점을 넘는 큰 모델에서만 발현되는 능력으로, 이는 단순한 성능 외삽(extrapolation)으로는 예측할 수 없습니다. 본 논문은 few-shot prompting, chain-of-thought prompting 등 다양한 태스크에서 이러한 창발적 능력이 어떻게 나타나는지 여러 사례를 통해 보여주며, 모델 스케일링이 가져오는 질적 변화의 중요성을 강조합니다. 논문 제목: Emergent Abilities of Large Language Models

BLOOM: 176B 파라미터의 오픈 액세스 다국어 언어 모델
·
#Large Language Model#Multilingual

BLOOM: 176B 파라미터의 오픈 액세스 다국어 언어 모델

BLOOM은 수백 명의 연구자들이 협력하여 구축한 176B 파라미터의 오픈 액세스 다국어 거대 언어 모델(LLM)로, 강력한 AI 기술의 민주화를 목표로 합니다. 이 모델은 46개의 자연어와 13개의 프로그래밍 언어로 구성된 ROOTS 코퍼스를 사용하여 학습된 decoder-only Transformer 아키텍처를 기반으로 합니다. BLOOM은 다양한 벤치마크에서 경쟁력 있는 성능을 달성했으며, multitask prompted finetuning을 통해 성능이 더욱 향상되었습니다. 모델과 코드는 Responsible AI License에 따라 공개되어 LLM에 대한 연구 및 응용 프로그램 개발을 촉진합니다. 논문 제목: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

BIG-bench: 대규모 언어 모델의 능력을 정량화하고 예측하기 위한 벤치마크
·
#Language Model#Benchmark

BIG-bench: 대규모 언어 모델의 능력을 정량화하고 예측하기 위한 벤치마크

이 논문은 대규모 언어 모델의 현재와 미래의 능력 및 한계를 더 잘 이해하기 위해 새로운 벤치마크인 BIG-bench (Beyond the Imitation Game benchmark)를 제안합니다. BIG-bench는 언어학, 수학, 상식 추론, 사회적 편향 등 204개의 다양한 태스크로 구성되어 있으며, 현재 모델의 능력을 뛰어넘도록 설계되었습니다. OpenAI의 GPT 모델, Google의 Transformer 아키텍처 등 다양한 모델을 평가한 결과, 모델의 성능은 규모에 따라 향상되지만 인간 전문가에 비해서는 여전히 낮은 수준에 머물렀습니다. 또한, 일부 태스크에서는 점진적인 성능 향상을 보인 반면, 다른 태스크에서는 특정 규모에서 '돌파구(breakthrough)' 현상을 보였습니다. 특히, 모호한 맥락에서 사회적 편향은 모델 규모가 커질수록 증가하는 경향이 관찰되었습니다. 논문 제목: Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Retro: 수조 개 토큰 검색으로 언어 모델 성능을 향상시키는 방법
·
#Retrieval-Augmented Generation#Language Model

Retro: 수조 개 토큰 검색으로 언어 모델 성능을 향상시키는 방법

Retro (Retrieval-Enhanced Transformer)는 자동 회귀 언어 모델의 성능을 향상시키기 위해, 예측 시점에 거대한 외부 데이터베이스에서 관련 정보를 검색하여 활용하는 모델입니다. 2조 개의 토큰으로 구성된 데이터베이스에서 현재 텍스트와 유사한 문서 청크를 검색하고, 이를 frozen Bert retriever와 chunked cross-attention 메커니즘을 통해 모델의 예측에 통합합니다. 이 semi-parametric 접근 방식을 통해 Retro는 GPT-3와 같은 거대 모델보다 25배 적은 파라미터로도 비슷한 성능을 달성하며, 기존에 학습된 Transformer 모델을 빠르게 Retrofit하여 검색 기능을 추가할 수도 있습니다. 논문 제목: Improving language models by retrieving from trillions of tokens

Minerva: 언어 모델을 활용한 정량적 추론 문제 해결
·
#Language Model#Quantitative Reasoning

Minerva: 언어 모델을 활용한 정량적 추론 문제 해결

Minerva는 수학, 과학, 공학 분야의 정량적 추론 문제 해결에 특화된 대규모 언어 모델입니다. 일반 자연어 데이터로 사전 학습된 PaLM 모델을 기반으로, arXiv 논문 및 수학 콘텐츠가 포함된 웹페이지로 구성된 기술 데이터셋으로 추가 학습되었습니다. 이 모델은 외부 도구 없이도 단계별 풀이 과정을 생성하며, MATH, GSM8k와 같은 기술 벤치마크에서 최고 수준의 성능을 달성했습니다. Minerva는 자연어 설명과 정확한 LaTeX 수식을 혼합하여 복잡한 문제의 해답을 제시하는 능력을 보여줍니다. 논문 제목: Solving Quantitative Reasoning Problems with Language Models

Megatron-Turing NLG 530B: DeepSpeed와 Megatron을 활용한 5300억 파라미터 언어 모델 학습
·
#Large Language Model#Model Training

Megatron-Turing NLG 530B: DeepSpeed와 Megatron을 활용한 5300억 파라미터 언어 모델 학습

본 논문은 Microsoft와 NVIDIA의 협력으로 개발된 5300억 개의 파라미터를 가진 거대 단일(monolithic) transformer 기반 언어 모델인 Megatron-Turing NLG 530B (MT-NLG)의 학습 과정을 상세히 설명합니다. DeepSpeed와 Megatron을 활용한 3D parallelism 방법론과 인프라, 고품질 학습 말뭉치 설계 및 데이터 큐레이션 기술을 중점적으로 다룹니다. MT-NLG는 여러 NLP 벤치마크에서 뛰어난 zero-shot, one-shot, few-shot 학습 정확도를 달성하며 새로운 SOTA(state-of-the-art) 결과를 수립했습니다. 논문 제목: Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model

LaMDA: 안전성과 사실 기반을 강화한 대화형 언어 모델
·
#Dialog System#Factual Grounding

LaMDA: 안전성과 사실 기반을 강화한 대화형 언어 모델

LaMDA는 대화형 애플리케이션에 특화된 Transformer 기반 언어 모델입니다. 이 논문은 모델 스케일링만으로는 개선이 어려운 안전성(Safety)과 사실 기반(Factual Grounding)을 해결하기 위해, fine-tuning과 외부 지식 소스(information retrieval system 등)를 활용하는 방법을 제안합니다. LaMDA는 품질(Quality), 안전성, 사실 기반의 세 가지 핵심 지표를 통해 평가되며, fine-tuning을 통해 유해한 답변을 줄이고 검증된 정보에 기반한 응답을 생성하는 능력을 크게 향상시켰습니다. 논문 제목: LaMDA: Language Models for Dialog Applications