전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 103개 / 5 페이지)

InstructGPT: 인간의 피드백으로 지시를 따르도록 언어 모델 훈련하기
·
#Language Model Alignment#RLHF

InstructGPT: 인간의 피드백으로 지시를 따르도록 언어 모델 훈련하기

InstructGPT는 대규모 언어 모델이 사용자의 의도를 더 잘 따르도록 만들기 위해 인간의 피드백을 통해 정렬(align)하는 방법을 제시합니다. 이 모델은 supervised fine-tuning (SFT)과 reinforcement learning from human feedback (RLHF)의 3단계 프로세스를 통해 GPT-3를 미세 조정하여 개발되었습니다. 평가 결과, 1.3B 파라미터의 InstructGPT 모델이 175B GPT-3보다 인간 선호도에서 더 높은 점수를 받았으며, 진실성 향상 및 유해한 결과물 생성 감소 효과를 보였습니다. 이는 인간 피드백을 활용한 미세 조정이 언어 모델을 인간의 의도에 맞게 정렬하는 유망한 방향임을 보여줍니다. 논문 제목: Training language models to follow instructions with human feedback

GPT-4 기술 보고서 요약
·
#Large Language Model#Multimodal

GPT-4 기술 보고서 요약

GPT-4는 이미지와 텍스트 입력을 모두 처리할 수 있는 대규모 멀티모달(multimodal) 모델입니다. 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 보이며, 모의 변호사 시험에서는 상위 10% 수준의 점수를 기록했습니다. GPT-4는 Transformer 기반 모델로, 사전 훈련 후 RLHF(Reinforcement Learning from Human Feedback)를 통해 사실성과 원하는 행동 준수 능력을 향상시켰습니다. 이 프로젝트의 핵심은 예측 가능한 스케일링을 위한 인프라와 최적화 방법을 개발하여, 훨씬 적은 컴퓨팅으로 훈련된 모델로부터 GPT-4의 성능을 정확하게 예측한 것입니다. 논문 제목: GPT-4 Technical Report

DeepSeek-R1: 강화학습(RL)을 통해 LLM의 추론 능력을 극대화하다
·
#Reinforcement Learning#Reasoning

DeepSeek-R1: 강화학습(RL)을 통해 LLM의 추론 능력을 극대화하다

DeepSeek-R1은 대규모 Reinforcement Learning(RL)을 통해 언어 모델의 추론 능력을 강화하는 방법을 제시합니다. SFT(Supervised Fine-Tuning) 없이 순수 RL만으로 학습한 DeepSeek-R1-Zero는 뛰어난 추론 능력을 보였지만, 가독성 문제를 드러냈습니다. 이를 개선하기 위해 소량의 cold-start 데이터와 다단계 학습을 적용한 DeepSeek-R1은 OpenAI-o1-1217에 필적하는 성능을 달성했습니다. 또한, 이 모델의 추론 능력을 더 작은 모델에 성공적으로 증류(distillation)하여, LLM의 추론 능력 향상에 대한 새로운 가능성을 보여줍니다. 논문 제목: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Direct Preference Optimization (DPO): 강화학습 없이 선호도 데이터로 언어 모델을 직접 최적화하는 방법
·
#DPO#RLHF

Direct Preference Optimization (DPO): 강화학습 없이 선호도 데이터로 언어 모델을 직접 최적화하는 방법

Direct Preference Optimization (DPO)는 기존의 복잡하고 불안정한 RLHF (Reinforcement Learning from Human Feedback) 방식을 대체하는 새로운 알고리즘입니다. DPO는 보상 모델을 명시적으로 학습하고 강화학습을 통해 정책을 최적화하는 대신, 보상 함수와 최적 정책 간의 분석적 매핑을 활용합니다. 이를 통해 간단한 이진 교차 엔트로피 손실 함수만으로 정책을 직접 최적화할 수 있어, 학습 과정이 안정적이고 효율적입니다. 이 논문은 DPO가 기존 PPO 기반 RLHF와 동등하거나 더 나은 성능을 보이면서도 구현과 학습이 훨씬 간단하다는 것을 실험적으로 증명합니다. 논문 제목: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Chain-of-Thought Prompting: 거대 언어 모델의 추론 능력 발현
·
#Chain-of-Thought#Large Language Models

Chain-of-Thought Prompting: 거대 언어 모델의 추론 능력 발현

Chain-of-Thought Prompting은 Large Language Model이 복잡한 추론을 수행하는 능력을 크게 향상시키는 방법입니다. 이 논문은 중간 추론 과정을 단계별로 제시하는 소수의 예시(exemplars)를 프롬프트에 포함시키는 간단한 방법을 통해, 거대 언어 모델이 산술, 상식, 기호 추론과 같은 복잡한 과제에서 어떻게 뛰어난 성능을 발휘하는지 보여줍니다. 특히 PaLM 540B와 같은 대규모 모델에서는 이러한 능력이 자연스럽게 발현되며, 별도의 finetuning 없이도 기존 모델들의 성능을 뛰어넘는 결과를 달성합니다. 논문 제목: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Chinchilla: 더 적은 파라미터와 더 많은 데이터로 최적화된 대규모 언어 모델
·
#Large Language Model#Compute-Optimal Training

Chinchilla: 더 적은 파라미터와 더 많은 데이터로 최적화된 대규모 언어 모델

이 논문은 주어진 컴퓨팅 예산 하에서 Transformer 언어 모델을 훈련하기 위한 최적의 모델 크기와 토큰 수를 탐구합니다. 연구 결과, 기존의 대규모 언어 모델들이 훈련 데이터 양에 비해 모델 크기가 지나치게 크다는 점을 발견했습니다. 최적의 훈련을 위해서는 모델 크기를 두 배로 늘릴 때마다 훈련 토큰 수도 두 배로 늘려야 한다는 결론을 제시합니다. 이러한 가설을 검증하기 위해 Gopher와 동일한 컴퓨팅 예산을 사용하지만, 파라미터는 70B로 4배 더 작고 데이터는 4배 더 많은 Chinchilla 모델을 훈련했습니다. Chinchilla는 Gopher, GPT-3 등 기존의 거대 모델들을 광범위한 평가에서 압도적인 성능으로 능가하며, 모델 크기가 작아 추론 및 파인튜닝 비용이 훨씬 효율적임을 입증했습니다. 논문 제목: Training Compute-Optimal Large Language Models

ZeRO: 1조개 파라미터 모델 학습을 위한 메모리 최적화
·
#Large Model Training#Memory Optimization

ZeRO: 1조개 파라미터 모델 학습을 위한 메모리 최적화

ZeRO (Zero Redundancy Optimizer)는 수십억에서 수조 개의 파라미터를 가진 대규모 딥러닝 모델 학습의 메모리 한계를 극복하기 위해 개발된 최적화 기술입니다. 기존의 Data Parallelism (DP)이 모델 상태(optimizer states, gradients, parameters)를 모든 장치에 복제하여 메모리 비효율성을 야기하는 문제를 해결합니다. ZeRO는 이 모델 상태들을 여러 데이터 병렬 프로세스에 걸쳐 분할(partitioning)하여 메모리 중복을 제거합니다. 이 최적화는 세 단계로 구성됩니다: 1) Optimizer State Partitioning (Pos), 2) Gradient Partitioning (Pos+g), 3) Parameter Partitioning (Pos+g+p). 이 단계들을 통해 메모리 사용량을 크게 줄이면서도, DP의 높은 연산 및 통신 효율성은 유지합니다. 결과적으로 ZeRO는 기존 하드웨어에서 훨씬 더 큰 모델을 효율적으로 훈련할 수 있게 하며, 1000억개 파라미터 모델에서 SOTA 대비 10배의 성능 향상을 보여주었고, 세계에서 가장 큰 언어 모델인 Turing-NLG (17B)를 탄생시켰습니다. 논문 제목: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

Attention Is All You Need: 순환과 합성곱을 넘어선 Transformer 모델
·
#Transformer#Self-Attention

Attention Is All You Need: 순환과 합성곱을 넘어선 Transformer 모델

Transformer는 복잡한 recurrent나 convolutional neural network 대신 오직 attention 메커니즘에만 기반한 새로운 네트워크 아키텍처입니다. 이 모델은 recurrence와 convolutions를 완전히 제거하여 병렬 처리를 극대화하고 훈련 시간을 크게 단축시켰으며, 기계 번역 작업에서 최고의 성능을 달성했습니다. Transformer는 encoder와 decoder 구조를 사용하며, multi-head self-attention을 통해 입력과 출력 시퀀스 간의 global dependency를 효과적으로 학습합니다. 논문 제목: Attention Is All You Need

T5: 통일된 Text-to-Text Transformer를 활용한 Transfer Learning의 한계 탐구
·
#Text-to-Text#Transfer Learning

T5: 통일된 Text-to-Text Transformer를 활용한 Transfer Learning의 한계 탐구

본 논문은 모든 텍스트 기반 언어 문제를 통일된 Text-to-Text 형식으로 변환하는 프레임워크를 제안하여 NLP의 Transfer learning 기술을 탐구합니다. 이 연구는 pre-training objectives, architectures, unlabeled data sets, transfer approaches 등 다양한 요소를 체계적으로 비교하며, "Colossal Clean Crawled Corpus" (C4)라는 새로운 대규모 데이터셋과 결합하여 요약, 질의응답, 텍스트 분류 등 다수의 벤치마크에서 SOTA를 달성합니다. 이 모델은 T5 (Text-to-Text Transfer Transformer)라고 명명되었습니다. 논문 제목: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer