전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 15 페이지)

Direct Preference Optimization (DPO): 강화학습 없이 선호도 데이터로 언어 모델을 직접 최적화하는 방법
·
#DPO#RLHF

Direct Preference Optimization (DPO): 강화학습 없이 선호도 데이터로 언어 모델을 직접 최적화하는 방법

Direct Preference Optimization (DPO)는 기존의 복잡하고 불안정한 RLHF (Reinforcement Learning from Human Feedback) 방식을 대체하는 새로운 알고리즘입니다. DPO는 보상 모델을 명시적으로 학습하고 강화학습을 통해 정책을 최적화하는 대신, 보상 함수와 최적 정책 간의 분석적 매핑을 활용합니다. 이를 통해 간단한 이진 교차 엔트로피 손실 함수만으로 정책을 직접 최적화할 수 있어, 학습 과정이 안정적이고 효율적입니다. 이 논문은 DPO가 기존 PPO 기반 RLHF와 동등하거나 더 나은 성능을 보이면서도 구현과 학습이 훨씬 간단하다는 것을 실험적으로 증명합니다. 논문 제목: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Chain-of-Thought Prompting: 거대 언어 모델의 추론 능력 발현
·
#Chain-of-Thought#Large Language Models

Chain-of-Thought Prompting: 거대 언어 모델의 추론 능력 발현

Chain-of-Thought Prompting은 Large Language Model이 복잡한 추론을 수행하는 능력을 크게 향상시키는 방법입니다. 이 논문은 중간 추론 과정을 단계별로 제시하는 소수의 예시(exemplars)를 프롬프트에 포함시키는 간단한 방법을 통해, 거대 언어 모델이 산술, 상식, 기호 추론과 같은 복잡한 과제에서 어떻게 뛰어난 성능을 발휘하는지 보여줍니다. 특히 PaLM 540B와 같은 대규모 모델에서는 이러한 능력이 자연스럽게 발현되며, 별도의 finetuning 없이도 기존 모델들의 성능을 뛰어넘는 결과를 달성합니다. 논문 제목: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Chinchilla: 더 적은 파라미터와 더 많은 데이터로 최적화된 대규모 언어 모델
·
#Large Language Model#Compute-Optimal Training

Chinchilla: 더 적은 파라미터와 더 많은 데이터로 최적화된 대규모 언어 모델

이 논문은 주어진 컴퓨팅 예산 하에서 Transformer 언어 모델을 훈련하기 위한 최적의 모델 크기와 토큰 수를 탐구합니다. 연구 결과, 기존의 대규모 언어 모델들이 훈련 데이터 양에 비해 모델 크기가 지나치게 크다는 점을 발견했습니다. 최적의 훈련을 위해서는 모델 크기를 두 배로 늘릴 때마다 훈련 토큰 수도 두 배로 늘려야 한다는 결론을 제시합니다. 이러한 가설을 검증하기 위해 Gopher와 동일한 컴퓨팅 예산을 사용하지만, 파라미터는 70B로 4배 더 작고 데이터는 4배 더 많은 Chinchilla 모델을 훈련했습니다. Chinchilla는 Gopher, GPT-3 등 기존의 거대 모델들을 광범위한 평가에서 압도적인 성능으로 능가하며, 모델 크기가 작아 추론 및 파인튜닝 비용이 훨씬 효율적임을 입증했습니다. 논문 제목: Training Compute-Optimal Large Language Models

ZeRO: 1조개 파라미터 모델 학습을 위한 메모리 최적화
·
#Large Model Training#Memory Optimization

ZeRO: 1조개 파라미터 모델 학습을 위한 메모리 최적화

ZeRO (Zero Redundancy Optimizer)는 수십억에서 수조 개의 파라미터를 가진 대규모 딥러닝 모델 학습의 메모리 한계를 극복하기 위해 개발된 최적화 기술입니다. 기존의 Data Parallelism (DP)이 모델 상태(optimizer states, gradients, parameters)를 모든 장치에 복제하여 메모리 비효율성을 야기하는 문제를 해결합니다. ZeRO는 이 모델 상태들을 여러 데이터 병렬 프로세스에 걸쳐 분할(partitioning)하여 메모리 중복을 제거합니다. 이 최적화는 세 단계로 구성됩니다: 1) Optimizer State Partitioning (Pos), 2) Gradient Partitioning (Pos+g), 3) Parameter Partitioning (Pos+g+p). 이 단계들을 통해 메모리 사용량을 크게 줄이면서도, DP의 높은 연산 및 통신 효율성은 유지합니다. 결과적으로 ZeRO는 기존 하드웨어에서 훨씬 더 큰 모델을 효율적으로 훈련할 수 있게 하며, 1000억개 파라미터 모델에서 SOTA 대비 10배의 성능 향상을 보여주었고, 세계에서 가장 큰 언어 모델인 Turing-NLG (17B)를 탄생시켰습니다. 논문 제목: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

Attention Is All You Need: 순환과 합성곱을 넘어선 Transformer 모델
·
#Transformer#Self-Attention

Attention Is All You Need: 순환과 합성곱을 넘어선 Transformer 모델

Transformer는 복잡한 recurrent나 convolutional neural network 대신 오직 attention 메커니즘에만 기반한 새로운 네트워크 아키텍처입니다. 이 모델은 recurrence와 convolutions를 완전히 제거하여 병렬 처리를 극대화하고 훈련 시간을 크게 단축시켰으며, 기계 번역 작업에서 최고의 성능을 달성했습니다. Transformer는 encoder와 decoder 구조를 사용하며, multi-head self-attention을 통해 입력과 출력 시퀀스 간의 global dependency를 효과적으로 학습합니다. 논문 제목: Attention Is All You Need

T5: 통일된 Text-to-Text Transformer를 활용한 Transfer Learning의 한계 탐구
·
#Text-to-Text#Transfer Learning

T5: 통일된 Text-to-Text Transformer를 활용한 Transfer Learning의 한계 탐구

본 논문은 모든 텍스트 기반 언어 문제를 통일된 Text-to-Text 형식으로 변환하는 프레임워크를 제안하여 NLP의 Transfer learning 기술을 탐구합니다. 이 연구는 pre-training objectives, architectures, unlabeled data sets, transfer approaches 등 다양한 요소를 체계적으로 비교하며, "Colossal Clean Crawled Corpus" (C4)라는 새로운 대규모 데이터셋과 결합하여 요약, 질의응답, 텍스트 분류 등 다수의 벤치마크에서 SOTA를 달성합니다. 이 모델은 T5 (Text-to-Text Transfer Transformer)라고 명명되었습니다. 논문 제목: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

뉴럴 네트워크를 위한 스케일링 법칙 (Scaling Laws for Neural Language Models)
·
#Scaling Laws#Language Models

뉴럴 네트워크를 위한 스케일링 법칙 (Scaling Laws for Neural Language Models)

이 논문은 cross-entropy loss를 기준으로 한 언어 모델의 성능에 대한 경험적 스케일링 법칙을 연구합니다. 모델 크기(N), 데이터셋 크기(D), 학습에 사용된 컴퓨팅(C)에 따라 손실이 power-law 관계로 스케일링되며, 이러한 경향은 7차수 이상의 규모에 걸쳐 나타납니다. 모델의 너비나 깊이 같은 아키텍처 세부 사항은 넓은 범위 내에서 미미한 영향을 미칩니다. 이 관계를 통해 고정된 컴퓨팅 예산 내에서 최적의 자원 할당 방법을 결정할 수 있으며, 더 큰 모델이 샘플 효율성이 훨씬 뛰어나다는 결론을 내립니다. 따라서 최적의 컴퓨팅 효율적 학습은 매우 큰 모델을 상대적으로 적은 양의 데이터로 학습시키고, 수렴에 도달하기 전에 학습을 중단하는 것을 포함합니다. 논문 제목: Scaling Laws for Neural Language Models

Megatron-LM: 모델 병렬 처리를 이용한 수십억 파라미터 언어 모델 훈련
·
#Model Parallelism#Large Language Model

Megatron-LM: 모델 병렬 처리를 이용한 수십억 파라미터 언어 모델 훈련

Megatron-LM은 메모리 제약으로 인해 훈련이 어려운 대규모 Transformer 모델을 위한 효율적인 layer 내부 모델 병렬 처리(intra-layer model parallelism) 기법을 제시합니다. 이 접근법은 새로운 컴파일러나 라이브러리 변경 없이 PyTorch에 몇 가지 통신 연산만을 추가하여 구현할 수 있으며, 수십억 개의 파라미터를 가진 GPT-2 및 BERT와 유사한 모델을 512개의 GPU를 사용하여 성공적으로 훈련시켰습니다. 특히, 이 논문은 모델 크기가 커질 때 BERT와 같은 모델에서 layer normalization의 배치가 성능에 매우 중요함을 보여주었고, 이를 통해 WikiText103, LAMBADA, RACE 데이터셋에서 최고 수준(SOTA)의 성능을 달성했습니다. 논문 제목: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

LATR: 길이를 인지하는 Transformer를 이용한 Temporal Sentence Grounding
·
#Temporal Sentence Grounding#Length-Aware Transformer

LATR: 길이를 인지하는 Transformer를 이용한 Temporal Sentence Grounding

Temporal Sentence Grounding (TSG)은 비디오에서 주어진 문장에 해당하는 시간적 구간을 찾는 task입니다. 기존 DETR 기반 모델들은 학습 가능한 query들의 역할이 겹쳐 중복된 예측을 생성하는 문제가 있었습니다. LATR (Length-Aware Transformer)은 각 query가 특정 시간 길이에 전문화되도록 하여 이 문제를 해결합니다. 모델은 query들을 짧은, 중간, 긴 길이를 담당하는 세 그룹으로 나누고, 학습 과정에서 길이 분류 task를 추가하여 각 query가 지정된 역할을 학습하도록 유도합니다. 길이가 맞지 않는 query의 예측은 억제함으로써, 각 query는 특정 길이 범위에 집중하게 되어 모델의 전반적인 성능과 예측 정확도를 향상시킵니다. 논문 제목: Length Matters: Length-Aware Transformer for Temporal Sentence Grounding