전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 7 페이지)

Gopher: 2800억 파라미터 언어 모델의 스케일링, 분석 및 인사이트
·
#Large Language Model#Gopher

Gopher: 2800억 파라미터 언어 모델의 스케일링, 분석 및 인사이트

이 논문은 DeepMind가 개발한 2800억 파라미터의 대규모 언어 모델 Gopher에 대한 심층 분석을 제공합니다. Gopher는 152개의 다양한 태스크에서 평가되었으며, 대부분의 태스크에서 기존 SOTA 성능을 능가했습니다. 특히 독해, 사실 확인(fact-checking)과 같은 지식 집약적 분야에서 스케일의 이점이 크게 나타났지만, 논리 및 수학적 추론에서는 상대적으로 이점이 적었습니다. 또한 이 논문은 모델의 학습 데이터셋, 편향성(bias) 및 유해성(toxicity)에 대한 포괄적인 분석과 함께 AI 안전에 대한 언어 모델의 적용 가능성을 논의합니다. 논문 제목: Scaling Language Models: Methods, Analysis & Insights from Training Gopher

WebGPT: 인간의 피드백을 활용한 브라우저 보조 질의응답 시스템
·
#Question Answering#Human Feedback

WebGPT: 인간의 피드백을 활용한 브라우저 보조 질의응답 시스템

WebGPT는 GPT-3를 fine-tuning하여 텍스트 기반 웹 브라우징 환경을 통해 긴 형식의 질문에 답변하는 모델입니다. 이 모델은 모방 학습(imitation learning)을 통해 인간의 웹 브라우징 과정을 학습하고, 이후 인간의 피드백을 예측하는 보상 모델(reward model)과 rejection sampling을 사용하여 답변의 품질을 최적화합니다. WebGPT의 핵심 특징은 답변을 생성하는 동안 웹 페이지에서 직접 인용한 레퍼런스를 수집하여 사실적 정확성을 검증하기 용이하게 만든다는 점입니다. ELI5 데이터셋에서 평가했을 때, 가장 성능이 좋은 모델의 답변은 인간 시연자의 답변이나 Reddit의 인기 답변보다 더 선호되는 결과를 보였습니다. 논문 제목: WebGPT: Browser-assisted question-answering with human feedback

Multitask Prompted Training을 통한 Zero-Shot Task Generalization
·
#Multitask Learning#Zero-shot Generalization

Multitask Prompted Training을 통한 Zero-Shot Task Generalization

이 논문은 명시적인 Multitask Prompted Training을 통해 언어 모델의 zero-shot task generalization 능력을 직접적으로 유도할 수 있는지 탐구합니다. 다양한 자연어 처리(NLP) 데이터셋을 사람이 읽을 수 있는 프롬프트 형식으로 변환하고, 이를 multitask mixture로 구성하여 pretrained encoder-decoder 모델(T5+LM)을 fine-tuning합니다. 그 결과로 나온 T0 모델은 훈련 중에 보지 못한 완전히 새로운 task에 대해서도 강력한 zero-shot 성능을 보이며, 종종 자신보다 16배 더 큰 모델을 능가하는 결과를 달성합니다. 이는 명시적인 멀티태스크 학습이 모델의 일반화 능력을 효과적으로 향상시킬 수 있음을 보여줍니다. 논문 제목: Multitask Prompted Training Enables Zero-Shot Task Generalization

Switch Transformers: 단순하고 효율적인 희소성을 통한 1조 파라미터 모델 확장
·
#Mixture of Experts#Sparsity

Switch Transformers: 단순하고 효율적인 희소성을 통한 1조 파라미터 모델 확장

Switch Transformer는 기존의 Mixture of Experts (MoE) 모델을 단순화하여, 각 입력을 단 하나의 expert로 라우팅하는 희소 활성화(sparsely-activated) 모델입니다. 이 접근법은 MoE의 복잡성, 통신 비용, 훈련 불안정성 문제를 해결하면서, 동일한 계산 리소스 내에서 파라미터 수를 극대화합니다. 그 결과, T5-Base 모델 대비 최대 7배의 사전 훈련 속도 향상을 보였으며, bfloat16과 같은 저정밀도 형식에서도 안정적인 훈련이 가능함을 입증했습니다. 본 논문은 이러한 혁신을 통해 최대 1조 개의 파라미터를 가진 언어 모델을 성공적으로 훈련시키고, 다양한 자연어 처리 과제에서 그 효율성과 성능을 입증합니다. 논문 제목: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

GLaM: Mixture-of-Experts를 이용한 언어 모델의 효율적인 확장
·
#Mixture-of-Experts#Language Model Scaling

GLaM: Mixture-of-Experts를 이용한 언어 모델의 효율적인 확장

GLaM (Generalist Language Model)은 sparsely activated Mixture-of-Experts (MoE) 아키텍처를 사용하여 언어 모델의 용량을 효율적으로 확장하는 모델 계열입니다. 가장 큰 GLaM 모델은 GPT-3보다 약 7배 큰 1.2조 개의 파라미터를 가지고 있지만, 훈련에 사용된 에너지는 GPT-3의 1/3에 불과하고 추론 시에는 절반의 계산 flops만 필요로 합니다. 이는 각 토큰이 전체 네트워크가 아닌 소수의 expert 하위 네트워크만 활성화하기 때문에 가능합니다. 결과적으로 GLaM은 29개의 NLP 벤치마크에서 zero-shot, one-shot, few-shot 성능 전반에 걸쳐 GPT-3보다 우수한 성능을 달성했습니다. 논문 제목: GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

FLAN: Fine-tuned 언어 모델을 활용한 Zero-Shot 학습
·
#Instruction Tuning#Zero-shot Learning

FLAN: Fine-tuned 언어 모델을 활용한 Zero-Shot 학습

이 논문은 instruction tuning이라는 간단한 방법으로 언어 모델의 zero-shot 학습 능력을 향상시키는 방법을 제안합니다. 이 방법은 자연어 instruction으로 설명된 데이터셋 모음으로 언어 모델을 finetuning하는 것입니다. 137B 파라미터의 pretrained 언어 모델을 60개 이상의 NLP 데이터셋에서 instruction tuning하여 FLAN(Finetuned Language Net)이라는 모델을 만들었습니다. FLAN은 이전에 보지 못한 task에 대해 기존 모델보다 훨씬 향상된 성능을 보였으며, 평가한 25개 데이터셋 중 20개에서 zero-shot 175B GPT-3를 능가했습니다. 논문 제목: Finetuned Language Models Are Zero-Shot Learners

Evaluating Large Language Models Trained on Code: Codex
·
#Code Generation#Large Language Model

Evaluating Large Language Models Trained on Code: Codex

이 논문은 GitHub의 공개 코드로 fine-tuned된 GPT 언어 모델인 Codex를 소개하고 Python 코드 작성 능력을 평가합니다. GitHub Copilot의 기반이 되는 Codex는, docstring으로부터 프로그램을 합성하는 기능적 정확성(functional correctness)을 측정하기 위해 새롭게 공개된 HumanEval 데이터셋에서 평가되었습니다. Codex는 GPT-3나 GPT-J와 같은 기존 모델들보다 월등한 성능을 보였으며, 반복적인 sampling을 통해 정답률을 크게 높일 수 있음을 입증했습니다. 이 연구는 코드 생성 모델의 능력과 한계를 조명하고, 강력한 코드 생성 기술의 잠재적 사회적 영향에 대해서도 논의합니다. 논문 제목: Evaluating Large Language Models Trained on Code

PRVR: 텍스트 쿼리와 부분적으로만 관련된 영상도 정확하게 찾아내는 비디오 검색
·
#Video Retrieval#PRVR

PRVR: 텍스트 쿼리와 부분적으로만 관련된 영상도 정확하게 찾아내는 비디오 검색

기존의 Text-to-Video Retrieval (T2VR)은 검색 대상 비디오가 텍스트 쿼리와 완전히 관련이 있다고 가정하지만, 실제 비디오는 다양한 내용을 포함하고 있어 쿼리와 부분적으로만 일치하는 경우가 많습니다. 이 논문은 이러한 현실적인 문제를 해결하기 위해 부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)이라는 새로운 태스크를 제안합니다. PRVR 문제를 Multiple Instance Learning (MIL)으로 공식화하고, 비디오를 클립(clip-scale)과 프레임(frame-scale)의 다중 스케일에서 분석하여 부분적 관련성을 판단하는 MS-SL++ (Multi-Scale Similarity Learning) 네트워크를 제안합니다. 이 모델은 거친 수준의 클립 유사도와 세밀한 수준의 프레임 유사도를 함께 학습하여, 쿼리와 관련된 일부 장면만 포함된 긴 비디오도 효과적으로 검색할 수 있습니다. 논문 제목: PRVR: Partially Relevant Video Retrieval

Alpha-SQL: 몬테카를로 트리 탐색을 이용한 Zero-Shot Text-to-SQL
·
#Text-to-SQL#Monte Carlo Tree Search

Alpha-SQL: 몬테카를로 트리 탐색을 이용한 Zero-Shot Text-to-SQL

Alpha-SQL은 파인튜닝 없이 LLM의 성능을 활용하는 새로운 Zero-shot Text-to-SQL 프레임워크입니다. 이 방법은 SQL 생성을 Monte Carlo Tree Search (MCTS)를 이용한 탐색 문제로 정의하여, 단계적으로 SQL 쿼리를 구성합니다. 핵심 기술로는 MCTS 과정에서 LLM을 동적으로 활용하여 SQL 구성 액션을 생성하는 LLM-as-Action-Model과, 생성된 후보 쿼리의 품질을 평가하는 self-supervised reward function이 있습니다. 이를 통해 Alpha-SQL은 별도의 파인튜닝 없이도 오픈소스 LLM의 Text-to-SQL 성능을 크게 향상시키며, 기존 SOTA 모델을 능가하는 정확도를 보여줍니다. 논문 제목: Alpha-SQL: Zero-Shot Text-to-SQL using Monte Carlo Tree Search

Big Bird: 더 긴 시퀀스를 처리하기 위한 Transformer
·
#Transformer#Sparse Attention

Big Bird: 더 긴 시퀀스를 처리하기 위한 Transformer

BigBird는 Transformer 모델의 핵심 한계인 sequence 길이에 대한 quadratic dependency 문제를 해결하기 위해 제안된 sparse attention 메커니즘입니다. 이 메커니즘은 full attention의 계산량을 linear하게 줄여, 기존 하드웨어에서 최대 8배 더 긴 sequence를 처리할 수 있게 합니다. BigBird는 random attention, local window attention, 그리고 global token attention 세 가지 요소를 결합하여 효율성과 성능을 모두 잡았습니다. 이론적으로는 full attention Transformer의 속성인 universal approximator 및 Turing complete를 그대로 유지하며, 실험적으로는 질의응답(question answering), 요약(summarization) 등 긴 context를 요구하는 다양한 NLP 태스크에서 성능을 크게 향상시켰습니다. 또한, 유전체학(genomics) 데이터에 대한 새로운 적용 가능성도 제시합니다. 논문 제목: Big Bird: Transformers for Longer Sequences