전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 14 페이지)

Tree of Thoughts (ToT): 대규모 언어 모델의 신중한 문제 해결
·
#Tree of Thoughts#LLM

Tree of Thoughts (ToT): 대규모 언어 모델의 신중한 문제 해결

Tree of Thoughts (ToT)는 기존의 Chain of Thought (CoT) 접근법을 일반화하여, LLM이 단일 경로가 아닌 여러 추론 경로를 동시에 탐색하도록 하는 새로운 프레임워크입니다. ToT는 생각을 트리 형태로 구성하여 LLM이 다양한 중간 단계를 생성하고, 각 선택을 자체적으로 평가하며, 필요에 따라 전진하거나 후퇴하는 신중한 의사결정을 내릴 수 있게 합니다. 이 방법을 통해 Game of 24, Creative Writing 등 복잡한 문제 해결 능력에서 GPT-4의 성능을 크게 향상시켰습니다. 논문 제목: Tree of Thoughts: Deliberate Problem Solving with Large Language Models

OPT: Open Pre-trained Transformer Language Models
·
#Large Language Model#Transformer

OPT: Open Pre-trained Transformer Language Models

Open Pre-trained Transformers (OPT)는 125M부터 175B 파라미터에 이르는 decoder-only pre-trained Transformer 모델 모음입니다. 이 모델들은 GPT-3와 유사한 성능을 목표로 개발되었으며, 연구자들이 대규모 언어 모델(Large Language Models)에 더 쉽게 접근하고 연구할 수 있도록 모든 모델과 학습 과정을 투명하게 공개하는 것을 목표로 합니다. 특히 OPT-175B 모델은 GPT-3 대비 1/7의 탄소 발자국으로 개발되었으며, 이 논문은 학습 과정에서 겪었던 인프라 문제와 해결 과정을 담은 로그북까지 함께 공개하여 재현 가능하고 책임감 있는 연구를 촉진하고자 합니다. 논문 제목: OPT: Open Pre-trained Transformer Language Models

Mamba-2: Transformers와 SSM의 관계를 재정의하다
·
#SSM#Mamba

Mamba-2: Transformers와 SSM의 관계를 재정의하다

Mamba-2는 State-Space Models (SSMs)와 Transformers 아키텍처 간의 깊은 이론적 연결을 제시하는 State Space Duality (SSD) 프레임워크를 소개합니다. 이 논문은 두 모델 계열이 structured semiseparable matrices를 통해 어떻게 연결되는지를 보여주며, 이를 바탕으로 기존 Mamba보다 2-8배 빠른 Mamba-2 아키텍처를 제안합니다. Mamba-2는 향상된 속도와 효율성을 가지면서도 언어 모델링 성능에서 Transformers와 경쟁력을 유지합니다. 논문 제목: Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Mamba: 선택적 상태 공간을 이용한 선형 시간 시퀀스 모델링
·
#State Space Model#Sequence Modeling

Mamba: 선택적 상태 공간을 이용한 선형 시간 시퀀스 모델링

Mamba는 Transformer의 긴 시퀀스에 대한 계산 비효율성을 해결하기 위해 제안된 Structured State Space Models (SSMs) 기반의 아키텍처입니다. 기존 SSM의 약점인 content-based reasoning 능력 부재를 해결하기 위해, 입력에 따라 SSM 파라미터가 동적으로 변하는 selection mechanism을 도입했습니다. 이를 통해 모델은 시퀀스를 따라 정보를 선택적으로 전파하거나 잊을 수 있습니다. 또한, 이로 인해 기존의 효율적인 convolution 연산을 사용할 수 없게 되는 문제를 하드웨어 친화적인 병렬 스캔 알고리즘으로 해결했습니다. Mamba는 attention이나 MLP 블록 없이 단순화된 종단 간 신경망 아키텍처로, 빠른 추론 속도와 시퀀스 길이에 대한 선형적인 확장성을 가지며 언어, 오디오, 유전체 등 다양한 데이터에서 SOTA 성능을 달성했습니다. 논문 제목: Mamba: Linear-Time Sequence Modeling with Selective State Spaces

LLaMA 3: Meta의 새로운 파운데이션 모델
·
#Foundation Model#LLM

LLaMA 3: Meta의 새로운 파운데이션 모델

LLaMA 3는 다국어, 코딩, 추론, 도구 사용을 기본적으로 지원하는 새로운 파운데이션 모델 시리즈입니다. 가장 큰 405B 파라미터 모델은 최대 128K 토큰의 컨텍스트 윈도우를 가지며, GPT-4와 같은 선도적인 언어 모델과 유사한 성능을 제공합니다. 이 논문은 LLaMA 3의 광범위한 경험적 평가를 제시하며, 이미지, 비디오, 음성 기능을 통합하기 위한 compositional 접근 방식에 대한 실험 결과도 포함합니다. 논문 제목: The Llama 3 Herd of Models

Llama 2: 오픈소스 기반의 사전 훈련 및 미세 조정된 채팅 모델
·
#Large Language Model#RLHF

Llama 2: 오픈소스 기반의 사전 훈련 및 미세 조정된 채팅 모델

Llama 2는 70억에서 700억 파라미터 규모의 사전 훈련 및 미세 조정된 대규모 언어 모델(LLM) 모음입니다. 특히, 대화형 사용 사례에 최적화된 Llama 2-Chat 모델은 대부분의 벤치마크에서 기존 오픈소스 채팅 모델을 능가하며, 인간 평가 기반의 유용성과 안전성 측면에서 비공개 소스 모델의 대안이 될 수 있음을 보여줍니다. 이 논문은 Llama 2-Chat의 미세 조정, 특히 Supervised Fine-Tuning(SFT)과 Reinforcement Learning with Human Feedback(RLHF)을 통한 안전성 향상 접근법을 상세히 설명하여 커뮤니티의 발전에 기여하고자 합니다. 논문 제목: Llama 2: Open Foundation and Fine-Tuned Chat Models

LLaMA: 공개적이고 효율적인 파운데이션 언어 모델
·
#Large Language Model#Foundation Model

LLaMA: 공개적이고 효율적인 파운데이션 언어 모델

LLaMA는 7B부터 65B 파라미터까지 다양한 크기를 갖는 파운데이션 언어 모델 모음입니다. 이 모델들은 독점적이고 접근 불가능한 데이터셋에 의존하지 않고, 오직 공개적으로 사용 가능한 데이터셋만을 사용하여 최첨단 성능을 달성할 수 있음을 보여줍니다. 특히, LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)를 능가하며, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 같은 최고의 모델들과 경쟁력 있는 성능을 보입니다. 논문 제목: LLaMA: Open and Efficient Foundation Language Models

InstructGPT: 인간의 피드백으로 지시를 따르도록 언어 모델 훈련하기
·
#Language Model Alignment#RLHF

InstructGPT: 인간의 피드백으로 지시를 따르도록 언어 모델 훈련하기

InstructGPT는 대규모 언어 모델이 사용자의 의도를 더 잘 따르도록 만들기 위해 인간의 피드백을 통해 정렬(align)하는 방법을 제시합니다. 이 모델은 supervised fine-tuning (SFT)과 reinforcement learning from human feedback (RLHF)의 3단계 프로세스를 통해 GPT-3를 미세 조정하여 개발되었습니다. 평가 결과, 1.3B 파라미터의 InstructGPT 모델이 175B GPT-3보다 인간 선호도에서 더 높은 점수를 받았으며, 진실성 향상 및 유해한 결과물 생성 감소 효과를 보였습니다. 이는 인간 피드백을 활용한 미세 조정이 언어 모델을 인간의 의도에 맞게 정렬하는 유망한 방향임을 보여줍니다. 논문 제목: Training language models to follow instructions with human feedback

GPT-4 기술 보고서 요약
·
#Large Language Model#Multimodal

GPT-4 기술 보고서 요약

GPT-4는 이미지와 텍스트 입력을 모두 처리할 수 있는 대규모 멀티모달(multimodal) 모델입니다. 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 보이며, 모의 변호사 시험에서는 상위 10% 수준의 점수를 기록했습니다. GPT-4는 Transformer 기반 모델로, 사전 훈련 후 RLHF(Reinforcement Learning from Human Feedback)를 통해 사실성과 원하는 행동 준수 능력을 향상시켰습니다. 이 프로젝트의 핵심은 예측 가능한 스케일링을 위한 인프라와 최적화 방법을 개발하여, 훨씬 적은 컴퓨팅으로 훈련된 모델로부터 GPT-4의 성능을 정확하게 예측한 것입니다. 논문 제목: GPT-4 Technical Report

DeepSeek-R1: 강화학습(RL)을 통해 LLM의 추론 능력을 극대화하다
·
#Reinforcement Learning#Reasoning

DeepSeek-R1: 강화학습(RL)을 통해 LLM의 추론 능력을 극대화하다

DeepSeek-R1은 대규모 Reinforcement Learning(RL)을 통해 언어 모델의 추론 능력을 강화하는 방법을 제시합니다. SFT(Supervised Fine-Tuning) 없이 순수 RL만으로 학습한 DeepSeek-R1-Zero는 뛰어난 추론 능력을 보였지만, 가독성 문제를 드러냈습니다. 이를 개선하기 위해 소량의 cold-start 데이터와 다단계 학습을 적용한 DeepSeek-R1은 OpenAI-o1-1217에 필적하는 성능을 달성했습니다. 또한, 이 모델의 추론 능력을 더 작은 모델에 성공적으로 증류(distillation)하여, LLM의 추론 능력 향상에 대한 새로운 가능성을 보여줍니다. 논문 제목: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning