Foundation Model
3개의 포스트
Language Models are General-Purpose Interfaces
이 논문은 다양한 foundation model들을 위한 범용 인터페이스(general-purpose interface)로서 language model을 사용하는 MetaLM을 제안합니다. MetaLM은 semi-causal language modeling이라는 새로운 학습 목표를 통해, causal language model의 장점(in-context learning, open-ended generation)과 non-causal encoder의 장점(우수한 finetuning 성능)을 결합합니다. 이를 통해 여러 modality(vision, language)의 pretrained encoder들을 하나의 범용 task layer에 연결하여, finetuning, zero-shot, few-shot 학습 등 다양한 시나리오에서 높은 성능을 달성합니다. 논문 제목: Language Models are General-Purpose Interfaces
LLaMA 3: Meta의 새로운 파운데이션 모델
LLaMA 3는 다국어, 코딩, 추론, 도구 사용을 기본적으로 지원하는 새로운 파운데이션 모델 시리즈입니다. 가장 큰 405B 파라미터 모델은 최대 128K 토큰의 컨텍스트 윈도우를 가지며, GPT-4와 같은 선도적인 언어 모델과 유사한 성능을 제공합니다. 이 논문은 LLaMA 3의 광범위한 경험적 평가를 제시하며, 이미지, 비디오, 음성 기능을 통합하기 위한 compositional 접근 방식에 대한 실험 결과도 포함합니다. 논문 제목: The Llama 3 Herd of Models
LLaMA: 공개적이고 효율적인 파운데이션 언어 모델
LLaMA는 7B부터 65B 파라미터까지 다양한 크기를 갖는 파운데이션 언어 모델 모음입니다. 이 모델들은 독점적이고 접근 불가능한 데이터셋에 의존하지 않고, 오직 공개적으로 사용 가능한 데이터셋만을 사용하여 최첨단 성능을 달성할 수 있음을 보여줍니다. 특히, LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)를 능가하며, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 같은 최고의 모델들과 경쟁력 있는 성능을 보입니다. 논문 제목: LLaMA: Open and Efficient Foundation Language Models