LLM
4개의 포스트
Tree of Thoughts (ToT): 대규모 언어 모델의 신중한 문제 해결
Tree of Thoughts (ToT)는 기존의 Chain of Thought (CoT) 접근법을 일반화하여, LLM이 단일 경로가 아닌 여러 추론 경로를 동시에 탐색하도록 하는 새로운 프레임워크입니다. ToT는 생각을 트리 형태로 구성하여 LLM이 다양한 중간 단계를 생성하고, 각 선택을 자체적으로 평가하며, 필요에 따라 전진하거나 후퇴하는 신중한 의사결정을 내릴 수 있게 합니다. 이 방법을 통해 Game of 24, Creative Writing 등 복잡한 문제 해결 능력에서 GPT-4의 성능을 크게 향상시켰습니다. 논문 제목: Tree of Thoughts: Deliberate Problem Solving with Large Language Models
LLaMA 3: Meta의 새로운 파운데이션 모델
LLaMA 3는 다국어, 코딩, 추론, 도구 사용을 기본적으로 지원하는 새로운 파운데이션 모델 시리즈입니다. 가장 큰 405B 파라미터 모델은 최대 128K 토큰의 컨텍스트 윈도우를 가지며, GPT-4와 같은 선도적인 언어 모델과 유사한 성능을 제공합니다. 이 논문은 LLaMA 3의 광범위한 경험적 평가를 제시하며, 이미지, 비디오, 음성 기능을 통합하기 위한 compositional 접근 방식에 대한 실험 결과도 포함합니다. 논문 제목: The Llama 3 Herd of Models
SpeechGPT: 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델
SpeechGPT는 다중 모달 콘텐츠를 인식하고 생성할 수 있는 내재된 크로스모달 대화 능력을 갖춘 대규모 언어 모델입니다. 이 모델은 기존의 캐스케이드 방식을 벗어나 이산적인 음성 표현을 활용하여 모달 간 지식 전달을 가능하게 합니다. 대규모 크로스모달 음성 지시 데이터셋인 SpeechInstruct를 구축하고, 3단계 학습 전략(모달리티 적응 사전학습, 크로스모달 지시 미세조정, Chain-of-Modality 지시 미세조정)을 통해 학습되었습니다. 논문 제목: SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
멀티모달 대규모 언어 모델(MLLM)의 모든 것: 최신 연구 동향 총정리
최근 GPT-4V와 같은 Multimodal Large Language Model(MLLM)의 최신 연구 동향을 종합적으로 살펴봅니다. 본 논문은 MLLM의 기본 개념, 아키텍처, 학습 전략, 평가 방법을 다루고, Multimodal ICL (M-ICL), Multimodal CoT (M-CoT)와 같은 확장 기술과 멀티모달 환각 현상 및 해결 과제를 논의합니다. 논문 제목: A Survey on Multimodal Large Language Models