전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 199개 / 5 페이지)

2025-10-11·

#VLMM#DPO

ISR-DPO: 자기 회귀적 DPO를 이용한 비디오 멀티모달 모델 정렬

Video Large Multimodal Model (VLMM)에 반복적인 선호도 최적화(iterative preference optimization)를 적용할 때 발생하는 modality misalignment 문제를 해결하기 위해 Iterative Self-Retrospective Direct Preference Optimization (ISR-DPO)를 제안합니다. 기존 VLMM은 self-judge 모델이 시각 정보보다 언어적 지식에 의존하고, 길이 편향(length bias)으로 인해 시각적으로 근거 없는 장황한 응답(verbosity hallucination)을 생성하는 경향이 있었습니다. ISR-DPO는 self-retrospective 방식을 통해 생성된 시각적 컨텍스트(visual context)를 선호도 모델링에 활용하여, 모델이 비디오의 핵심 정보에 집중하고 시각적으로 더 근거 있는(visually grounded) 선호도를 선택하도록 유도합니다. 이를 통해 VLMM의 비디오-텍스트 정렬 성능을 크게 향상시킵니다. 논문 제목: ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO

2025-10-04·

#Language Model#Pre-training

UL2: 언어 학습 패러다임의 통합

UL2(Unifying Language Learning Paradigms)는 다양한 NLP 데이터셋과 설정에서 보편적으로 효과적인 사전 학습 모델을 위한 통합 프레임워크를 제시합니다. 이 논문은 기존 모델들이 특정 문제에 특화되어 있다는 한계를 지적하며, 다양한 사전 학습 패러다임을 결합한 새로운 목표인 Mixture-of-Denoisers(MoD)를 제안합니다. MoD는 일반적인 span corruption(R-Denoiser), 순차적 denoising(S-Denoiser), 극단적인 denoising(X-Denoiser)을 혼합하여 모델이 fine-tuning과 few-shot 학습 모두에서 뛰어난 성능을 발휘하도록 합니다. 또한, downstream task에 맞춰 사전 학습 방식을 전환하는 '모드 스위칭' 개념을 도입하여 T5나 GPT와 같은 기존 모델들을 능가하는 성능을 달성했습니다. 논문 제목: Unifying Language Learning Paradigms

Sparrow: 타겟화된 인간 피드백으로 더 안전하고 유용한 대화 에이전트 만들기

2025-10-04·

#Dialogue Agent#RLHF

Sparrow: 타겟화된 인간 피드백으로 더 안전하고 유용한 대화 에이전트 만들기

Sparrow는 정보를 찾는 대화형 에이전트로, 기존 언어 모델보다 더 유용하고, 정확하며, 무해하도록 훈련되었습니다. 이 모델은 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 활용하며, 두 가지 핵심적인 방법을 도입합니다. 첫째, 좋은 대화의 요건을 자연어 규칙으로 세분화하고 평가자에게 각 규칙 위반 여부를 개별적으로 질문하여 더 정밀한 피드백을 수집하고, 이를 통해 효율적인 rule-conditional reward model을 학습합니다. 둘째, 사실에 기반한 주장을 할 때 근거 자료를 함께 제시하여 평가자가 답변의 정확성을 검증하도록 돕습니다. 그 결과 Sparrow는 적대적 질문(adversarial probing)에도 규칙 위반율이 낮고, 사실적 질문에 대해 높은 비율로 답변을 뒷받침하는 근거를 성공적으로 제시합니다. 논문 제목: Improving alignment of dialogue agents via targeted human judgements

2025-10-04·

#Object Detection#DETR

Rank-DETR: 고품질 객체 탐지를 위한 순위 지향 DETR 모델

Rank-DETR는 기존 DETR 기반 객체 탐지 모델에서 발생하는 분류 점수와 위치 정확도 간의 불일치 문제를 해결하여 높은 품질의 객체 탐지를 목표로 합니다. 이 모델은 순위 지향(rank-oriented) 아키텍처 설계와 순위 지향 손실 함수 및 매칭 비용 설계를 도입합니다. 아키텍처 측면에서는 rank-adaptive classification head와 query rank layer를 통해 거짓 양성(false positive)을 억제하고, 최적화 측면에서는 GIoU-aware classification loss와 high-order matching cost를 사용하여 높은 IoU 임계값에서 AP 성능을 크게 향상시킵니다. 이를 통해 H-DETR, DINO-DETR과 같은 SOTA 모델의 성능을 개선하며, 특히 AP75에서 눈에 띄는 성능 향상을 보여줍니다. 논문 제목: Rank-DETR for High Quality Object Detection

2025-10-04·

#Large Language Model#Scaling

PaLM: Pathways를 이용한 언어 모델링 스케일링

PaLM은 5400억 개의 파라미터를 가진 대규모 고밀도 Transformer 언어 모델로, Pathways라는 새로운 ML 시스템을 사용하여 6144개의 TPU v4 칩에서 효율적으로 학습되었습니다. 이 모델은 수백 개의 언어 이해 및 생성 벤치마크에서 최첨단 few-shot 학습 성능을 달성했으며, 특히 chain-of-thought prompting과 결합되었을 때 다단계 추론 작업에서 획기적인 성능을 보여줍니다. 또한 모델 규모가 커짐에 따라 특정 작업에서 성능이 급격히 향상되는 불연속적인 개선(discontinuous improvements) 현상을 나타내며, 이는 대규모 모델에서 새로운 능력이 나타날 수 있음을 시사합니다. 논문 제목: PaLM: Scaling Language Modeling with Pathways

PaLM-E: An Embodied Multimodal Language Model

2025-10-04·

#Embodied AI#Multimodal Language Model

PaLM-E: An Embodied Multimodal Language Model

PaLM-E는 로보틱스 문제 해결을 위해 실제 세계의 연속적인 센서 데이터(예: 이미지)를 Large Language Models (LLMs)에 직접 통합하여 언어와 인식 사이의 연결, 즉 grounding 문제를 해결하는 Embodied Language Model입니다. 이 모델은 이미지나 상태와 같은 다양한 modality의 입력을 텍스트 토큰과 함께 "multimodal sentences"로 처리하며, pre-trained된 LLM과 함께 end-to-end로 학습됩니다. PaLM-E는 로봇 조작 계획, visual question answering 등 다양한 embodied reasoning task에서 높은 성능을 보이며, 인터넷 스케일의 언어 및 비전 데이터를 함께 학습함으로써 지식 전이(transfer learning) 효과를 입증했습니다. 논문 제목: PaLM-E: An Embodied Multimodal Language Model

OPT-IML: 일반화 관점에서 본 언어 모델 Instruction Meta Learning 확장 연구

2025-10-04·

#Instruction Tuning#Large Language Model

OPT-IML: 일반화 관점에서 본 언어 모델 Instruction Meta Learning 확장 연구

본 논문은 대규모 언어 모델의 instruction-tuning 과정에서 다양한 결정들이 제로샷 및 퓨샷 일반화 성능에 미치는 영향을 체계적으로 분석합니다. 이를 위해 8개의 벤치마크를 통합한 2000개의 NLP 과제로 구성된 대규모 벤치마크 OPT-IML Bench를 구축했습니다. 이 프레임워크를 통해 과제 샘플링 전략, reasoning 및 dialogue 데이터셋 활용, fine-tuning 목표 등의 효과를 분석하고, 그 결과를 바탕으로 instruction-tuned된 OPT-IML 30B 및 175B 모델을 개발했습니다. OPT-IML 모델은 기본 OPT 모델을 크게 능가하며 다양한 평가 벤치마크에서 뛰어난 일반화 성능을 보여줍니다. 논문 제목: OPT-IML : Scaling Language Model Instruction Meta Learning through the Lens of Generalization

Language Models are General-Purpose Interfaces

2025-10-04·

#Semi-causal Language Model#Foundation Model

Language Models are General-Purpose Interfaces

이 논문은 다양한 foundation model들을 위한 범용 인터페이스(general-purpose interface)로서 language model을 사용하는 MetaLM을 제안합니다. MetaLM은 semi-causal language modeling이라는 새로운 학습 목표를 통해, causal language model의 장점(in-context learning, open-ended generation)과 non-causal encoder의 장점(우수한 finetuning 성능)을 결합합니다. 이를 통해 여러 modality(vision, language)의 pretrained encoder들을 하나의 범용 task layer에 연결하여, finetuning, zero-shot, few-shot 학습 등 다양한 시나리오에서 높은 성능을 달성합니다. 논문 제목: Language Models are General-Purpose Interfaces

긴 시퀀스 처리를 위한 RNN의 부활: Resurrecting Recurrent Neural Networks for Long Sequences

2025-10-04·

#RNN#Long Sequence Modeling

긴 시퀀스 처리를 위한 RNN의 부활: Resurrecting Recurrent Neural Networks for Long Sequences

긴 시퀀스 처리에 강점을 보이는 Recurrent Neural Networks (RNNs)는 학습이 어렵다는 단점이 있었고, 이를 State-Space Models (SSMs)이 해결하며 주목받았습니다. 이 논문은 바닐라 RNN에 몇 가지 핵심적인 수정을 가하여 SSM의 성능과 학습 속도를 따라잡을 수 있음을 보여줍니다. 저자들은 Linear Recurrent Unit (LRU)라는 새로운 RNN 블록을 제안하며, 이는 recurrence의 선형화, 복소 대각 행렬 사용, 안정적인 지수적 파라미터화, 그리고 정규화를 통해 Long Range Arena (LRA) 벤치마크에서 S4와 같은 최신 SSM 모델들과 동등한 성능을 달성합니다. 논문 제목: Resurrecting Recurrent Neural Networks for Long Sequences

2025-10-04·

#Large Language Model#Scientific NLP

Galactica: 과학을 위한 대규모 언어 모델

Galactica는 과학 분야의 정보 과부하 문제를 해결하기 위해 설계된 대규모 언어 모델(Large Language Model)입니다. 논문, 참조 자료, 지식 베이스 등 고품질의 엄선된 과학 корпу스(corpus)로 학습되었으며, 이는 비선별적인 데이터에 의존하는 기존 모델들과 차별화됩니다. Galactica는 LaTeX 수식, 화학식(SMILES), 단백질 서열 등 다양한 과학적 양식을 처리하고, <work> 토큰을 활용한 단계별 추론(step-by-step reasoning)을 통해 복잡한 과학 문제 해결에 뛰어난 성능을 보입니다. 이 모델은 MMLU, MATH와 같은 수학 추론 벤치마크와 PubMedQA 등 과학 분야의 다운스트림 태스크에서 기존의 대형 모델들을 능가하는 결과를 보여주며, 과학 지식을 저장, 결합, 추론하는 새로운 인터페이스로서의 가능성을 제시합니다. 논문 제목: Galactica: A Large Language Model for Science

1...4 5 6...20