전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 103개 / 4 페이지)

DETRDistill: DETR 계열을 위한 범용 Knowledge Distillation 프레임워크

2025-08-19·

#DETR#Knowledge Distillation

DETRDistill: DETR 계열을 위한 범용 Knowledge Distillation 프레임워크

DETRDistill은 Transformer 기반 detector (DETR) 계열을 위해 특별히 설계된 새로운 Knowledge Distillation (KD) 프레임워크입니다. 기존 KD 방법들이 DETR의 집합 예측 (set prediction) 방식에 적용하기 어려운 문제를 해결하기 위해, 이 논문은 세 가지 주요 구성 요소를 제안합니다: (1) Hungarian-matching logits distillation은 student 모델이 teacher 모델의 예측과 정확히 일치하도록 유도합니다. (2) Target-aware feature distillation은 student가 teacher의 객체 중심적 (object-centric) feature로부터 학습하도록 돕습니다. (3) Query-prior assignment distillation은 잘 학습된 teacher의 query와 안정적인 할당(assignment) 정보를 활용하여 student 모델의 수렴 속도를 높입니다. 이 프레임워크는 COCO 데이터셋에서 다양한 DETR 모델의 성능을 크게 향상시키며, 때로는 teacher 모델을 능가하는 결과를 보여줍니다. 논문 제목: DETRDistill: A Universal Knowledge Distillation Framework for DETR-families

2025-08-19·

#Video Moment Retrieval#Multimodal

CHAPVIDMR: 자연어 쿼리를 이용한 챕터 기반 비디오 순간 검색

Video Moment Retrieval (VMR)은 쿼리와 비디오의 특정 순간을 연결하는 기술입니다. 본 논문에서는 YouTube 비디오의 챕터 정보를 활용하여 단일 쿼리에 여러 비디오 순간을 연결하는 새로운 데이터셋인 ChapVidMR (Chapter-based Video Moment Retrieval)을 제안합니다. ChapVidMR은 챕터 이름과 메타데이터를 기반으로 GPT4를 사용하여 생성된 10.8K개의 사용자 쿼리로 구성됩니다. 이 데이터셋을 사용하여 두 가지 VMR 작업, 즉 챕터 분류 기반 VMR과 세분화 기반 VMR에 대한 벤치마크를 제공합니다. 실험 결과, 챕터 분류 작업에서는 Sentence-BERT가, 세분화 작업에서는 UniVTG가 가장 높은 성능을 보였습니다. 논문 제목: CHAPVIDMR: Chapter-based Video Moment Retrieval using Natural Language Queries

2025-08-18·

#Image Retrieval#Visual-Language Model

ELIP: 이미지 검색 성능을 향상시키는 시각-언어 기반 모델

ELIP (Enhanced Language-Image Pre-training)은 대규모 사전 학습 시각-언어 모델의 텍스트-이미지 검색 성능을 향상시키기 위한 새로운 프레임워크입니다. 이 접근법은 텍스트 쿼리를 사용하여 ViT 이미지 인코딩을 조건화하는 시각적 프롬프트 세트를 예측하며, 기존의 CLIP, SigLIP, BLIP-2와 같은 모델에 쉽게 적용할 수 있는 경량 아키텍처를 특징으로 합니다. ELIP은 제한된 컴퓨팅 자원으로 효율적인 학습이 가능하도록 데이터 큐레이션 전략을 제안하며, 텍스트-이미지 재순위화(re-ranking) 단계에서 성능을 크게 향상시켜 기존 모델들을 능가하는 결과를 보여줍니다. 논문 제목: ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

Tree of Thoughts (ToT): 대규모 언어 모델의 신중한 문제 해결

2025-08-15·

#Tree of Thoughts#LLM

Tree of Thoughts (ToT): 대규모 언어 모델의 신중한 문제 해결

Tree of Thoughts (ToT)는 기존의 Chain of Thought (CoT) 접근법을 일반화하여, LLM이 단일 경로가 아닌 여러 추론 경로를 동시에 탐색하도록 하는 새로운 프레임워크입니다. ToT는 생각을 트리 형태로 구성하여 LLM이 다양한 중간 단계를 생성하고, 각 선택을 자체적으로 평가하며, 필요에 따라 전진하거나 후퇴하는 신중한 의사결정을 내릴 수 있게 합니다. 이 방법을 통해 Game of 24, Creative Writing 등 복잡한 문제 해결 능력에서 GPT-4의 성능을 크게 향상시켰습니다. 논문 제목: Tree of Thoughts: Deliberate Problem Solving with Large Language Models

OPT: Open Pre-trained Transformer Language Models

2025-08-15·

#Large Language Model#Transformer

OPT: Open Pre-trained Transformer Language Models

Open Pre-trained Transformers (OPT)는 125M부터 175B 파라미터에 이르는 decoder-only pre-trained Transformer 모델 모음입니다. 이 모델들은 GPT-3와 유사한 성능을 목표로 개발되었으며, 연구자들이 대규모 언어 모델(Large Language Models)에 더 쉽게 접근하고 연구할 수 있도록 모든 모델과 학습 과정을 투명하게 공개하는 것을 목표로 합니다. 특히 OPT-175B 모델은 GPT-3 대비 1/7의 탄소 발자국으로 개발되었으며, 이 논문은 학습 과정에서 겪었던 인프라 문제와 해결 과정을 담은 로그북까지 함께 공개하여 재현 가능하고 책임감 있는 연구를 촉진하고자 합니다. 논문 제목: OPT: Open Pre-trained Transformer Language Models

2025-08-15·

#SSM#Mamba

Mamba-2: Transformers와 SSM의 관계를 재정의하다

Mamba-2는 State-Space Models (SSMs)와 Transformers 아키텍처 간의 깊은 이론적 연결을 제시하는 State Space Duality (SSD) 프레임워크를 소개합니다. 이 논문은 두 모델 계열이 structured semiseparable matrices를 통해 어떻게 연결되는지를 보여주며, 이를 바탕으로 기존 Mamba보다 2-8배 빠른 Mamba-2 아키텍처를 제안합니다. Mamba-2는 향상된 속도와 효율성을 가지면서도 언어 모델링 성능에서 Transformers와 경쟁력을 유지합니다. 논문 제목: Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

2025-08-15·

#State Space Model#Sequence Modeling

Mamba: 선택적 상태 공간을 이용한 선형 시간 시퀀스 모델링

Mamba는 Transformer의 긴 시퀀스에 대한 계산 비효율성을 해결하기 위해 제안된 Structured State Space Models (SSMs) 기반의 아키텍처입니다. 기존 SSM의 약점인 content-based reasoning 능력 부재를 해결하기 위해, 입력에 따라 SSM 파라미터가 동적으로 변하는 selection mechanism을 도입했습니다. 이를 통해 모델은 시퀀스를 따라 정보를 선택적으로 전파하거나 잊을 수 있습니다. 또한, 이로 인해 기존의 효율적인 convolution 연산을 사용할 수 없게 되는 문제를 하드웨어 친화적인 병렬 스캔 알고리즘으로 해결했습니다. Mamba는 attention이나 MLP 블록 없이 단순화된 종단 간 신경망 아키텍처로, 빠른 추론 속도와 시퀀스 길이에 대한 선형적인 확장성을 가지며 언어, 오디오, 유전체 등 다양한 데이터에서 SOTA 성능을 달성했습니다. 논문 제목: Mamba: Linear-Time Sequence Modeling with Selective State Spaces

2025-08-15·

#Foundation Model#LLM

LLaMA 3: Meta의 새로운 파운데이션 모델

LLaMA 3는 다국어, 코딩, 추론, 도구 사용을 기본적으로 지원하는 새로운 파운데이션 모델 시리즈입니다. 가장 큰 405B 파라미터 모델은 최대 128K 토큰의 컨텍스트 윈도우를 가지며, GPT-4와 같은 선도적인 언어 모델과 유사한 성능을 제공합니다. 이 논문은 LLaMA 3의 광범위한 경험적 평가를 제시하며, 이미지, 비디오, 음성 기능을 통합하기 위한 compositional 접근 방식에 대한 실험 결과도 포함합니다. 논문 제목: The Llama 3 Herd of Models

2025-08-15·

#Large Language Model#RLHF

Llama 2: 오픈소스 기반의 사전 훈련 및 미세 조정된 채팅 모델

Llama 2는 70억에서 700억 파라미터 규모의 사전 훈련 및 미세 조정된 대규모 언어 모델(LLM) 모음입니다. 특히, 대화형 사용 사례에 최적화된 Llama 2-Chat 모델은 대부분의 벤치마크에서 기존 오픈소스 채팅 모델을 능가하며, 인간 평가 기반의 유용성과 안전성 측면에서 비공개 소스 모델의 대안이 될 수 있음을 보여줍니다. 이 논문은 Llama 2-Chat의 미세 조정, 특히 Supervised Fine-Tuning(SFT)과 Reinforcement Learning with Human Feedback(RLHF)을 통한 안전성 향상 접근법을 상세히 설명하여 커뮤니티의 발전에 기여하고자 합니다. 논문 제목: Llama 2: Open Foundation and Fine-Tuned Chat Models

2025-08-15·

#Large Language Model#Foundation Model

LLaMA: 공개적이고 효율적인 파운데이션 언어 모델

LLaMA는 7B부터 65B 파라미터까지 다양한 크기를 갖는 파운데이션 언어 모델 모음입니다. 이 모델들은 독점적이고 접근 불가능한 데이터셋에 의존하지 않고, 오직 공개적으로 사용 가능한 데이터셋만을 사용하여 최첨단 성능을 달성할 수 있음을 보여줍니다. 특히, LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)를 능가하며, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 같은 최고의 모델들과 경쟁력 있는 성능을 보입니다. 논문 제목: LLaMA: Open and Efficient Foundation Language Models

1 3 4 5...11