전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 101개 / 6 페이지)

LATR: 길이를 인지하는 Transformer를 이용한 Temporal Sentence Grounding
·
#Temporal Sentence Grounding#Length-Aware Transformer

LATR: 길이를 인지하는 Transformer를 이용한 Temporal Sentence Grounding

Temporal Sentence Grounding (TSG)은 비디오에서 주어진 문장에 해당하는 시간적 구간을 찾는 task입니다. 기존 DETR 기반 모델들은 학습 가능한 query들의 역할이 겹쳐 중복된 예측을 생성하는 문제가 있었습니다. LATR (Length-Aware Transformer)은 각 query가 특정 시간 길이에 전문화되도록 하여 이 문제를 해결합니다. 모델은 query들을 짧은, 중간, 긴 길이를 담당하는 세 그룹으로 나누고, 학습 과정에서 길이 분류 task를 추가하여 각 query가 지정된 역할을 학습하도록 유도합니다. 길이가 맞지 않는 query의 예측은 억제함으로써, 각 query는 특정 길이 범위에 집중하게 되어 모델의 전반적인 성능과 예측 정확도를 향상시킵니다. 논문 제목: Length Matters: Length-Aware Transformer for Temporal Sentence Grounding

Audio Does Matter: 중요도 인식 다중 세분성 융합을 통한 비디오 순간 검색
·
#Video Moment Retrieval#Multimodal Learning

Audio Does Matter: 중요도 인식 다중 세분성 융합을 통한 비디오 순간 검색

본 논문은 Video Moment Retrieval (VMR) 작업에서 기존 모델들이 간과했던 오디오 정보의 중요성을 강조합니다. 이를 위해, 제안하는 IMG (Importance-aware Multi-Granularity fusion) 모델은 오디오의 유용성을 동적으로 판단하는 Audio Importance Predictor를 도입하여 노이즈의 영향을 줄이고, Multi-Granularity Fusion 모듈을 통해 다양한 수준(local, event, global)에서 시청각 정보를 효과적으로 융합합니다. 또한, 추론 시 오디오가 없는 상황에서도 성능을 유지하기 위해 Cross-modal knowledge distillation 전략을 사용합니다. 이 모델은 주어진 텍스트 쿼리와 의미적으로 가장 관련 있는 비디오의 특정 순간을 정확하게 찾아내는 것을 목표로 합니다. 논문 제목: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval

GPT-3: Language Models are Few-Shot Learners
·
#Large Language Model#Few-shot Learning

GPT-3: Language Models are Few-Shot Learners

GPT-3는 1750억 개의 파라미터를 가진 autoregressive language model로, 대규모 언어 모델의 스케일링이 task-agnostic few-shot 성능을 크게 향상시킴을 보여줍니다. 이 모델은 별도의 gradient 업데이트나 fine-tuning 없이, 오직 텍스트 상호작용을 통해 few-shot demonstrations 만으로 다양한 NLP 태스크(번역, 질의응답, 문장 완성 등)에서 강력한 성능을 달성합니다. 특히, GPT-3는 실시간 추론이나 도메인 적응이 필요한 새로운 태스크에서도 뛰어난 능력을 보이며, 인간이 작성한 기사와 구별하기 어려운 수준의 텍스트를 생성할 수 있습니다. 논문 제목: Language Models are Few-Shot Learners

GPT-2: Language Models are Unsupervised Multitask Learners
·
#Language Model#Zero-shot Learning

GPT-2: Language Models are Unsupervised Multitask Learners

GPT-2는 대규모의 다양한 웹페이지 데이터셋인 WebText로 학습될 때, 별도의 명시적인 지도 학습 없이도 질의응답, 기계 번역, 요약과 같은 다양한 자연어 처리(NLP) 작업을 수행할 수 있음을 보여주는 1.5B 파라미터의 Transformer 기반 언어 모델입니다. 이 모델은 zero-shot 설정, 즉 특정 작업을 위한 미세 조정(fine-tuning) 없이도 여러 NLP 벤치마크에서 기존 최고 성능을 달성했으며, 이는 대용량 언어 모델이 자연적으로 발생하는 텍스트 데이터로부터 암시적으로 여러 작업을 학습할 수 있는 잠재력을 시사합니다. 논문 제목: Language Models are Unsupervised Multitask Learners

GPT-1: 생성적 사전 훈련을 통한 언어 이해 능력의 혁신
·
#Generative Pre-training#Transformer

GPT-1: 생성적 사전 훈련을 통한 언어 이해 능력의 혁신

GPT-1은 대규모의 레이블 없는 텍스트 코퍼스에서 언어 모델을 생성적으로 사전 훈련(generative pre-training)한 후, 각 특정 과제에 맞게 판별적으로 미세 조정(discriminative fine-tuning)하여 자연어 이해(NLU) 능력을 크게 향상시킨 모델입니다. 이 접근법은 Transformer 아키텍처를 사용하여 긴 텍스트의 의존성을 효과적으로 학습하고, 최소한의 아키텍처 변경만으로 다양한 다운스트림 과제에 적용할 수 있는 범용 표현(universal representation)을 학습합니다. 그 결과, 상식 추론, 질의응답, 텍스트 함의 관계 인식 등 12개 과제 중 9개에서 당시 최고 수준의 성능을 달성했습니다. 논문 제목: Improving Language Understanding by Generative Pre-Training

BERT: 언어 이해를 위한 Deep Bidirectional Transformers의 Pre-training
·
#Language Model#Transformer

BERT: 언어 이해를 위한 Deep Bidirectional Transformers의 Pre-training

BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 기존 모델들과 달리 문장의 왼쪽과 오른쪽 문맥을 동시에 고려하여 언어를 이해하는 Deep Bidirectional 모델입니다. "Masked Language Model" (MLM)과 "Next Sentence Prediction" (NSP)이라는 두 가지 비지도 학습 과제를 통해 사전 학습되며, 이로 인해 별도의 큰 구조 변경 없이 fine-tuning만으로 다양한 NLP 태스크에서 최고의 성능을 달성합니다. BERT는 특히 문장 레벨 및 토큰 레벨의 과제 모두에서 기존의 단방향 모델들의 한계를 극복하고 새로운 state-of-the-art를 기록했습니다. 논문 제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

LA-DETR: 짧은 영상 순간을 정확하게 포착하는 Length-Aware DETR
·
#Video Moment Retrieval#DETR

LA-DETR: 짧은 영상 순간을 정확하게 포착하는 Length-Aware DETR

LA-DETR은 기존 DETR 기반 Video Moment Retrieval (MR) 모델들이 짧은 길이의 순간(moment)을 정확히 찾아내지 못하는 문제를 해결하기 위해 제안된 프레임워크입니다. 데이터 관점에서 짧은 순간의 feature 다양성이 부족하다는 점에 착안하여, ForegroundMix와 BackgroundMix 두 전략으로 구성된 MomentMix 데이터 증강 기법을 도입했습니다. 또한, 모델 관점에서 짧은 순간의 중심점 예측 정확도가 낮다는 문제를 해결하기 위해, 길이를 조건으로 부여하는 새로운 양분 매칭(bipartite matching) 프로세스를 포함한 Length-Aware Decoder를 제안합니다. 이 방법론들을 통해 LA-DETR은 짧은 순간 탐색 성능을 크게 향상시켰으며, QVHighlights, TACoS, Charades-STA와 같은 벤치마크 데이터셋에서 SOTA DETR 기반 모델들을 능가하는 성능을 달성했습니다. 논문 제목: Length-Aware DETR for Robust Moment Retrieval

ASM-Loc: 약지도 시간적 행동 탐지를 위한 행동 인식 세그먼트 모델링
·
#Weakly-Supervised Temporal Action Localization#Action Recognition

ASM-Loc: 약지도 시간적 행동 탐지를 위한 행동 인식 세그먼트 모델링

ASM-Loc은 비디오 레벨의 레이블만으로 시간적 행동을 탐지하는 Weakly-Supervised Temporal Action Localization (WTAL)을 위한 새로운 프레임워크입니다. 기존의 Multiple Instance Learning (MIL) 기반 방법들이 비디오의 각 부분을 독립적으로 처리하여 시간적 구조를 놓치는 문제를 해결하고자, ASM-Loc은 행동 세그먼트에 초점을 맞춘 모델링을 제안합니다. 이 프레임워크는 짧은 행동의 중요도를 높이는 동적 세그먼트 샘플링, 행동 내/외부의 시간적 의존성을 포착하는 intra- 및 inter-segment attention, 그리고 행동 경계를 정교화하는 pseudo instance-level supervision을 포함합니다. 또한, 다단계 개선 전략을 통해 행동 제안의 품질을 점진적으로 향상시켜 THUMOS-14 및 ActivityNetv1.3 데이터셋에서 최고의 성능을 달성합니다. 논문 제목: ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization

Pixel-BERT: Deep Multi-Modal Transformer를 이용한 이미지 픽셀과 텍스트 정렬
·
#Vision and Language#Representation Learning

Pixel-BERT: Deep Multi-Modal Transformer를 이용한 이미지 픽셀과 텍스트 정렬

Pixel-BERT는 기존의 객체 탐지 기반의 region-based visual feature의 한계를 극복하기 위해, 이미지 픽셀과 텍스트를 직접적으로 정렬하는 end-to-end multi-modal Transformer 모델입니다. 이 모델은 CNN 기반 visual encoder를 사용하여 이미지 픽셀에서 직접 시각적 임베딩을 학습하고, 이를 텍스트 임베딩과 결합하여 심층적인 상호작용을 학습합니다. Pre-training 단계에서는 Masked Language Model (MLM)과 Image-Text Matching (ITM) task를 사용하며, 시각적 표현의 강인함을 높이기 위해 random pixel sampling 메커니즘을 제안합니다. 이를 통해 VQA, image-text retrieval 등 다양한 downstream task에서 뛰어난 성능을 보여줍니다. 논문 제목: Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

GPT-5 완전 분석: 똑똑함을 넘어 신뢰성까지 갖춘 통합 AI
·
#GPT-5

GPT-5 완전 분석: 똑똑함을 넘어 신뢰성까지 갖춘 통합 AI

OpenAI의 최신 언어 모델 GPT-5는 빠른 응답의 Chat 모드와 깊이 있는 추론의 Thinking 모드를 자동으로 전환하는 통합 AI 시스템입니다. 코딩, 수학, 글쓰기 등 다양한 분야에서 최고 성능(SOTA)을 달성했으며, 특히 환각(hallucination) 현상을 GPT-4 대비 크게 줄여 사실성과 신뢰성을 향상시켰습니다. 향상된 창의성, 강력한 코딩 능력, 전문 지식 활용 능력을 통해 더 유용하고 정확한 답변을 제공하는 GPT-5의 모든 것을 알아봅니다.