Transformer
8개의 포스트
CDTR: Concept Decomposition Transformer를 이용한 비디오 순간 검색을 위한 Semantic Alignment
CDTR (Concept Decomposition Transformer)은 자연어 쿼리를 기반으로 비디오 내 특정 순간을 찾는 Video Moment Retrieval (VMR) 작업을 위한 새로운 모델입니다. 이 모델은 비디오와 텍스트 쿼리를 독립적인 concept 표현으로 분해하는 semantic concept decomposition module을 도입하여, cross-modal 매칭에 중요한 세분화된 의미(fine-grained semantics)를 포착합니다. 분해된 concept 표현을 pseudo-label로 사용하여 비디오 내부 및 텍스트-비디오 간의 fine-grained concept alignment를 수행함으로써, 미묘한 의미적 차이를 구별하는 모델의 능력을 향상시키고 semantic overlap 및 sparse constraints와 같은 기존의 문제들을 완화합니다. 논문 제목: CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer
RGTR: 쿼리 다양화를 통한 Temporal Sentence Grounding Transformer
기존 DETR 기반의 Temporal Sentence Grounding 모델들은 중복되고 불필요한 proposal을 생성하는 문제를 겪습니다. 이를 해결하기 위해 제안된 Region-Guided Transformer (RGTR)는 학습 가능한 쿼리 대신 명시적인 지역적 가이드를 제공하는 anchor pair를 moment query로 사용하여 쿼리 다양성을 높이고 중복 proposal을 제거합니다. 각 moment query는 특정 시간 영역의 예측을 담당하여 최적화의 어려움을 줄이고 proposal의 다양성을 보장합니다. 또한, IoU-aware scoring head를 도입하여 proposal의 품질을 향상시킵니다. 논문 제목: Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding
OPT: Open Pre-trained Transformer Language Models
Open Pre-trained Transformers (OPT)는 125M부터 175B 파라미터에 이르는 decoder-only pre-trained Transformer 모델 모음입니다. 이 모델들은 GPT-3와 유사한 성능을 목표로 개발되었으며, 연구자들이 대규모 언어 모델(Large Language Models)에 더 쉽게 접근하고 연구할 수 있도록 모든 모델과 학습 과정을 투명하게 공개하는 것을 목표로 합니다. 특히 OPT-175B 모델은 GPT-3 대비 1/7의 탄소 발자국으로 개발되었으며, 이 논문은 학습 과정에서 겪었던 인프라 문제와 해결 과정을 담은 로그북까지 함께 공개하여 재현 가능하고 책임감 있는 연구를 촉진하고자 합니다. 논문 제목: OPT: Open Pre-trained Transformer Language Models
Attention Is All You Need: 순환과 합성곱을 넘어선 Transformer 모델
Transformer는 복잡한 recurrent나 convolutional neural network 대신 오직 attention 메커니즘에만 기반한 새로운 네트워크 아키텍처입니다. 이 모델은 recurrence와 convolutions를 완전히 제거하여 병렬 처리를 극대화하고 훈련 시간을 크게 단축시켰으며, 기계 번역 작업에서 최고의 성능을 달성했습니다. Transformer는 encoder와 decoder 구조를 사용하며, multi-head self-attention을 통해 입력과 출력 시퀀스 간의 global dependency를 효과적으로 학습합니다. 논문 제목: Attention Is All You Need
GPT-1: 생성적 사전 훈련을 통한 언어 이해 능력의 혁신
GPT-1은 대규모의 레이블 없는 텍스트 코퍼스에서 언어 모델을 생성적으로 사전 훈련(generative pre-training)한 후, 각 특정 과제에 맞게 판별적으로 미세 조정(discriminative fine-tuning)하여 자연어 이해(NLU) 능력을 크게 향상시킨 모델입니다. 이 접근법은 Transformer 아키텍처를 사용하여 긴 텍스트의 의존성을 효과적으로 학습하고, 최소한의 아키텍처 변경만으로 다양한 다운스트림 과제에 적용할 수 있는 범용 표현(universal representation)을 학습합니다. 그 결과, 상식 추론, 질의응답, 텍스트 함의 관계 인식 등 12개 과제 중 9개에서 당시 최고 수준의 성능을 달성했습니다. 논문 제목: Improving Language Understanding by Generative Pre-Training
BERT: 언어 이해를 위한 Deep Bidirectional Transformers의 Pre-training
BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 기존 모델들과 달리 문장의 왼쪽과 오른쪽 문맥을 동시에 고려하여 언어를 이해하는 Deep Bidirectional 모델입니다. "Masked Language Model" (MLM)과 "Next Sentence Prediction" (NSP)이라는 두 가지 비지도 학습 과제를 통해 사전 학습되며, 이로 인해 별도의 큰 구조 변경 없이 fine-tuning만으로 다양한 NLP 태스크에서 최고의 성능을 달성합니다. BERT는 특히 문장 레벨 및 토큰 레벨의 과제 모두에서 기존의 단방향 모델들의 한계를 극복하고 새로운 state-of-the-art를 기록했습니다. 논문 제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
ViLT: 합성곱이나 영역 감독 없이 구현된 Vision-and-Language Transformer
ViLT(Vision-and-Language Transformer)는 기존 Vision-and-Language Pre-training(VLP) 모델들이 의존했던 복잡한 이미지 특징 추출 과정(예: object detection, ResNet)을 제거한 혁신적인 모델입니다. ViLT는 텍스트를 처리하는 방식과 동일하게, 간단한 patch projection을 통해 시각적 입력을 처리하여 모델을 단순화했습니다. 이러한 설계 덕분에 기존 VLP 모델보다 수십 배 빠르면서도, 다양한 vision-and-language downstream task에서 경쟁력 있거나 더 나은 성능을 보여줍니다. 논문 제목: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
Audio Spectrogram Transformer (AST): CNN을 넘어선 오디오 분류의 새로운 접근
Audio Spectrogram Transformer(AST)는 오디오 분류를 위해 제안된 최초의 Convolution-free, 순수 attention 기반 모델입니다. 기존 CNN 기반 모델과 달리, AST는 오디오 Spectrogram에서 직접적으로 장거리 전역 컨텍스트를 학습하여 AudioSet, ESC-50, Speech Commands V2와 같은 주요 벤치마크에서 SOTA(State-of-the-Art) 성능을 달성했습니다. ImageNet으로 사전 학습된 Vision Transformer (ViT)의 지식을 활용하여 성능을 크게 향상시키는 방법 또한 제안합니다. 논문 제목: AST: Audio Spectrogram Transformer