Transformer
11개의 포스트
Memory-Augmented Transformer (MATR)를 이용한 온라인 시간적 행동 탐지
MATR은 스트리밍 비디오에서 실시간으로 행동 구간을 탐지하는 Online Temporal Action Localization (On-TAL)을 위한 새로운 모델입니다. 기존 방법들은 고정된 크기의 비디오 세그먼트만 입력으로 받아 장기적인 맥락을 파악하는 데 한계가 있었습니다. MATR은 과거의 주요 비디오 특징을 선택적으로 저장하는 memory queue를 도입하여 이 문제를 해결하며, 이를 통해 장기적인 맥락을 활용합니다. 현재 시점에서 행동의 끝(end)을 먼저 감지한 뒤, 메모리에 저장된 과거 정보를 탐색해 행동의 시작(start)을 정확히 찾아내는 새로운 방식을 제안합니다. 이 과정은 Transformer 기반의 end decoder와 start decoder를 분리하여 수행됩니다. 논문 제목: Online Temporal Action Localization with Memory-Augmented Transformer
Big Bird: 더 긴 시퀀스를 처리하기 위한 Transformer
BigBird는 Transformer 모델의 핵심 한계인 sequence 길이에 대한 quadratic dependency 문제를 해결하기 위해 제안된 sparse attention 메커니즘입니다. 이 메커니즘은 full attention의 계산량을 linear하게 줄여, 기존 하드웨어에서 최대 8배 더 긴 sequence를 처리할 수 있게 합니다. BigBird는 random attention, local window attention, 그리고 global token attention 세 가지 요소를 결합하여 효율성과 성능을 모두 잡았습니다. 이론적으로는 full attention Transformer의 속성인 universal approximator 및 Turing complete를 그대로 유지하며, 실험적으로는 질의응답(question answering), 요약(summarization) 등 긴 context를 요구하는 다양한 NLP 태스크에서 성능을 크게 향상시켰습니다. 또한, 유전체학(genomics) 데이터에 대한 새로운 적용 가능성도 제시합니다. 논문 제목: Big Bird: Transformers for Longer Sequences
GMMFormer: 효율적인 부분 관련 비디오 검색(PRVR)을 위한 Gaussian-Mixture-Model 기반 Transformer
GMMFormer는 부분 관련 비디오 검색(Partially Relevant Video Retrieval, PRVR)의 효율성 문제를 해결하기 위해 제안된 Gaussian-Mixture-Model 기반 Transformer입니다. 기존 PRVR 방식은 스캐닝 기반의 명시적 클립 모델링으로 인해 정보 중복과 큰 저장 공간 오버헤드를 유발했습니다. GMMFormer는 Gaussian-Mixture-Model 제약을 프레임 상호작용에 통합하여 각 프레임이 인접 프레임에 집중하도록 하는 암시적 클립 모델링을 수행합니다. 이를 통해 다중 스케일 클립 정보를 포함하는 압축된 표현을 생성하여 효율성을 높입니다. 또한, 동일 비디오에 대한 여러 텍스트 쿼리 간의 의미적 차이를 보존하기 위해 query diverse loss를 제안하여 임베딩 공간을 더 밀도 높고 의미적으로 풍부하게 만듭니다. 논문 제목: GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval
CDTR: Concept Decomposition Transformer를 이용한 비디오 순간 검색을 위한 Semantic Alignment
CDTR (Concept Decomposition Transformer)은 자연어 쿼리를 기반으로 비디오 내 특정 순간을 찾는 Video Moment Retrieval (VMR) 작업을 위한 새로운 모델입니다. 이 모델은 비디오와 텍스트 쿼리를 독립적인 concept 표현으로 분해하는 semantic concept decomposition module을 도입하여, cross-modal 매칭에 중요한 세분화된 의미(fine-grained semantics)를 포착합니다. 분해된 concept 표현을 pseudo-label로 사용하여 비디오 내부 및 텍스트-비디오 간의 fine-grained concept alignment를 수행함으로써, 미묘한 의미적 차이를 구별하는 모델의 능력을 향상시키고 semantic overlap 및 sparse constraints와 같은 기존의 문제들을 완화합니다. 논문 제목: CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer
RGTR: 쿼리 다양화를 통한 Temporal Sentence Grounding Transformer
기존 DETR 기반의 Temporal Sentence Grounding 모델들은 중복되고 불필요한 proposal을 생성하는 문제를 겪습니다. 이를 해결하기 위해 제안된 Region-Guided Transformer (RGTR)는 학습 가능한 쿼리 대신 명시적인 지역적 가이드를 제공하는 anchor pair를 moment query로 사용하여 쿼리 다양성을 높이고 중복 proposal을 제거합니다. 각 moment query는 특정 시간 영역의 예측을 담당하여 최적화의 어려움을 줄이고 proposal의 다양성을 보장합니다. 또한, IoU-aware scoring head를 도입하여 proposal의 품질을 향상시킵니다. 논문 제목: Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding
OPT: Open Pre-trained Transformer Language Models
Open Pre-trained Transformers (OPT)는 125M부터 175B 파라미터에 이르는 decoder-only pre-trained Transformer 모델 모음입니다. 이 모델들은 GPT-3와 유사한 성능을 목표로 개발되었으며, 연구자들이 대규모 언어 모델(Large Language Models)에 더 쉽게 접근하고 연구할 수 있도록 모든 모델과 학습 과정을 투명하게 공개하는 것을 목표로 합니다. 특히 OPT-175B 모델은 GPT-3 대비 1/7의 탄소 발자국으로 개발되었으며, 이 논문은 학습 과정에서 겪었던 인프라 문제와 해결 과정을 담은 로그북까지 함께 공개하여 재현 가능하고 책임감 있는 연구를 촉진하고자 합니다. 논문 제목: OPT: Open Pre-trained Transformer Language Models
Attention Is All You Need: 순환과 합성곱을 넘어선 Transformer 모델
Transformer는 복잡한 recurrent나 convolutional neural network 대신 오직 attention 메커니즘에만 기반한 새로운 네트워크 아키텍처입니다. 이 모델은 recurrence와 convolutions를 완전히 제거하여 병렬 처리를 극대화하고 훈련 시간을 크게 단축시켰으며, 기계 번역 작업에서 최고의 성능을 달성했습니다. Transformer는 encoder와 decoder 구조를 사용하며, multi-head self-attention을 통해 입력과 출력 시퀀스 간의 global dependency를 효과적으로 학습합니다. 논문 제목: Attention Is All You Need
GPT-1: 생성적 사전 훈련을 통한 언어 이해 능력의 혁신
GPT-1은 대규모의 레이블 없는 텍스트 코퍼스에서 언어 모델을 생성적으로 사전 훈련(generative pre-training)한 후, 각 특정 과제에 맞게 판별적으로 미세 조정(discriminative fine-tuning)하여 자연어 이해(NLU) 능력을 크게 향상시킨 모델입니다. 이 접근법은 Transformer 아키텍처를 사용하여 긴 텍스트의 의존성을 효과적으로 학습하고, 최소한의 아키텍처 변경만으로 다양한 다운스트림 과제에 적용할 수 있는 범용 표현(universal representation)을 학습합니다. 그 결과, 상식 추론, 질의응답, 텍스트 함의 관계 인식 등 12개 과제 중 9개에서 당시 최고 수준의 성능을 달성했습니다. 논문 제목: Improving Language Understanding by Generative Pre-Training
BERT: 언어 이해를 위한 Deep Bidirectional Transformers의 Pre-training
BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 기존 모델들과 달리 문장의 왼쪽과 오른쪽 문맥을 동시에 고려하여 언어를 이해하는 Deep Bidirectional 모델입니다. "Masked Language Model" (MLM)과 "Next Sentence Prediction" (NSP)이라는 두 가지 비지도 학습 과제를 통해 사전 학습되며, 이로 인해 별도의 큰 구조 변경 없이 fine-tuning만으로 다양한 NLP 태스크에서 최고의 성능을 달성합니다. BERT는 특히 문장 레벨 및 토큰 레벨의 과제 모두에서 기존의 단방향 모델들의 한계를 극복하고 새로운 state-of-the-art를 기록했습니다. 논문 제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
ViLT: 합성곱이나 영역 감독 없이 구현된 Vision-and-Language Transformer
ViLT(Vision-and-Language Transformer)는 기존 Vision-and-Language Pre-training(VLP) 모델들이 의존했던 복잡한 이미지 특징 추출 과정(예: object detection, ResNet)을 제거한 혁신적인 모델입니다. ViLT는 텍스트를 처리하는 방식과 동일하게, 간단한 patch projection을 통해 시각적 입력을 처리하여 모델을 단순화했습니다. 이러한 설계 덕분에 기존 VLP 모델보다 수십 배 빠르면서도, 다양한 vision-and-language downstream task에서 경쟁력 있거나 더 나은 성능을 보여줍니다. 논문 제목: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
Audio Spectrogram Transformer (AST): CNN을 넘어선 오디오 분류의 새로운 접근
Audio Spectrogram Transformer(AST)는 오디오 분류를 위해 제안된 최초의 Convolution-free, 순수 attention 기반 모델입니다. 기존 CNN 기반 모델과 달리, AST는 오디오 Spectrogram에서 직접적으로 장거리 전역 컨텍스트를 학습하여 AudioSet, ESC-50, Speech Commands V2와 같은 주요 벤치마크에서 SOTA(State-of-the-Art) 성능을 달성했습니다. ImageNet으로 사전 학습된 Vision Transformer (ViT)의 지식을 활용하여 성능을 크게 향상시키는 방법 또한 제안합니다. 논문 제목: AST: Audio Spectrogram Transformer