전체 글

블로그의 모든 글들을 한 곳에서 확인하고 검색할 수 있습니다. (총 103개 / 11 페이지)

DEIM: DETR의 빠른 수렴을 위한 개선된 매칭 기법
·
#Object Detection#DETR

DEIM: DETR의 빠른 수렴을 위한 개선된 매칭 기법

DEIM은 Transformer 기반 객체 탐지 모델(DETR)의 느린 수렴 문제를 해결하기 위한 효율적인 훈련 프레임워크입니다. 이 방법은 Dense O2O 매칭 전략을 사용하여 훈련 중 양성 샘플 수를 늘리고, Matchability-Aware Loss(MAL)라는 새로운 손실 함수를 도입하여 다양한 품질의 매칭을 최적화합니다. 이를 통해 RT-DETR과 같은 기존 모델의 훈련 시간을 절반으로 줄이면서도 성능을 향상시킵니다. 논문 제목: DEIM: DETR with Improved Matching for Fast Convergence

Let's Go Real Talk: 얼굴을 마주보고 대화하는 음성 대화 모델
·
#Spoken Dialogue System#Multimodal

Let's Go Real Talk: 얼굴을 마주보고 대화하는 음성 대화 모델

본 논문은 사용자의 시청각 음성 입력을 처리하고 시청각 음성으로 응답을 생성하는 새로운 Face-to-Face 음성 대화 모델을 소개합니다. 이는 텍스트를 거치지 않는 아바타 챗봇 시스템을 향한 첫걸음입니다. 이를 위해 340시간 분량의 MultiDialog 데이터셋을 구축했으며, 사전 학습된 LLM을 음성-텍스트 공동 사전 학습을 통해 시청각 대화 도메인에 적용했습니다. 논문 제목: Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

AVIGATE: Audio-guided Video Representation Learning with Gated Attention for Video-Text Retrieval
·
#Video-Text Retrieval#Gated Attention

AVIGATE: Audio-guided Video Representation Learning with Gated Attention for Video-Text Retrieval

AVIGATE는 비디오-텍스트 검색을 위한 새로운 프레임워크로, gated attention 메커니즘을 통해 오디오 신호의 유용성을 동적으로 판단하고 비디오 표현을 향상시킵니다. 이 접근 방식은 정보가 없는 오디오를 필터링하고 adaptive margin-based contrastive loss를 사용하여 비디오-텍스트 정렬을 개선합니다.