Multimodal
4개의 포스트
CHAPVIDMR: 자연어 쿼리를 이용한 챕터 기반 비디오 순간 검색
Video Moment Retrieval (VMR)은 쿼리와 비디오의 특정 순간을 연결하는 기술입니다. 본 논문에서는 YouTube 비디오의 챕터 정보를 활용하여 단일 쿼리에 여러 비디오 순간을 연결하는 새로운 데이터셋인 ChapVidMR (Chapter-based Video Moment Retrieval)을 제안합니다. ChapVidMR은 챕터 이름과 메타데이터를 기반으로 GPT4를 사용하여 생성된 10.8K개의 사용자 쿼리로 구성됩니다. 이 데이터셋을 사용하여 두 가지 VMR 작업, 즉 챕터 분류 기반 VMR과 세분화 기반 VMR에 대한 벤치마크를 제공합니다. 실험 결과, 챕터 분류 작업에서는 Sentence-BERT가, 세분화 작업에서는 UniVTG가 가장 높은 성능을 보였습니다. 논문 제목: CHAPVIDMR: Chapter-based Video Moment Retrieval using Natural Language Queries
GPT-4 기술 보고서 요약
GPT-4는 이미지와 텍스트 입력을 모두 처리할 수 있는 대규모 멀티모달(multimodal) 모델입니다. 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 보이며, 모의 변호사 시험에서는 상위 10% 수준의 점수를 기록했습니다. GPT-4는 Transformer 기반 모델로, 사전 훈련 후 RLHF(Reinforcement Learning from Human Feedback)를 통해 사실성과 원하는 행동 준수 능력을 향상시켰습니다. 이 프로젝트의 핵심은 예측 가능한 스케일링을 위한 인프라와 최적화 방법을 개발하여, 훨씬 적은 컴퓨팅으로 훈련된 모델로부터 GPT-4의 성능을 정확하게 예측한 것입니다. 논문 제목: GPT-4 Technical Report
언어 모델의 Multimodal Chain-of-Thought 추론
기존의 Chain-of-Thought (CoT) 연구는 주로 언어 modality에 집중되어 있었습니다. 이 논문에서는 언어(텍스트)와 비전(이미지) modality를 통합하는 2단계 프레임워크인 Multimodal-CoT를 제안합니다. 이 프레임워크는 논리적 근거(rationale) 생성과 답변 추론을 분리하여, 다중 모드 정보를 기반으로 생성된 더 나은 논리적 근거를 답변 추론에 활용할 수 있도록 합니다. 10억개 미만의 파라미터를 가진 모델로 ScienceQA 벤치마크에서 SOTA 성능을 달성했으며, 이 접근법이 hallucination을 완화하고 수렴 속도를 높이는 이점이 있음을 보여줍니다. 논문 제목: Multimodal Chain-of-Thought Reasoning in Language Models
Let's Go Real Talk: 얼굴을 마주보고 대화하는 음성 대화 모델
본 논문은 사용자의 시청각 음성 입력을 처리하고 시청각 음성으로 응답을 생성하는 새로운 Face-to-Face 음성 대화 모델을 소개합니다. 이는 텍스트를 거치지 않는 아바타 챗봇 시스템을 향한 첫걸음입니다. 이를 위해 340시간 분량의 MultiDialog 데이터셋을 구축했으며, 사전 학습된 LLM을 음성-텍스트 공동 사전 학습을 통해 시청각 대화 도메인에 적용했습니다. 논문 제목: Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation