TriSense: 시각, 청각, 음성 정보를 통합한 멀티모달 LLM 비디오 이해
TriSense는 시각, 오디오, 음성 세 가지 양식을 통합하여 비디오를 종합적으로 이해하는 트리플 모달리티 LLM입니다. 핵심 기술인 Query-Based Connector는 입력 쿼리에 따라 각 양식의 기여도를 동적으로 조절하여, 일부 양식이 누락된 상황에서도 강건한 성능을 보장합니다. 이 모델을 위해 2백만 개 이상의 고품질 샘플로 구성된 TriSense-2M 데이터셋도 함께 소개합니다. 논문 제목: Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM
- Date