Tian, Jirui, et al. "DTOS: Dynamic Time Object Sensing with Large Multimodal Model." Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.

DTOS: Dynamic Time Object Sensing with Large Multimodal Model

Jirui Tian ${ }^{* 1}$ , Jinrong Zhang ${ }^{* 1}$ , Shenglan Liu ${ }^{1}$ , Luhao Xu ${ }^{1}$ , Zhixiong Huang ${ }^{1}$ , Gao Huang ${ }^{2}$ <br> ${ }^{1}$ Dalian University of Technology, ${ }^{2}$ Tsinghua University

Abstract

기존의 **멀티모달 대규모 언어 모델(MLLM)**은 **Referring Video Object Segmentation (RVOS)**에서 상당한 어려움을 겪고 있다. 우리는 세 가지 중요한 문제점을 파악했다: (C1) 텍스트 내 수치 데이터에 대한 불충분한 정량적 표현, (C2) 시공간 참조를 위한 반복적이고 저하된 응답 템플릿, (C3) 텍스트 가이드가 없는 비디오 샘플링 쿼리에서 발생하는 시각 정보 손실.

이러한 문제들을 해결하기 위해, 우리는 RVOS를 위해 특별히 설계된 새로운 프레임워크인 **Dynamic Time Object Sensing (DTOS)**를 제안한다. (C1)과 (C2)를 해결하기 위해, 우리는 이벤트 경계 회귀(regression) 및 타겟 위치 파악(localization)을 가능하게 하는 다중 응답 템플릿을 구성하기 위한 특수 토큰을 도입한다. 이 접근 방식은 수치 회귀의 정확도를 향상시키면서 반복적인 저하 문제를 완화한다. (C3)를 해결하기 위해, 우리는 **사용자 지침에 맞춰 비디오 클립을 선택하는 Text-guided Clip Sampler (TCS)**를 제안한다. 이는 시각 정보 손실을 방지하고 일관된 시간 해상도를 보장한다. TCS는 또한 Moment Retrieval task에도 적용 가능하며, 공간적 세부 정보를 보존하고 시간 해상도를 극대화하는 향상된 멀티모달 입력 시퀀스를 제공한다.

DTOS는 사용자가 제공한 텍스트 지침에 따라 여러 시공간 타겟을 유연하게 위치 파악하는 탁월한 능력을 보여준다. 광범위한 실험을 통해 우리 접근 방식의 효과가 검증되었으며, DTOS는 $\mathcal{J} \& \mathcal{F}$ 점수에서 state-of-the-art 성능을 달성했다:

MeViS에서 +4.36 향상,
Ref-DAVIS17에서 +4.48 향상,
Ref-YT-VOS에서 +3.02 향상.

또한, 우리의 TCS는 Moment Retrieval에서 탁월한 성능을 보여준다. 코드는 https://github.com/Maulog/OPEN-DTOS-LMM 에서 확인할 수 있다.

1. Introduction

비디오 이해 분야는 인간의 텍스트 지시에 의해 구동되는 상호작용적(interactive) 방법론이 주요 트렌드로 부상하면서 놀라운 발전을 목격했다 [6, 26, 28, 29, 50, 51]. 이 중 **Referring Video Object Segmentation (RVOS)**은 실제 응용 분야에서의 활용성 덕분에 상당한 주목을 받아왔다 [23, 46, 60, 65, 67]. RVOS는 전체 비디오 내에서 참조된 대상의 정확한 시공간적 위치를 식별해야 한다. 상호작용적인 대상 위치 파악을 가능하게 하기 위해, 최근 연구들은 Multimodal Large Language Model (MLLM) [23, 46, 60, 65]을 통합하여, 이들의 고급 텍스트 이해 능력을 활용하고 있다.

[^0] Figure 1. VTimeLLM [16] (상단) 및 Next-Chat [63] (하단)과 같은 기존 MLLM은 다중 참조 객체(multiple referential objects)를 포함하는 쿼리 처리에 한계를 보인다. 상단: 상대적 값의 텍스트 템플릿. 하단: 하나의 특수 토큰 템플릿만 사용.

그러나 MLLM의 통합은 RVOS에 적절히 해결될 수 없는 새로운 도전 과제를 제시한다. 기존 MLLM은 생성(generative) 방식을 사용하여 수치 정보를 정확하게 회귀(regress)하는 데 어려움을 겪으며, 종종 정확하지 않은 시간 범위나 일반화된 공간 참조와 같은 모호한 설명을 제공한다. 예를 들어, "Panda climbing branch"라는 쿼리에 대해 "climbing" 동작이 비디오에서 인접하지 않은 타임스탬프에서 발생할 수 있으며, 이 동작을 수행하는 주체가 서로 다른 판다일 수 있다. 이처럼 정확한 시공간적 표현을 생성하지 못하는 문제는 특정 비디오 콘텐츠와의 **불일치(misalignment)**로 이어진다. 이러한 한계점들은 RVOS의 더 광범위한 도전 과제들을 부각시킨다.

우리는 이러한 도전 과제들을 다음과 같이 요약한다. (C1) 텍스트 기반 수치 데이터의 약한 정량적 표현: MLLM [16, 27]은 타임스탬프("from 20 to 40") (Fig. 1 상단 참조) 또는 공간 좌표("elephants walking around [475, 246, 880, 455]")와 같은 텍스트 기반 수치 출력을 통해 시공간 정보를 정확하게 표현하는 데 어려움을 겪는다. 이러한 텍스트 기반 출력은 귀납적 편향(inductive bias)을 도입하고 정확도를 감소시키는데, 이는 표준 LLM 토큰화 방식이 정확한 수치 속성을 포착하지 못하기 때문이다 [11]. (C2) 다중 시공간 참조 처리 시 반복적 성능 저하: 기존 방법 [16, 42, 52]은 응답 생성을 위해 고정된 문장 템플릿에 의존하는 경우가 많다. 다중 참조 [8, 25]를 다룰 때, 이는 **반복적인 문장 구조, 출력에 대한 과도한 확신 [58], 그리고 반복적 성능 저하 [10, 54]**로 이어져 유효하지 않은 응답을 초래한다. 최근 연구 [46, 65]에서 다중 참조 처리의 어려움을 인정하고 있지만, 이들은 다중 참조 데이터의 불충분한 가용성으로 인해 제약을 받으며, 주로 단일 참조 사례에 초점을 맞추고 있다. (C3) 비지도 비디오 샘플링으로 인한 시각 정보 손실: 이전 연구 [8, 65]에서 사용된 무작위 또는 균일 샘플링 전략은 중요한 시각적 단서(visual cues)를 누락할 위험이 있으며, 종종 모델이 관련 없는 프레임에 집중하게 만들고 [32, 61] 비디오-텍스트 정렬(alignment)을 약화시킨다 [53]. VISA [60]는 관련 없는 visual token을 줄임으로써 이 문제를 해결하기 위해 **Text-guided Frame Sampler (TFS)**를 도입했지만, TFS는 종종 일관성 없는 시간 해상도를 생성하여 움직임의 균일성을 방해한다 [66].

이러한 도전 과제들을 해결하기 위해, 우리는 사용자 지시에 기반하여 여러 관련 비디오 클립을 샘플링하고 비디오 시퀀스 내에서 여러 참조 대상을 분할(segment)하도록 설계된 Dynamic Time Object Sensing (DTOS) 프레임워크를 제안한다. (C1)과 (C2)를 해결하기 위해, 우리는 special token [23, 63]을 도입하여 다중 참조 응답 템플릿을 구성한다. 이 토큰들은 task-specific하며, 프레임워크가 이벤트 경계(event boundaries) 및 대상 감지 박스 좌표를 회귀하기 위한 hidden state를 디코딩할 수 있도록 한다. 이 회귀 기반 접근 방식은 정량적 표현의 정밀도를 향상시키고 텍스트 토큰화의 한계를 극복한다. 또한, 심각한 문장 수준의 반복 문제를 보다 관리하기 쉬운 단어 수준의 중복 [58]으로 변환함으로써, 우리의 설계는 반복적 성능 저하를 효과적으로 완화한다. (C3)를 해결하기 위해, 우리는 **텍스트 쿼리와 비디오 클립 간의 정렬을 강화하는 Text-guided Clip Sampler (TCS)**를 제안한다. TCS는 MLLM을 활용하여 **사용자가 제공한 자연어 쿼리를 파싱(parse)**하고, 일관된 시간 해상도를 유지하면서 클립 샘플링을 수행한다. TCS 성능을 더욱 향상시키기 위해, 우리는 멀티모달 입력 시퀀스를 재설계하여 제한된 비디오 데이터의 효율적인 활용을 보장한다 [20]. 특히, TCS 모듈은 다재다능하며 MR task에도 원활하게 확장되어 관련 도전 과제에 대한 통합 솔루션을 제공한다.

우리는 DTOS 프레임워크의 효과를 **세 가지 도전적인 RVOS 벤치마크(MeViS, RefDAVIS, Ref-YT-VOS) [8, 19, 48]**에서 입증했으며, DTOS는 여러 강력한 baseline을 능가하고 state-of-the-art 결과를 달성한다. 또한, 우리의 TCS가 MR 벤치마크(Charades-STA, DiDeMo, QVHighlights, Acticity-Captions) [1, 22, 25, 49]에서 강력한 위치 파악 능력을 가지고 있으며, 뛰어난 결과를 달성함을 보여준다. 우리의 기여는 다음과 같이 요약된다:

우리는 새로운 MLLM 기반 프레임워크인 DTOS를 제안하며, 이는 여러 RVOS 벤치마크에서 state-of-the-art 성능을 달성한다. 또한, TCS 모듈은 MR 벤치마크에서 뛰어난 성능을 보여준다.
special token을 디코딩함으로써, 단일 쿼리가 여러 시공간 참조를 표현할 수 있으며, 이는 더욱 정밀한 수치 회귀를 가능하게 한다. 우리가 아는 한, 이는 다중 참조 문제를 방법론적으로 다루는 최초의 MLLM 접근 방식이다.
우리는 쿼리에 따라 비디오 클립을 효과적으로 필터링하고 멀티모달 시각 입력의 구조를 개선하기 위해 TCS를 제안한다. 이 재설계는 제한된 길이의 visual token 내에 완전한 비디오 정보를 캡슐화한다. Ablation study는 멀티모달 입력이 TCS의 클립 위치 파악 능력을 효과적으로 향상시킨다는 것을 확인한다.

2.1. Referring Video Object Segmentation

Referring Video Object Segmentation (RVOS) task는 표현(expression)에 기반하여 비디오 전체에 걸쳐 지정된 대상을 분할(segment)하는 데 중점을 둔다.
전통적인 query-based 방법들 [2, 8, 13, 14, 44, 56]은 멀티모달 쿼리(multimodal queries)를 사용하여 시퀀스 내 인스턴스들을 연결하지만, 명시적인 단어와 구문에 대한 의존성으로 인해 제약을 받는 경우가 많아 [60], 상호작용 시나리오에서의 성능이 제한적이다.
최근의 발전 [23, 60, 65]은 Large Language Model (LLM)을 활용하여 텍스트 이해도를 높이고 암묵적인 의도를 추론함으로써 참조된 객체를 분할하는 능력을 향상시켰다. 예를 들어, PixelLLM [46]은 pixel decoder와 segmentation codebook을 사용하여 고품질 마스크를 생성하며, VISA [60]는 Textguided Frame Sampler (TFS)를 활용하여 이미지 기반 기술을 비디오 분할로 확장한다.

그러나 많은 기존 방법들은 균일(uniform) 또는 무작위(random) 샘플링에 의존하여 중요한 정보가 누락될 위험이 있다. TFS는 프레임 관련성을 향상시키지만, 일관성 없는 시간 해상도(temporal resolutions)로 인해 동작 표현을 방해하고 계산적으로 비효율적이라는 단점이 있다. 이러한 한계점을 해결하기 위해 우리는 TCS를 제안한다. TCS는 untrimmed 비디오에서 관련 세그먼트(segments)를 선택적으로 샘플링한다. 사용자 지침에 따라 클립을 필터링함으로써, TCS는 텍스트 쿼리와 비디오 프레임 간의 정렬(alignment)을 향상시키고, 시간적 일관성(temporal consistency)과 계산 효율성을 개선한다.

2.2. Moment Retrieval

**Moment Retrieval (MR)**은 open-ended 자연어 쿼리를 기반으로 정제되지 않은(untrimmed) 비디오 내에서 관련 클립을 찾는 데 중점을 둔다. DETR 스타일 방법 [17, 24, 25, 31, 40, 41]과 같은 초기 접근 방식은 어텐션 메커니즘을 활용하여 비디오와 텍스트 간의 간극을 메웠지만, 종종 경량 텍스트 인코더에 의존했다. 이러한 인코더는 복잡한 의미를 정렬하는 데 어려움을 겪어 효과가 제한적이었다. 최근 연구들 [16, 18, 27, 30, 34, 42, 45, 52, 61]은 **Large Language Model (LLM)**을 사용하여 이벤트 경계(event boundary)를 직접 생성했으며, 시간적 경계(temporal boundary)로 주석 처리된 instruction-tuning 데이터셋 [16, 42, 50, 52]을 활용했다. Chain-of-thought (CoT) prompt [7]도 localization task를 향상시키기 위해 도입되었지만, 그 유용성은 모델 파라미터 용량에 의해 제한된다.

Figure 2. Dynamic Time Object Sensing (DTOS) 프레임워크의 2단계 아키텍처. 첫 번째 단계에서 **Text-guided Clip Sampler (TCS)**는 사용자가 제공한 지침에 따라 관련 비디오 클립을 필터링한다. 두 번째 단계에서 **Text-guided Clip Detector (TCD)**는 쿼리별 대상(query-specific target)을 찾아 전체 비디오 시퀀스에 걸쳐 해당 마스크를 생성하여 이 클립들을 정제한다.

MR에서 관련된 또 다른 과제는 LLM의 제한된 토큰 길이로, 장시간 비디오 정보의 표현을 복잡하게 만든다. 제안된 해결책으로는 비디오 표현을 향상시키기 위한 pooling 기법 [4, 16] 및 별도의 공간-시간 인코딩 [33, 35], 그리고 입력 길이를 줄이기 위한 압축 모듈 [43, 59] 등이 있다. 그러나 이러한 방법들은 종종 추가적인 모듈을 도입하여 모델 간의 전이성(transferability)을 제한한다. 이러한 노력들은 MR task에서 입력 길이와 계산 효율성 간의 균형을 맞추는 것을 목표로 한다.

이러한 과제들을 극복하기 위해, 우리는 special token과 bipartite matching [25]을 결합하여 경계 정보(boundary information)를 직접 회귀(regress)하는 방식을 제안한다. 이는 LLM 내에서 one-to-many 쿼리를 가능하게 하고 멀티모달 정렬을 향상시킨다. 또한, 우리는 이미지 그리드를 통합하여 비디오 프레임을 압축하고 멀티모달 입력을 재구성한다. 이 전략은 추가적인 학습 요구 사항을 피할 뿐만 아니라 비디오-텍스트 상호 작용을 간소화하여 MR task를 위한 효율적이고 전이 가능한(transferable) 솔루션을 제공한다.

3. Method

3.1. Architecture of DTOS

프레임워크 개요
제안하는 프레임워크는 task를 두 가지 하위 task로 나눈다: **클립 샘플링(clip sampling)**과 비디오 객체 분할(video object segmentation). 이는 **Text-guided Clip Sampler (TCS)**와 **Text-guided Clip Detector (TCD)**의 통합을 통해 달성된다. 각 모듈을 해당 역할에 맞게 조정하기 위해 우리는 별개의 LoRA [15] 어댑터를 사용한다.
먼저, TCS는 사용자가 제공한 텍스트 지침에 따라 관심 있는 비디오 클립을 선택한다. 이 클립들은 TCD에 의해 처리되며, TCD는 각 클립 내에서 대상 위치를 식별하고 전체 비디오 시퀀스에 걸쳐 분할 결과를 전파한다. 이 2단계 설계는 효율적인 샘플링과 정밀한 분할을 보장하여, 텍스트 쿼리를 시각적 콘텐츠와 효과적으로 정렬시킨다.

첫 번째 단계에서 TCS는 원시 비디오와 사용자 쿼리를 받아 샘플링된 세그먼트 세트 $\hat{C}_{i, j}$ 를 생성한다. 입력 비디오 $V_{i}$ 와 해당 사용자 쿼리 $Q_{j}$ 가 주어지면, 먼저 $Q_{j}$ 를 TCS prompt와 결합하여 쿼리 prompt $L_{i, j}^{\mathrm{reg}}$ 를 생성한다. 여기서 $L_{i, j}^{\mathrm{reg}} \in \mathbb{R}^{n \times \mathrm{d}}$ 이다. 비디오 $V_{i}$ 는 시각적 멀티모달 입력 시퀀스 $F^{m m}$ 으로 전처리된다 (Visual Multimodal Sequence 섹션에서 자세히 설명). 여기서 $F^{m m} \in \mathbb{R}^{n \times d}$ 이다. 이들은 임베딩 레벨에서 연결되어 LLM의 입력으로 사용된다. LLM은 여러 특수 토큰 <reg>를 생성하여 사용자 쿼리에 응답한다. 우리는 이들의 feature $h_{\text {reg}}$ (여기서 $h_{\text {reg }} \in \mathbb{R}^{n \times \mathrm{d}}$ )를 디코딩하여 여러 후보 세그먼트 $\left\{c_{1}, c_{2}, \ldots\right\}$ 를 제안하며, 이를 $C_{i, j}$ 로 표기하고 TCD의 입력으로 전달한다. 제안된 세그먼트 $C_{i, j}$ 를 기반으로 $V_{i}$ 에 대해 균일 샘플링(uniform sampling)을 수행하여 세그먼트 세트 $\left\{\hat{c}_{1}, \hat{c}_{2}, \ldots\right\}$ 를 생성하며, 이를 $\hat{C}_{i, j}$ 로 표기한다.

두 번째 단계에서 TCD는 $\hat{C}_{i, j}$ 를 받아 $Q_{i}$ 를 TCS prompt와 결합하여 쿼리 prompt $L_{i, j}^{\mathrm{seg}}$ 를 형성한다. 이는 임베딩 레벨에서 $\hat{C}_{i, j}$ 와 연결되어 LLM의 입력으로 사용된다. LLM은 여러 특수 토큰 <seg>를 생성하여 사용자 쿼리에 응답한다. 우리는 이들의 feature $h_{\text {seg}}$ (여기서 $h_{\text {seg }} \in \mathbb{R}^{k \times d}$ )를 디코딩하여 여러 관심 영역 $y_{i, j}^{\text {bbox }}$ 를 생성한다. 이들 중에서 최적의 프레임 결과 $\hat{y}_{i, j}^{\mathrm{bbox}}$ 가 선택된다. $\hat{y}_{i, j}^{\mathrm{bbox}}$ 를 prompt로 사용하여 mask decoder는 대상 마스크 $y_{i, j}^{\text {seg }}$ 를 생성한다. 마지막으로 Object Tracker는 대상 프레임의 예측을 전체 비디오에 걸쳐 전파하여 비디오 수준의 분할 결과 $V_{i, j}^{\text {seg }}$ 를 생성한다.

위의 2단계 프로세스는 다음과 같이 요약될 수 있다:

\begin{aligned} & \hat{C}_{i, j}=\operatorname{TCS}\left(F^{m m}, L_{i, j}^{r e g}\right), \\ & V_{i, j}^{s e g}=\operatorname{TCD}\left(\hat{C}_{i, j}, L_{i, j}^{s e g}\right) . \end{aligned}

Visual Multimodal Sequence
TCS는 전체 비디오를 제한된 수의 visual token으로 캡슐화하여 전역 비디오를 포착한다. 비디오에 내장된 정보의 활용을 극대화하기 위해, 우리는 Fig. 2에 나타난 바와 같이 멀티모달 입력 시퀀스 $F^{m m}$ 을 설계한다. 특히, 이미지 레벨에서 작동하는 image grid 방법을 제외하고, 설명된 모든 작업은 feature 레벨에서 수행된다.

초기에, 비디오에서 $N$ 개의 프레임을 균일하게 샘플링하여 주요 비디오 콘텐츠 $\left\{f_{1}, f_{2}, \ldots, f_{N}\right\}_{1}^{N}$ 를 추출한다. 여기서 $f_{i} \in \mathbb{R}^{n \times \mathrm{d}}$ 이다. 이 프레임들 중 정기적인 간격 $t_{i}$ 로 샘플링된 하위 집합은 원래의 공간 해상도를 유지하는 원본 이미지 시퀀스 $\left\{f_{1}, f_{t_{i}}, \ldots, f_{N / t_{i}}\right\}$ 를 형성하며, 이를 $f_{i}^{i m g}$ 로 표기하고 시각적 세부 정보를 위해 사용된다.
샘플링되지 않은 인접 프레임의 경우, 종종 시간적 중복성 [3]을 나타내므로, 우리는 시간적 표현을 image grid $I_{k}{ }^{\text {vid }}$ 로 압축한다. 이는 인접 프레임 $\left\{I_{k+1}\right\}_{k}^{k+t_{i}-1}$ 을 직사각형 형식으로 순차적으로 연결하는 방식이며, 다음과 같이 표기된다:

I_{k}{ }^{\text {vid }}=\operatorname{ImageGrid}\left(I_{k+1}, I_{k+2}, \ldots, I_{k+t_{i}-1}\right),

이는 단일 원본 이미지 프레임과 동일한 토큰 길이를 유지하며, $f_{i}{ }^{v i d} \in \mathbb{R}^{n \times d}$ 로 인코딩된다. 시간적 단서(temporal cues)를 인코딩하기 위해, 숫자 프레임 인덱스 $T_{i}$ (여기서 $T_{k} \in \mathbb{R}^{1 \times \mathrm{d}}$ )는 비디오 지속 시간 정보를 전달하기 위한 prompt로 시퀀스 앞에 추가된다 [37].
멀티모달 입력 단위는 세 가지 구성 요소 $\left\{T_{k}, f_{k}{ }^{\text {img }}, f_{k}{ }^{\text {vid }}\right\}$ 로 구성된다. 이 구성 요소들은 결합되어 멀티모달 입력 단위 $f_{k}{ }^{m m}$ 을 형성한다. 이 단위들은 순차적으로 연결되어 멀티모달 시퀀스 $\left\{f_{1}{ }^{m m}, f_{2}{ }^{m m}, \ldots, f_{N / t_{i}}^{m m}\right\}$ 를 구성하며, 이는 TCS의 입력 $F^{m m}$ 으로 사용된다. 이 설계는 공간 해상도와 시간 효율성 사이의 균형을 효과적으로 유지하여 TCS가 포괄적인 이해를 달성할 수 있도록 한다.

Special Tokens
우리는 이벤트 경계 $\left[t_{\text {start }}, t_{\text {end }}\right]$ 및 바운딩 박스 좌표 $\left[x_{1}, y_{1}, x_{2}, y_{2}\right]$ 를 회귀(regressing)하기 위한 모델 출력으로 <reg>와 <seg>를 도입한다. 여러 개의 이러한 토큰들이 쌓여 다중 시공간 대상에 대한 응답 템플릿을 구성한다. 이전 방법들 [46, 65]과 달리, 우리는 LLM이 내부 지식에 기반하여 출력할 토큰의 정확한 수를 결정하도록 의존하는 대신, 토큰을 적극적으로 쌓는다. 이 접근 방식은 단일 참조 레이블에 비해 다중 참조 레이블의 수가 적어 모델의 판단을 오도하는 문제를 피한다. 특히, 응답 토큰의 수를 실제 참조 수보다 약간 높게 설정하면 모델이 추가 참조 대상을 능동적으로 발견하는 데 도움이 된다 (Tab. 5에서 입증됨). 또한, 특수 토큰을 사용하면 반복적인 디코딩의 문제를 문장 수준에서 단어 수준으로 전환하여 autoregressive 모델의 반복 디코딩 문제를 완화한다.

3.2. Training DTOS

TCS는 쿼리를 기반으로 segment를 수집하고, TCD는 해당 segment 내에서 target을 파싱한다. 이들의 목적은 상당히 다르므로, 별도의 loss function이 필요하다. 우리는 각 모듈을 독립적으로 학습시키기 위해 TCS loss와 TCD loss를 설계한다.

TCS Loss
TCS는 autoregressive 방식으로 결과를 생성하기 때문에, 단순히 출력 응답을 쌓는 방식으로는 모델이 서로 다른 클립을 검색해야 할 필요성을 인식하기 어렵다. 이 문제를 해결하기 위해 우리는 bipartite matching 방법 [5, 25]을 도입하여, 서로 다른 응답에 고유한 레이블을 할당한다. 이를 통해 모델은 여러 클립을 구별하고 효과적으로 검색할 수 있게 된다.

이전 연구들 [16, 25]에 따라, TCS의 학습 과정은 두 가지 loss function을 결합한다: **cross-entropy loss $\mathcal{L}_{t x t}$ **와 moment regression loss $\mathcal{L}_{\text {reg}}$ . 전체 목적 함수는 이 두 loss의 합으로 정의된다:

\mathcal{L}_{T C S}=\mathcal{L}_{t x t}+\mathcal{L}_{r e g}

구체적으로, $\mathcal{L}_{\text {reg}}$ 는 [25]를 따라 공식화되며 세 가지 구성 요소로 이루어진다: moment generalized IoU (gIoU) loss $\mathcal{L}_{\text {gIoU }}^{m}$ , moment L1 loss $\mathcal{L}_{L 1}^{m}$ , 그리고 moment label loss $\mathcal{L}_{\text {label }}^{m}$ . 각 구성 요소는 해당 계수 $\lambda_{\text {gIoU }}^{m}, \lambda_{L 1}^{m}$ 및 $\lambda_{\text {label }}^{m}$ 로 가중된다. $\mathcal{L}_{\text {reg}}$ 는 다음과 같이 정의된다:

\mathcal{L}_{\text {reg }}=\lambda_{\text {gIoU }}^{m} \mathcal{L}_{\text {gIoU }}^{m}+\lambda_{L 1}^{m} \mathcal{L}_{L 1}^{m}+\lambda_{\text {label }}^{m} \mathcal{L}_{\text {label }}^{m}

TCD Loss
TCD에서 각 상호작용은 단일 쿼리 내에서 정의되며, TCS의 모든 쿼리는 고유한 비디오 클립에 해당한다. TCD 내에서 단일 턴의 상호작용은 클립 내의 특정 프레임에 초점을 맞추어, 모델이 한 번의 대화 세션 동안 클립의 모든 프레임을 처리할 수 있도록 한다. 이를 달성하기 위해 우리는 각 프레임의 인덱스를 나타내는 <tgt_i> 토큰을 도입하여, Fig. 3에 나타난 바와 같이 모델이 해당 이미지를 찾는 데 도움을 준다. 모델의 견고성을 더욱 향상시키기 위해, 우리는 각 대화 라운드에서 쿼리되는 프레임의 순서를 섞는다. 이 접근 방식은 고정된 프레임 시퀀스에 대한 overfitting을 줄이고, 다양한 입력 구성에 걸쳐 모델의 일반화 능력을 향상시켜 다양한 시나리오에서 일관된 성능을 보장한다.

이전 연구들 [5, 21, 63]에 따라, TCD는 text generation loss $\mathcal{L}_{t x t}$ , bounding box regression loss $\mathcal{L}_{\text {bbox}}$ , 그리고 **segmentation loss $\mathcal{L}_{\text {sam}}$ **의 조합을 사용하여 학습된다. 전체 목적 함수는 다음과 같이 정의된다:

\mathcal{L}_{T C D}=\mathcal{L}_{t x t}+\mathcal{L}_{b b o x}+\mathcal{L}_{s a m}

TCD의 loss function은 detection과 segmentation task의 균형을 맞추도록 설계되었다. $\mathcal{L}_{\text {bbox}}$ 는 [5]의 접근 방식을 따라 주로 detection box의 위치를 결정한다. 이는 세 가지 구성 요소로 이루어진다: generalized IoU loss $\mathcal{L}_{g I oU}$ , L1 loss $\mathcal{L}_{L 1}$ , 그리고 **label loss $\mathcal{L}_{\text {label}}$ **이며, 각각 계수 $\lambda_{\text {gIoU }}, \lambda_{\text {L1 }}$ 및 $\lambda_{\text {label }}$ 로 가중된다:

\mathcal{L}_{\text {bbox }}=\lambda_{\text {gIoU }} \mathcal{L}_{\text {gIoU }}+\lambda_{L 1} \mathcal{L}_{L 1}+\lambda_{\text {label }} \mathcal{L}_{\text {label }}

한편, $\mathcal{L}_{\text {sam}}$ 은 SAM [21]에서와 같이 segmentation mask를 정제하며, binary cross-entropy loss $\mathcal{L}_{B C E}$ , DICE loss [39] $\mathcal{L}_{\text {dice}}$ , 그리고 **focal loss [47] $\mathcal{L}_{\text {focal}}$ **를 포함하고, 각각 계수 $\lambda_{B C E}, \lambda_{\text {dice }}$ , 및 $\lambda_{\text {focal }}$ 로 가중된다.

\mathcal{L}_{\text {sam }}=\lambda_{B C E} \mathcal{L}_{B C E}+\lambda_{\text {dice }} \mathcal{L}_{\text {dice }}+\lambda_{\text {focal }} \mathcal{L}_{\text {focal }}

4. Experiment

우리는 RVOS task를 해결하기 위해 DTOS 프레임워크를 설계했다. 이 프레임워크의 핵심 모듈 중 하나인 **Text-guided Clip Sampler (TCS)**는 사용자 쿼리와 강하게 관련된 비디오 클립을 수집하는 역할을 한다. 이를 위해 우리는 MR 데이터셋을 활용하여 TCS를 효과적으로 학습시킨다.

4.1. Dataset

Referring Video Object Segmentation (RVOS)
우리는 비디오 타겟과 쿼리 텍스트 간의 매핑을 학습하기 위해 MeViS [8], Ref-YouTube-VOS [48], Ref-DAVIS17 [19]의 학습 세트를 사용하여 학습 데이터셋을 구축한다. 모델은 동일한 데이터셋으로 평가된다. TCS를 사용하여 clip-text 쌍을 생성하는데, 각 쿼리는 독립적인 비디오 클립 세트에 해당하며, 그 결과 36,536개의 학습 어노테이션이 생성되어 클립 세트의 수와 일치한다. 특히, 우리의 접근 방식은 추가적인 이미지 segmentation 데이터셋에 대한 사전학습을 피하고, 기존 RVOS 데이터셋으로만 fine-tuning하여 쿼리와 segmentation mask 간의 비디오 특정 매핑을 학습하는 데 집중한다.

Moment Retrieval (MR)
우리는 temporal boundary 정보 이해를 위한 TCS 학습에 Charades-STA [49], DiDeMo [1], Activity-Captions [22], QVHighlights [25]의 학습 세트를 활용한다. 일반적으로 MR 데이터셋은 단일 비디오 클립에 해당하는 하나의 표현으로 구성된다. 학습 데이터의 다양성을 높이기 위해 MixGen [12]에서 영감을 받은 데이터 증강 전략을 채택한다. 구체적으로, 동일한 비디오 내에서 여러 표현을 연결하여 새로운 복합 표현을 생성함으로써, 일대다 클립 매핑에 대한 ground truth를 생성할 수 있도록 한다. 이 접근 방식을 통해 33,489개의 비디오에서 총 90,052개의 학습 표현이 도출되어 데이터셋이 크게 확장된다. 증강된 데이터셋은 여러 temporal 클립을 포함하는 복잡한 쿼리에 대한 TCS의 처리 능력을 강화하여 MR task에 대한 일반화 성능을 향상시킨다.

Figure 3. Multi-Turn dialogue training template.
학습 효율성을 높이고 시각 및 텍스트 토큰의 길이를 관리하기 위해, 각 비디오 또는 클립은 대화 세션당 한 번만 입력된다. **MR (상단)**에서는 비디오 내 각 이벤트가 단일 턴(turn)으로 쿼리되고 응답된다. **RVOS (하단)**에서는 클립 내 각 프레임이 단일 턴으로 개별적으로 쿼리되고 응답된다. 이러한 접근 방식은 효율적인 처리와 task-specific 최적화를 보장한다.

4.2. Implementation Details

우리는 사전학습된 비디오 LLM으로 **VILA1.5-LLaMA3-8B [29]**를 사용하며, 이는 강력한 다중 프레임 비디오 질문-응답 기능을 제공한다. 이 모델의 아키텍처는 vision encoder (SigLIP [62]), 대형 language model (LLaMA3 [9]), 그리고 multimodal projector를 통합한다.
TCS와 TCD는 모두 LoRA [15]를 통한 효율적인 파라미터 fine-tuning 방식으로 학습되며, MLP는 special token을 위한 decoder로 사용된다. TCD의 마스크 생성 및 전파를 위해 SAM2 [44]를 통합하였다.
학습 중에는 비디오 LLM과 SAM2의 backbone은 frozen되며, LoRA adapter, special token decoder, 그리고 비디오 LLM의 embedding 및 output layer만 업데이트된다. GPU 메모리 사용량을 더욱 줄이기 위해, embedding layer의 파라미터는 학습 가능한 파라미터로 대체되어, 학습 가능한 파라미터 수가 전체 모델 파라미터의 약 8%로 감소한다.
TCS에서는 Figure 3에 나타난 바와 같이 단일 턴(single-turn) 대화 형식을 다중 턴(multi-turn) 대화 형식으로 대체하였다. 이 접근 방식은 멀티모달 입력에서 비디오 및 이미지 데이터가 context 길이를 지배하는 반면, 개별 질문과 답변은 상대적으로 적은 공간을 차지한다는 관찰에 기반한다. 다중 턴 형식은 정보의 보다 효과적인 압축을 가능하게 한다.
학습 설정은 4개의 NVIDIA 40GB A100 GPU를 사용하며, TCS는 50시간 동안 8 epoch, TCD는 62시간 동안 8 epoch 학습되었다. 추론 시에는 TCS와 TCD 모두 단일 턴 대화 형식으로 되돌아가며, 이전 응답이 후속 예측에 영향을 미치지 않도록 현재 대화만 처리한다. 더 자세한 실험 설정은 Supp. A를 참조하라.

Method	MeViS [8]			Ref-DAVIS17 [19]			Ref-YT-VOS [48]
Non-LLM Method	$\mathcal{J}$	$\mathcal{F}$	$\mathcal{J} \& \mathcal{F}$	$\mathcal{J}$	$\mathcal{F}$	$\mathcal{J} \& \mathcal{F}$	$\mathcal{J}$	$\mathcal{F}$	$\mathcal{J} \& \mathcal{F}$
URVOS [48]	25.7	29.9	27.8	47.3	56	51.6	45.3	49.2	47.2
MTTR [2]	28.8	31.2	30	-	-	-	54	56.6	55.3
ReferFormer [56]	29.8	32.2	31	58.1	64.1	61.1	61.3	64.6	62.9
LMPM [8]	34.2	40.2	37.2	-	-	-	-	-	-
HTR [38]	39.9	45.5	42.7	62.3	68.8	65.6	65.3	68.9	67.1
DsHmp [13]	43	49.8	46.4	61.7	68.1	64.9	65	69.1	67.1
OnlineRefer [55]	-	-	-	61.6	67.7	64.8	61.6	65.5	63.5
LLM-based Method	$\mathcal{J}$	$\mathcal{F}$	$\mathcal{J} \& \mathcal{F}$	$\mathcal{J}$	$\mathcal{F}$	$\mathcal{J} \& \mathcal{F}$	$\mathcal{J}$	$\mathcal{F}$	$\mathcal{J} \& \mathcal{F}$
LISA-7B [23]	35.1	39.4	37.2	62.2	67.3	64.8	53.4	54.3	53.9
LISA-13B [23]	35.8	40	37.9	63.2	68.8	66	54	54.8	54.4
TrackGPT-7B [67]	37.6	42.6	40.1	59.4	67	63.2	55.3	57.4	56.4
TrackGPT-13B [67]	39.2	43.1	41.2	62.7	70.4	66.5	58.1	60.8	59.5
ViLLa [65]	-	-	-	61.2	67.7	64.4	64.6	68.6	66.5
VISA-7B [60]	40.7	46.3	43.5	66.3	72.5	69.4	59.8	63.2	61.5
VISA-13B [60]	41.8	47.1	44.5	67	73.8	70.4	61.4	64.7	63
DTOS-9B $\dagger$ (ours)	-	-	-	-	-	-	58.52	63.26	60.89
DTOS-9B(ours)	45.17	52.55	48.86	70.76	79	74.88	66.29	70.75	68.52

Table 1. RVOS task 성능 비교.
" $\dagger$ "는 **zero-shot 평가 (Refer-YT-VOS [48]로 학습하지 않음)**를 나타낸다. 이전 연구 결과는 부분적으로 VISA [60]에서 인용되었다. 굵은 글씨는 최고 결과를, 밑줄은 두 번째 최고 결과를 나타낸다.

LLM-based Method	Charades-STA [49]				ActivityNet Captions [22]				QVHighlights [25] test
	R1@. 3	R1@. 5	R1 @ . 7	mIoU	R1@. 3	R1@. 5	R1@. 7	mIoU	R1@. 5	R1 @ . 7	mAP. 5	mAP. 75	Avg.
SeViLa [61]	-	-	-	-	-	-	-	-	54.5	36.5	-	-	32.3
VTimeLLM [16]	55.3	34.3	14.7	34.6	44.8	29.5	14.2	31.4	-	-	-	-	-
Momentor [42]	42.6	26.6	11.6	28.5	42.9	23	12.4	29.3	-	-	-	-	-
HawkEye [52]	72.5	58.3	28.8	49.3	55.9	34.7	17.9	32.7	-	-	-	-	-
LLaViLo [34]	-	55.72	33.43	-	-	-	-	-	59.23	41.42	59.72	-	36.94
LMR [30]	-	55.91	35.19	-	-	-	-	-	64.4	47.21	64.65	43.16	42.56
LLMEPET [18]	70.91	-	36.49	50.25	-	-	-	-	66.73	49.94	65.76	43.91	44.05
DTOS-TCS	81.29	69.81	43.2	58	60.96	43.27	25.16	42.77	72.24	49.22	64.75	41.78	40.98

Table 2. MR task 성능 비교.
**Avg.**는 여러 IoU 임계값 [0.5:0.05:0.95]에 대한 평균 mAP를 의미한다.

4.3. Comparison

이 섹션에서는 RVOS(Referring Video Object Segmentation) 및 Moment Retrieval(MR) task 모두에서 DTOS와 다른 경쟁력 있는 방법들을 비교한다. RVOS의 경우, 이전 연구들 [60]을 따라 일반적으로 사용되는 지표인 region similarity $\mathcal{J}$ , contour accuracy $\mathcal{F}$ , 그리고 이들의 평균값인 ** $\mathcal{J} \& \mathcal{F}$ **를 사용하며, $\mathcal{J} \& \mathcal{F}$ 를 주요 평가 지표로 간주한다. MR의 경우, 이전 연구들 [18]에서 확립된 바와 같이 IoU 임계값 $\{0.3, 0.5, 0.7\}$ 에서의 Recall@1, mean IoU (mIoU), 그리고 **mean Average Precision (mAP)**을 사용하여 평가한다.

Table 1에서 볼 수 있듯이, 우리의 방법은 이전 VOS 접근 방식들을 능가하며, MeViS [8], Ref-DAVIS17 [19], Ref-YouTube-VOS [48]에서 state-of-the-art 결과를 달성한다. 구체적으로, DTOS는 이전 SOTA 대비 $\mathcal{J} \& \mathcal{F}$ 점수에서 각각 +4.36, +4.48, +3.02의 향상을 이룬다. 우리 방법의 일반화 능력을 추가로 입증하기 위해, 우리는 MeViS [8]와 Ref-DAVIS17 [19]에서만 DTOS를 학습시키고, Ref-YouTube-VOS [48]에서 zero-shot 설정으로 평가했으며, 여기서도 우수한 결과를 달성했다. 이러한 결과들은 Figure 4에서 보여지듯이 DTOS의 뛰어난 공간적 지역화(spatial localization) 능력을 검증한다. 특히, 우리의 방법은 움직임(motion)에 의해 가이드되는 데이터셋인 MeViS에서 더욱 큰 잠재력을 보여준다. 이는 움직임 가이드 데이터셋의 특성상 움직임이 전체 비디오에 걸쳐 발생하기보다는 특정 클립에 국한되는 경향이 있기 때문으로 해석할 수 있다. 이러한 특성은 DTOS의 강점과 잘 부합하여, 이러한 시나리오에서 특히 효과적이다.

Sampling Strategy	$\mathcal{J}$	$\mathcal{F}$	$\mathcal{J} \& \mathcal{F}$
Random	66.42	74.74	70.58
Uniform	68.31	76.81	72.56
SingleFrame	61.96	72.6	67.28
TCS+Uni.	68.27	76.21	72.24
TCS	$\mathbf{7 0 . 7 6}$	$\mathbf{7 9}$	$\mathbf{7 4 . 8 8}$

Table 3. Ref-DAVIS-17 [19]에서의 Sampling Strategy 설계에 대한 Ablation Study. Uni.는 uniform sampling을 나타낸다.

Table 2에서, LLM 기반 방법들 중 우리가 제안한 TCS는 Charades-STA [49] 및 Activity-Captions [22] 데이터셋에서 뛰어난 성능을 달성하며, [18, 52] 대비 R1@0.7에서 각각 +6.71 및 +7.26의 향상을 이룬다. 또한, TCS는 QVHighlights [25] 데이터셋에서도 경쟁력 있는 결과를 제공한다. 특히, 쿼리된 이벤트에 해당하는 모든 클립을 식별하는 데 중요한 R1@0.3에서 일반적으로 더 높은 점수를 달성한다. 이러한 개선은 모델이 관련 비디오 클립을 포괄적으로 캡처하는 능력을 향상시킨다.

4.4. Ablation Studies

TCS
Table 3에서 우리는 DTOS 성능에 대한 다양한 샘플링 전략의 영향을 분석한다. TCS의 zero-shot 능력을 활용하여, 우리는 관련 클립 세트를 예측하고 MR에 미치는 영향을 평가한다. Figure 4에서 볼 수 있듯이, DTOS의 뛰어난 성능은 TCS의 강력한 일반화 능력을 더욱 입증한다. 또한, 우리는 TCS로 샘플링된 클립의 프레임 길이를 1로 설정했다. 이 샘플링 전략은 샘플링된 프레임의 시간적 해상도를 저해하여 성능 저하를 초래한다. 대조적으로, 균일 샘플링(uniform sampling)은 RVOS 데이터셋의 설명이 일반적으로 전체 비디오에 걸쳐 있는 객체나 동작을 참조하기 때문에 심각한 성능 저하를 일으키지 않는다. Figure 4(c)에서 보듯이, 대부분의 비디오 프레임은 쿼리 설명과 일치하는 타겟을 포함하며, 짧은 동작이나 가려짐(occlusion) 이벤트는 데이터셋의 소수에 불과하다. TCS는 타겟과 쿼리 간의 더 나은 정렬을 보장하여 전반적인 성능을 향상시킨다. 이 접근 방식은 시간적 해상도와 텍스트 관련성 사이의 균형을 효과적으로 유지하여, 다양한 비디오-텍스트 상호작용 task를 처리하는 DTOS의 능력을 향상시킨다.

Special Token One-to-Many Output
Table 4에서 우리는 이벤트 경계에 대한 다양한 출력 형식의 타당성을 평가한다. 절대값(초 단위)을 출력하기 위해 텍스트 전용 형식을 사용하면 24.01 mIoU의 상당한 성능 저하가 발생한다. 유사하게, 상대값을 사용할 때도 성능은 7.1 mIoU 감소한다. 이러한 결과는 모델이 더 높은 정밀도 수준에서 심각한 성능 저하를 겪는다는 것을 나타낸다. 이 문제는 주로 수치 값의 토큰화에서 발생하며, 이는 정확한 정량적 추론 능력을 제공하지 못한다 [11]. 우리는 상대값이 고정된 범위 매핑으로 인해 모델이 해석하고 학습하기 더 쉽다고 가정한다. 대조적으로, 가변적인 범위를 갖는 절대값은 모델이 효과적으로 이해하고 활용하는 데 더 큰 어려움을 준다. 또한, 분류 유형은 $\mathcal{L}_{t x t}$ 만 계산한다.

Format	Type	R1@.3	R1@.5	R1@.7	mIoU
Text (abs.)	cls.	74.81	61.31	18.57	34.03
Text (rel.)	cls.	74.56	59.32	32.27	50.94
<st><ed>	reg.	35.17	24.67	9.1	24.34
<reg>	reg.	$\mathbf{81 . 2 9}$	$\mathbf{69 . 8 1}$	$\mathbf{43 . 2}$	$\mathbf{58}$

Table 4. Charades-STA [49]에 대한 TCS 출력 형식의 Ablation Study. 가로선 위의 결과는 텍스트 형식의 출력을 나타내며, 여기서 cls.는 분류 방법, abs.는 절대값, rel.은 상대값을 의미한다. 가로선 아래는 특수 토큰을 사용한 결과이며, 여기서 reg.는 회귀 기반 방법을 의미한다.

우리는 또한 <st> 및 <ed> 토큰을 사용하여 이벤트의 시작 및 끝 경계를 독립적으로 디코딩하는 실험을 수행했다. 그러나 이 접근 방식은 반복적인 디코딩 문제 [54]를 겪는데, 모델이 출력할 올바른 카테고리와 토큰 수를 제어하는 데 어려움을 겪는다. 이는 종종 오류가 있는 응답 형식과 예측 실패로 이어지며, 이러한 출력 형식의 한계를 더욱 부각시킨다. 대조적으로, 경계 회귀를 위해 단일 <reg> 토큰을 사용하면 모델 수렴이 크게 가속화되고 우수한 성능을 달성한다. 유사하게, RVOS task에 대한 이전 연구들 [23, 63]은 <seg> 토큰을 직접 회귀에 사용하는 것의 타당성을 검증하여, 모델 출력의 정확성을 보장하는 설계를 보여주었다.

우리는 <seg> 토큰 수를 1로 설정하여 일대일 예측 시나리오를 추가로 시뮬레이션했다. 그러나 Table 5에서 보듯이, 일대다(one-to-many) 접근 방식은 일대일 방식에 비해 8.73 $\mathcal{J} \& \mathcal{F}$ 점수의 상당한 개선을 제공한다. 특히, <seg> 토큰 수가 증가함에 따라 성능에 미치는 영향은 점차 감소한다. 이러한 행동은 MeViS [8]에 기인하는데, 각 쿼리는 평균 1.59개의 타겟에 해당한다. <seg> 토큰 수가 이 평균을 초과하면, 추가 토큰은 점차 감소하는 이점을 제공하는데, 이는 모델이 더 적은 토큰으로 모든 관련 타겟을 효과적으로 포착하기 때문이다.

Special Tokens	$\mathcal{J}$	$\mathcal{F}$	$\mathcal{J} \& \mathcal{F}$
1	43.19	51.52	47.35
4	49.22	56.54	52.88
7	$\mathbf{5 2 . 2}$	$\mathbf{5 9 . 9 5}$	$\mathbf{5 6 . 0 8}$

Table 5. MeViS [8] val에 대한 One-to-Many 설계의 Ablation Study. <seg> 토큰 수 변화에 따른 결과를 보고한다.

Figure 4. MeViS [8] validation set에 대한 시각화. (a)는 쿼리에 기반하여 타겟과 세그먼트를 찾는 DTOS의 능력을 보여준다. (b)와 (c)는 여러 시공간 타겟을 지역화하는 DTOS의 효과를 보여준다.

TCS Multimodal Visual Sequence
Table 6에서 우리는 다양한 데이터 입력 형식이 모델 성능에 미치는 영향을 조사한다. 두 개의 원본 이미지 프레임의 토큰 길이는 하나의 입력 단위로 정의된다. 먼저, 우리는 원본 비디오 프레임만 사용하거나 이미지 그리드 [20]로 합성된 압축 프레임을 비디오 입력으로 사용하는 경우를 조사하며, 이를 각각 "1+1", "4+4", "6+6"으로 표기한다. 결과는 압축 프레임의 비율을 늘리면 성능이 향상됨을 보여주는데, 이는 TCS가 더 높은 시간적 해상도를 달성하여 전역 비디오 정보를 더 잘 포착할 수 있기 때문이다. 그러나 이러한 개선은 공간적 세부 정보 손실을 대가로 하며, 이는 궁극적으로 성능을 제한한다 [20]. 다음으로, 우리는 원본 프레임과 압축 프레임을 번갈아 사용하여 멀티모달 입력을 재구성한다. 이 하이브리드 접근 방식은 시간적 해상도와 공간적 세부 정보의 균형을 이루며, 두 형식의 강점을 활용한다. 결과적으로, 세부적인 시각적 단서와 더 넓은 시간적 맥락을 모두 포착하는 모델의 능력을 유지함으로써 우수한 성능을 달성한다. 더 자세한 실험은 Supp. B를 참조하라.

MM Sequence	R1@.3	R1@.5	R1@.7	mIoU
$1+1$	48.31	36.13	24.01	35.64
$4+4$	55.84	40.21	25.45	39.38
$6+6$	$\mathbf{7 4 . 1 4}$	51.44	35.73	52.27
$1+4$	67.55	$\underline{55.4}$	38.36	51.2
$1+6$	71.58	59.87	$\underline{46.22}$	$\underline{55.7}$
$1+9(\mathrm{col})$	69.09	46.79	28.45	46.2
$1+9($ row $)$	$\underline{72.5}$	$\mathbf{6 2 . 0 1}$	$\mathbf{4 8 . 3 6}$	$\mathbf{5 7 . 3 1}$

Table 6. DiDeMo [1]에 대한 Visual Multimodal Sequence 설계의 Ablation Study. 숫자 "1"은 원본 이미지를 나타내고, "1"보다 큰 숫자(k로 표기)는 k개의 이미지를 단일 이미지 크기로 압축한 것을 나타낸다. col은 압축 시 열(column) 우선 연결을, row는 행(row) 우선 연결을 의미한다.

4.5. Limitations

Special Token Decoding Mode
[63]과 유사하게, 우리는 <seg> 토큰을 bounding box 표현으로 디코딩하는 방식을 탐구했지만, 이 접근 방식은 세부적인 타겟 설명이 부족하고 SAM2에 크게 의존하는 경향이 있다. LLM 출력의 유연성을 활용하여, 향후 연구는 효율적인 토큰 표현 형식과 새로운 디코딩 전략에 초점을 맞춰 세분화된 정보(fine-grained information)를 더 잘 포착하고 [23, 36, 46, 57] 다운스트림 task와의 정렬을 강화해야 한다.

Temporal Target Tracking
우리는 TCS의 입력으로 clip 정보를 사용하지만, 최종 전파(propagation) 타겟은 하나 이상의 프레임에서 선택되며, 이 과정에서 시간적 맥락(temporal context)과 프레임 간 타겟 일관성이 간과된다. 향후 연구에서는 프레임 간 객체 추적을 위한 강력한 방법을 개발하여 타겟 일관성을 보장하고 맥락 정보를 보존해야 하며 [64], 이러한 과제들은 추가적인 연구를 위해 남겨둔다.

5. Conclusion

본 연구에서는 **RVOS(Referring Video Object Segmentation)**를 위한 효과적이고 새로운 MLLM(Multi-modal Large Language Model) 프레임워크인 DTOS를 소개한다. one-to-many reference 문제를 해결하기 위해, 우리는 시공간적 타겟을 정확하게 표현할 수 있는 특별한 토큰들을 사용한다. 또한, 비디오 클립과 사용자 지시 간의 정렬(alignment)을 향상시키기 위해 **Text-guided Clip Sampler (TCS)**를 설계했으며, 공간적 세부 사항을 보존하면서 시간적 해상도를 극대화하도록 신중하게 구성된 멀티모달 입력 시퀀스를 통합하였다. 광범위한 실험을 통해, DTOS는 RVOS 및 MR(Multi-Referring) task를 포함한 다양한 벤치마크에서 우수한 성능을 보여주며, 다양한 시나리오에서의 견고성과 적응성을 입증한다.

Acknowledge

본 연구는 중국 국가자연과학기금(National Natural Science Foundation of China)의 62376052번 과제 지원을 받아 수행되었다.