Lee, Jeongeun, Youngjae Yu, and Dongha Lee. "HIPPO-Video: Simulating Watch Histories with Large Language Models for Personalized Video Highlighting." arXiv preprint arXiv:2507.16873 (2025).

HiPpo-Video : Simulating Watch Histories with Large Language Models for Personalized Video Highlighting

Jeongeun Lee Youngjae Yu Dongha Lee* <br> 연세대학교 <br> {ljeadec31, yjy, donalee\

@yonsei.ac.kr }

Abstract

비디오 콘텐츠의 기하급수적인 증가는 개인화된 비디오 하이라이팅을 필수적인 task로 만들었다. 이는 사용자 선호도가 매우 다양하고 복잡하기 때문이다. 그러나 기존 비디오 데이터셋은 개인화가 부족하여, 고립된 비디오나 사용자 행동의 복잡성을 포착하지 못하는 단순한 텍스트 쿼리에 의존하는 경우가 많다.
본 연구에서는 LLM 기반 사용자 시뮬레이터를 활용하여 다양한 사용자 선호도를 반영하는 현실적인 시청 기록(watch history)을 생성함으로써, 개인화된 비디오 하이라이팅을 위한 새로운 데이터셋인 HiPpo-Video를 소개한다. 이 데이터셋은 170개의 semantic category에 걸쳐 20,400개의 비디오를 포함하는 2,040개의 (시청 기록, saliency score) 쌍으로 구성된다.
데이터셋의 유효성을 검증하기 위해, 우리는 개인화된 시청 기록을 활용하여 선호도에 따라 조건화된(preference-conditioned) 세그먼트별 saliency score를 예측하는 방법인 HiPHer를 제안한다. 광범위한 실험을 통해, 우리의 방법이 기존의 일반적인(generic) 및 쿼리 기반(query-based) 접근 방식보다 우수한 성능을 보이며, 실제 시나리오에서 매우 사용자 중심적인 비디오 하이라이팅의 잠재력을 입증한다.

Dataset: huggingface.co/datasets/jeongeunnn/HIPPO-video Code: github.com/jeongeunnn-e/HIPPO-Video

1 Introduction

실제 세계에서 비디오 콘텐츠의 규모와 다양성이 빠르게 증가함에 따라, 사용자들이 제한된 시간과 자원 내에서 긴 형식의 비디오를 효율적으로 소화하는 것이 점점 더 중요해지고 있다 (Huang et al., 2020; Apostolidis et al., 2021; Argaw et al., 2024a). 이러한 맥락에서, 비디오 요약 (Park et al., 2020; Xu et al., 2024), 하이라이트 감지, 모먼트 검색 (Lin et al., 2023; Sun et al., 2024; Xiao et al., 2024; Xu et al., 2024)과 같이 더 짧고 소비하기 쉬운 버전의 비디오를 생성하기 위한 다양한 연구 task가 등장했다.

그러나 이러한 task들은 중요한 순간이 사용자마다 크게 달라지는 실제 세계에서 개인화의 중요성을 간과하는 경우가 많다. 개인의 관심사에 맞춰 콘텐츠를 제공하는 것은 획일적인 접근 방식보다 사용자 중심의 콘텐츠 전달 요구를 더 잘 충족시킬 수 있다. query-focused video summarization (Vasudevan et al., 2017; Xiao et al., 2020a;b) 및 moment retrieval (Liu et al., 2018; Zeng et al., 2022) 분야의 일부 선행 연구들이 개인화의 측면을 탐구했지만, 이들은 일반적으로 사용자 선호를 단일 구문이나 feature로 축소하여 인간 관심사의 복잡성을 지나치게 단순화한다. 현실에서 인간의 선호는 다면적이며, 시간과 다양한 유형의 콘텐츠에 따라 진화한다. 이를 해결하기 위해 우리는 시청 기록(watch history)을 사용자 선호 모델링을 위한 더 풍부한 소스로 활용할 것을 제안한다. 우리는 사용자의 시청 기록을 통해 순차적인 시청 행동을 분석함으로써 잠재된 선호를 밝혀내고, 이를 통해 더 효과적이고 맞춤화된 비디오 경험을 제공할 수 있다고 주장한다.

본 연구에서는 **개인화된 비디오 하이라이팅(personalized video highlighting)**을 소개한다. 이는 단일 세션 내에서 사용자의 시청 기록을 활용하여 사용자의 선호에 맞춰 비디오 하이라이트를 생성하는 새로운 task이다. 추천 시스템이 상호작용 기록과 같은 **암묵적 피드백(implicit feedback)**을 통해 사용자 관심사를 효과적으로 포착하는 방식 (Rendle et al., 2009; Kang & McAuley, 2018)에서 영감을 받아, 우리의 task는 세션 중 사용자의 실시간 시청 행동 및 선호도에 맞춰 하이라이트 세그먼트를 동적으로 선택하고 제시하는 것을 목표로 한다. 예를 들어, Figure 1에서 볼 수 있듯이, 동일한 비디오라도 사용자의 시청 기록에서 추론된 관심사에 따라 다른 하이라이트를 생성하여 콘텐츠의 다양한 측면을 강조할 수 있다.

Figure 1: 비디오는 사용자 관심사에 따라 다양한 하이라이트를 생성할 수 있으며, 이는 시청 기록이 암묵적 피드백을 어떻게 반영하고 개인 선호에 맞춰 하이라이트를 조정하는 데 도움이 되는지를 보여준다.

이 task를 위해 우리는 HiPpo-Video: Highlights Based on Preferences for Personalized VideO Clipping이라는 대규모 데이터셋을 소개한다. 이 데이터셋은 실제 사용자 행동을 시뮬레이션하여 생성된 사용자 시청 기록과 해당 개인화된 saliency score를 포함한다. 기존 비디오 데이터셋 (Gygli et al., 2014; Song et al., 2015; Sharghi et al., 2016)은 수동 주석의 자원 집약적인 특성으로 인해 규모가 제한적인 경우가 많으며, 실제 사용자 시청 기록을 수집하는 것은 개인 정보 보호 문제를 야기한다. 이러한 문제들을 해결하기 위해 우리는 Large Language Model (LLM)을 활용하여 사용자 상호작용을 시뮬레이션함으로써, 사용자 개인 정보 보호를 침해하지 않고 확장 가능한 데이터 생성을 가능하게 했다. HiPpo-Video는 170개의 의미론적 초기 선호 seed에 걸쳐 2,040개의 (시청 기록, saliency score) 쌍으로 구성되며, 각 시청 기록은 10개의 비디오를 포함하여 총 20,400개의 비디오를 포함한다.

실험을 통해 우리는 **시청 기록에서 파생된 사용자 선호를 선호 context로 활용하는 간단한 baseline 모델인 History-Driven Preference-Aware Video Highlighter (HiPHer)**를 사용하여 우리의 task와 데이터셋을 검증한다. HiPHer는 시청 기록에서 얻은 개인화된 preference embedding을 통합함으로써 기존 방법들보다 우수한 성능을 보인다. 반면, 일반적인 방법들은 개별 사용자 관심사와 일치하지 못하는 경우가 많고, query-focused 방법들은 짧은 쿼리로 선호도의 복잡성을 포착하는 데 어려움을 겪는다. 이러한 결과는 사용자별 비디오 하이라이팅을 향상시키기 위해 상세한 사용자 기록을 통합하는 것의 중요성을 강조하며, history-driven preference modeling의 효과를 입증한다.

Task 및 데이터셋 (Tasks and Datasets)
Highlight detection은 비디오 세그먼트에 중요도 점수를 할당하여 비디오 내에서 가장 매력적이거나 중요한 순간을 식별하는 task이다. 기존 데이터셋(Sun et al., 2014; Song et al., 2016; Gygli et al., 2016; Sul et al., 2023)은 쿼리와 무관한 하이라이트 클립을 제공한다.
Moment retrieval은 주어진 자연어 쿼리와 일치하는 비디오 내의 특정 시간 구간을 찾는 task로, 쿼리와 주석 처리된 moment를 짝지어 놓은 데이터셋(Lei et al., 2020; Gao et al., 2017; Lei et al., 2021; Zala et al., 2023)을 사용한다.
Video summarization은 필수적인 내러티브 또는 정보 콘텐츠를 보존하면서 비디오의 압축된 버전을 제공하는 task이다. 전통적인 데이터셋(Gygli et al., 2014; Song et al., 2015; Sharghi et al., 2016)은 인간의 주석에 크게 의존하여 확장성에 한계가 있었다. 따라서 최근 연구에서는 **Large Language Model (LLM)**을 활용한 자동 요약(Argaw et al., 2024b; Hua et al., 2024)을 탐구하고 있다. 특히, 여러 데이터셋(Song et al., 2015; Sul et al., 2023; Lei et al., 2021)은 다양한 task에 걸쳐 활용된다. 이러한 데이터셋에 대한 자세한 비교는 Table 1에 제시되어 있다.

방법론 (Methods)
Highlight detection에 대한 이전 연구는 주로 비디오 세그먼트에 점수를 할당하여 하이라이트를 식별하는 랭킹 기반 방법을 탐구해왔다 (Sun et al., 2014; Gygli et al., 2016; Yao et al., 2016; Rochan et al., 2020).
Moment retrieval의 경우, 연구는 텍스트 쿼리와 시각 콘텐츠를 연결하기 위한 cross-modal alignment 기술에 집중되었다 (Lu et al., 2019; Yuan et al., 2019; Zhang et al., 2020; Lei et al., 2020).
최근에는 DETR (Carion et al., 2020)의 성공에 영감을 받아, DETR 기반 방법들이 moment retrieval과 highlight detection을 통합된 프레임워크에서 동시에 해결하기 위해 제안되었다 (Lei et al., 2021; Moon et al., 2023; Liu et al., 2022).
반면, video summarization은 전체 콘텐츠를 대표하는 핵심 순간들을 선택한다 (Ji et al., 2019; Argaw et al., 2024b). 쿼리가 주어질 경우 (Sharghi et al., 2016; 2017; Narasimhan et al., 2021), 이는 query-focused summarization이 되며, 이는 비디오 콘텐츠를 텍스트 입력과 정렬하는 측면에서 moment retrieval과 유사하다.

Dataset	Statistics		Supported Tasks	Single Instance		\multirow[t]{2}{*}{Anno.}
	#Videos	Avg Len(m)		Query	#Videos
YouTubeHighlights (Sun et al., 2014)	600	2.4	MR, HD	$\times$	1	M
SumMe (Gygli et al., 2014)	25	2.4	VS	$\times$	1	M
TVSum (Song et al., 2015)	50	3.9	VS	$\times$	1	M
QFVS (Sharghi et al., 2016)	4	240	VS, MR	$\checkmark$	1	M
Charades-STA (Gao et al., 2017)	6,700	0.5	MR	$\checkmark$	1	M
TVR (Lei et al., 2020)	21,800	1.3	MR	$\checkmark$	1	M
QVHighlights (Lei et al., 2021)	10,200	2.5	MR, VS	$\checkmark$	1	M
Mr.HiSum (Sul et al., 2023)	31,892	3.4	VS, HD	$\times$	1	M
Shot2Story20K (Han et al., 2023)	20,023	0.3	VS	$\times$	1	M+S
Instruct-V2Xum (Hua et al., 2024)	30,000	3.1	VS	$\times$	1	M+S
LfVS (Argaw et al., 2024b)	1,200	12.2	VS	$\times$	1	M+S
HiPpo-Video	2,040(20,400)	13.9	VS, MR, HD, PV	$\checkmark$	10	M+S

Table 1: 벤치마크 데이터셋 task별 비교.
VS (Video Summarization), MR (Moment Retrieval), HD (Highlight Detection), PV (Personalized Video Highlighting).

3 HiPpo-Video

우리는 **개인화된 비디오 하이라이팅(personalized video highlighting)**을 위해 설계된 대규모 데이터셋인 HiPpo-Video를 소개한다. 이 데이터셋은 다음으로 구성된다: (1) 사용자 시청 기록 시퀀스(user watch history sequences) (2) 타겟 비디오에 대한 10점 척도 saliency scoring 어노테이션

각 시퀀스는 10개의 비디오로 구성되며, 데이터셋은 총 2,040개의 시퀀스를 포함한다. 이는 다양한 카테고리에 걸쳐 총 20,400개의 비디오에 해당한다.

3.1 Simulation

비디오 플랫폼에서 실제 사용자의 시청 기록을 수집하는 것은 개인 정보 보호 문제 및 자원 제약 등 상당한 어려움을 수반한다. 이러한 한계를 해결하기 위해, 우리는 LLM 기반 사용자 시뮬레이터를 활용하여 현실적이고 대규모의 비디오 시청 기록 시퀀스를 생성한다. Figure 2는 시청 기록 시뮬레이션 프로세스의 개요를 제공하며, 상세한 prompt는 Appendix A.3에 포함되어 있다.
초기 프로필 시드로부터 시작하여, 시뮬레이터는 비디오를 시청하면서 사용자 선호도를 동적으로 업데이트하며 반복적으로 작동한다. 구체적으로, 이 과정은 세 단계로 구성된다: (1) 비디오 후보 검색(video candidate retrieval), (2) 비디오 참여(video engagement), (3) 선호도 업데이트(preference update). 이 반복적인 프레임워크는 시뮬레이터가 실제 사용자 선호도의 진화하는 특성을 포착하여, 실제 비디오 소비의 복잡성과 다양성을 효과적으로 모델링할 수 있도록 한다.

Figure 2: 비디오 플랫폼에서 비디오 시청 기록을 수집하기 위한 우리의 LLM 기반 사용자 시뮬레이션의 전체 프로세스는 다음과 같이 반복적으로 작동한다: (1) 관련 비디오 또는 새로운 쿼리를 통해 비디오 후보를 검색하고, (2) 비디오를 선택하고 시청하는 등 비디오에 참여하며, (3) 비디오 검색 및 참여 과정에서 얻은 시뮬레이터의 주요 응답을 기반으로 장기 선호도를 업데이트한다.

초기화 (Initialization). 사용자 행동 시뮬레이션의 다양성을 지원하기 위해, 우리는 사용자 관심사를 나타내는 신중하게 설계된 변수들로 시뮬레이터를 초기화한다. 이 변수들은 Qiu et al. (2024)의 분류를 따르며, 기존 비디오 데이터셋과 인기 있는 Wikipedia 주제(Zhou et al., 2018; Miech et al., 2019)에서 채택된 170개의 주제 및 하위 주제 쌍으로 구성되어 YouTube 콘텐츠의 폭넓은 범위를 포착한다. 또한, 사용자 동기 및 시청 선호도를 모델링하기 위해 **감정 기반 변수(intent)**를 도입한다. 주제 분류와 의도 기반 선호도를 통합하여, 우리는 개인화된 시청 기록 시뮬레이션을 위한 초기 시드로 2,040개의 프로필을 구축하며, 이는 다양한 사용자와 비디오 콘텐츠에 대한 적응성에 기여한다. 초기화 변수에 대한 자세한 내용은 Appendix A.1에 제공된다.

비디오 후보 검색 (Video Candidate Retrieval). 시뮬레이션은 YouTube를 실시간으로 크롤링하여 $\mathcal{C}=\left\{C_{1}, C_{2}, \ldots, C_{l}\right\}$ 로 표시되는 비디오 후보 세트를 검색하는 것으로 시작된다. 실제 시청 세션에서 사용자들은 일반적으로 **특정 주제 내에서 계속 탐색하거나 새로운 주제로 전환(또는 확장)**한다. 이러한 행동을 모델링하기 위해 시뮬레이터에는 두 가지 옵션이 제공된다: (1) 관련 비디오 탐색 또는 (2) 새로운 검색 쿼리 생성. 구체적으로, $i$ -번째 턴(즉, $i$ -번째 비디오 선택)에서 이 결정은 이전에 시청한 비디오 $\mathcal{H}_{i-1}= \left\{H_{1}, H_{2}, \ldots, H_{i-1}\right\}$ 와 사용자의 현재 선호도 $p_{i-1}$ 에 의해 결정된다. 이 접근 방식은 시뮬레이터가 주제 연속성과 탐색의 균형을 맞추는 자연스러운 브라우징 패턴을 시뮬레이션할 수 있도록 한다.

비디오 참여 (Video Engagement). 후보 풀이 검색되면, 시뮬레이터는 시청할 비디오를 선택하고 콘텐츠에 참여한다. 먼저, 선택 프로세스는 두 가지 유형의 사용자 선호도를 고려한다: **단기 선호도(short-term preference)**와 장기 선호도(long-term preference). 단기 선호도는 가장 최근에 시청한 3개 비디오의 metadata를 기반으로 하는 반면, $p_{i-1}$ 로 표시되는 장기 선호도는 자연어로 명시적인 좋아요 및 싫어요로 표현되며, 비디오 시퀀스 $\mathcal{H}_{i-1}$ 에 대한 사용자의 전반적인 관심사에 대한 누적 프로필을 제공한다. 선호도 모델링을 개선하기 위해 시뮬레이터는 가장 원하는 비디오와 가장 원하지 않는 비디오를 모두 선택한다. 이 **대조적인 접근 방식(contrastive approach)**은 좋아요와 싫어요의 균형을 맞춰 더욱 세분화된 선호도 표현을 구축함으로써 사용자 모델링을 향상시킨다. 또한, 시뮬레이터는 선택에 대한 **추론(Figure 2의 녹색 상자)**을 제공하여 의사 결정 프로세스를 강화한다.
가장 선호하는 비디오 $C \in \mathcal{C}$ 가 결정되면, 시뮬레이터는 이를 시청한다. 비디오는 **장면 전환 감지(scene change detection)**를 사용하여 $C=\left\{s_{1}, s_{2}, \ldots, s_{n}\right\}$ 으로 분할되며, 각 세그먼트가 일관된 콘텐츠 단위를 형성하도록 보장한다. 각 세그먼트는 $s_{k}=\left(v_{k}, t_{k}\right)$ 로 표현되며, 여기서 $v_{k}$ 는 시각적 설명이고 $t_{k}$ 는 해당 transcript이다. LLM의 포괄적인 비디오 이해를 촉진하기 위해 (Wang et al., 2024), 세그먼트 $s_{k}$ 의 대표 프레임 $f_{k}$ 는 Liu et al. (2024)의 **프레임 캡셔닝(frame captioning)**을 통해 텍스트 설명 $v_{k}$ 로 변환된다. 이 멀티모달 입력을 사용하여 시뮬레이터는 진화하는 선호도 $p_{i-1}$ 에 맞춰 비디오에 대한 간결한 요약과 맞춤형 의견을 포함하는 리뷰를 생성한다 (Figure 2의 파란색 상자). 비디오를 선택하고 시청하는 이 전체 프로세스는 최근 상호 작용과 장기적인 관심사 모두에 의해 안내되는 콘텐츠와의 인간 상호 작용 프로세스를 재현한다.

선호도 업데이트 (Preference Update). 비디오 참여를 완료한 후, 시뮬레이터는 선호도 상태를 $p_{i-1}$ 에서 $p_{i}$ 로 업데이트한다. 참여 과정에서 시뮬레이터는 선호도 추론을 기반으로 세 가지 주요 응답을 생성한다: (1) 가장 선호하는 비디오를 선택한 이유, (2) 가장 선호하지 않는 비디오를 선택한 이유, (3) 시청한 비디오에 대한 리뷰. 이들은 최근 상호 작용을 기반으로 동적으로 조정하여 장기 선호도를 개선하는 데 사용된다. Figure 2에서는 시뮬레이터의 주요 응답(갈색 및 녹색으로 강조 표시됨)에서 추론된 추가 세부 정보가 장기 선호도에 통합된다.

3.2 Saliency Score Annotation

시뮬레이션 후, 각 시청 기록의 마지막 비디오는 주목도(saliency) 어노테이션을 위한 타겟 비디오로 설정된다. 비디오 참여(engagement) 과정과 유사하게, 해당 비디오는 장면 변화(scene changes)를 감지하여 세그먼트(segment)로 분할된다.
시뮬레이터는 각 세그먼트에 **1부터 10까지의 관련성 점수(relevance scores)**를 할당한다. 이 점수들은 두 가지 주요 정보원을 기반으로 결정된다:

최종 장기 선호도(final long-term preferences): 비디오 시청 과정 전반에 걸쳐 통합된 선호도.
비디오 시청 후 매번 생성되는 개인 리뷰(personal reviews).

**리뷰 기반 선호도(review-driven preferences)**는 비디오별 신호를 제공하는 반면, 장기 선호도는 전체 세션에 걸친 광범위한 관심사를 반영한다. 이 두 가지 선호도 레이어를 통합함으로써, 시뮬레이터는 세션 기반 사용자 성향을 확립하고, 이를 통해 추론된 관심사에 부합하는 세그먼트 점수 매기기를 가능하게 한다.

3.3 Human Verification

시청 기록 시뮬레이션 프로세스 검증.
우리는 시청 기록 시뮬레이션의 신뢰성을 평가하기 위해 Amazon Mechanical Turk (MTurk) annotator를 고용하여 프레임워크의 두 가지 핵심 측면을 평가했다: (1) 쿼리 생성(query generation) 및 (2) 비디오 선택(video selection).
Annotator에게는 이전에 시청한 비디오와 장기 사용자 선호도를 포함하여 LLM 기반 사용자 시뮬레이터와 동일한 선호도 정보가 제공되었다.
쿼리 생성의 경우, annotator는 시뮬레이터가 작성한 쿼리가 다음 단계에 대해 타당한지 여부를 평가했다. 결과에 따르면 쿼리의 97.56%가 합리적이었으며, **85%의 annotator 간 일치도(inter-annotator agreement)**를 보였다.
비디오 선택의 경우, annotator에게는 시뮬레이터의 풀과 동일한 후보 비디오 세트가 주어졌고, 제공된 선호도에 가장 잘 맞는 비디오를 선택하도록 요청받았다. 시뮬레이터의 선택은 71.42%의 경우에서 인간의 선택과 일치했으며, 이는 시뮬레이터가 실제 사용자 행동을 효과적으로 반영하고 있음을 시사한다. 평가 프로세스에 대한 자세한 내용은 Appendix A.4에서 확인할 수 있다.

Saliency Annotation 검증.
시뮬레이터가 생성한 saliency annotation을 검증하기 위해, Sul et al. (2023)의 방법론을 적용한 사용자 연구를 수행했다. MTurk annotator에게는 비디오, 사용자 선호도, 그리고 가장 높은 saliency 점수가 할당된 클립(또는 점수가 동일한 경우 여러 쌍)이 주어졌다. 각 쌍에 대해 annotator는 하이라이트된 클립이 주어진 선호도와 일치하는지 여부를 세 가지 옵션 중 하나를 선택하여 결정했다: Agree (A), Unclear (U), 또는 Disagree (D).

Agreement	A	U	D	Percentage
Agree	3	0	0	$\mathbf{64 . 1 0 %}$
	2	1	0	$15.38 %$
	2	0	1	$17.95 %$
Neutral	1	2	0	$2.56 %$

Table 2: 사용자 일치도 결과

Table 2에서 A, U, D 열은 각 옵션을 선택한 annotator의 수를 나타낸다. 결과는 거의 98%의 쌍이 다수 의견에 의해 합리적이라고 판단되었음을 보여주며, 이는 saliency 점수가 개인화된 선호도를 정확하게 포착함을 확인시켜준다.

시뮬레이션된 시청 기록 검증.
시뮬레이션된 시청 기록의 현실성을 추가로 검증하기 위해, 우리는 **사전 동의를 얻어 수집된 40개의 실제 사용자 기록(각 10개 비디오)**을 사용하여 보완적인 평가를 수행했다.
첫째, 최근의 LLM-as-a-judge 프로토콜 (Chiang et al., 2024; Mitchell et al., 2023; Luo et al., 2025)에 따라, 우리는 GPT-4 (Achiam et al., 2023)에게 동일한 프로필 시드로 초기화된 시뮬레이션 기록과 실제 기록을 구별하는 이진 분류 task를 부여했다. GPT-4는 50%의 무작위 기준선보다 낮은 40%의 정확도를 달성했으며, 이는 시뮬레이션된 기록이 실제 기록과 종종 구별할 수 없음을 시사한다.
둘째, 우리는 Fast-DetectGPT (Bao et al., 2023)를 Hit@1 설정으로 적용했다. 이 설정에서 모델은 9개의 실제 기록 세트에서 하나의 시뮬레이션된 기록을 식별해야 한다. 모델은 0.350의 Hit@1 점수를 달성했으며, 이는 상당한 혼동을 나타내고 시뮬레이션된 기록과 실제 기록 간의 유사성을 더욱 뒷받침한다. 종합적으로, 이러한 결과는 우리의 시뮬레이션 프레임워크가 실제 사용자 시청 기록의 신뢰할 수 있는 대리자로서 유효하다는 것을 강력하게 지지한다.

Figure 3: 데이터셋 분석 결과. (a-b) t-SNE를 통해 시각화된 탐색 패턴 및 시청 기록 임베딩. (c) saliency 점수 평균 및 표준 편차 분포.

3.4 Dataset Analyses

우리는 Figure 3에 제시된 바와 같이, 데이터셋의 전반적인 특성과 다양성을 포함한 주요 측면들을 분석하며, 상세한 분석 설정은 Appendix A.4에 제공된다.

전반적인 통계 (Overall Statistics)
HiPpo-Video는 실시간 크롤링을 통해 철저하게 큐레이션되었으며, 모든 비디오 시청 기록 시퀀스는 2008년부터 2024년까지의 기간을 포함한다. 이 중 57.16%는 2023년 이후에 게시된 비디오로, 데이터셋의 최신성을 보장한다. 비디오 길이는 30초에서 119분까지 다양하며, 평균 길이는 13.9분으로 일반적인 비디오 소비 패턴을 반영한다. 어노테이션을 위해, 타겟 비디오는 평균 56.91개의 세그먼트로 분할된다.

기록 내 비디오 다양성 (Intra-history Video Diversity)
우리는 시뮬레이터가 얼마나 적극적으로 관심을 확장하는지 측정하기 위해 **비디오 시청 기록 내 탐색 비율(exploration ratio)**을 분석한다. 시뮬레이터가 관련 비디오를 시청하거나 이전 쿼리와 유사한 쿼리를 반복하는 경우, 이는 **비탐색(non-exploration)**으로 간주된다. 반대로, 시뮬레이터가 명확하게 새로운 쿼리를 생성하는 경우, 이를 관심 분야의 확장을 의미하는 topic drift로 정의한다. Figure 3a에서 보듯이, 탐색 비율은 일반적으로 0.2에서 0.6 사이에 분포하며, 이는 시뮬레이터들 간의 다양한 행동 패턴을 나타낸다. 일부는 일관되고 집중된 관심을 유지하는 반면, 다른 일부는 빈번하게 주제를 바꾸고 새로운 콘텐츠 영역을 탐색한다.

기록 간 비디오 다양성 (Inter-history Video Diversity)
시뮬레이션을 통해 포착된 사용자 선호도의 다양성을 평가하기 위해, 우리는 CLIP (Radford et al., 2021)으로 생성된 embedding을 사용하여 비디오 시청 기록의 embedding 공간을 t-SNE로 시각화한다. Figure 3b에서 보듯이, embedding들은 밀집된 클러스터를 형성하거나 초기 주제와 엄격하게 일치하지 않는다. 이는 시뮬레이션된 시청 기록이 미리 정의된 주제에서 시작되었음에도 불구하고 (Section 3.1 Initialization에서 설명), 광범위한 사용자 선호도를 포괄하고 있음을 나타낸다.

Saliency Score 분포 (Saliency Score Distribution)
Figure 3c는 kernel density estimation (KDE)을 사용한 saliency score의 분포를 보여준다. **평균 saliency score (왼쪽)**는 비디오당 평균 세그먼트 점수를 나타내며, 대부분 4에서 6 사이에 분포하여 적당한 관련성을 나타낸다. 변동성을 평가하기 위해 **표준 편차 (오른쪽)**를 측정했는데, 이는 일반적으로 1.5에서 2 사이에 분포하며 적당한 변동성을 시사한다. **더 높은 편차 (3 이상)**는 상당한 변동을 나타내며, 이는 동적인 시각적 변화나 빈번한 장면 전환 때문일 가능성이 높다.

4 HiPHer: History-driven Preference-aware Video Highlighter

우리는 사용자의 시청 기록으로부터 선호도를 모델링하여 개인화된 segment-wise saliency score를 생성하는 HiPHer를 제안한다. 비디오 $V$ 가 $n$ 개의 segment로 균일하게 분할되고, $m$ 개의 비디오로 구성된 시청 기록 $\mathcal{H}=\left\{H_{1}, H_{2}, \ldots, H_{m}\right\}$ 이 주어졌을 때, 목표는 saliency score $Y=\left\{y_{1}, y_{2}, \ldots, y_{n}\right\}$ 를 예측하는 것이다. 여기서 각 $y_{k}$ 는 $k$ -번째 segment가 사용자의 선호도와 얼마나 관련이 있는지를 정량화한다. HiPHer는 시청 기록으로부터 **전역 선호도 임베딩(global preference embedding)**을 도출하여 cross-attention을 통해 segment 표현을 안내하고, **사용자 관심사와 일치하는 segment에 우선순위를 부여하도록 contrastive loss로 최적화된 관련성 점수(relevance score)**를 생성한다.

입력 표현 (Input Representations)
$V$ 의 각 $n$ 개 segment에 대해, 대표 프레임을 $\left\{f_{1}, f_{2}, \ldots, f_{n}\right\}$ 으로, 해당 스크립트를 $\left\{t_{1}, t_{2}, \ldots, t_{n}\right\}$ 으로 나타낸다. 스크립트는 **Audio Speech Recognition (ASR)**을 사용하여 오디오로부터 생성되는데, ASR은 시각 인식 task를 향상시키는 것으로 나타났다 (Li et al., 2020). 우리는 사전학습된 CLIP image encoder (ViT-B/32) (Radford et al., 2021)를 사용하여 각 프레임에 대한 시각적 feature $\left\{s_{1}^{f}, s_{2}^{f}, \ldots, s_{n}^{f}\right\}$ 를 생성한다. 유사하게, CLIP text encoder를 사용하여 스크립트를 텍스트 feature $\left\{s_{1}^{t}, s_{2}^{t}, \ldots, s_{n}^{t}\right\}$ 로 변환한다. 시각적 feature와 텍스트 feature는 서로 다른 의미 정보를 가질 수 있으므로, 우리는 이들을 직접 융합하는 대신 (Kamath et al., 2021) 각 segment에 대해 $s_{k}=s_{k}^{f} \oplus s_{k}^{t}$ 와 같이 **연결(concatenate)**한다. 여기서 $s_{k}^{f}$ 와 $s_{k}^{t}$ 는 각각 시각적 feature와 텍스트 feature를 나타낸다.

Figure 4: HiPHer의 아키텍처는 두 가지 모듈로 구성된다: (1) 시청한 비디오로부터 선호도 임베딩을 생성하는 선호도 모델링 모듈(preference modeling module), 그리고 (2) 대상 비디오의 각 segment에 선호도 점수를 할당하는 스코어링 모듈(scoring module).

시청 기록으로부터 선호도 모델링 (Preference Modeling from Watch History)
HiPHer는 먼저 이전에 시청한 비디오 시퀀스 $\mathcal{H}$ 로부터 추론된 선호도를 캡슐화하기 위해 **선호도 임베딩 $e_{p}$ **를 구성한다. 시청 기록의 각 비디오 $H_{i}$ 는 $\mathcal{A} g g_{s}$ 를 사용하여 segment feature $\left\{s_{1}^{(i)}, s_{2}^{(i)}, \ldots, s_{n}^{(i)}\right\}$ 를 집계하여 인코딩된다. 여기서 각 segment는 대상 비디오 표현과 유사하게 인코딩된다. 이 결과로 **전체 비디오의 압축된 표현 역할을 하는 단일 임베딩 $h^{(i)}$ **가 생성된다. 비디오 임베딩 $\left\{h^{(1)}, h^{(2)}, \ldots, h^{(m)}\right\}$ 은 다음과 같이 $\mathcal{A} g g_{h}$ 를 사용하여 전역 선호도 표현(global preference representation)으로 집계된다:

e_{p}=\mathcal{A} g g_{h}\left(\left\{h^{(i)}: h^{(i)}=\mathcal{A} g g_{s}\left(s_{1}^{(i)}, \ldots, s_{n}^{(i)}\right)\right\}_{i=1}^{m}\right)

본 연구에서는 $\mathcal{A} g g_{h}$ 와 $\mathcal{A} g g_{s}$ 에 대한 집계 함수로 mean pooling을 사용하여 $e_{p}$ 가 시청한 비디오의 평균적인 특성을 반영하도록 한다. 더 진보된 기술은 각 비디오의 대상 비디오 또는 사용자 관심사에 대한 관련성을 기반으로 각 비디오의 가중치를 조정할 수 있다.

Segment-wise 스코어링 (Segment-wise Scoring)
입력 표현은 먼저 projection layer를 통해 처리되며, 각 projection layer는 LayerNorm과 dropout의 3개 순차적 layer로 구성된다. 유사하게, 선호도 임베딩도 동일한 구조의 projection layer를 통과하여 공유 임베딩 공간에서의 정렬(alignment)을 보장한다. 다음으로, cross-attention layer는 입력 표현을 query로, 선호도 임베딩을 key와 value로 사용하여 선호도를 기반으로 segment 표현을 조건화한다. (Lei et al., 2021; Narasimhan et al., 2021)과 유사하게, attended output은 multi-head self-attention layer와 feed forward network (FFN)를 포함하는 Transformer encoder에 입력되어 모델링된 선호도를 기반으로 각 segment의 관련성을 포착하는 segment-wise saliency score를 계산한다.

Saliency Loss
우리는 contrastive saliency loss를 사용하여 관련 클립이 더 높은 saliency score를 받고 관련 없는 클립이 더 낮은 score를 받도록 보장하며, 사용자 선호도를 기반으로 순위(ranking)를 강제한다. 관련 있는 segment $v^{+}$ 와 관련 없는 segment $v^{-}$ 를 가진 대상 비디오와 그에 해당하는 saliency score $y^{+}$ 와 $y^{-}$ 가 주어졌을 때, loss는 다음과 같이 정의된다:

\mathcal{L}_{\text {saliency }}=\sum_{\left(v^{+}, v^{-}\right)} \max \left(0, \gamma-\left(y^{+}-y^{-}\right)\right)

만약 $y^{+}$ 와 $y^{-}$ 의 차이가 $\gamma$ 보다 작으면, loss 함수는 모델에 페널티를 부여하여 관련 segment에 더 높은 점수를 할당하도록 유도한다.

Method	RMSE $\downarrow$	mAP	Hit1@7	Hit1@9	Recall1@0.5	Recall1@0.7	Improv.
QVHighlights
Moment-DETR (Lei et al., 2021)	0.347	0.681	0.434	0.042	$\underline{0.370}$	0.205	20.7%
UMT (Liu et al., 2022)	0.527	0.547	0.409	$\underline{0.138}$	0.255	0.179	20.2%
QD-DETR (Moon et al., 2023)	0.375	0.675	0.406	0.116	0.353	0.201	43.4%
UVCOM (Xiao et al., 2024)	0.330	0.710	0.489	0.149	0.413	0.183	11.4%
TR-DETR (Sun et al., 2024)	0.400	0.660	0.352	0.105	0.359	0.195	58.1%
HiPpo-Video
SL-Module (Xu et al., 2021)	0.517	0.568	0.385	0.085	-	-	96.1%
Moment-DETR (Lei et al., 2021)	$\underline{0.339}$	0.705	0.432	$\underline{0.138}$	0.398	0.193	38.2%
UMT (Liu et al., 2022)	0.502	0.732	0.429	0.132	0.320	$\underline{0.210}$	6.4%
QD-DETR (Moon et al., 2023)	0.368	0.681	$\underline{0.456}$	0.120	0.365	0.196	38.2%
UVCOM (Xiao et al., 2024)	0.350	0.700	0.441	0.146	0.357	0.154	13.7%
TR-DETR (Sun et al., 2024)	0.390	0.660	0.435	0.149	0.243	0.127	11.4%
HiPHer	0.301	0.766	0.507	0.166	0.452	0.245

Table 3: HD 및 MR에 대한 성능 비교.
Hit1@k 및 Recall@@ $\alpha$ 는 각각 saliency threshold $k$ 및 IoU threshold $\alpha$ 를 사용하여 계산된다. 회색 행은 학습 데이터셋을 나타낸다. 가장 좋은 결과는 굵게(bold) 표시되었고, **두 번째로 좋은 결과는 밑줄(underline)**로 표시되었다.

5 Experiments

5.1 Experimental Settings

이 섹션에서는 우리의 task인 **개인화된 비디오 하이라이팅(PV)**을 기존의 비디오 요약(VS), 하이라이트 감지(HD), 모먼트 검색(MR) 방법들과 비교한다. VS와 HD는 대상 비디오만을 사용하여 키프레임을 선택하는 반면, MR은 자연어 쿼리도 함께 사용하여 일치하는 시간 세그먼트를 검색한다. 이와 대조적으로, PV는 사용자의 시청 기록과 대상 비디오를 모두 사용하여 세그먼트의 중요도(saliency) 점수를 예측한다.

실험 설정 (Experimental Setup)
우리는 HiPpo-Video를 학습(70%) 및 테스트(30%) 세트로 분할했으며, 콘텐츠 다양성을 위해 카테고리별 비디오 비율의 균형을 맞추었다. MR 및 쿼리 중심 VS의 경우, 사용자의 시청 기록의 핵심을 포착하는 키 문구를 추출하여 텍스트 기반 쿼리를 생성한다. 또한, HD 및 MR에 널리 사용되는 데이터셋인 QVHighlights (Lei et al., 2021)로 학습하고, HiPpo-Video에서 평가한다. 이 설정은 모델의 데이터셋 간 일반화 능력을 평가하지만, HiPpo-Video의 비디오 시청 기록 시퀀스에 대한 고유한 요구 사항으로 인해 데이터셋 간 직접적인 일반화는 제한적이다.

베이스라인 (Baselines)
우리는 개인화된 비디오 하이라이팅을 위한 최신 state-of-the-art 방법들을 평가한다. HD 및 MR의 경우, **Transformer 기반 모델인 SL-Module (Xu et al., 2021), UMT (Liu et al., 2022), UVCOM (Xiao et al., 2024)**과 더불어 **DETR 기반 접근 방식인 Moment-DETR (Lei et al., 2021), QD-DETR (Moon et al., 2023), TR-DETR (Sun et al., 2024)**을 포함한다. SL-Module은 HD에만 적용된다는 점에 유의한다. VS의 경우, CLIP-It (Narasimhan et al., 2021)을 일반 및 쿼리 중심 요약에 맞게 조정하고, VSL (Chen et al., 2024)을 개인화된 요약에 맞게 조정한다. 더 자세한 내용은 Appendix B.1에 제공된다.

평가 지표 (Evaluation Metrics)
우리는 베이스라인에서 사용되는 표준 지표(Lei et al., 2021; Sul et al., 2023; Moon et al., 2023)를 사용하여 모델 성능을 평가한다. HD의 경우, saliency score 임계값 7과 9 (10점 만점)를 사용하여 랭킹 품질을 평가하기 위해 mean average precision (mAP) 및 Hit@1을 사용한다. MR의 경우, 시간 정렬 정확도를 측정하기 위해 IoU 임계값 0.5 및 0.7에서 Recall@1을 계산한다. VS의 경우, 세그먼트 선택에서 정밀도와 재현율 간의 균형을 평가하기 위해 F1 score를 사용한다. 또한, 우리의 task는 점수 예측을 포함하므로, 세그먼트 관련성 예측 정확도를 평가하기 위해 Root Mean Square Error (RMSE)를 사용한다. 평가 지표에 대한 자세한 내용은 Appendix B.2에서 확인할 수 있다.

Method	Query Type	F1@5	F1@7
Clip-It (Narasimhan et al., 2021)	-	0.564	0.211
Clip-It (Narasimhan et al., 2021)	phrase	0.566	0.230
Clip-It (Narasimhan et al., 2021)	sentence	$\underline{0.658}$	$\underline{0.234}$
VSL (Chen et al., 2024)	genre	0.466	0.187
HiPHer	history	$\mathbf{0 . 7 2 6}$	$\mathbf{0 . 4 8 6}$

Table 5: 비디오 요약 성능 비교. CLIP-It은 일반(쿼리 없음) 및 쿼리 중심 요약을 모두 지원하며, VSL은 선호도 쿼리(장르)를 기반으로 개인화된 요약을 제공한다.

Figure 5: 선호도 모델링에 사용된 시청 기록 비디오 수에 따른 성능 비교.

5.2 Main Results

Table 3는 HiPHer가 모든 평가 지표에서 모든 baseline을 능가하며, 사용자별 선호도를 포착하는 데 효과적임을 보여준다. 이러한 성능 향상은 주로 시청 기록을 통한 개인화된 이해를 통합한 데 기인한다.
SL-Module은 일반적인 접근 방식으로서 정보성 세그먼트를 효과적으로 식별하지만, 사용자의 고유한 선호도를 반영하는 데는 실패한다. 이러한 한계는 개인화된 설정에서 비개인화된 방법을 적용하는 것의 어려움을 강조한다.
UMT, Moment-DETR, QD-DETR은 자연어 쿼리를 활용하여 일반적인 baseline보다 더 나은 성능을 달성하지만, 더 미세한 단위의 moment를 포착하는 데 어려움을 겪는다. 이는 자연어 쿼리가 시청 기록에서 얻을 수 있는 더 풍부한 문맥적 신호에 비해 사용자 의도를 단순화된 형태로 표현하기 때문일 수 있다.
반면, UMT는 우리 모델과 경쟁력 있는 성능을 보이는 경향이 있는데, 이는 UMT와 우리 모델 모두 추가적인 오디오 소스를 사용하기 때문이다. 이는 멀티모달 소스 통합의 중요성을 강력히 시사한다.

5.3 Additional Results on HiPpo-Video ${

$^{+}$

우리는 각 방법의 실용성과 일반화 가능성을 평가하기 위해, 실제 사용자로부터 수집된 데이터셋인 **HiPpo-Video $^{+}$ **에서 HiPHer와 MR/HD baseline을 추가로 평가하였다. Table 4에 요약된 바와 같이, HiPHer는 대부분의 지표에서 baseline보다 지속적으로 우수한 성능을 보였으며, 이는 시뮬레이션된 환경을 넘어선 강력한 견고성을 나타낸다.

Method	RMSE	H1@7	H1@9	F1@0.5
Moment-DETR	$\mathbf{0 . 4 1 9}$	0.472	0.389	0.417
QD-DETR	0.446	0.444	0.361	0.385
TR-DETR	0.443	0.306	0.250	0.429
HiPher	0.427	$\mathbf{0 . 4 8 6}$	$\mathbf{0 . 4 0 0}$	$\mathbf{0 . 6 2 4}$

Table 4: HiPpo-Video $^{+}$ 에서의 성능

이러한 결과는 HiPHer가 미묘한 시청 행동을 모델링하는 데 효과적임을 강조하며, 사용자 적응형 비디오 이해 분야의 향후 연구에 유망한 방향을 제시한다.

5.4 Ablation Studies

쿼리 유형 (Query Type)
Table 5는 다양한 선호도 context(단순 단어 수준 쿼리, 문장 수준 설명, 사용자 시청 기록)에 따른 요약 정확도(다양한 임계값에서의 F1 점수)를 보고한다. HiPHer는 시청 기록을 활용할 때 가장 좋은 성능을 보이며, 단어 및 문장 기반 표현보다 훨씬 뛰어난 결과를 나타낸다. 이러한 결과는 효과적인 개인 맞춤형 비디오 하이라이팅을 위해 시청 기록 기반 선호도 모델링이 매우 중요함을 강조한다.

시청 기록 길이 (History Length)
우리는 사용자의 선호도가 종종 매우 구체적이며, 더 긴 시청 기록을 분석함으로써 더 정확하게 포착될 수 있다고 가정한다. 이는 긴 시청 기록이 일련의 일관된 패턴을 드러내기 때문이다. 이를 검증하기 위해, 선호도 모델링 모듈에 제공되는 시청 비디오 수(즉, 시청 기록의 길이)를 다양하게 변경하여 ablation study를 수행했다. Figure 5에서 볼 수 있듯이, 더 많은 시청 기록 비디오가 포함될수록 성능이 향상된다. 이러한 결과는 더 긴 시청 기록이 반복적인 단서들을 표면화하는 데 도움이 되며, 이는 더 효과적인 선호도 모델링과 비디오 참여도에서 향상된 개인화로 이어진다는 것을 시사한다.

Figure 6: HiPHer와 Moment-DETR 간의 saliency (선호도) 점수에 대한 사례 연구.

입력 모달리티 (Input Modalities)
우리는 시각 및 텍스트 feature의 기여도를 평가하기 위해 ablation study를 수행했다. Table 6에서 볼 수 있듯이, 단일 모달리티를 사용하는 것은 성능 저하로 이어지며, 텍스트 feature (HiPHer-V)가 시각 feature (HiPHer-T)보다 더 많은 정보를 제공한다. 두 모달리티를 결합한 (HiPHer) 방식이 가장 좋은 결과를 달성했으며, 이는 개인 맞춤형 비디오 하이라이팅을 위한 미세한 사용자 선호도를 포착하는 데 있어 우리의 멀티모달 접근 방식이 효과적임을 보여준다. 이는 시각적으로 풍부한 콘텐츠와 내러티브 전용 콘텐츠를 모두 포함하는 실제 비디오의 다양성을 반영하는 HiPpo-Video의 다양성을 고려할 때 특히 중요하다.

Method	mAP	H1@7	R1@0.5
HiPHer-V	0.67	0.12	0.32
HiPHer-T	0.74	0.15	0.39
HiPHer	$\mathbf{0 . 7 7}$	$\mathbf{0 . 1 7}$	$\mathbf{0 . 4 5}$

Table 6: 다양한 입력 모달리티에 대한 ablation 결과.

사례 연구 (Case Study)
우리는 HiPHer와 Moment-DETR의 saliency (선호도) 점수를 정성적으로 비교하는 사례 연구를 제시한다. Figure 6은 타겟 비디오 내의 세그먼트별 점수를 시각화하여, 시청 기록 중심의 embedding 접근 방식과 쿼리 기반 방식을 대조한다. 전반적으로 파란색 선 (HiPHer)은 ground truth 점수와 밀접하게 일치하는 반면, 녹색 선 (Moment-DETR)은 때때로 눈에 띄는 불일치 (보라색 상자로 강조됨)를 보여준다. 이는 시청 기록 기반 embedding이 텍스트 쿼리에 대한 개인화를 위해 더 풍부한 contextual 정보를 제공함을 나타낸다. 추가 사례 연구는 Appendix B.4에 제공된다.

6 Conclusion

실제 시나리오에서 개인의 선호도에 맞춰 비디오 콘텐츠를 조정해야 할 필요성에 동기 부여를 받아, 우리는 **개인화된 비디오 하이라이팅(personalized video highlighting)**이라는 새로운 task를 소개한다. 이 task는 사용자의 시청 기록을 활용하여 관련 비디오 세그먼트를 하이라이트한다. 또한 우리는 LLM 기반 사용자 시뮬레이션을 통해 생성된 고유한 데이터셋인 HiPpo-Video를 제시한다. 이 데이터셋에는 사용자 시청 기록과 개인화된 saliency score가 포함되어 있다.

포괄적인 실험을 통해, 우리는 시청 기록 기반의 선호도 모델링(history-driven preference modeling)이 기존의 일반적인 쿼리 또는 텍스트 기반 쿼리 방식보다 성능을 크게 향상시킨다는 것을 입증한다. 우리의 연구 결과는 더욱 효과적인 비디오 콘텐츠 제공을 위해 사용자별 선호도와 시청 기록을 통합하는 것의 중요성을 강조하며, 개인화된 비디오 경험 분야의 미래 발전을 위한 유망한 방향을 제시한다.

Acknowledgement

본 연구는 한국 정부(MSIT)의 IITP 과제(No. RS-2020-II201361; RS-2024-00457882, AI Research Hub Project) 및 한국 정부(MSIT)의 NRF 과제(No. RS-2025-00560295)의 지원을 받아 수행되었습니다.

A Data Collection Process

A. 1 User Initial Profile

초기 선호도 시드(preference seeds)를 위해, 우리는 Qiu et al. (2024)이 제안한 분류 체계에서 170개의 토픽-하위 토픽 쌍을 채택하였다. 이 분류는 17개의 주요 카테고리로 구성되며, 각 카테고리는 10개의 특정 하위 카테고리로 세분화된다 (Table 7 참조). 또한, 각 쌍은 **감정 기반 변수(intent)**로 추가 주석 처리되며, 이는 amusing, emotional, informative, recent news의 네 가지 feature 중 하나로 표현된다.

Topics	Sub-topics
Animals	School, Club, Teacher, Speaking, Listening, Writing, Presentation, Math, Computer, Teamwork
Health	Mental, Injury, Medication, Digestive health, Dental, Optical, Reproductive, Skin, Brain health, Cardiac
Travel	Museum, Park, Sea, Beach, Mountain, Lake, Hotel, Resort, Camping, Hiking
Movies	Action movie, Comedy, Romance, Science fiction, Horror, Drama, Cartoon, Documentary, Adventure, Crime
Cooking	Broiling, Grilling, Roasting, Baking, Sauteing, Boiling, Steaming, Poaching, Simmering, Stewing
Job	Manager, Researcher, Chef, Police, Lawyer, Salesman, Mechanic, Banker, Doctor, Waiter
Electronics	Laptop, TV, Phone, Software, Internet, Camera, Audio, Headphone, Hardware, Monitor
Art	Crafts, Photography, Painting, Collection, Drawing, Digital art, Sculpting, Pottery, Glass craft, Calligraphy
Personal Style	Grooming, Fashion, Personal Hygiene, Tattoos, Scarf, Hair Style, Makeup, Dressing, Tie, Formal
Clothes	Sweater, Jeans, Shirt, Socks, Coat, Pants, Hat, Gloves, Dress, Shoes
Sports	Outdoor recreation, Team sports, Tennis, Football, Basketball, Climbing, Skiing, Swimming, Fishing, Yoga
House	Building, Garden, Pool, Bathroom, Bedroom, Kitchen, Repairment, Moving, Decoration, Furniture
Food	Fruit, Vegetable, Drink, Meat, Seafood, Snacks, Dessert, Breakfast, Lunch, Dinner
Holiday	Halloween, Christmas, Labor day, Thanksgiving, Valentine's day, Mother's day, Birthday, National day, New year, Father's day
Transportation	Dancing, Singing, Playing cards, Reading, Chess, Board games, Team games, Volunteer work, Instrument, Exercise

Table 7: 토픽 및 하위 토픽 쌍.

A. 2 YouTube Crawling

우리는 LLM 기반 사용자 시뮬레이터의 현실성을 보장하기 위해 실제 사용자가 YouTube와 상호작용하는 환경을 재현하고자 한다. 이를 위해 Figure 7에서 보여주듯이, 우리는 시뮬레이터에 YouTube 웹사이트에 표시되는 것과 동일한 메타데이터를 제공한다. 여기에는 비디오 제목, 채널 이름, 설명, 조회수, 게시일, 썸네일 URL, 비디오 링크, 재생 시간 등이 포함된다.

A. 3 Prompts

A.3.1 Video Candidate Retrieval

Table 8은 LLM 기반 사용자 시뮬레이터가 관련 비디오를 탐색할지 또는 새로운 검색 쿼리를 생성할지 결정하는 데 사용되는 prompt를 보여준다.

Figure 7: YouTube 비디오 메타데이터를 구조화된 JSON 형식으로 변환하는 과정.

A.3.2 Video Engagement

Table 9는 후보 비디오 풀에서 가장 선호하는 비디오와 가장 덜 선호하는 비디오를 선택하기 위한 prompt를 제시하며, Table 10은 가장 선호하는 비디오와 상호작용하기 위한 prompt를 보여준다.

A.3.3 Preference Update

Table 11은 새로 시청한 비디오와의 상호작용 후 장기적인 선호도를 업데이트하는 데 사용된 prompt를 보여준다.

A.3.4 Saliency Scoring Annotation

Table 12는 제공된 선호도 정보에 기반하여 비디오의 각 세그먼트에 saliency score를 할당하는 데 사용된 prompt를 보여준다.

Prompt for Video Candidate Retrieval
You are finding {intent} videos about {search query}.
You have watched the following videos:
{watch history}
Your preferences have previously been defined as:
{preference}
For reference, current related videos are:
{related videos}
Now, decide whether to:
Explore the current query further by watching related videos.
Search for a new query to broaden your interest.
If you search for a new query, suggest one based on your interests, preferences, and history.
Answer Format:
Decision: ["Explore" or "Search for a new query"]
New query: [new query suggestion if "Search for a new query"]

Table 8: LLM 기반 사용자 시뮬레이터가 과거 선호도에 기반하여 관련 비디오를 탐색할지 또는 새로운 쿼리를 검색할지 결정하기 위한 지침.

A. 4 Details of Human Verification

LLM 기반 사용자 시뮬레이터가 생성한 시청 기록의 신뢰성과 타당성을 평가하기 위해, 우리는 시뮬레이션 프레임워크의 두 가지 핵심 구성 요소인 (1) **쿼리 생성(query generation)**과 (2) **비디오 선택(video selection)**에 대한 인간 평가를 수행했다. 이 평가는 Amazon Mechanical Turk (MTurk)를 사용하여 각 task에 세 명의 독립적인 annotator를 배정하여 진행되었다.

Prompt for Video Selection
당신은 비디오 품질 평가자이며, 당신의 선호도에 따라 가장 관련성이 높고 가장 관련성이 낮은 비디오를 선택하는 역할을 합니다.
이전에 당신은 다음 비디오들을 시청했습니다:
{history}
지금까지 당신은 당신의 선호도를 다음과 같이 정의했습니다:
{preference}
이제 당신은 {query}와 관련된 비디오를 시청하고 싶습니다.
후보 비디오 목록에서 가장 원하는 비디오(당신의 선호도와 쿼리에 가장 잘 맞는 비디오)와 가장 원하지 않는 비디오(당신의 선호도와 쿼리에 가장 적게 맞는 비디오)를 선택하세요.
각 비디오가 당신의 선호도와 쿼리에 가장 관련성이 높거나 낮은 이유를 설명하세요.
인덱스는 1부터 시작합니다. (첫 번째 비디오를 선택하려면 0이 아닌 1을 작성해야 합니다.)
가장 원하거나 가장 원하지 않는 비디오에 적절한 후보가 없으면 [None]을 작성해야 합니다.
후보 비디오:
{candidate}
답변 형식: [] 안에 당신의 답변을 채우세요. 다른 것은 반환하지 마세요.
가장 원하는 비디오: [비디오 번호]
설명: [이 비디오가 당신의 선호도와 쿼리에 가장 잘 맞는 이유]
가장 원하지 않는 비디오: [비디오 번호]
설명: [이 비디오가 당신의 선호도와 쿼리에 가장 적게 맞는 이유]

Table 9: 선호도와 쿼리를 기반으로 가장 원하거나 가장 원하지 않는 비디오를 선택하도록 LLM 기반 사용자 시뮬레이터에 제공된 지침.

Prompt for Watching a Video
당신은 당신의 선호도를 가진 YouTube 시청자이며, 개인적인 선호도와 얼마나 잘 일치하는지에 따라 비디오 요약을 작성해야 합니다.
맥락: 당신의 최근 업데이트된 선호도는 다음과 같습니다:
{preference}
이제 당신은 (프레임 설명, 대본) 쌍의 형태로 제시된 새로운 비디오를 시청하고 있습니다.
비디오:
{video}
비디오 요약과 함께 비디오에 대한 당신의 개인적인 의견을 작성하세요.
요약과 개인적인 의견은 각각 2문장이어야 합니다.
개인적인 의견의 경우, 비디오 검토와 관련된 1~2가지 선호도를 언급할 수 있습니다.
하지만 당신의 의견은 선호도뿐만 아니라 주로 비디오 콘텐츠에 기반해야 합니다.
당신은 비디오를 좋아하거나 싫어할 수 있습니다.
답변은 한 단락으로만 반환하세요.

Table 10: 비디오 콘텐츠와 사용자 선호도를 기반으로 비디오를 요약하고 검토하도록 LLM 기반 사용자 시뮬레이터에 제공된 지침.

Annotator에게는 LLM 기반 사용자 시뮬레이터와 정확히 동일한 입력이 제공되었다. 즉, 이전에 시청한 비디오 세트와 의사 결정 시점의 사용자의 장기적인 선호도가 주어졌다. 비디오 선택의 경우, annotator에게는 제목, 썸네일, 설명과 같은 메타데이터를 포함한 동일한 비디오 후보 풀이 제공되었다 (자세한 내용은 Appendix A.2 참조).

쿼리 생성(Query Generation)
시뮬레이터가 생성한 각 쿼리에 대해 annotator는 사용자의 시청 기록, 검색 기록 및 선호도를 고려할 때 해당 쿼리가 합리적인 다음 검색 쿼리인지 질문받았다. 각 응답은 **합리적(reasonable) 또는 비합리적(not reasonable)**으로 분류되었다. **일치율(agreement rate)**은 대다수(즉, 세 명의 annotator 중 최소 두 명)가 합리적이라고 평가한 쿼리의 비율을 나타내며, 이는 **97.56%**에 달했다. 우리는 또한 **Fleiss' $\kappa$ 로 계산된 annotator 간 일치도(inter-annotator agreement)**를 보고하는데, 이는 0.85로, annotator 간의 상당한 일치를 나타내며 task 설계의 일관성과 시뮬레이터 출력의 신뢰성을 강화한다.

Prompt for Preference Update
당신은 사용자 작성 리뷰와 가장 원하거나 가장 원하지 않는 비디오에 대한 이유를 기반으로 사용자 선호도를 개선하는 역할을 하는 선호도 분석가입니다.
당신의 선호도는 이전에 다음과 같이 정의되었습니다: {preference}
다음으로, 당신이 시청한 비디오에 대한 이전 리뷰는 다음과 같습니다: {reviews}
\begin{tabular}{l}
다음으로, 당신은 당신의 선호도를 기반으로 다음 비디오를 가장 원하는 비디오로 선택했습니다: {selected video}
이유: {selected reason}

Table 11: 이전 비디오 리뷰 및 추론을 기반으로 사용자 선호도를 업데이트하도록 LLM 기반 사용자 시뮬레이터에 제공된 지침.

Prompt for Scoring Video Clips Based on Viewer Preferences
\begin{tabular}{l}
당신은 특정 콘텐츠 선호도를 가진 시청자입니다. 여러 비디오 클립을 평가하고 당신에게 얼마나 매력적인지에 따라 1부터 10까지의 점수를 제공하세요.
선호도 프로필:
{preference_profile}

Table 12: 시청자 선호도를 기반으로 비디오 클립의 매력도를 평가하고 정당성을 제공하도록 LLM 기반 사용자 시뮬레이터에 제공된 지침.

비디오 선택(Video Selection)
Annotator는 제공된 선호도 정보를 기반으로 후보 비디오 세트에서 가장 선호하는 비디오를 선택하도록 요청받았다. 그런 다음 시뮬레이터의 선택은 annotator의 다수 선택과 비교되었다. 최소 두 명의 annotator가 시뮬레이터와 동일한 비디오를 선택한 경우, 해당 결정은 일치(match)로 간주되었다. **시뮬레이터와 인간 annotator 간의 일치율은 68.42%**였으며, 이는 시뮬레이터가 대부분의 경우 인간의 선택과 일치했음을 보여준다. 이는 선호도 기반 의사 결정을 할 때 현실적인 사용자 행동을 모방하는 능력을 입증한다.
이러한 결과는 생성된 시청 기록의 타당성을 검증하고 HiPpo-Video 구축에 사용된 시뮬레이션 프레임워크의 신뢰성을 뒷받침한다. 시뮬레이션된 행동이 실제 사용자 행동을 완벽하게 복제할 수는 없지만, 우리의 평가는 LLM 기반 사용자 시뮬레이터가 인간의 의사 결정을 밀접하게 근사하며, 개인화된 비디오 요약 연구를 위한 확장 가능한 기반을 제공함을 시사한다.

A. 5 Details on Analyses

시청 기록 내 비디오 다양성 (Inter-history video diversity)
각 시청 기록에 대한 embedding을 생성하기 위해, 먼저 CLIP-ViT/B-32를 사용하여 각 비디오에서 시각적 feature를 추출한다. 이 feature들은 각 비디오의 전반적인 내용을 포착하기 위해 비디오별로 평균화되어, 각 비디오의 대표 feature를 생성한다. 마지막으로, 시청 기록 내 모든 비디오의 feature들을 평균하여 전체 기록에 대한 단일 embedding을 얻는다. 이 embedding은 사용자의 시청 패턴과 선호도를 압축적으로 표현하며, 개별 비디오 내용과 시청한 비디오 시퀀스에 반영된 광범위한 관심사를 모두 포착한다.

Saliency Score 분포 (Saliency Score Distribution)
Figure 3c는 **커널 밀도 추정(KDE)**을 사용하여 saliency score의 분포를 보여준다. **평균 saliency score (왼쪽)**는 비디오 내 모든 segment의 saliency score 평균으로 계산되며, 공식은 다음과 같다: mean $=\frac{1}{n} \sum_{k=1}^{n} y_{k}$ (여기서 $y_{k}$ 는 segment $k$ 의 saliency score이고, $n$ 은 비디오 내 총 segment 수이다). 평균은 비디오 내 segment들의 평균적인 관련성을 측정하는 척도이다. 우리 데이터셋에서 대부분의 비디오는 평균 점수가 4에서 6 사이이며, 이는 대부분의 비디오가 전반적으로 중간 정도의 중요도를 가진다고 간주됨을 나타낸다.
saliency score가 segment별로 얼마나 변동하는지 평가하기 위해, 우리는 **표준 편차(standard deviation)**를 계산한다. 이는 점수들이 평균 주위에 얼마나 퍼져 있는지를 측정한다. 표준 편차는 다음과 같이 계산된다: std $=\sqrt{\frac{1}{n} \sum_{k=1}^{n}\left(y_{k}-\text { mean }\right)^{2}}$ (여기서 $y_{k}$ 는 segment $k$ 의 개별 saliency score를 나타내고, mean은 비디오의 평균 saliency score이다). 표준 편차는 segment 중요도의 변동성을 정량화한다. 우리 데이터셋에서 표준 편차는 일반적으로 1.5에서 2 사이이며, 이는 segment 점수 부여 방식에 중간 정도의 변동성이 있음을 시사한다. 표준 편차가 높을수록(3보다 큰 경우) segment 중요도의 변동이 크다는 것을 나타내며, 이는 장면 전환이나 비디오 내용의 변화와 같은 동적인 시각적 변화로 인해 발생할 수 있다. 이러한 경우 일부 segment는 다른 segment보다 훨씬 더 관련성이 높을 수 있다.

A. 6 Long-term Preference Modeling

Table 13은 LLM 기반 사용자 시뮬레이터가 더 많은 비디오와 반복적으로 상호작용하면서 장기적인 선호도를 어떻게 정교하게 다듬어 나가는지를 보여준다. 초기에는 선호도가 넓고 일반적이지만, 시뮬레이터가 더 많은 콘텐츠를 처리할수록 점점 더 구체적이고 미묘한 차이를 반영하게 된다. 콘텐츠와의 반복적인 상호작용을 통해 시뮬레이터는 높은 수준의 관심사와 미묘한 차이를 모두 포착하는 상세한 선호도 모델을 개발하며, 이는 복잡한 사용자 선호도를 정확하게 모델링하는 데 있어 반복적인 상호작용의 중요성을 강조한다.

B More Details on Experiments

B. 1 Baseline Details

SL-module는 비디오 하이라이트 감지에서 기존의 쌍(pair) 기반 학습을 세트(set) 기반 접근 방식으로 대체한다. 이 모듈은 세그먼트 쌍을 비교하는 대신, 동일 비디오 내 세그먼트 간의 상호 의존성을 모델링하여 하이라이트 점수를 예측하기 위해 비디오 세그먼트 세트를 평가한다. 고정된 visual feature extractor가 각 세그먼트를 처리한 후, **Transformer encoder (positional encoding 없음)**가 문맥적 관계를 포착한다. Transformer의 출력은 하이라이트 점수를 출력하는 scoring model로 전달된다. 이 모델은 예측된 하이라이트 점수 분포와 ground-truth 하이라이트 점수 분포 간의 KL divergence를 최소화하도록 학습된다.

Watch History (0 Videos)
- I like recent news on Job, especially about Lawyer.
Watch History (3 Videos)
\begin{tabular}{l}
[Likes]
- Informative insights with dynamic and visually appealing presentations.
- Interest in latest trends and technology in the legal profession, especially related to law firm management, including generative AI.

Table 13: 법률 전문가 및 기술 발전과 관련된 비디오 콘텐츠에 대한 장기 사용자 선호도를 시청 기록 길이에 따라 정리한 표.

Moment-DETR은 비디오 및 쿼리 feature를 공유 임베딩 공간으로 투영하고, 이를 연결한 다음, positional encoding을 사용하는 Transformer encoder로 결과를 처리한다. 선형 레이어는 encoder 출력으로부터 saliency 점수를 예측한다. Moment query로 초기화된 Transformer decoder는 temporal moment를 예측하며, 그 출력은 정규화된 좌표를 위한 3-layer FFN과 moment-level 점수를 위한 softmax classifier로 입력된다.

UMT는 시각 및 오디오 feature를 별도의 Transformer encoder로 처리하는 것으로 시작한다. 그런 다음, bottleneck Transformer가 이 feature들을 융합하여 멀티모달 표현을 생성한다. 텍스트 쿼리가 제공되면, 텍스트와 멀티모달 feature 간의 attention을 통해 시간적으로 정렬된, 클립별 moment query를 생성하는 데 사용된다. 생성된 쿼리는 두 task 모두에 대한 공동 표현(joint representation)을 얻기 위해 디코딩된다. 마지막으로, 모델은 하이라이트 감지를 위한 클립 수준의 saliency 점수와 moment 검색을 위한 moment 경계(중심, 윈도우, 오프셋)를 생성한다.

VSL은 유사도 기반 접근 방식을 사용하여 사용자가 선호하는 장르에 따라 비디오를 요약한다. 이 모델은 시각적 캡션과 스크립트로부터 장면 수준의 텍스트 요약을 생성한 다음, 이 요약과 텍스트 prompt에서 파생된 장르 임베딩 간의 유사도를 계산한다.

B. 2 Evaluation Metrics

모델의 task별 성능을 종합적으로 평가하기 위해, 우리는 널리 사용되는 여러 평가 지표들을 활용한다. 이 지표들은 각 task의 특성(비디오 세그먼트 순위 지정, 특정 순간 검색, saliency 점수 예측 등)에 따라 선택되었다. 아래에서는 각 지표와 그 목적을 자세히 설명한다.

Highlight detection의 목표는 비디오 세그먼트의 saliency(두드러짐) 또는 중요도에 따라 순위를 매기는 것이다. 모델이 이 순위 지정을 얼마나 잘 수행하는지 평가하기 위해 주로 두 가지 핵심 지표가 사용된다:

Mean Average Precision (mAP): mAP는 순위가 매겨진 결과의 품질을 측정한다. 가장 관련성 높은(즉, salient한) 세그먼트가 목록의 상단에 나타나는지 확인한다. 각 관련 세그먼트에 대해 정밀도(precision, 즉 상위 순위 결과 중 얼마나 많은 것이 정확한지)를 계산하고, 이를 모든 관련 세그먼트에 대해 평균을 낸다. 마지막으로, 모든 테스트 샘플에 대해 평균을 취한다. mAP 값이 높을수록 성능이 우수하다는 것을 나타내며, 이는 모델이 관련 세그먼트를 더 일관되게 상위권에 배치한다는 의미이다.
Hit@1: 이 지표는 가장 높은 순위의 비디오 세그먼트가 실제로 ground truth salient 세그먼트 중 하나인지를 단순히 확인한다. 모델이 가장 좋은 정답을 맞히는지 확인하는 직접적인 방법이다.

어떤 세그먼트가 "salient"한지 결정하기 위해 우리는 saliency score threshold를 사용한다. 이 점수들은 1부터 10까지의 척도로 주어진다. Liu et al. (2015)의 방법론에 따라, 우리는 점수가 7점 이상( $\geq 7$ ) 및 9점 이상( $\geq 9$ )인 세그먼트를 salient한 것(즉, ground truth highlight)으로 간주한다. (Liu et al., 2015)에서는 threshold가 5점 만점에 4점이었는데, 이는 유사한 백분위수 컷오프에 해당한다.

Moment Retrieval에서 task는 주어진 쿼리(예: "선수가 골을 넣는 순간")에 해당하는 비디오 내의 특정 시간 세그먼트를 검색하는 것이다. 여기서 우리는 모델이 올바른 순간을 정확하게 식별하는지 알고 싶다.

Recall@1: 이 지표는 모델이 예측한 상위 세그먼트가 ground truth 순간과 충분히 겹치는지를 평가한다. 이는 단일 상위 순위 결과에 초점을 맞춘다. 이 결과가 올바른 세그먼트와 충분히 잘 일치하면 성공으로 간주된다.

좋은 일치(match)를 정의하기 위해 우리는 **temporal 및 spatial localization task에서 표준 지표인 Intersection over Union (IoU)**를 사용한다. IoU는 예측된 시간 범위가 ground truth와 얼마나 겹치는지 비교한다. 이는 겹치는 부분의 길이를 두 시간 범위의 합집합 길이로 나눈 값으로 계산된다.

IoU $\geq 0.5$ : 예측된 세그먼트와 ground truth 세그먼트가 최소 50% 이상 겹치면 예측이 정확한 것으로 간주된다.
IoU $\geq 0.7$ : 일치가 최소 70% 이상 겹쳐야 하므로, 훨씬 더 정밀한 일치가 요구된다. Recall@1 값이 높을수록 모델이 관련 순간을 더 정확하게 검색한다는 의미이다.

B. 3 Ablation Studies

우리는 초기에는 이전 연구들(Lei et al., 2021; Moon et al., 2023)을 따라 $\gamma=1$ 로 설정했지만, HiPHer 성능에 미치는 영향을 평가하기 위해 ablation study를 수행했다. 그 결과, 더 작은 margin( $\gamma=0.1-0.2$ )이 일관되게 더 나은 결과를 가져왔는데, 이는 더 미세한 단위의 preference modeling을 가능하게 하기 때문이다. 반대로, 더 큰 margin은 segment 간의 과도한 확신을 가진 분리(overconfident separation)를 유도하여 일반화 성능을 저해하는 경향이 있었다. 이러한 ablation 결과는 최종 버전에 포함하여 $\gamma$ 의 영향을 명확히 밝힐 것이다.

Figure 8: $\gamma$ 값 변화에 따른 성능.

B. 4 Case Study

Figure 9는 **다양한 비디오 주제(예: 영화, 스포츠, 휴일)**에 걸쳐 HiPHer와 baseline (Moment-DETR)의 예측 점수를 비교한 정성적 사례 연구를 보여준다.

Figure 9: 정성적 사례 연구: "Ours"는 HiPHer를, "Baselines"는 Moment-DETR을 의미한다.