Ryu, Sangwon, et al. "Adaptive Planning for Multi-Attribute Controllable Summarization with Monte Carlo Tree Search." arXiv preprint arXiv:2509.26435 (2025).

Adaptive Planning for Multi-Attribute Controllable Summarization with Monte Carlo Tree Search

Abstract

Controllable summarization은 일반적인 요약 생성 방식을 넘어, 지정된 속성(attribute)에 따라 인간의 의도에 부합하는 요약을 생성하는 것을 목표로 한다. 실제로, 속성들 간의 상호 의존성 때문에 language model이 상호 연관된 제약 조건들을 일관되게 만족시키는 것은 어려운 일이다. 더욱이, 기존 접근 방식들은 종종 속성별 fine-tuning을 요구하여, 다양한 요약 속성에 걸쳐 유연성이 제한된다.

본 논문에서는 **다중 속성 controllable summarization을 위한 적응형 계획(adaptive planning for multi-attribute controllable summarization, PACO)**을 제안한다. PACO는 training-free 프레임워크로, 이 task를 맞춤형 Monte Carlo Tree Search (MCTS)를 사용하여 순차적인 속성 제어 순서를 계획하는 문제로 재구성한다. PACO에서 노드(node)는 요약(summary)을 나타내고, 액션(action)은 단일 속성 조정(single-attribute adjustment)에 해당한다. 이를 통해 추가적인 제어가 필요한 속성만을 점진적으로 개선할 수 있다. 이 전략은 최적의 제어 순서를 적응적으로 발견하여, 궁극적으로 모든 제약 조건을 효과적으로 충족하는 요약을 생성한다.

다양한 도메인과 모델에 걸친 광범위한 실험을 통해 PACO가 강력한 다중 속성 제어 가능성(multi-attribute controllability)을 달성하며, LLM 기반 self-planning 모델과 fine-tuned baseline을 모두 능가함을 입증한다. 놀랍게도, Llama-3.2-1B와 함께 사용된 PACO는 훨씬 더 큰 Llama-3.3-70B baseline의 제어 가능성에 필적한다. 더 큰 모델을 사용할 경우, PACO는 모든 경쟁 모델을 능가하는 우수한 제어 성능을 달성한다.

1 Introduction

Controllable summarization은 길이, 추출성(extractiveness), 주제와 같은 사용자가 지정한 속성에 맞춰 요약을 조정하는 것으로, 실제 애플리케이션에서 더욱 개인화된 출력을 가능하게 하는 데 필수적이다. 예를 들어, 시험을 준비하는 학생은 핵심 주제만 강조하는 간결한 요약을 선호할 수 있지만, 강의 자료를 준비하는 교사는 광범위한 내용을 포함하는 높은 특이성(specificity)을 가진 더 상세한 버전을 필요로 할 수 있다.

최근 연구들은 속성별(attribute-specific) supervision을 통해 다중 속성 제어 가능 요약(multi-attribute controllable summarization) 학습을 탐구해왔다.

Figure 1: 요약은 여러 속성으로 구성된다. 우리의 목표는 사용자가 지정한 다양한 제약 조건을 동시에 만족하는 출력을 생성하는 것이다.

Length: 86, Topic score: 80.5, Speaker score: 81.4

예를 들어, Goyal et al. (2022)은 각 decoder가 하나의 속성에 특화된 **mixture-of-experts (MoE)**를 활용했으며, Zhang et al. (2023)은 **hard prompt tuning (HP)**과 **soft prefix tuning (SP)**을 사용하여 여러 속성에 대한 모델을 학습시켰다. 그러나 이러한 방법들은 각 속성마다 추가적인 fine-tuning이 필요하여 유연성과 미학습된 선호도에 대한 일반화 능력이 제한된다. 더 근본적으로, 언어 모델의 autoregressive 생성 방식은 단일 decoding pass에서 여러 상호 연관된 제약 조건을 동시에 적용하는 데 어려움을 겪을 수 있다 (Figure 1).

여러 속성들이 종종 복잡한 방식으로 상호작용하기 때문에, 모든 속성을 완벽하게 제어하는 것은 구조적으로 충돌을 야기할 수 있다. 예를 들어, 추출성(extractiveness)을 개선하면 의도치 않게 길이 제어에 지장을 줄 수 있다. 더욱이, 가능한 속성 제어 순서의 공간은 조합적으로 증가하여, 최적의 효과적인 제어 경로를 체계적으로 탐색하는 방법이라는 미해결 과제를 남긴다.

이러한 문제들을 해결하기 위해 우리는 **다중 속성 제어 가능 요약(multi-attribute controllable summarization)을 위한 적응형 계획(adaptive planning)**인 PACO를 제안한다. PACO는 다중 속성 요약을 순차적 의사결정(즉, 계획) 문제로 변환하는 학습 없는(training-free) 프레임워크이다. PACO는 모든 제약 조건을 한 번에 적용하려고 시도하는 대신, 속성을 단계별로 점진적으로 조정한다. 구체적으로, 우리는 요약 수준에서 노드를 정의하여 각 단계에서 다양한 제어 순서를 탐색하고, 최적의 제어 경로를 적응적으로 찾기 위해 속성을 재방문할 수 있도록 맞춤형 Monte Carlo Tree Search (MCTS) 알고리즘을 설계한다. 각 노드는 완전한 요약을 캡슐화하므로, 트리가 완전히 확장되면 속성 제어의 정도를 최대화하는 요약을 선택할 수 있다. 구조화된 탐색 및 평가를 보장하기 위해, 우리는 속성을 유형별로 분류하여 **정확한 사용자 목표와 일치해야 하는 결정론적 속성(deterministic attributes)**과 **더 높은 값이 선호되는 비결정론적 속성(non-deterministic attributes)**을 구분한다.

Figure 2: PACO의 MCTS 프로세스 그림. 트리 탐색은 모든 속성에 대한 제어를 요청하는 prompt로 생성된 요약에서 시작하여 루트 노드 역할을 한다. 모든 시뮬레이션이 완료된 후, 결정 단계에서 전체 트리에서 가장 높은 degree를 가진 노드가 선택된다.

우리는 MACSum $_{\text{Doc}}$ , MACSum $_{\text{Dial}}$ (Zhang et al., 2023) 및 **DialogSum (Chen et al., 2021)**을 포함한 다양한 도메인에서 PACO를 평가한다. 다양한 LLM을 사용한 실험에서 PACO는 서로 다른 크기와 도메인의 모델 전반에 걸쳐 강력한 제어 성능을 보여준다. 놀랍게도, 1B 모델을 사용한 우리의 training-free PACO는 70B baseline 모델과 유사한 제어 성능을 달성하며, 70B 모델을 사용한 PACO는 모든 속성에서 모든 baseline을 능가하여 일관되게 강력한 제어 가능성을 보여준다. 결정적으로, PACO는 모든 제약 조건을 한 번에 강제하는 대신 속성을 점진적으로 조정함으로써 요약 품질을 손상시킬 위험 없이 이러한 제어 가능성 향상을 달성한다. 우리의 주요 기여는 다음과 같다:

우리는 제어 가능 요약을 순차적 계획 문제로 전환하고 최적의 제어 경로를 체계적으로 탐색하기 위해 MCTS를 적용한 최초의 프레임워크인 PACO를 소개한다.
우리는 요약 수준 노드를 정의하고 속성을 유형별로 분류하여 보상을 할당함으로써, 다중 속성 제약 조건의 유연하고 효과적인 적용을 가능하게 한다.
모델과 데이터셋 전반에 걸친 광범위한 실험은 PACO가 속성별 학습 없이도 우수한 제어 가능성과 사용자 선호도와의 강력한 정렬을 달성함을 입증한다.

2 LLM-Based Self-Planning

LLM은 여러 속성을 동시에 제어하는 데 어려움을 겪기 때문에 (Ryu et al., 2025), 우리는 속성을 한 번에 하나씩 점진적으로 조정하는 것을 목표로 한다. 그러나 속성들 간의 상호 의존성 때문에 효과적인 제어 순서를 결정하는 것은 여전히 어려운 과제이다. LLM이 스스로 속성 제어 계획을 수행할 수 있는지 알아보기 위해, 우리는 두 가지 prompt 기반의 self-planning baseline인 implicit self-planning과 explicit self-planning을 도입한다.

Implicit self-planning. 우리는 LLM에게 Let's think step-by-step (Kojima et al., 2022)을 사용하여 어떤 속성을 먼저 제어할지 암묵적으로 고려하면서 한 번에 요약을 생성하도록 prompt한다. 모델은 별도의 계획을 명시적으로 생성하지 않고도 제어 순서를 고려하고, 이 고려 사항을 출력에 반영하도록 유도된다.

Explicit self-planning. 우리는 모델에게 모든 속성을 한 번에 제어하도록 prompt하는 것을 초기 요약 baseline으로 지칭한다. 모든 제약 조건을 만족하지 못할 수 있는 이 초기 요약을 기반으로, 우리는 모델에게 조정 순서를 명시하는 제어 계획을 생성하도록 prompt한다. 이 명시적인 계획은 초기 요약에서 잘못 정렬된 속성들을 수정할 순서를 나타낸다. 계획에 따라 모델은 각 속성을 순차적으로 조정하며, 각 단계에서 중간 요약을 생성한다. 계획에 있는 모든 속성이 제어되면 최종 요약이 출력으로 제공된다. 우리는 두 가지 explicit self-planning 전략을 도입한다:

기본 버전: LLM이 어떠한 제약이나 지침 없이 속성 제어 순서를 계획한다.
적응형 버전: 문맥에 따라 필요하다고 판단되는 속성만 유연하게 선택하고 순서를 정하며, 동일한 속성을 여러 번 재방문할 수 있도록 약하게 유도된다.

자세한 self-planning prompt는 Appendix G를 참조하라.

3 PACO

여러 속성을 제어하는 것은 제어 순서에 따라 결과가 달라지고 가능한 순서의 탐색 공간이 조합적으로 크기 때문에 간단하지 않다. 또한, 제어 시도가 즉시 성공하거나 반복적으로 실패할 수 있어 고정된 전략은 신뢰할 수 없으며 체계적인 탐색의 필요성을 제기한다. 속성 제어 계획을 최적화하기 위해, 우리는 MCTS 알고리즘을 다중 속성 제어 가능한 요약에 통합한 PACO를 제안한다. 우리는 속성 제어 계획 프로세스를 **Markov Decision Process (MDP)**로 정식화한다. LLM을 사용한 이전 트리 기반 접근 방식(Yao et al., 2023; Hao et al., 2023; Wan et al., 2024)처럼 토큰 또는 문장 수준과 같이 세분화된 노드를 정의하는 것은 특히 텍스트 요약과 같이 긴 형식의 생성을 요구하는 task에서 다루기 힘들 정도로 큰 탐색 공간으로 이어질 수 있다. 이를 해결하기 위해, 우리는 각 노드를 요약 수준에서 정의하여 탐색 복잡성을 줄이고 모델의 계획 부담을 완화한다.

LLM은 정책 $\pi$ 의 역할을 하며, 각 action $a$ 는 단일 속성을 제어하는 것에 해당한다. 우리는 모든 속성 제어를 반영하는 초기 요약에서 시작하며, 이를 **루트 노드 $s_0$ **로 삼고, 각 문서에 대한 최적의 속성 제어 순서 $\left[\text { attribute }_{1}, \text { attribute }_{2}, \ldots, \text { attribute }_{n}\right]$ 를 적응적으로 탐색한다. 각 중간 요약은 상태 $s$ 의 역할을 하며, 연속적인 속성 조정을 통해 $s_0$ 에서부터의 전이 시퀀스를 형성한다. 각 단계 $t$ 에서 모델은 특정 속성을 제어하기 위한 action $a_t$ 를 결정하고, 전체 이력 $s_0, s_1, \ldots, s_t$ 를 입력으로 받아 다음 요약 $s_{t+1}$ 을 생성한다. 이를 통해 이전의 모든 수정 사항을 기반으로 정보에 입각한 결정을 내릴 수 있다. 우리는 최대 트리 너비 $w$ 를 유효한 action의 수로 정의하고, 트리 깊이를 $d$ 로 표기한다. 알고리즘은 모든 속성이 성공적으로 제어되거나 단계 제한을 초과할 때 발생하는 터미널 상태 $T$ 에 도달할 때까지 반복된다. Figure 2는 PACO의 개요를 제시하고, Figure 3은 각 속성이 어떻게 조정되는지에 대한 예시를 제공한다. 초기 요약에서 시작하여, PACO는 덜 제어된 속성들을 식별하고 계획된 제어 순서에 따라 점진적으로 조정하여, 궁극적으로 목표 값과 일치하는 요약을 생성한다.

선택 (Selection)
PACO 프로세스는 루트 노드 $s_0$ 에서 시작하며, 이는 모델이 단일 초기 시도에서 모든 속성을 제어하도록 prompt를 통해 생성된다. 그런 다음 알고리즘은 다음 방정식을 사용하여 Predictor Upper Confidence Tree (PUCT) (Rosin, 2011) 알고리즘의 변형을 기반으로 노드를 선택하여 탐색 트리를 탐색한다:

\begin{aligned} U(s, a) & =c_{\text {puct }} \cdot \pi_{\theta}(s, a) \cdot \frac{\sqrt{\sum_{b} N(s, b)}}{1+N(s, a)} \\ a & =\arg \max _{a}[Q(s, a)+U(s, a)] \end{aligned}

여기서 $Q(s, a)$ 는 상태-action 값을 나타내고, $N(s, a)$ 는 상태 $s$ 에서 action $a$ 에 대한 방문 횟수를 나타내며, 이 둘은 탐색 중에 유지되고 업데이트된다. $N(s, b)$ 는 상태 $s$ 에서 취해진 action $b$ 의 방문 횟수를 나타내며, 여기서 $b$ 는 해당 상태에서 가능한 action 중 하나이다. 탐색과 활용의 균형을 맞추기 위해, 우리는 다음 항을 사용한다: $c_{\text {puct }}=\log \left(\frac{\sum_{b} N(s, b)+c_{\text {base }}+1}{c_{\text {base }}}\right)+c_{\text {init }}$ . 이는 덜 방문된 action의 탐색을 장려하는 동시에 예상 보상을 최대화하기 위해 높은 가치 추정치를 가진 action의 활용을 촉진한다. 선택 프로세스는 모든 속성 제약 조건을 만족하는 요약이거나 미리 정의된 최대 트리 깊이에 도달하는 것으로 정의되는 터미널 상태 $(T)$ 에 도달할 때까지 계속된다.

확장 (Expansion)
리프 노드에 도달하면, 가능한 모든 action에 대한 자식 노드를 생성하여 확장한다. action 공간은 action $\in\{$ ext, len, spc, top, sp $k\}$ 로 정의되는데, 각 action이 단일 속성을 제어하는 것에 해당하기 때문이다. 이전에 적용된 action의 효과가 후속 action에 의해 변경될 수 있으므로, 모든 action은 탐색 프로세스 전반에 걸쳐 유효한 것으로 간주된다.

Figure 3: PACO가 계획 프로세스를 통해 요약을 조정하는 예시. 초기 요약은 LLM이 단일 패스에서 여러 속성 제약 조건을 처리하는 데 어려움을 겪음을 보여준다. 이를 해결하기 위해 PACO는 요약을 성공적으로 개선하여 목표 속성을 충족시킨다. $\square$ 는 화자 중심 콘텐츠로의 전환을 나타내고, $\square$ 는 목표 길이에 도달하기 위한 불필요한 세부 정보 제거를 강조한다. 참조 요약 옆의 값은 목표 속성을 나타내고, 생성된 요약 옆의 값은 측정된 속성 점수를 보여준다.

평가 (Evaluation)
노드의 가치를 추정하기 위해, 우리는 두 가지 보상을 도입한다: **즉각적인 개선을 포착하는 중간 단계 기반의 지역 보상(local reward)**과 **최종 출력에 대한 전역적인 신뢰도를 반영하는 휴리스틱 점수(heuristic score)**이다. 지역 보상은 제어 가능한 요약을 위한 다중 속성 측정(Ryu et al., 2025)을 적용하여 계산되며, 각 속성은 다음과 같이 정의된다:

Extractiveness: 요약 단어 중 원본 문서에 나타나는 단어의 비율.
Length: 요약의 총 단어 수.
Specificity: 요약의 명명 엔티티 수와 총 단어 수의 비율.
Topic: $n$ 개의 요약 단어와 $k$ 개의 주제 단어 사이의 평균 임베딩 유사도 $\mathcal{B}$ : $\frac{1}{k} \sum_{j \in k} \frac{1}{n} \sum_{i \in s} \mathcal{B}\left(\text { topic }_{j}, \text { word }_{i}\right)$ .
Speaker: 요약과 대화 내 목표 화자의 발화 집합 $\mathcal{U}$ 사이의 임베딩 유사도, $\operatorname{BERTScore}(s, \mathcal{U})$ 로 측정.

이러한 속성 측정값을 사용하여, 우리는 **요청된 각 속성에 대해 예측 값과 목표 값 사이의 평균 절대 편차(MAD)**를 계산한다. 우리는 **결정론적 속성(deterministic attributes)**과 **비결정론적 속성(non-deterministic attributes)**을 구분한다: extractiveness, length, specificity와 같은 결정론적 속성은 사용자가 지정한 목표 값과 일치해야 하는 반면, topic, speaker와 같은 비결정론적 속성은 목표와의 정렬(alignment)을 기반으로 평가되며, 값이 높을수록 더 나은 정렬을 나타낸다. 따라서 비결정론적 속성에는 MAD 대신 정렬 점수 자체를 사용한다. **총 지역 보상(local reward)**은 **제어 정도(control degree)**라고 불리며, 결정론적 속성에 대한 MAD의 평균( $avg_{\text{det}}$ )을 계산하고 비결정론적 속성에 대한 정렬 점수( $avg_{\text{non-det}}$ )를 더하여 계산된다. $avg_{\text{det}}$ 의 값이 낮을수록 성능이 좋으므로, 보상 방향을 일치시키기 위해 역수를 취한다. 이러한 하이퍼파라미터는 결정론적 속성과 비결정론적 속성의 상대적 중요도를 제어하기 위해 조정될 수 있다.

\text { Local reward }=\frac{\alpha}{a v g_{\mathrm{det}}+\varepsilon}+\frac{1}{\beta} \cdot a v g_{\mathrm{non}-\mathrm{det}}

전통적인 MCTS 접근 방식은 가치 함수를 추정하기 위해 롤아웃(rollouts)을 활용하지만 (Kocsis and Szepesvári, 2006; Gelly and Silver, 2011), LLM에서의 MCTS 적용은 일반적으로 계산 비용을 줄이기 위해 prompt 기반 휴리스틱 가치 함수 (Yao et al., 2023; Hao et al., 2023; Yu et al., 2023) 또는 학습된 가치 함수 (Wan et al., 2024; Chen et al., 2024)를 사용한다. 유사한 방식으로, 우리는 제어 가능한 요약에 맞춰진 휴리스틱 가치 함수를 설계한다. 특히, 우리는 현재 요약과 지금까지 취한 action 경로가 주어졌을 때 모델이 나머지 모든 속성을 실현 가능하게 제어할 수 있는지 여부를 평가하는 휴리스틱 점수를 정의한다. 모델이 이 점수를 명시적인 숫자 값으로 생성하기 어렵기 때문에, 우리는 쿼리를 이진 질문으로 구성하고, "Yes" 응답의 확률을 휴리스틱 점수로 사용한다.

\text { Heuristic score }=p(\text { Yes } \mid s)

역전파 (Backpropagation)
각 시뮬레이션이 끝날 때, 우리는 리프 노드 $s_l$ 로부터 얻은 시뮬레이션 결과 $V(s_l)$ 를 사용하여 탐색 경로를 따라 각 노드의 방문 횟수와 누적 가치 추정치 $W(s, a)$ 를 업데이트한다. 평균 action-value $Q(s, a)$ 는 누적 가치를 방문 횟수로 나눈 값으로 얻어진다.

\begin{aligned} N\left(s_{t}, a_{t}\right) & \leftarrow N\left(s_{t}, a_{t}\right)+1 \\ W\left(s_{t}, a_{t}\right) & \leftarrow W\left(s_{t}, a_{t}\right)+V\left(s_{L}\right) \\ Q\left(s_{t}, a_{t}\right) & =\frac{W\left(s_{t}, a_{t}\right)}{N\left(s_{t}, a_{t}\right)} \end{aligned}

결정 (Decision)
시뮬레이션 중 노드 탐색은 단계별 가치 업데이트에 의해 안내되지만, 최종 요약은 고정된 정도(degree)를 기반으로 선택된다. 가장 많이 방문되거나 가장 높은 가치를 가진 리프 노드를 선택하는 표준 MCTS 접근 방식(Browne et al., 2012)과 달리, PACO는 전체 트리에서 가장 높은 degree를 가진 노드를 선택한다. 이를 통해 PACO는 모든 속성을 강제하는 대신 속성의 하위 집합을 적응적으로 제어하여, 각 문서에 맞춰진 더 유연한 요약을 가능하게 한다. 알고리즘 세부 사항은 Appendix A를 참조하라.

4 Experimental Setup

데이터셋 (Datasets)
우리는 두 가지 혼합 속성 제어 가능한 요약 데이터셋인 **MACSum $_{\text{Dial}}$ **과 MACSum $_{\text{Doc}}$ (Zhang et al., 2023), 그리고 주제 중심 대화 요약 데이터셋인 DialogSum (Chen et al., 2021)에 대해 실험을 수행한다.
**MACSum $_{\text{Dial}}$ **은 QMSum 데이터셋 (Zhong et al., 2021)을 기반으로 구축되었으며, 이 데이터셋은 AMI (Carletta et al., 2005), ICSI (Janin et al., 2003), 그리고 웨일스 의회 및 캐나다 의회의 위원회 회의록 등 세 가지 출처의 회의록을 포함한다.
**MACSum $_{\text{Doc}}$ **은 뉴스 도메인 데이터셋인 CNN/DailyMail (See et al., 2017)을 기반으로 한다.
DialogSum은 일상생활의 일반적인 주제를 다루는 실제 시나리오로 구성되어 있다. 특히, MACSum $_{\text{Dial}}$ 만 화자(speaker) 속성을 포함한다.

모델 (Models)
우리는 Llama 시리즈 (Llama-3.2-1B-Instruct 및 Llama-3.3-70B-Instruct) (Touvron et al., 2023; Grattafiori et al., 2024) 및 Qwen2.5-7B-Instruct (Bai et al., 2023; Yang et al., 2024)를 포함한 다양한 크기의 LLM에 우리의 접근 방식을 적용하여 그 견고성을 입증한다.

베이스라인 (Baselines)
베이스라인으로는 LLM 기반 self-planning 방법들, 즉 implicit self-planning과 explicit self-planning (기본 및 적응형 버전 모두 포함), 그리고 hard prompt tuning과 soft prefix tuning을 결합한 HP+SP (Raffel et al., 2020; Li and Liang, 2021)와 비교한다. HP+SP는 Zhang et al. (2023)에 따라 BART $_{\text{large}}$ (Lewis et al., 2020)를 기반으로 재구현되었다.
우리는 BERTScore (Zhang et al., 2020)를 사용하여 임베딩 유사도를 측정하고, FLAIR (Akbik et al., 2019)를 사용하여 개체명(named entities)을 추출한다. FLAIR는 OntoNotes 5 (Pradhan et al., 2013)로 학습된 잘 알려진 개체명 인식(NER) 모델로, 뉴스 및 대화형 음성을 포함한 다양한 도메인을 다룬다.

평가 지표 (Metrics)
우리는 결정론적(deterministic) 속성과 비결정론적(non-deterministic) 속성에 대해 다른 평가 전략을 채택한다.
결정론적 속성의 경우, 생성된 요약의 목표 속성 값과 실제 속성 값 사이의 평균 절대 편차(MAD)를 계산한다 (낮을수록 좋음).
반면, 비결정론적 속성의 경우, 생성된 값을 직접 평가한다 (높을수록 좋음).
우리의 주된 목표는 제어 가능한 요약을 달성하는 것이지만, 전반적인 요약 품질을 유지하는 것 또한 중요하다. 이를 위해 우리는 ROUGE-1 (Lin, 2004) 및 BERTScore F1 (Zhang et al., 2020)을 사용하여 생성된 요약의 품질을 추가적으로 평가한다.

5 Main Results

Controllability 결과
타겟 속성(target attributes)은 임의로 선택할 수 있지만, 우리는 직접적인 비교를 위해 참조 요약(reference summaries)의 값을 사용한다. **주제(topic)와 화자(speaker)**의 경우, 데이터셋에 제공된 값을 사용한다. 주요 결과에서는 local reward만을 노드 값으로 사용한다.
Table 1에서 볼 수 있듯이, 소규모 LLM baseline은 특히 길이(length)와 같은 속성을 제어하는 데 어려움을 겪으며, MACSum $_{\text{Dial}}$ 에서 과도하게 높은 MAD를 보인다. 이 데이터셋은 길고 복잡한 회의록을 포함하고 있어, Llama-3.3-70B와 같은 대규모 모델조차 길이 제어에 어려움을 겪으며, MAD가 15를 초과한다.
이와 대조적으로, PACO는 다양한 모델에서 일관되게 강력한 제어 성능을 보여준다. 특히, 1B 모델에서 길이의 MAD를 55.68에서 17.96으로 감소시켰는데, 이는 70B baseline의 성능과 유사하다. Llama-3.3-70B에서 PACO는 결정론적 속성(deterministic attributes)에 대해 평균 약 5의 MAD를 달성하여 정확한 제어 능력을 보여주며, 모든 baseline을 명확히 능가한다. PACO를 Qwen2.5-7B에 적용했을 때도 기본 모델 대비 상당한 성능 향상을 보인다.

Model	# of Params	Ext ( $\downarrow$ )	Len ( $\downarrow$ )	Spc ( $\downarrow$ )	Top ( $\uparrow$ )	Spk ( $\uparrow$ )	ROUGE ( $\uparrow$ )	BERTScore ( $\uparrow$ )
Reference summary	-	0.00	0.00	0.00	0.796	0.802	-	-
$\mathrm{HP}+\mathrm{SP}\left(\mathrm{BART}_{\text {large }}\right)$ *	406M	6.66	34.66	7.08	0.807	0.804	0.315	0.871
Llama 3.2 Instruct	1B	10.79	55.68	9.30	0.783	0.795	0.270	0.854
Qwen 2.5 Instruct	7B	9.70	17.82	6.99	0.797	0.795	0.301	0.867
Llama 3.3 Instruct	70 B	6.43	15.72	7.11	0.800	0.798	0.328	0.871
Implicit self-planning	70B	7.35	27.70	8.09	0.802	0.795	0.304	0.869
Explicit self-planning	70B	7.44	28.19	7.32	0.808	0.794	0.287	0.869
Explicit self-planning+	70 B	7.08	24.52	7.32	0.801	0.795	0.312	0.869
PACO (Llama 3.2 Instruct)	1B	9.30	17.96	7.22	0.792	0.794	0.288	0.859
PACO (Qwen 2.5 Instruct)	7B	8.72	11.79	5.43	0.799	0.794	0.302	0.868
PACO (Llama 3.3 Instruct)	70B	4.91	7.63	3.81	0.795	0.798	0.328	0.869

Table 1: MACSum $_{\text{Dial}}$ 에서의 제어 가능성 평가 결과. Explicit self-planning은 기본 버전을 나타내고, explicit self-planning+는 적응형 변형을 나타낸다. 굵은 글씨는 데이터셋 내에서 가장 좋은 제어 가능성을 나타내며, *는 해당 데이터로 학습된 모델을 표시한다.

Model	# of Params	Ext ( $\downarrow$ )	Len ( $\downarrow$ )	Spc ( $\downarrow$ )	Top ( $\uparrow$ )	ROUGE ( $\uparrow$ )	BERTScore ( $\uparrow$ )
Reference summary	-	0.00	0.00	0.00	0.806	-	-
$\mathrm{HP}+\mathrm{SP}\left(\mathrm{BART}_{\text {large }}\right)$ *	406M	9.04	19.43	4.55	0.803	0.327	0.881
Llama 3.2 Instruct	1B	7.84	9.67	4.27	0.792	0.330	0.879
Qwen 2.5 Instruct	7B	7.39	13.78	5.42	0.793	0.321	0.879
Llama 3.3 Instruct	70 B	8.03	10.91	3.58	0.802	0.308	0.878
Implicit self-planning	70 B	8.14	17.05	4.56	0.803	0.296	0.875
Explicit self-planning	70 B	8.22	15.64	3.89	0.808	0.285	0.875
Explicit self-planning+	70 B	8.19	13.86	3.99	0.800	0.286	0.873
PACO (Llama 3.2 Instruct)	1B	7.53	4.58	3.73	0.796	0.326	0.879
PACO (Qwen 2.5 Instruct)	7B	6.37	7.03	4.18	0.797	0.319	0.880
PACO (Llama 3.3 Instruct)	70 B	4.49	4.81	2.84	0.794	0.322	0.876

Table 2: 화자 속성을 포함하지 않는 MACSum $_{\text{Doc}}$ 에서의 제어 가능성 평가 결과.

Model	Params	Ext ( $\downarrow$ )	Len ( $\downarrow$ )	Spc ( $\downarrow$ )	Top ( $\uparrow$ )
Reference summary	-	0.00	0.00	0.00	0.817
Llama 3.2 Instruct	1B	20.45	15.65	52.43	0.815
Qwen 2.5 Instruct	7B	12.08	5.20	26.62	0.817
Llama 3.3 Instruct	70 B	14.91	2.26	20.82	0.829
PACO (Llama 3.2 Instruct)	1B	14.17	6.28	28.48	0.825
PACO (Qwen 2.5 Instruct)	7B	8.71	3.30	19.14	0.820
PACO (Llama 3.3 Instruct)	70B	8.35	1.56	10.20	0.828

Table 3: DialogSum에서의 평가 결과. 어노테이터별 속성은 다양한 제어 경향을 보이지만, PACO는 모든 baseline을 일관되게 능가한다.

PACO의 제어 능력은 1B 및 70B Llama 모델의 중간 수준에 해당하며, 이는 효과성과 일반화 가능성을 더욱 강조한다.

데이터셋 전반의 견고성
Table 2에서 볼 수 있듯이, PACO는 MACSum $_{\text{Doc}}$ 에서도 모든 baseline을 다시 한번 크게 능가한다. 놀랍게도, 1B PACO 모델은 70B baseline을 능가하며, 우리의 70B 모델은 지배적인 제어 능력을 보여주며 다른 모든 모델을 명확히 앞선다.
더 길고 복잡한 입력 텍스트로 구성된 MACSum $_{\text{Dial}}$ 과 비교할 때, 모든 모델은 더 간단한 입력의 MACSum $_{\text{Doc}}$ 에서 더 나은 제어 가능성을 보인다. 이러한 결과는 PACO가 도메인과 입력 복잡성 전반에 걸쳐 견고한 제어 능력을 유지하는 반면, baseline 방법은 입력이 길고 복잡해질수록 성능이 현저히 저하됨을 강조한다.

우리는 DialogSum에서도 PACO를 추가로 평가했다. Table 3은 PACO가 모든 모델 크기에서 제어 가능성 측면에서 상당한 이득을 달성함을 보여준다. 흥미롭게도, DialogSum에서의 제어 가능성 패턴은 MACSum 데이터셋과 다르다. MACSum에서는 길이가 가장 어렵고 특이성(specificity)이 가장 제어하기 쉬웠던 반면, DialogSum에서는 그 반대이다. 이러한 불일치는 도메인별 특성이나 어노테이션 스타일의 차이에서 비롯될 수 있는데, 사람이 작성한 요약은 어노테이터마다 다를 수 있기 때문이다. 이러한 결과는 PACO의 적응형 제어(adaptive control)의 효과성을 강조하며, 이는 각 데이터셋의 고유한 특성에 유연하게 조정된다.

속성 유형 간 균형
결과는 LLM 기반 모델이 결정론적 속성(deterministic attributes)보다 비결정론적 속성(non-deterministic attributes)을 제어하는 데 더 효과적이며, 주제(topic) 및 화자(speaker) 점수는 참조 요약과 비교할 만한 수준임을 보여준다. 속성 유형에 우선순위를 부여할 수 있다는 점을 고려하여, 우리는 결정론적 속성에 더 높은 가중치를 부여한다. 속성 유형 간 제어 성능 균형에 대한 더 자세한 실험은 Appendix D에 제공된다. HP+SP는 속성 제어를 위해 명시적으로 학습되었지만, 지침을 따르지 못하는 경우가 많다. 우리는 이를 encoder-decoder 아키텍처의 구조적 제약과 결정론적 속성에 대한 모호한 감독(예: 정확한 목표 대신 "높음") 사용 때문이라고 생각한다.

Figure 4: (a) LLM은 종종 과도하게 제어하고 자체 생성 계획의 다양성이 부족한 반면, (b) PACO는 각 인스턴스에 필요한 속성만 제어한다. 각 방법에 대한 상위 10개 계획을 시각화했다.

Self-planning과의 비교
우리는 LLM이 속성 제어 계획을 수행할 수 있는지 평가한다 (Table 1, 2). 결과는 implicit self-planning과 explicit self-planning 모두 효과적인 계획을 생성하지 못하며, baseline보다도 성능이 떨어짐을 보여준다. 특히, implicit self-planning은 가장 약한 제어 성능을 보인다. 적응형 버전인 explicit self-planning+는 prompt에 soft constraint를 통합하여 기본 버전보다 개선되었지만, 여전히 baseline에 뒤처진다. 이러한 결과는 LLM이 다중 속성 제어 가능 환경에서 속성 계획에 어려움을 겪으며, 생성 프로세스를 안내할 더 효과적인 계획 전략의 필요성을 강조한다.

Figure 4에서 볼 수 있듯이, PACO는 초기 요약에서 시작하여 필요한 속성만 선택적으로 조정하여 다양하고 균형 잡힌 제어 계획 분포를 생성한다. 이와 대조적으로, explicit self-planning+는 필요한 조정만을 계획하도록 prompt되었음에도 불구하고, 대부분의 데이터 포인트에서 반복적이고 불균형한 계획을 생성하는 경향이 있다. 이는 LLM이 제어 가능한 요약에서 계획에 어려움을 겪음을 강조한다.

Figure 5: 각 막대는 모델 크기별 속성 제어 빈도를 보여주며, 계획 내에서 반복되는 속성은 한 번만 계산된다. 백분율은 상대적 비율을 나타낸다. Initial은 처음에 모든 속성이 동시에 제어된 상태를 의미한다.

품질 평가
속성 제어에 너무 집중하면 요약 품질이 저하될 위험이 있으므로, 우리는 전반적인 요약 품질도 평가한다 (Table 1, 2). 특히, PACO는 모든 제약을 동시에 강제하는 대신 속성을 점진적으로 제어함으로써 잠재적인 품질 저하를 피하고 baseline과 유사한 요약 품질을 유지한다. LLM은 이미 강력한 요약 능력을 입증했지만 (Goyal et al., 2023; Pu et al., 2023; Zhang et al., 2024b; Ryu et al., 2024b), PACO는 제어 성능에서 뛰어날 뿐만 아니라 높은 생성 품질도 보존한다. 또한, LLM은 더 많은 paraphrased 출력을 생성하는 경향이 있어 학습된 encoder-decoder 모델에 비해 ROUGE 점수가 낮을 수 있지만, 정확한 제어 지침이 주어지면 더 높은 ROUGE 점수를 달성할 수 있다.

6 Analysis

속성 제어 빈도 (Frequency of attribute control)
Figure 5에서 우리는 PACO가 모델 크기와 도메인에 걸쳐 조정한 속성을 분석한다. 모델 크기가 증가할수록 초기 요약(initial summary)이 선택되는 횟수가 줄어든다. 이는 더 큰 모델이 속성을 더 효과적으로 조정한다는 것을 시사한다. 특히, 이들은 추출성(extractiveness)과 특이성(specificity)을 더 자주 제어하며, 이는 정교한 제어 능력을 보여준다. 모든 모델 크기에서 길이(length)는 가장 자주 조정되는 속성인데, 이는 다른 속성들과의 강한 상관관계 및 추가적인 수정의 필요성 때문인 것으로 보인다. 더 길고 복잡한 입력을 가진 MACSum Dial에서는 MACSum Doc보다 초기 요약이 전체적으로 덜 선택된다. 이는 더 긴 입력이 여러 제약 조건을 충족하기 위해 추가적인 조정이 필요한 경우가 많음을 나타낸다.

Model	# of Params	Extractiveness ( $\downarrow$ )	Length ( $\downarrow$ )	Specificity ( $\downarrow$ )	Topic ( $\uparrow$ )	Speaker ( $\uparrow$ )
PACO (L)	1B	9.30	17.96	7.22	0.792	0.794
PACO (H)	1B	9.56	21.98	7.97	0.791	0.793
PACO ( $\mathrm{L}+\mathrm{H}$ )	1B	9.56	16.12	7.63	0.793	0.794
PACO (L)	70B	4.91	7.63	3.81	0.795	0.798
PACO (H)	70 B	5.06	7.59	3.94	0.796	0.798
PACO ( $\mathrm{L}+\mathrm{H}$ )	70 B	5.16	7.56	4.28	0.795	0.796

Table 4: 가치 함수(value function)에 대한 ablation study. 'L'은 local reward를, 'H'는 heuristic score를 나타낸다.

Figure 6: 각 단계에서 제어된 평균 속성. 후반 단계에서는 주로 길이를 제어하는데, 이는 다른 속성들과의 높은 상관관계 때문일 수 있다.

단계별 제어 패턴 (Step-wise control patterns)
우리는 DialogSum에서 가변 길이 계획에 걸쳐 PACO가 각 단계에서 제어하는 평균 속성을 분석한다 (Figure 6). 70B 모델은 초기 단계에서 다양한 속성을 조정하지만, 후반 단계에서는 길이 제어에 집중하는 경향이 있다. 이는 길이가 다른 속성들에 의해 크게 영향을 받을 수 있기 때문일 수 있다. 대조적으로, 1B 모델은 더 깊은 조정에서 제어 가능성 이득을 보이지 않는다. 특히, 길이 외의 속성을 제어하는 데 어려움을 겪었으며, 그러한 조정을 거의 시도하지 않았다.

가치 함수(value function)에 대한 ablation study
우리는 노드 값(node values)을 계산하기 위한 다양한 전략을 비교하는 ablation study를 제시하며, 현재 단계에서의 제어 정도를 LLM 기반 MCTS에서 흔히 사용되는 heuristic score와 비교한다 (Table 4). 결과는 heuristic score가 가치 함수로서 거의 이점을 제공하지 않음을 보여주는데, 특히 1B 모델의 경우 더욱 그러하다. 두 신호를 결합하는 것은 미미한 이득만을 제공하며, 이는 추가 비용을 상쇄하기에 불충분하다. 따라서 local reward만을 사용하는 것이 더 효율적이고 효과적인데, 이는 부분적으로 제어된 요약이 나머지 모든 속성을 충족할지 예측하는 것이 쉽지 않기 때문인 것으로 보인다.

Controllable summarization.
기존의 controllable summarization 연구는 주로 단일 속성 제어에 초점을 맞추었다 (Zhong et al., 2021; Liu and Chen, 2021; Dou et al., 2021; Mao et al., 2022; Zhang et al., 2022; Bahrainian et al., 2022; Ahuja et al., 2022; Liu et al., 2022; Maddela et al., 2022; Mehra et al., 2023; Xu et al., 2023; Pagnoni et al., 2023; Wang et al., 2023; Chan et al., 2021; Ryu et al., 2025). 이 중 가장 흔하게는 요약문의 길이와 주제 조정을 목표로 했다 (Urlana et al., 2024). 다양한 속성을 제어하기 위해 He et al. (2022)는 entity, 길이, 목적과 같은 여러 속성을 제어할 수 있는 프레임워크를 도입했지만, 이들은 동시에 제어되지는 않았다.

최근에는 여러 속성을 동시에 제어하는 방식에 대한 관심이 증가하고 있다 (Fan et al., 2018; Goyal et al., 2022; Zhang et al., 2023). Zhang et al. (2023)은 mixed-attribute controllable summarization을 소개했고, Goyal et al. (2022)는 MoE를 활용하여 여러 속성을 공동으로 제어했다. 그러나 이러한 방법들은 각 속성마다 추가적인 학습이 필요하여, 속성의 수가 증가할수록 비실용적이다. 이와 대조적으로, PACO는 어떠한 속성별 학습 없이 LLM을 활용하며, MCTS를 통한 planning을 사용하여 최적의 제어 경로를 발견하고 모든 목표 속성을 동시에 제어할 수 있도록 한다.

Tree search for LLMs.
Tree search는 주로 추론(reasoning) task에 적용되어 왔다. 이 task에서는 문제가 하위 질문으로 분해되고 검색 트리의 노드로 표현되어, 올바른 답을 향한 단계별 추론을 용이하게 한다 (Yao et al., 2023; Hao et al., 2023; Wan et al., 2024; Chen et al., 2024; Zhang et al., 2024a; Xie et al., 2024; Lee et al., 2025). Yao et al. (2023)은 각 노드를 부분 해법으로 구성하고 트리를 탐색하여 복잡한 문제를 해결한다. Hao et al. (2023)은 language model을 world model로 간주하고, task-specific한 상태와 행동을 정의한다.
기존 연구들이 MCTS를 적용하여 올바른 최종 답으로 이어지는 추론 경로를 식별하는 데 중점을 두었다면, 우리의 task는 전체 디코딩 과정이 여러 제약 조건을 만족해야 한다. 이를 해결하기 위해 우리는 MCTS를 controllable summarization 설정에 맞게 조정하여, 각 노드를 token 또는 sentence 수준이 아닌 summary 수준에서 정의한다. 또한, 후속 행동이 취해짐에 따라 이전에 조정된 속성에 대한 제어 정도가 변경될 수 있으므로, 우리는 검색 과정에서 동일한 속성을 여러 번 조정할 수 있도록 허용한다.

8 Conclusion

우리는 PACO를 제안한다. PACO는 Monte Carlo Tree Search를 다중 속성 제어 가능한 요약(multi-attribute controllable summarization)에 통합하여 여러 속성을 효과적으로 제어할 수 있도록 하는 적응형 계획(adaptive planning) 방법이다. 언어 모델이 단일 패스(single pass)에서 모든 제약 조건을 동시에 적용하는 것은 어렵기 때문에, PACO는 효과적인 제어 경로를 구성하여 속성을 점진적으로 조정한다. LLM 기반의 self-planning 방법과 달리, PACO는 필요한 속성만 수정한다. 그 결과, PACO는 요약 품질을 유지하면서도 다양한 모델과 도메인에 걸쳐 강력하고 일관된 제어 능력을 보여준다.

Limitations

PACO는 여러 속성에 걸쳐 강력한 제어 가능성을 제공하지만, 몇 가지 한계점이 남아 있다. 첫째, 요약 수준(summary-level) 노드가 검색 공간을 줄이는 데 도움이 되지만, 트리 검색(tree search)은 여전히 계산 비용이 많이 든다 (Appendix E 참조). 최적의 제어 경로를 찾으려면 더 깊은 시뮬레이션이 필요하며, 이는 더 긴 실행 시간과 제한된 확장성으로 이어진다. 이를 해결하기 위해 향후 연구에서는 **제어 품질을 희생하지 않으면서 계산 비용을 줄이는 검색 시간 휴리스틱(search-time heuristics)**을 탐색할 수 있다. 둘째, Ryu et al. (2024a) 및 Song et al. (2025)와 같은 이전 연구에서 탐구된 바와 같이 품질 차원(quality dimensions)의 최적화를 통합하면, **속성 정렬(attribute alignment)을 넘어 일관성(coherence), 일치성(consistency), 관련성(relevance), 유창성(fluency)**과 같은 더 넓은 품질 차원으로 제어 가능성을 확장할 수 있다. 보다 포괄적이고 사용자 맞춤형 요약을 지원하기 위해 향후 연구에서는 PACO를 확장하여 더 넓은 범위의 속성 유형을 수용할 수 있을 것이다.

Ethical Statement

본 논문은 제어 가능한 요약(controllable summarization) 분야의 응용에 초점을 맞추고 있으며, 윤리적 우려를 제기하지 않는다. 사용된 모든 데이터셋은 공개적으로 이용 가능하며, AI는 오직 문법 교정 목적으로만 활용되었다.

Acknowledgments

본 연구는 한국연구재단(NRF)의 한국 정부(MSIT) 지원금 (No. RS-2023-00217286) (45%), 한국콘텐츠진흥원(KOCCA)의 문화체육관광부 지원 2025년 문화체육관광 R&D 프로그램 (No. RS-2025-02413038, 외국인의 효율적인 한국어 말하기 학습을 위한 AI 기반 한국어 진단 시스템 개발) (45%), 그리고 정보통신기획평가원(IITP)의 한국 정부(MSIT) 지원금 (No. RS-2019-II191906, 인공지능대학원 프로그램 (POSTECH)) (10%)으로 수행되었습니다.

A PACO Algorithm

Algorithm 1은 PACO 절차를 설명한다. 이 알고리즘은 시뮬레이션 단계에서 선택(selection), 확장(expansion), 평가(evaluation), 역전파(backpropagation) 과정을 포함하며, 이어서 전체 트리에서 최종 요약을 선택하는 결정(decision) 단계를 수행한다.

B Hyperparameters

우리는 최대 트리 깊이 $d$ 를 5로 설정하고, 검색당 8회의 시뮬레이션을 수행한다. 로컬 보상(local reward)을 계산하기 위해, 확정적(deterministic) 속성에는 $\alpha=1$ 을, 비확정적(non-deterministic) 속성에는 $\beta=10$ 을 사용하여 스케일의 균형을 맞춘다. MCTS 하이퍼파라미터는 Silver et al. (2017) 및 Schrittwieser et al. (2020)의 설정을 대부분 채택했으며, 여기에는 $c_{\text {base }}=19652$ 및 $c_{\text {init }}=1.25$ 가 포함된다. HP+SP baseline 학습에는 Zhang et al. (2023)의 방식을 따르며, 최종 체크포인트를 사용한다.

C Hardware Usage

우리는 실험을 위해 4개의 NVIDIA A100-SXM4-80GB GPU를 사용하였다.

D Balancing Between Deterministic and Non-deterministic Attributes

검색 중 각 노드를 평가하기 위해, 우리는 지역 보상(local reward)을 $\frac{\alpha}{a v g_{\mathrm{det}}+\varepsilon}+\frac{1}{\beta} \cdot a v g_{\mathrm{non}-\mathrm{det}}$ 로 계산한다. 여기서 $a v g_{\text {det }}$ 는 확정적 속성(deterministic attributes)에 대한 목표값으로부터의 평균 편차를 나타내고, $avg_{\text {non-det }}$ 는 **비확정적 속성(non-deterministic attributes)에 대한 평균 유사도 점수(affinity score)**를 나타낸다. 하이퍼파라미터 $\alpha$ 와 $\beta$ 는 두 항의 상대적 중요도를 제어하며, $\varepsilon$ 은 수치적 안정성을 보장하기 위해 추가된 작은 상수이다. LLM은 일반적으로 구조적이고 확정적인 속성(예: 길이, 추출성)에서 콘텐츠 관련 비확정적 속성보다 더 어려움을 겪기 때문에, 주요 결과(Table 1 및 2)에서는 확정적 제어 성능에 약간 더 높은 가중치를 부여하기 위해 $\beta=10$ 으로 설정했다.

Table 5에서는 실험에서 확정적 속성과 비확정적 속성 간의 상대적 가중치를 조정하기 위해 $\beta$ 값을 변경한다. 우리는 Qwen2.5-7B와 Llama-3.3-70B를 baseline 모델로 사용하여 MACSum $_{\text {Dial}}$ 데이터셋에 대한 실험을 수행한다. $\beta$ 값이 작아질수록 비확정적 속성에 할당되는 상대적 가중치가 증가한다. 실험 결과는 $\beta$ 가 감소함에 따라 topic 및 speaker와 같은 비확정적 속성의 점수는 점진적으로 증가하는 반면, extractiveness, length, specificity와 같은 확정적 속성의 점수는 감소하는 경향을 보임을 보여준다. 특히,

Algorithm 1 PACO ( \(\mathcal{M}_{\theta}\) )
Require: LM \(\mathcal{M}_{\theta}\), attribute measure \(f\)
Require: article \(x\), target attributes \(a^{*}\)
Require: controllable attributes \(\mathcal{A}\), hyperparame-
    ters: simulations \(n\), max depth \(d\)
    // initialize root node with summary controlling
    all attributes
    \(y_{0} \leftarrow \mathcal{M}_{\theta}\left(x, a^{*}, \mathcal{A}\right)\)
    \(\hat{a}_{0} \leftarrow f\left(x, y_{0}\right)\)
    \(\operatorname{deg}_{0} \leftarrow \operatorname{degree}\left(\hat{a}_{0}, a^{*}\right)\)
    \(s_{0} \leftarrow \operatorname{node}\left(y_{0}, \hat{a}_{0}, d e g_{0}\right.\), depth \(\left.=0\right)\)
    for \(i=1\) to \(n\) do
        initialize state \(s \leftarrow s_{0}\)
        // selection
        while \(s\) is not a leaf and not terminated and
    \(\operatorname{depth}(s)<d\) do
            \(a \leftarrow \arg \max _{a^{\prime} \in \mathcal{A}} \operatorname{PUCT}\left(s, a^{\prime}\right)\)
            \(s \leftarrow \operatorname{child}(s, a)\)
        end while
        // expansion
        if \(s\) is a leaf and not terminated then
            create child nodes \(\left\{\operatorname{child}\left(s, a^{\prime}\right)\right\}_{a^{\prime} \in \mathcal{A}}\)
        end if
        // evaluation
        \(a^{\prime} \leftarrow \arg \max _{a^{\prime} \in \mathcal{A}} \operatorname{PUCT}\left(s, a^{\prime}\right)\)
        \(s^{\prime} \leftarrow \operatorname{child}\left(s, a^{\prime}\right)\)
        if \(s^{\prime}\) has no summary then
            \(y \leftarrow \mathcal{M}_{\theta}\left(x, a^{*}, a^{\prime}\right.\), history \(\left.\left(s^{\prime}\right)\right)\)
            \(\hat{a} \leftarrow f(x, y)\)
            \(\operatorname{deg} \leftarrow \operatorname{degree}\left(\hat{a}, a^{*}\right)\)
            store \(y, \hat{a}, \operatorname{deg}\) in \(s^{\prime}\)
        else
            retrieve \(y, \hat{a}, \operatorname{deg}\) from \(s^{\prime}\)
        end if
        // backpropagation
        while \(s^{\prime} \neq s_{0}\) do
            update stats at \(s^{\prime}\)
            \(s^{\prime} \leftarrow\) parent of \(s^{\prime}\)
        end while
    end for
    // decision
    \(s^{*} \leftarrow \arg \max _{s \in \text { Tree }} \operatorname{degree}(s)\)
    return summary \(y^{*}\) from \(s^{*}\)

Model	# of Params	$\beta$	Extractiveness ( $\downarrow$ )	Length ( $\downarrow$ )	Specificity ( $\downarrow$ )	Topic ( $\uparrow$ )	Speaker ( $\uparrow$ )
Reference summary	-	-	0.00	0.00	0.00	0.796	0.802
Qwen 2.5 Instruct	7B	-	9.70	17.82	6.99	0.797	0.795
PACO (Qwen 2.5 Instruct)	7B	10	8.72	11.79	5.43	0.799	0.794
PACO (Qwen 2.5 Instruct)	7B	0.5	8.98	12.66	5.96	0.799	0.794
PACO (Qwen 2.5 Instruct)	7B	0.2	8.85	13.22	5.99	0.800	0.794
PACO (Qwen 2.5 Instruct)	7B	0.1	8.88	13.45	5.99	0.800	0.794
PACO (Qwen 2.5 Instruct)	7B	0.01	9.31	17.94	6.44	0.801	0.795
Llama 3.3 Instruct	70B	-	6.43	15.72	7.11	0.800	0.798
PACO (Llama 3.3 Instruct)	70B	10	4.91	7.63	3.81	0.795	0.798
PACO (Llama 3.3 Instruct)	70 B	0.5	4.83	8.48	4.34	0.796	0.799
PACO (Llama 3.3 Instruct)	70 B	0.2	4.90	11.01	4.81	0.798	0.800
PACO (Llama 3.3 Instruct)	70 B	0.1	5.04	12.41	5.39	0.799	0.800
PACO (Llama 3.3 Instruct)	70 B	0.01	5.88	15.77	5.80	0.800	0.801

Table 5: 속성 유형 가중치의 영향. 가중치를 조정하면 확정적 속성과 비확정적 속성 간의 강조점이 달라진다. $\beta$ 가 감소함에 따라 비확정적 속성에 더 많은 가중치가 부여되어 topic 및 speaker 점수가 향상된다.

Model	# of Params	Time (s) per Summary
Baseline	70 B	22.826
Implicit self-planning	70 B	33.410
Explicit self-planning	70 B	104.312
Explicit self-planning+	70 B	90.941
PACO	70 B	196.380

Table 6: 단일 요약 생성에 필요한 평균 시간.

Qwen2.5-7B 모델의 경우, $\beta=10$ 일 때 length에 대한 MAD는 11.79였고, topic 점수는 0.799였다. 그러나 비확정적 속성을 강조하기 위해 $\beta$ 를 0.01로 줄였을 때, length에 대한 MAD는 17.94로 증가한 반면, topic 점수는 0.801로 향상되었다. Llama-3.3-70B 모델에서도 유사한 경향이 관찰되었다. 이러한 결과는 사용자가 가장 중요하게 생각하는 속성을 강조하도록 가중치를 조정함으로써 요약 출력을 제어할 수 있음을 시사한다.

E Computational Costs

Table 6에서 우리는 각 모델이 최종 요약을 생성하는 데 필요한 평균 시간을 제시한다. PACO는 더 높은 연산 비용을 발생시키지만, 상대적으로 비용이 많이 드는 self-planning 접근 방식보다 분명히 뛰어난 성능을 보인다. 이는 특히 구조화된 제어가 필요한 task에서 연산과 제어 가능성 사이의 유리한 trade-off를 보여준다. 중요한 점은, 우리 방법이 multi-attribute control이라는 복잡한 문제를 전적으로 test-time inference를 통해 해결한다는 것이다. 더 강력한 reasoning과 제어 가능성을 위해서는 종종 더 높은 연산 비용이 필요하며, LM은 점점 더 빠르고 효율적으로 발전하고 있기 때문에, 우리는 더 강력한 제어 가능성을 위해 요구되는 증가된 연산 비용을 장기적인 한계점이라기보다는 실용적이고 유망한 측면으로 간주한다.

F Attribute Control Prompts

다음은 속성 제어(attribute control)에 사용된 상세한 prompt들이다. 이 prompt들은 PACO와 self-planning 방법론 모두에서 공유되어 공정한 비교를 보장한다.

F. 1 Initial prompts

당신은 유용한 조수입니다. 사용자에게 조정된 요약을 생성하는 것이 당신의 임무입니다. 기사: {{Article}}

위 기사를 정확히 {{length}} 단어로 요약하되, {{topic}}과 {{speaker}}에 초점을 맞추고, 기사에서 단어 그대로의 {{extractiveness}}를 유지하며, 명명된 개체를 기반으로 한 상세 정보의 {{specificity}}를 포함하십시오. 요약은 잘 작성되고, 논리적으로 건전하며, 명확한 문장 흐름을 갖도록 하십시오. 요약 (요약만 생성):

F. 2 Extractiveness control prompts

당신은 유용한 조력자입니다. 당신의 임무는 사용자를 위해 조정된 요약을 생성하는 것입니다. article: {{Article}} {{History}} summary: {{Previous summary}}

이전에 생성한 요약은 주어진 지침을 따르지 않았습니다. 위 기사를 요약하되, 기사에서 단어를 그대로 발췌하는 {{extractiveness}}를 유지하십시오. 요약이 잘 작성되었고, 논리적으로 타당하며, 명확한 문장 흐름을 갖도록 하십시오. summary (요약만 생성):

F. 3 Length control prompts

당신은 유용한 조력자입니다. 사용자에게 조정된 요약을 생성하는 것이 당신의 임무입니다. 기사: {{Article}} {{History}} 요약: {{Previous summary}} 이전에 생성한 요약은 주어진 지침을 따르지 않았습니다. 위 기사를 정확히 {{length}} 단어로 요약하십시오. 요약은 잘 작성되고, 논리적으로 건전하며, 명확한 문장 흐름을 갖도록 하십시오. 요약 (요약만 생성):

F. 4 Specificity control prompts

주어진 지시를 따르지 않은 이전 요약에 대해, 위 기사를 명명된 개체(named entities)를 기반으로 한 세부 정보의 구체성을 포함하여 요약해 주세요. 요약은 잘 작성되고, 논리적이며, 명확한 문장 흐름을 갖도록 해주세요. 요약 (요약만 생성):

F. 5 Topic control prompts

당신은 유용한 조수입니다. 당신의 임무는 사용자를 위해 조정된 요약을 생성하는 것입니다. 기사: {{Article}} {{History}} 요약: {{Previous summary}} 이전에 생성한 요약은 주어진 지침을 따르지 않았습니다. 위 기사를 {{topic}} 주제에 초점을 맞춰 요약하십시오. 요약은 잘 작성되고 논리적으로 건전하며 명확한 문장 흐름을 갖도록 하십시오. 요약 (요약만 생성):

F. 6 Speaker control prompts

당신은 유용한 조력자입니다. 당신의 임무는 사용자를 위해 조정된 요약을 생성하는 것입니다. 기사: {{Article}} {{History}} 요약: {{Previous summary}} 이전에 생성한 요약은 주어진 지침을 따르지 않았습니다. 위 기사를 화자 {{speaker}}에 초점을 맞춰 요약해 주세요. 요약은 잘 작성되고 논리적으로 타당하며 명확한 문장 흐름을 갖도록 하세요. 요약 (요약만 생성):

G LLM-Based Self-Planning

G. 1 Implicit self-planning

당신은 유용한 조력자입니다. 사용자에게 조정된 요약을 생성하는 것이 당신의 임무입니다. article: {{Article}} {{Initial prompts}} summary: {{Previous summary}} 당신은 {{target attributes}}를 수정해야 하지만, 한 번에 모두 수정하기는 어렵습니다. 따라서 하나씩 조정해야 합니다. 단계별로 생각하고, 속성을 조정할 순서를 내부적으로 고려하여, 모든 속성을 만족하는 요약을 점진적으로 수정하여 생성하세요. summary (요약만 생성):

G. 2 Explicit self-planning

당신은 유용한 조력자입니다. 사용자에게 조정된 요약을 생성하는 것이 당신의 임무입니다. article: {{Article}} {{Initial prompts}} summary: {{Previous summary}} 당신은 유용한 조력자입니다. 요약을 조정하기 위한 계획을 생성하는 것이 당신의 임무입니다.

{{target attributes}}를 수정해야 하지만, 한 번에 모두 수정하기는 어렵습니다. 어떤 속성을 먼저 수정해야 할지 계획을 세우세요. 출력은 목록 형태로 반환되어야 합니다. 예를 들어, plan = ['속성1', '속성2', ...] plan (계획만 생성):

G. 3 Explicit self-planning+

plan (generate plan ONLY):
['conciseness', 'neutrality', 'completeness']

PACO: MCTS를 이용한 다중 속성 제어 요약의 적응형 계획

Adaptive Planning for Multi-Attribute Controllable Summarization with Monte Carlo Tree Search

Abstract

1 Introduction

2 LLM-Based Self-Planning

3 PACO

4 Experimental Setup

5 Main Results

6 Analysis

8 Conclusion

Limitations

Ethical Statement

Acknowledgments

A PACO Algorithm

B Hyperparameters

C Hardware Usage

D Balancing Between Deterministic and Non-deterministic Attributes

E Computational Costs

F Attribute Control Prompts

F. 1 Initial prompts

F. 2 Extractiveness control prompts

F. 3 Length control prompts

F. 4 Specificity control prompts

F. 5 Topic control prompts

F. 6 Speaker control prompts

G LLM-Based Self-Planning

G. 1 Implicit self-planning

G. 2 Explicit self-planning

G. 3 Explicit self-planning+

H LLM-based Heuristic Score

Adaptive Planning for Multi-Attribute Controllable Summarization with Monte Carlo Tree Search

Abstract

1 Introduction

2 LLM-Based Self-Planning

3 PACO

4 Experimental Setup

5 Main Results

6 Analysis

7 Related Work

8 Conclusion

Limitations

Ethical Statement

Acknowledgments

A PACO Algorithm

B Hyperparameters

C Hardware Usage

D Balancing Between Deterministic and Non-deterministic Attributes

E Computational Costs

F Attribute Control Prompts

F. 1 Initial prompts

F. 2 Extractiveness control prompts

F. 3 Length control prompts

F. 4 Specificity control prompts

F. 5 Topic control prompts

F. 6 Speaker control prompts

G LLM-Based Self-Planning

G. 1 Implicit self-planning

G. 2 Explicit self-planning

G. 3 Explicit self-planning+

H LLM-based Heuristic Score