Ji, Ziwei, et al. "Survey of hallucination in natural language generation." ACM computing surveys 55.12 (2023): 1-38.

Survey of Hallucination in Natural Language Generation

ZIWEI JI, NAYEON LEE, RITA FRIESKE, TIEZHENG YU, DAN SU, YAN XU, ETSUKO ISHII, YE JIN BANG, ANDREA MADOTTO, and PASCALE FUNG, Hong Kong University of Science and Technology

Abstract

**Natural Language Generation (NLG)**은 Transformer 기반 language model과 같은 sequence-to-sequence 딥러닝 기술의 발전 덕분에 최근 몇 년간 기하급수적으로 향상되었다. 이러한 발전은 더욱 유창하고 일관성 있는 NLG를 가능하게 했고, 이는 **추상적 요약(abstractive summarization), 대화 생성(dialogue generation), 데이터-텍스트 생성(data-to-text generation)**과 같은 다운스트림 task의 발전을 이끌었다. 그러나 딥러닝 기반 생성 모델이 의도치 않은 텍스트를 환각(hallucinate)하는 경향이 있다는 점도 분명하며, 이는 시스템 성능을 저하시키고 많은 실제 시나리오에서 사용자 기대를 충족시키지 못한다. 이 문제를 해결하기 위해 환각된 텍스트를 측정하고 완화하는 많은 연구들이 제시되었지만, 이들은 이전에 포괄적인 방식으로 검토된 적이 없다.

따라서 본 설문조사에서는 NLG의 환각 문제에 대한 연구 진행 상황과 도전 과제에 대한 광범위한 개요를 제공한다. 이 설문조사는 두 부분으로 구성된다: (1) 측정 지표, 완화 방법, 그리고 미래 방향에 대한 일반적인 개요, (2) 다음 다운스트림 task들, 즉 추상적 요약, 대화 생성, 생성형 질문 답변(generative question answering), 데이터-텍스트 생성, 그리고 기계 번역에서의 환각에 대한 task-specific 연구 진행 상황 개요. 이 설문조사는 NLG에서 환각된 텍스트 문제를 해결하기 위한 연구자들 간의 협력 노력을 촉진하는 데 기여할 것이다.

1 INTRODUCTION

Natural Language Generation (NLG)은 Natural Language Processing (NLP)의 핵심적이면서도 도전적인 하위 분야 중 하나이다. NLG 기술은 요약, 대화 생성, Generative Question Answering (GQA), data-to-text 생성, Machine Translation (MT)과 같은 많은 다운스트림 task에 사용된다. 최근 딥러닝 기술, 특히 BART [75], GPT-2 [105], GPT-3 [13]와 같은 Transformer [138] 기반 모델의 발전 덕분에 NLG의 급속한 발전은 많은 사람들의 상상력을 사로잡았다. NLG task의 눈부신 발전은 많은 연구자들의 관심을 끌었고, 이 분야에 대한 노력이 증가하는 계기가 되었다.

NLG 모델의 발전과 더불어, 그 한계와 잠재적 위험에 대한 관심도 증가했다. 일부 초기 연구 [52, 146]는 NLG 모델의 학습 및 디코딩에서 표준적인 likelihood maximization 기반 objective를 활용하는 것의 잠재적 문제점에 초점을 맞췄다. 이들은 이러한 likelihood maximization 접근 방식이 **퇴화(degeneration)**를 초래할 수 있음을 발견했는데, 이는 생성된 출력이 밋밋하거나, 비일관적이거나, 반복적인 루프에 갇히는 현상을 의미한다. 동시에, NLG 모델이 종종 무의미하거나, 제공된 원본 입력에 충실하지 않은 텍스트를 생성한다는 사실이 발견되었다 [109, 113, 139]. 연구자들은 이러한 바람직하지 않은 생성을 **환각(hallucination)**이라고 부르기 시작했다 [90].

NLG에서의 환각은 성능을 저해하고 실제 응용 프로그램의 안전 문제를 야기하기 때문에 우려스럽다. 예를 들어, 의료 응용 분야에서 환자 정보 양식에서 생성된 환각적인 요약은 환자에게 위험을 초래할 수 있다. MT에 의해 생성된 약물 지침이 환각적이라면 환자에게 생명을 위협하는 사고를 유발할 수 있다. 환각은 또한 잠재적인 개인 정보 침해로 이어질 수 있다. Carlini et al. [17]은 Language Model (LM)이 학습 코퍼스에서 민감한 개인 정보(예: 이메일 주소, 전화/팩스 번호, 실제 주소)를 복구하고 생성하도록 prompt될 수 있음을 보여준다. 이러한 학습 코퍼스의 기억 및 복구는 환각의 한 형태로 간주되는데, 이는 모델이 원본 입력 내용에 "충실하지 않은" 텍스트(즉, 그러한 개인 정보가 원본 입력에 존재하지 않음)를 생성하기 때문이다.

현재 다양한 NLG task에서 환각 문제를 해결하기 위한 많은 노력이 활발히 진행 중이다. 다양한 NLG task에서 환각적인 내용을 분석하고 그 관계를 조사하는 것은 이 현상에 대한 우리의 이해를 강화하고, 서로 다른 NLG 분야의 노력을 통합하는 데 기여할 것이다. 그러나 현재까지 주요 NLG task를 모두 포괄하는 더 넓은 관점에서 환각을 이해하려는 노력은 거의 이루어지지 않았다. 우리가 아는 한, 기존의 설문조사는 추상적 요약 [57, 90] 및 번역 [70]과 같은 특정 task에만 초점을 맞추었다. 따라서 우리는 NLG의 환각 문제에 대한 연구 진행 상황과 과제를 조사하고, **추상적 요약, 대화 생성, GQA, data-to-text 생성, Neural Machine Translation (NMT)**과 같은 다양한 NLG task에서 환각 현상에 대한 기존 연구를 포괄적으로 분석한다. 우리는 주로 생성된 텍스트를 평가할 수 있는 텍스트 입력 소스를 가진 uni-modal NLG task의 환각에 대해 논의한다. 또한 visual-language task [1, 10] 및 speech-to-text task [119, 124]와 같은 multi-modal 설정에서의 환각에 대해서도 간략하게 요약한다. 이 설문조사는 연구자들에게 다양한 접근 방식의 유사점과 차이점에서 파생된 높은 수준의 통찰력을 제공할 수 있다. 또한, 다양한 task에서 환각 연구의 발전 단계가 다르다는 점을 고려할 때, 이 설문조사는 연구자들이 개념, 측정 지표 및 완화 방법에 대한 영감을 얻는 데 도움을 줄 수 있다.

이 설문조사의 구성. 이 설문조사의 나머지 부분은 다음과 같이 구성된다. 섹션 2부터 6까지는 NLG에서 환각 문제의 정의 및 분류, 기여자, 측정 지표 및 완화 방법을 각각 논의하여 개요를 제공한다. 설문조사의 두 번째 부분은 특정 NLG task와 관련된 환각 문제를 논의한다: 섹션 7의 추상적 요약, 섹션 8의 대화 생성, 섹션 9의 GQA, 섹션 10의 data-to-text 생성, 섹션 11의 NMT, 그리고 섹션 12의 기타 task. 마지막으로, 섹션 13에서 전체 설문조사를 마무리한다.

2 DEFINITIONS

NLP 외부의 일반적인 맥락에서 hallucination은 특정 유형의 지각(perception)을 지칭하는 심리학 용어이다 [38]. Blom [11]은 hallucination을 "깨어 있는 개인이 외부 세계로부터 적절한 자극이 없는 상태에서 경험하는 지각"으로 정의한다. 간단히 말해, hallucination은 현실처럼 느껴지지만 실제로는 존재하지 않는 지각이다.
"NLG 모델이 불충실하거나 무의미한 텍스트를 생성하는 원치 않는 현상"은 이러한 심리학적 hallucination과 유사한 특성을 공유하며, 이것이 용어 선택의 이유이다. Hallucinated text는 불충실하고 무의미함에도 불구하고 유창하고 자연스러운 인상을 준다. 이는 제공된 실제 맥락에 기반한 것처럼 보이지만, 실제로는 그러한 맥락의 존재를 특정하거나 검증하기 어렵다. 다른 "실제" 지각과 구별하기 어려운 심리학적 hallucination과 유사하게, hallucinated text 또한 언뜻 보기에 파악하기 어렵다.

NLP 맥락에서, hallucination에 대한 앞선 정의, 즉 제공된 원본 내용에 대해 무의미하거나 불충실한 생성 콘텐츠 [37, 90, 100, 168]는 가장 포괄적이고 표준적인 정의이다. 그러나 NLG task에 따라 정의에 차이가 존재하며, 이는 이후 task별 섹션에서 더 자세히 설명될 것이다.

2.1 Categorization

이전 연구들 [30, 57, 90]의 분류를 따르면, 환각(hallucination)에는 본질적 환각(intrinsic hallucination)과 외재적 환각(extrinsic hallucination)이라는 두 가지 주요 유형이 있다. 정의와 분류를 더 직관적으로 설명하기 위해, Table 1에서 각 NLG 다운스트림 task별로 각 환각 유형의 예시를 제시하고, 두 가지 주요 환각 유형에 대해 자세히 설명한다:

(1) 본질적 환각(Intrinsic hallucinations): 원본 내용과 모순되는 생성된 출력을 의미한다. 예를 들어, Table 1의 abstractive summarization task에서 생성된 요약 "최초의 에볼라 백신은 2021년에 승인되었다"는 원본 내용 "에볼라 백신은 2019년에 FDA의 승인을 받았다"와 모순된다.

(2) 외재적 환각(Extrinsic hallucinations): 원본 내용에서 검증할 수 없는 생성된 출력을 의미한다 (즉, 원본 내용으로 뒷받침되거나 모순되지 않는 출력). 예를 들어, Table 1의 abstractive summarization task에서 "중국은 이미 COVID-19 백신 임상 시험을 시작했다"는 정보는 원본에 언급되어 있지 않다. 우리는 생성된 출력에 대한 증거를 원본에서 찾을 수도 없고, 그것이 틀렸다고 단정할 수도 없다. 주목할 점은, 외재적 환각이 항상 오류인 것은 아니라는 점이다. 왜냐하면 사실적으로 정확한 외부 정보에서 비롯될 수도 있기 때문이다 [90]. 이러한 사실적 환각(factual hallucination)은 추가적인 배경 지식을 상기시켜 생성된 텍스트의 정보성을 향상시킬 수 있으므로 유용할 수 있다. 그러나 외재적 환각은 추가 정보의 검증 불가능한 측면이 사실적 안전성 관점에서 위험을 증가시키기 때문에 여전히 주의 깊게 다루어진다.

2.2 Task Comparison

이전 섹션에서는 많은 NLG task에서 공통적으로 나타나는 환각(hallucination)의 정의와 분류에 대해 다루었다. 하지만 각 task별로 몇 가지 차이점이 존재한다.

추상적 요약(abstractive summarization), data-to-text, 대화(dialogue) task의 주요 차이점은 "소스(source)"의 역할과 환각에 대한 허용 수준에 있다.

Table 1．각 Task별 환각 유형 예시

Task	Sub－Task	Type	Source	Output
Abstractive Summarization ［99］		Intrinsic <br> Extrinsic	The first vaccine for Ebola was approved by the FDA in 2019 in the US，five years after the initial outbreak in 2014. To produce the vaccine，scientists had to sequence the DNA of Ebola，then identify possible vaccines，and finally show successful clinical trials．Scientists say a vaccine for COVID－ 19 is unlikely to be ready this year，although clinical trials have already started．	The first Ebola vaccine was approved in 2021. <br> China has already started clinical trials of the COVID－19 vaccine．
	Task－ Oriented ［82］	Intrinsic <br> Extrinsic	inform（NAME＝pickwick hotel，PRICERANGE＝ moderate）	the hotel named pickwick hotel is in a high price range． <br> the pickwick hotel in san diego is a moderate price range
Dialogue	Open－ Domain ［116］	Intrinsic <br> Extrinsic	Dialog History： <br> Speaker 1：What do you think about Murray？ <br> Speaker 2：I think Murray is a great player he just needs to stay healthy in order to compete more．Who do you like best？ <br> Knowledge：In tennis，the term Big Four refers to the quartet of men＇s singles players comprising Roger Federer， Rafael Nadal，Novak Djokovic，and Andy Murray．	Speaker 1：I like Djokovic．He has played in the top ten singles players of the world．
GQA <br> ［96］		Extrinsic	Question：definition of sadduction	Answer：The Dow Jones Industrial Average（DJIA）is an in－ dex of $\mathbf{30}$ major U．S．stock indexes．The DJIAwas created in 1896 by Charles Dow，a statistician and editor of The Wall Street Journal．The index was first published in the mid－1880s，and was last updated on May 26，1896． Answer：Sadducees．noun．The definition of a sadducee is a person who acts in a deceitful or duplicitous man－ ner．An example of a Sadduceee is a politician who acts deceitfully in order to gain political power． 1 a member of a Jewish sect that was active during the Second Temple．
Data2Text ［149］		Extrinsic	$\begin{array}{lllllll}\text { Rockets } & \text { Houston } & 18 & 5 & 108 & 44 & 7\end{array} \begin{array}{lllllll}\text { Nuggets } & \text { Denver } & 10 & 13 & 96 & 38 & 7\end{array}$	The Houston Rockets（18－4）defeated the Denver Nuggets （10－13）108－96 on Saturday． <br> Houston has won two straight games and six of their last seven．
Translation ［168］		Extrinsic	迈克周四去书店。（Michael went to the bookstore on Thursday．） <br> 迈克周四去书점。（Michael went to the bookstore on Thursday．）	Jerry didn＇t go to the bookstore． <br> Michael happily went to the bookstore with his friend．

Data2Text task에서: H/A, H/A는 home/away; MIN은 minutes; PTS는 points; REB는 rebounds; AST는 assists; BLK는 blocks; FG_PCT는 field goals percentage를 의미한다.

추상적 요약에서 소스는 요약 대상이 되는 입력 소스 텍스트인 반면, data-to-text에서 소스는 비언어적 데이터이다. 그리고 대화 시스템에서 소스는 대화 기록 및/또는 외부 지식 문장이다.
환각에 대한 허용 수준은 요약 [99]과 data-to-text task [100, 144, 145] 모두에서 매우 낮다. 이는 충실한(faithful) 생성을 제공하는 것이 필수적이기 때문이다.
반대로, 대화 시스템에서는 환각에 대한 허용 수준이 상대적으로 높다. 특히 **open-domain 대화 시스템 [56, 59]**에서는 충실성뿐만 아니라 사용자 참여(user engagement)도 중요한 특성이기 때문이다.
GQA task의 경우, 환각에 대한 연구는 아직 초기 단계에 있어 표준적인 정의나 분류가 정립되지 않았다. 그러나 GQA 문헌은 주로 소스가 세계 지식(world knowledge)인 "intrinsic hallucination"에 초점을 맞추고 있음을 알 수 있다 [77].
마지막으로, 앞서 언급된 task들과 달리 NMT(Neural Machine Translation)에서의 환각 분류는 task 내에서도 다양하게 나타난다. 대부분의 관련 문헌은 소스 텍스트가 번역된 타겟 텍스트와 완전히 단절될 때 번역된 텍스트를 환각으로 간주하는 데 동의한다 [70, 93, 109].

2.3 Terminology Clarification

Hallucination이라는 개념과 관련된 여러 용어들이 존재한다. 우리는 흔히 사용되는 용어인 hallucination, faithfulness, factuality에 대한 명확한 설명을 제공하여 혼란을 해소하고자 한다.

Faithfulness는 제공된 원본(source)에 일관되고 충실하게 유지되는 것으로 정의되며, 이는 hallucination의 반의어이다. 따라서 faithfulness를 극대화하려는 모든 연구는 hallucination을 최소화하는 데 중점을 둔다. 이러한 이유로, 우리의 조사는 기계 생성 출력의 faithfulness를 다루는 모든 연구를 포함한다.

Factuality는 실제적이거나 사실에 기반한 특성을 의미한다. 무엇이 "사실"로 간주되는지에 따라 factuality와 faithfulness는 동일할 수도 있고 그렇지 않을 수도 있다. Maynez et al. [90]은 "사실"을 **세계 지식(world knowledge)**으로 정의함으로써 factuality와 faithfulness를 구분한다. 반면, Dong et al. [25]은 원본 입력(source input)을 "사실"로 사용하여 사실적 정확성(factual correctness)을 판단하며, 이 경우 factuality는 faithfulness와 구별할 수 없게 된다. 본 논문에서는 원본 지식(source knowledge)과 세계 지식(world knowledge) 간의 이러한 구분이 더 명확한 이해를 제공한다고 믿기 때문에 Maynez et al. [90]의 정의를 채택한다.

Faithful하거나 hallucinated로 간주되는 판단 기준(즉, hallucination의 정의)은 task에 따라 다를 수 있다는 점에 유의해야 한다. 이러한 다양한 정의에 대한 자세한 내용은 이후 task별 섹션에서 제공될 것이다.

3 CONTRIBUTORS TO HALLUCINATION IN NLG

3.1 Hallucination from Data

데이터로부터 발생하는 환각(hallucination)의 주된 원인은 source-reference divergence이다. 이러한 divergence는 휴리스틱한 데이터 수집 과정의 부산물로 발생하거나, 일부 NLG task의 본질적인 특성으로 인해 데이터에 필연적으로 포함되기도 한다. 모델이 이러한 divergence를 포함하는 데이터로 학습될 경우, 제공된 source에 반드시 근거하지 않거나 충실하지 않은 텍스트를 생성하도록 유도될 수 있다.

휴리스틱한 데이터 수집 (Heuristic Data Collection)
대규모 데이터셋을 수집할 때, 일부 연구에서는 실제 문장이나 테이블을 휴리스틱하게 선택하여 source와 target으로 짝지어 사용한다 [69, 149]. 그 결과, target reference가 source에서 뒷받침될 수 없는 정보를 포함할 수 있다 [100, 143]. 예를 들어, Wikipedia의 infobox를 기반으로 전기문을 생성하는 데이터셋인 WIKIBIO [69]를 구축할 때, 저자들은 Wikipedia infobox를 source로, Wikipedia 페이지의 첫 문장을 target ground-truth reference로 사용했다. 그러나 Wikipedia 기사의 첫 문장은 포함하는 정보 면에서 infobox와 반드시 동일하지는 않다. 실제로 Dhingra et al. [22]은 WIKIBIO의 첫 문장 중 62%가 해당 infobox에 명시되지 않은 추가 정보를 포함하고 있다고 지적한다. 이처럼 데이터셋 내 source와 target 간의 불일치는 환각(hallucination)을 유발할 수 있다.

또 다른 문제 시나리오는 데이터셋 내 중복(duplicate)이 제대로 필터링되지 않을 때 발생한다. 수백 기가바이트에 달하는 텍스트 코퍼스를 수동으로 확인하는 것은 거의 불가능하다. Lee et al. [71]은 사전학습(pre-training) 코퍼스 내의 중복된 예시들이 모델이 해당 중복 예시에서 암기된 구절을 반복적으로 생성하도록 편향시킨다는 것을 보여준다.

본질적인 Divergence (Innate Divergence)
일부 NLG task는 본질적으로 source 입력 텍스트와 target reference 사이에 항상 사실적 지식 정렬(factual knowledge alignment)이 이루어지지 않는다. 특히 생성된 출력의 다양성을 중요하게 여기는 task에서 이러한 경향이 두드러진다. 예를 들어, open-domain dialogue system의 경우, 사용자 입력, 대화 기록 또는 제공된 지식 source에 반드시 존재하지 않는 잡담(chit-chat) 스타일, 주관적인 스타일 [108] 또는 관련 사실로 응답하는 것이 허용된다. 이는 대화 생성의 흥미로움과 다양성을 향상시킨다. 그러나 연구자들은 이러한 데이터셋 특성이 필연적인 외재적 환각(extrinsic hallucinations)으로 이어진다는 것을 발견했다.

3.2 Hallucination from Training and Inference

이전 섹션에서 논의했듯이, 데이터셋에 존재하는 source-reference divergence는 hallucination의 원인 중 하나이다. 그러나 Parikh et al. [100]은 데이터셋에 divergence가 거의 없는 경우에도 hallucination 문제가 여전히 발생한다고 지적한다. 이는 hallucination의 또 다른 원인인 신경망 모델의 학습 및 모델링 선택 때문이다 [109, 113, 139].

불완전한 표현 학습 (Imperfect Representation Learning)
Encoder는 입력 텍스트를 이해하고 의미 있는 표현으로 인코딩하는 역할을 한다. 결함 있는 이해 능력을 가진 encoder는 hallucination의 정도에 영향을 미칠 수 있다 [100]. Encoder가 학습 데이터의 다른 부분들 간에 잘못된 상관관계를 학습할 경우, 이는 입력과 다른(diverge) 잘못된 생성으로 이어질 수 있다 [2, 36, 78, 134].

오류 있는 디코딩 (Erroneous Decoding)
Decoder는 encoder로부터 인코딩된 입력을 받아 최종 target sequence를 생성한다. 디코딩의 두 가지 측면이 hallucination에 기여한다.
첫째, decoder가 인코딩된 입력 소스의 잘못된 부분에 attend하여 오류 있는 생성으로 이어질 수 있다 [134]. 이러한 잘못된 연관성은 두 유사한 개체 간의 사실이 뒤섞인 생성을 초래한다 [30, 121].
둘째, 디코딩 전략 자체의 설계가 hallucination에 기여할 수 있다. Dziri et al. [30]과 Lee et al. [73]은 top-p sampling과 같이 생성 다양성을 향상시키는 디코딩 전략이 hallucination 증가와 양의 상관관계가 있음을 보여준다. Lee et al. [73]은 sampling 기반 디코딩에서 의도적으로 추가된 "무작위성"이 생성의 예상치 못한 특성을 증가시키고, hallucinated 콘텐츠를 포함할 가능성을 높인다고 지적한다.

노출 편향 (Exposure Bias)
디코딩 전략 선택과 관계없이, 학습 시점과 추론 시점 간의 디코딩 불일치로 정의되는 노출 편향(exposure bias) 문제 [7, 107]는 hallucination의 또 다른 원인이 될 수 있다. 일반적으로 decoder는 teacher-forced MLE 학습 방식으로 훈련되는데, 이때 decoder는 ground-truth prefix sequence에 조건화되어 다음 토큰을 예측하도록 유도된다. 그러나 추론 생성 시에는 모델이 이전에 스스로 생성한 과거 시퀀스에 조건화되어 다음 토큰을 생성한다 [142]. 이러한 불일치는 특히 target sequence가 길어질수록 점점 더 오류 있는 생성으로 이어질 수 있다.

파라미터 지식 편향 (Parametric Knowledge Bias)
대규모 코퍼스에 대한 모델의 사전학습은 모델이 지식을 파라미터 내에 기억하게 하는 것으로 알려져 있다 [112]. 이른바 **파라미터 지식(parametric knowledge)**은 다운스트림 task의 성능을 향상시키는 데 도움이 되지만, hallucinatory 생성의 또 다른 원인이 되기도 한다. 다운스트림 NLG task에 사용되는 대규모 사전학습 모델은 일반화 능력과 커버리지 제공에 강력하지만, Longpre et al. [86]은 이러한 모델이 제공된 입력보다 파라미터 지식을 우선시한다는 것을 발견했다. 즉, 입력 소스의 정보 대신 파라미터 지식을 사용하여 출력을 생성하는 것을 선호하는 모델은 출력에서 과도한 정보의 hallucination을 초래할 수 있다.

Table 2. 각 Task별 평가 지표 및 완화 방법

	Category	Task	Works
Automatic Metrics	Statistical	Dialogue	Shuster et al. [121]
		Data2Text	Dhingra et al. [22], Wang et al. [145]
		Translation	Martindale et al. [89]
	Modelbased	Abstractive Summarization	Durmus et al. [26], Kryscinski et al. [67], Nan et al. [95], Wang et al. [140], Gabriel et al. [39], Goodrich et al. [46], Pagnoni et al. [99], Zhou et al. [168], Falke et al. [32], Laban et al. [68], Mishra et al. [92], Scialom et al. [117]
		Dialogue	Balakrishnan et al. [4], Honovich et al. [54], Li et al. [82], Dziri et al. [31], Gupta et al. [50], Santhanam et al. [116]
		GQA	Sellam et al. [118],* Zhang et al. [164],* Durmus et al. [26],* Wang et al. [140],* Su et al. [125]
		Data2Text	Dušek and Kasner [28], Liu et al. [85], Wiseman et al. [149], Filippova [37], Rebuffel et al. [111], Tian et al. [134]
		Translation	Kong et al. [65], Lee et al. [70], Parthasarathi et al. [101], Tu et al. [136], Feng et al. [36], Garg et al. [42], Raunak et al. [109], Zhou et al. [168]
		Task-Agnostic	Goyal and Durrett [48], Liu et al. [84], Zhou et al. [168]
Mitigation Method	DataRelated	Abstractive Summarization	Cao et al. [16], Gunel et al. [49], Nan et al. [95], Zhu et al. [170]
		Dialogue	Honovich et al. [54], Shen et al. [120], Shuster et al. [121], Wu et al. [151], Santhanam et al. [116]
		GQA	Bi et al. [9], Fan et al. [33], Yin et al. [157]
		Data2Text	Liu et al. [85], Nie et al. [98], Parikh et al. [100], Wang [143], Nie et al. [97], Rebuffel et al. [110]
		Translation	Junczys-Dowmunt [60], Lee et al. [70], Raunak et al. [109], Briakou and Carpuat [12]
	Modeling and Inference	Abstractive Summarization	Huang et al. [55], Li et al. [78], Song et al. [123], Zhao et al. [165], Aralikatte et al. [2], Cao et al. [14], Cao and Wang [15], Chen et al. [18]
		Dialogue	Balakrishnan et al. [4], Dziri et al. [30], Li et al. [82], Rashkin et al. [108]
		GQA	Fan et al. [33], Krishna et al. [66], Li et al. [77], Su et al. [125], Nakano et al. [94]
		Data2Text	Liu et al. [85], Tian et al. [134], Wang et al. [144, 145], Xu et al. [155], Filippova [37], Rebuffel et al. [110], Su et al. [127], Xiao and Wang [152], Puduppully and Lapata [104]
		Translation	Feng et al. [36], Lee et al. [70], Weng et al. [148], Xu et al. [154], Li et al. [81], Raunak et al. [109], Wang and Sennrich [142], Bengio et al. [7], Goyal et al. [47], Zhou et al. [168]

*Hallucination 지표는 GQA를 위해 특별히 제안된 것은 아니지만, 해당 task에 적용될 수 있다.

4 METRICS MEASURING HALLUCINATION

최근 다양한 연구들은 글쓰기 품질을 측정하는 데 사용되는 대부분의 기존 metric들이 hallucination 수준을 정량화하는 데 적합하지 않음을 보여주었다 [22, 26]. ROUGE, BLEU, METEOR와 같은 metric으로 평가된 State-of-the-Art (SOTA) abstractive summarization 시스템들이 생성된 요약문의 25%에서 hallucinated content를 포함하고 있음이 밝혀졌다 [32]. 유사한 현상이 다른 NLG task에서도 나타났는데, 전통적인 metric들이 hallucination 문제와 관련하여 인간의 판단과 낮은 상관관계를 보인다는 것이 발견되었다 [22, 26, 54, 66]. 따라서 hallucination을 정량화하기 위한 효과적인 metric을 정의하려는 활발한 연구 노력이 진행 중이며, 이는 Table 2에 요약되어 있다. **FRANK [99]**는 요약문의 faithfulness metric들을 조사하고, 이 metric들이 인간의 판단과 얼마나 상관관계가 있는지 비교한다. **TRUE [53]**는 다양한 task에서 metric의 예시 수준 정확도를 평가하기 위해, hallucinated example detection에 대한 ROC AUC (Area Under the ROC Curve) 값을 보고한다.

4.1 Statistical Metric

가장 간단한 접근 방식 중 하나는 어휘적 feature (n-gram)를 활용하여 생성된 텍스트와 참조 텍스트 간의 정보 중복 및 모순을 계산하는 것이다. 불일치 횟수가 높을수록 충실도(faithfulness)는 낮아지고, 따라서 hallucination 점수는 높아진다.

많은 전통적인 평가 지표들이 target 텍스트를 ground-truth 참조로 활용한다는 점(ROUGE, BLEU 등)을 고려하여, Dhingra et al. [22]는 이 아이디어를 바탕으로 PARENT라는 지표를 제안했다. 이 지표는 source 텍스트와 target 텍스트를 모두 참조로 사용하여 hallucination을 측정할 수 있다. 특히, PARENT의 n-gram lexical entailment는 생성된 텍스트를 source table과 target 텍스트 모두와 매칭시킨다. entailment의 정밀도(precision)와 재현율(recall)을 결합한 F1-score는 table-to-text task에서의 정확도를 반영한다. source 텍스트가 추가적으로 사용되는 이유는, 출력 target 텍스트가 입력 source 텍스트에 있는 모든 정보를 포함하고 있다고 보장할 수 없기 때문이다.

NLG task에서는 동일한 입력에 대해 여러 개의 그럴듯한 출력이 존재할 수 있는데, 이를 one-to-many mapping이라고 한다 [126]. 그러나 실제로는 모든 가능한 출력을 커버하는 것은 너무 비용이 많이 들고 거의 불가능하다. 따라서 많은 연구들은 source 텍스트를 유일한 참조로 삼아 hallucination 평가 설정을 단순화한다. 이들의 지표는 입력 source가 참조하는 정보에만 초점을 맞춰 hallucination, 특히 intrinsic hallucination을 측정한다. 예를 들어, Wang et al. [145]는 PARENT-T를 제안했는데, 이는 table 내용만을 참조로 사용하여 PARENT를 단순화한 것이다. 유사하게, Knowledge F1 [121] (unigram F1의 변형)은 Knowledge-Grounded Dialogue (KGD) task에서 모델의 생성과 데이터셋 수집 시 대화를 grounding하는 데 사용된 지식 간의 중복을 측정하기 위해 제안되었다.

나아가, Martindale et al. [89]는 NMT에서 문장 적절성(sentence adequacy)을 측정하기 위한 BVSS (bag-of-vectors sentence similarity) 지표를 제안했는데, 이는 target 텍스트만을 참조한다. 이 통계적 지표는 MT 출력이 번역 참조와 다른 양의 정보를 가지고 있는지 여부를 판단하는 데 도움을 준다. 어휘 매칭은 간단하고 효과적이지만, 어휘 정보만 처리할 수 있다는 잠재적인 한계가 있다. 따라서 구문적(syntactic) 또는 의미적(semantic) 변형을 다루는 데 실패한다 [118].

4.2 Model-Based Metric

**모델 기반 지표(Model-based metrics)**는 신경망 모델을 활용하여 생성된 텍스트의 환각(hallucination) 정도를 측정한다. 이 지표들은 더 복잡한 구문적(syntactic) 및 의미적(semantic) 변형을 처리하기 위해 제안되었다. 모델 기반 지표는 원본 텍스트와 생성된 텍스트를 이해하고 지식/내용 불일치를 감지한다. 그러나 신경망 모델은 오류에 취약하며, 이러한 오류가 전파되어 환각의 정확한 정량화에 부정적인 영향을 미칠 수 있다.

4.2.1 정보 추출 기반 (Information Extraction Based)

생성된 텍스트의 어느 부분이 검증이 필요한 지식을 포함하는지 항상 쉽게 판단할 수 있는 것은 아니다. 정보 추출(Information Extraction, IE) 기반 지표는 IE 모델을 사용하여 지식을 더 간단한 관계형 튜플 형식(예: 주어, 관계, 목적어)으로 표현한 다음, 원본/참조 텍스트에서 추출된 관계 튜플과 비교하여 검증한다. 여기서 IE 모델은 검증이 필요한 "사실"을 식별하고 추출하는 역할을 한다. 이러한 방식으로, 검증 가능한 정보가 없는 단어(불용어, 접속사 등)는 검증 단계에 포함되지 않는다.

예를 들어, ground-truth 참조 텍스트 "Brad Pitt was born in 1963"과 생성된 텍스트 "Brad Pitt was born in 1961"은 각각 관계 트리플 (Brad Pitt, born-in, 1963)과 (Brad Pitt, born-in, 1961)로 매핑된다 [46]. 날짜 간의 불일치 ( $1963 \neq 1961$ )는 환각이 존재함을 나타낸다. 이 접근 방식과 관련된 한계점 중 하나는 IE 모델로부터 발생할 수 있는 잠재적인 오류 전파이다.

4.2.2 질문 답변 기반 (Question Answering Based)

이 접근 방식은 생성된 텍스트와 원본 참조 간의 지식 중복 또는 일관성을 암묵적으로 측정한다. 이는 생성된 텍스트가 원본 참조와 사실적으로 일관성이 있다면, 동일한 질문에 대해 유사한 답변이 생성될 것이라는 직관에 기반한다. 이 방법은 요약 [26, 117, 140], 대화 [54], Data2Text 생성 [111]과 같은 많은 task에서 환각을 평가하는 데 이미 사용되고 있다.

생성된 텍스트의 충실도(faithfulness)를 측정하는 질문 답변(Question Answering, QA) 기반 지표는 세 부분으로 구성된다. 첫째, 생성된 텍스트가 주어지면, 질문 생성(Question Generation, QG) 모델이 질문-답변 쌍 세트를 생성한다. 둘째, QA 모델은 ground-truth 원본 텍스트를 참조(지식을 포함하는)로 사용하여 생성된 질문에 답변한다. 마지막으로, 환각 점수는 해당 답변들의 유사도를 기반으로 계산된다.

IE 기반 지표와 유사하게, 이 접근 방식의 한계점은 QG 모델 또는 QA 모델에서 발생하여 전파될 수 있는 잠재적인 오류이다.

4.2.3 자연어 추론 지표 (Natural Language Inference Metrics)

환각 문제에 대한 관심이 높아지기 시작한 초기 단계에는 환각 감지 task를 위한 레이블링된 데이터셋이 많지 않았다. 대안으로, 많은 연구들이 자연어 추론(Natural Language Inference, NLI) 데이터셋을 활용하여 환각 문제를 해결한다. NLI는 "전제(premise)"가 주어졌을 때 "가설(hypothesis)"이 참(entailment), 거짓(contradiction), 또는 불확실(neutral)한지 여부를 결정하는 task이다. 이러한 지표들은 원본 지식 참조만이 충실하고 환각 없는 생성물에 포함된 모든 정보를 함의해야 한다는 아이디어에 기반한다 [28, 31, 32, 54, 57, 67, 68, 92]. 더 구체적으로, NLI 기반 지표는 원본과 생성된 텍스트 간의 entailment 확률을 환각/충실도 점수로 정의하며, 이는 생성된 텍스트가 원본을 함의(entail), 중립(neutral), 또는 모순(contradict)하는 비율로도 알려져 있다.

Honovich et al. [54]에 따르면, NLI 기반 접근 방식은 IE 기반 및 QA 기반 지표와 같은 토큰 매칭 접근 방식보다 어휘 변동성(lexical variability)에 더 강건하다. 그럼에도 불구하고, Falke et al. [32]이 보여주듯이, 기성 NLI 모델은 추상적 요약(abstractive summarization) task에 잘 전이되지 않는 경향이 있다. 따라서, 환각 평가 목적에 특화된 NLI 패러다임을 개선하고 확장하는 연구가 진행되고 있다 [31, 32]. 일반화 가능성 외에도, Goyal and Durrett [48]은 문장 수준 entailment 모델 사용의 잠재적 한계점, 즉 생성된 텍스트의 어느 부분이 오류인지 정확히 지적하고 위치를 파악할 수 없다는 점을 지적한다. 이에 대응하여, 저자들은 새로운 의존성(dependency) 수준 entailment를 제안하고, 더 세분화된 방식으로 사실적 불일치를 식별하려고 시도한다.

4.2.4 충실도 분류 지표 (Faithfulness Classification Metrics)

NLI 기반 지표를 개선하기 위해, task-specific 데이터셋이 구축되어 NLI 기반 지표의 한계를 극복한다. Liu et al. [84]와 Zhou et al. [168]은 학습 인스턴스에 환각을 자동으로 삽입하여 구문 데이터(syntactic data)를 구축했다. Santhanam et al. [116]과 Honovich et al. [54]은 대화 응답의 충실도 분류를 위한 새로운 코퍼스를 구축했다. 그들은 KGD 데이터셋인 Wizard-of-Wikipedia 데이터셋 [24]을 각 응답이 환각인지 여부를 판단하여 수동으로 주석했다.

충실도 특정 데이터셋은 NLI 데이터셋보다 더 나을 수 있는데, 이는 NLI 데이터셋의 entailment 또는 neutral 레이블과 충실도가 동등하지 않기 때문이다. 예를 들어, "Putin is president"라는 전제에서 "Putin is U.S. president"라는 가설은 neutral 또는 entailed로 간주될 수 있다. 그러나 충실도 관점에서 보면, 이 가설은 "U.S."라는 지원되지 않는 정보를 포함하고 있어 환각으로 간주된다.

4.2.5 LM 기반 지표 (LM-Based Metrics)

이러한 지표들은 두 개의 LM을 활용하여 각 토큰이 지원되는지 여부를 결정한다: 비조건부 LM(unconditional LM)은 데이터셋의 목표(ground-truth 참조)에만 학습되는 반면, 조건부 언어 모델 $LM_x$ 는 원본 및 목표 데이터 모두에 학습된다. 강제 경로 디코딩(forced-path decoding) 중 조건부 $LM_x$ 보다 비조건부 LM이 더 작은 손실을 얻으면 다음 토큰이 입력과 일치하지 않는다고 가정한다 [37, 134]. LM의 손실이 더 낮으면 생성된 토큰을 환각적(hallucinatory)으로 분류한다. 환각 토큰의 총 목표 토큰 수 $|y|$ 에 대한 비율은 환각 정도를 반영할 수 있다.

4.3 Human Evaluation

현재 NLG 분야에서 환각(hallucination)에 대한 자동 평가가 어렵고 불완전하기 때문에, 인간 평가(human evaluation) [116, 121]는 여전히 가장 널리 사용되는 접근 방식 중 하나이다. 인간 평가는 크게 두 가지 형태로 나뉜다: (1) 점수 매기기(scoring): 인간 평가자가 환각 수준을 특정 범위 내에서 평가하는 방식. (2) 비교(comparing): 인간 평가자가 출력 텍스트를 baseline 또는 ground-truth reference와 비교하는 방식 [129].

5 HALLUCINATION MITIGATION METHODS

일반적인 완화 방법은 환각(hallucination)의 두 가지 주요 원인에 따라 데이터 관련 방법과 모델링 및 추론 방법의 두 가지 범주로 나눌 수 있다. 우리는 이러한 방법들을 각 NLG 다운스트림 task에 대해 Table 2에 요약하였다.

5.1.1 신뢰할 수 있는 데이터셋 구축 (Building a Faithful Dataset)
노이즈가 많은 데이터가 환각(hallucination)을 유발한다는 점을 고려할 때, 신뢰할 수 있는 데이터셋을 수동으로 구축하는 것은 직관적인 방법이며, 이를 위한 다양한 방식이 존재한다.
한 가지 방법은 어노테이터를 고용하여 원본(source)이 주어졌을 때 깨끗하고 신뢰할 수 있는 목표(target)를 처음부터 작성하게 하는 것이다 [41]. 이 방식은 다양성이 부족할 수 있다는 단점이 있다 [100].
또 다른 방법은 어노테이터를 고용하여 웹상의 실제 문장 [100]이나 기존 데이터셋의 목표 문장 [143]을 다시 작성하게 하는 것이다. 기본적으로 이 수정 전략은 세 단계로 구성된다: (1) 구문 다듬기 (phrase trimming): 예시 문장에서 원본에 의해 뒷받침되지 않는 구문을 제거한다. (2) 탈맥락화 (decontextualization): 공동 참조(co-references)를 해결하고 맥락에 의존하는 구문을 삭제한다. (3) 구문 수정 (syntax modification): 정제된 문장이 자연스럽게 흐르도록 만든다.
한편, 다른 연구들 [39, 54]은 모델을 활용하여 데이터를 생성하고, 어노테이터에게 이 출력물에 환각이 포함되어 있는지 여부를 레이블링하도록 지시한다. 이 접근 방식은 일반적으로 진단 평가 데이터셋을 구축하는 데 사용되지만, 신뢰할 수 있는 데이터셋을 구축할 잠재력도 가지고 있다. 처음부터 구축하는 것보다 비용이 적게 들지만, 여전히 많은 인력과 자원이 필요하다. 전반적으로, 신뢰할 수 있는 데이터셋 구축은 task-specific하며 일반화가 부족하다.

5.1.2 데이터 자동 정제 (Cleaning Data Automatically)
의미론적 노이즈 문제를 완화하기 위한 또 다른 접근 방식은 기존 병렬 코퍼스에서 입력과 관련 없거나 모순되는 정보를 찾아 데이터를 필터링하거나 수정하는 것이다. 이 접근 방식은 원본 데이터에 노이즈 수준이 낮거나 중간 정도일 때 적합하다 [37, 98].

일부 연구들 [85, 109, 120]은 각 source-reference 쌍에 대한 점수를 사용하여 환각이 있는 샘플을 필터링함으로써 인스턴스 수준에서 환각 문제를 다루었다. 이 코퍼스 필터링 방법은 여러 단계로 구성된다: (1) 이전에 설명된 지표를 활용하여 환각 측면에서 학습 샘플의 품질을 측정한다. (2) 이 환각 점수를 내림차순으로 순위를 매긴다. (3) 하위의 신뢰할 수 없는 샘플을 선택하고 필터링한다. 인스턴스 수준 점수는 단어 수준에서 불일치(divergence)가 발생하기 때문에 신호 손실로 이어질 수 있다. 즉, 목표 문장의 일부는 원본 입력에 충실하지만, 다른 부분은 벗어난다는 것이다 [110].

이러한 문제를 고려하여, 다른 연구들 [27, 98]은 쌍으로 된 학습 샘플, 특히 입력 데이터를 참조(reference)에 따라 수정한다. 이 방법은 구조화된 데이터가 발화(utterances)보다 수정하기 쉽기 때문에 주로 data-to-text task에 적용된다. 이 방법은 두 단계로 구성된다: (1) 모델을 활용하여 원본 인간 텍스트 참조로부터 속성-값 쌍과 같은 의미 표현(Meaning Representation, MR)을 파싱한다. (2) 참조에서 추출된 MR을 사용하여 slot matching을 통해 입력 MR을 수정한다. 이 방법은 데이터셋의 일부를 포기하지 않고도 입력과 출력 간의 의미론적 일관성을 향상시킬 것이다.

5.1.3 정보 증강 (Information Augmentation)
외부 정보를 입력에 증강하면 원본에 대한 더 나은 표현을 얻을 수 있다는 것은 직관적이다. 왜냐하면 외부 지식, 명시적 정렬(explicit alignment), 추가 학습 데이터 등은 원본과 목표 간의 상관관계를 개선하고 모델이 task 관련 feature를 더 잘 학습하도록 도울 수 있기 때문이다. 결과적으로, 더 나은 의미론적 이해는 원본으로부터의 불일치(divergence) 문제를 완화하는 데 도움이 된다. 증강된 정보의 예시로는 개체 정보 [85], 원본 문서에서 Fact Description Extraction을 통해 추출된 관계 트리플 [16, 55], 사전 실행된 연산 결과 [97], 대체 또는 교란을 통해 생성된 합성 데이터 [18, 70], 그리고 검색된 외부 지식 [9, 33, 49, 121, 170] 등이 있다.

이러한 방법들은 입력과 출력 간의 더 강력한 정렬(alignment)을 강제한다. 그러나 이들은 원본 소스와 증강된 정보 사이의 간극으로 인해 어려움을 초래할 수 있다. 예를 들어, 모호한 발화와 구조화된 데이터의 명확한 MR 사이의 의미론적 간극, 그리고 구조화된 지식 그래프와 자연어 사이의 형식 불일치 등이 있다.

5.2 Modeling and Inference Methods

5.2.1 Architecture.

Encoder. Encoder는 입력 텍스트로부터 가변 길이 시퀀스를 고정 길이 벡터 표현으로 인코딩하는 것을 학습한다. Section 5.1.3에서 언급했듯이, 모델이 입력에 대한 의미론적 해석(semantic interpretation)이 부족할 때 hallucination이 발생한다. 일부 연구에서는 입력과의 호환성을 높이고 더 나은 표현을 학습하기 위해 encoder 아키텍처를 수정하였다. 예를 들어, Huang et al. [55]와 Cao et al. [16]은 추가적인 지식(additional knowledge)을 처리하기 위해 순차적 문서 encoder와 구조화된 그래프 encoder로 구성된 dual encoder를 제안한다.

Attention. Attention 메커니즘은 의존성(dependencies)에 기반하여 시퀀스의 일부에 선택적으로 집중하고 다른 부분은 무시하는 신경망의 필수 구성 요소이다 [138]. Generator가 source에 더 많은 attention을 기울이도록 장려하기 위해, Aralikatte et al. [2]는 source-conditioned bias를 통해 입력 문서에서 vocabulary 분포로의 short circuit을 도입한다. Krishna et al. [66]는 모델의 장거리 의존성(long-range dependencies)을 개선하여 더 많은 검색된 문서를 모델링함으로써 답변의 hallucination을 완화하고자 sparse attention을 사용한다. Wu et al. [151]는 inductive attention을 채택하는데, 이는 미리 설정된 구조적 정보를 주입하여 잠재적으로 정보가 부족한 attention 링크를 제거함으로써 hallucination을 방지한다.

Decoder. Decoder는 주어진 입력 표현을 바탕으로 자연어로 최종 출력을 생성하는 역할을 한다 [138]. 여러 연구에서 hallucination을 완화하기 위해 decoder 구조를 수정하였다. 예를 들어, multi-branch decoder [110], uncertainty-aware decoder [152], 순차적 decoder와 트리 기반 decoder로 구성된 dual decoder [123], 그리고 어휘적 또는 구조적 제약이 있는 constrained decoder [4] 등이 있다. 특히 문장 끝 부분에서 sampling 기반 decoding의 "무작위성(randomness)"이 hallucination을 유발할 수 있다는 관찰에 기반하여, Lee et al. [73]은 시간에 따라 "무작위성"을 반복적으로 줄이는 방법을 제안한다. 이러한 decoder들은 토큰 간의 암묵적인 불일치(discrepancy)와 의존성을 파악하거나 명시적인 제약에 의해 제한함으로써, 추론 시 충실한(faithful) 토큰의 가능성을 높이고 환각적인(hallucinatory) 토큰의 가능성을 줄인다. 이러한 decoder들은 유창하거나 다양한 텍스트를 생성하는 데 더 어려움을 겪을 수 있으므로, 이들 사이의 균형을 맞추는 것이 중요하다.

5.2.2 Training.

Planning/Sketching
Planning은 모델이 생성하는 내용을 제어하고 제한하는 일반적인 방법으로, 생성될 콘텐츠와 그 순서를 미리 알려주는 방식이다 [103]. Figure 1(a)에서 보듯이, Planning은 두 단계 생성기(two-step generator)에서 별도의 단계로 존재할 수 있으며 [18, 85, 104, 127, 144], 이 경우 hallucination 문제의 점진적인 증폭에 취약하다. 또는 생성 과정 중에 end-to-end 모델에 주입될 수도 있다 [155].

Fig. 1. 학습 방법의 프레임워크.

Sketching은 Planning과 유사한 기능을 가지며, hallucination을 처리하는 데에도 채택될 수 있다 [144]. 차이점은 스켈레톤(skeleton)이 최종 생성된 텍스트의 일부로 취급된다는 점이다. 이러한 방법들은 더 많은 제어 가능성을 제공하지만, 충실도(faithfulness)와 다양성(diversity) 사이의 균형을 맞춰야 한다.

Reinforcement Learning
Ranzato et al. [107]이 지적했듯이, 단어 수준의 maximum likelihood training은 exposure bias 문제를 야기한다. 일부 연구 [55, 65, 82, 91, 127]는 **Reinforcement Learning (RL)**을 채택하여 hallucination 문제를 해결하는데, 이는 다양한 reward를 활용하여 모델을 최적화한다 (Figure 1(b) 참조). RL의 목적은 agent가 환경으로부터 누적되는 reward를 최대화하는 최적의 policy를 학습하는 것이다 [137]. Reward function은 RL에 매우 중요하며, 적절하게 설계될 경우 모델이 hallucination 감소라는 목표를 달성하는 데 도움이 되는 학습 신호를 제공할 수 있다. 예를 들어, Li et al. [82]은 slot consistency reward를 제안하는데, 이는 생성된 template과 입력 dialogue act에서 추출된 slot-value 쌍 간의 차이의 cardinality이다. Slot consistency를 개선하면 생성된 template에서 slot value가 누락되거나 잘못 배치되는 hallucination 현상을 줄이는 데 도움이 될 수 있다. Mesgar et al. [91]은 NLI 모델을 통해 persona consistency sub-reward를 얻어 개인 사실(personal facts)에서의 hallucination을 줄인다. Huang et al. [55]은 ROUGE와 multiple-choice cloze score의 조합을 reward function으로 사용하여 요약 출력의 충실도를 향상시킨다. Cloze score는 QA 기반 metric과 유사하며, 생성된 요약(context)을 읽고 QA 모델이 질문에 얼마나 잘 답변할 수 있는지를 측정한다. 이때 질문은 참조 요약(reference summary)으로부터 자동으로 구성된다. 앞선 예시들이 보여주듯이, hallucination 완화를 위한 일부 RL reward function은 기존의 자동 평가 metric에서 영감을 받았다. RL은 극도로 넓은 탐색 공간으로 인해 학습 및 수렴이 어렵지만, 이 방법은 oracle 없이도 task에 대한 최적의 policy를 얻을 잠재력을 가지고 있다.

Multi-Task Learning
Multi-task learning 또한 다양한 NLG task에서 hallucination을 처리하는 데 활용된다. Figure 1(c)에서 보듯이, 이 학습 패러다임에서는 공유 모델이 여러 task에서 동시에 학습되어 task들의 공통점을 학습한다. Hallucination 문제는 단일 데이터셋에 대한 학습 과정의 의존성에서 비롯될 수 있으며, 이는 모델이 실제 task feature를 학습하지 못하게 만든다. 학습 중에 대상 task와 함께 적절한 추가 task를 추가함으로써, 모델은 hallucination 문제로 인한 어려움을 덜 겪을 수 있다. 예를 들어, Weng et al. [148]과 Garg et al. [42]은 번역 모델에 단어 정렬(word alignment) task를 통합하여 입력과 출력 간의 정렬 정확도를 향상시키고, 결과적으로 충실도를 높인다. Li et al. [78]은 entailment task를 abstractive summarization과 결합하여 모델이 원본에 의해 함의되고 충실한 요약을 생성하도록 장려한다. Li et al. [77]은 rationale extraction과 answer generation을 통합하여 더욱 확신 있고 정확한 답변을 가능하게 하고 hallucination 문제를 줄인다. Multi-task 접근 방식은 데이터 효율성 향상, 과적합 감소, 빠른 학습과 같은 여러 장점을 가진다. 어떤 task를 함께 학습해야 하는지 선택하는 것이 중요하며, 여러 task를 동시에 학습하는 것은 설계 및 최적화에 새로운 도전 과제를 제시한다 [20].

Controllable Generation
현재 연구들은 hallucination 수준을 제어 가능한 속성으로 취급하여 출력의 hallucination을 낮은 수준으로 유지한다. **Controlled re-sampling [108]**과 같이 수동으로 제공되거나 [37, 108, 151] 자동으로 예측될 수 있는 [151] control code와 같은 Controllable generation 기술이 충실도를 향상시키는 데 활용된다. 이 방법은 학습을 위해 일부 annotated dataset을 필요로 할 수 있다. Hallucination이 반드시 해로운 것은 아니며 일부 이점을 가져올 수도 있다는 점을 고려할 때, Controllable methods는 다양한 실제 애플리케이션의 요구 사항을 충족하기 위해 hallucination의 정도를 변경하도록 추가적으로 조정될 수 있다.

Regularization [61, 70, 93] 및 **loss reconstruction [81, 142, 145]**과 같은 다른 일반적인 학습 방법들도 hallucination 문제를 해결하기 위해 제안되었다. 5.2.3 Post-Processing
Post-processing 방법은 출력의 hallucination을 수정할 수 있으며, 이 독립적인 task는 적은 학습 데이터를 필요로 한다. 특히 ground truth reference의 상당 부분이 hallucination으로 고통받는 noisy dataset의 경우, 모델링 수정(modeling correction)은 hallucination 문제를 처리하는 데 경쟁력 있는 선택이다 [18]. Cao et al. [14], Chen et al. [18], Dong et al. [25], 그리고 Dziri et al. [30]은 generate-then-refine 전략을 따른다. Post-processing 수정 단계는 비문법적인 텍스트를 초래하는 경향이 있지만, 이 방법은 연구자들이 유창성(fluency)과 같은 다른 속성에서 최고의 성능을 보이는 SOTA 모델을 활용한 다음, 소량의 자동으로 생성된 학습 데이터를 사용하여 충실도를 위해 결과를 특별히 수정할 수 있도록 한다.

6 FUTURE DIRECTIONS

이 섹션에서는 메트릭 설계 및 완화 방법에 있어 남아있는 도전 과제와 잠재적인 방향을 제시한다.

6.1 Future Directions in Metrics Design

세분화된 지표 (Fine-Grained Metrics)
대부분의 기존 hallucination 지표들은 내재적(intrinsic) hallucination과 외재적(extrinsic) hallucination을 통합된 하나의 지표로 측정한다. 그러나 단일 생성물에서 두 가지 유형의 hallucination이 모두 나타나고 여러 개의 환각적인 부분 문자열(hallucinatory sub-string)이 존재하는 경우가 흔하다. 두 가지 유형의 hallucination을 구별할 수 있는 세분화된 지표는 연구자들에게 더 풍부한 통찰력을 제공할 것이다.

세분화된 지표를 구현하기 위한 첫 번째 단계는 환각적인 부분 문자열의 정확한 위치를 올바르게 식별하는 것이다. 그러나 QA 기반 지표와 같은 일부 지표는 개별 환각적인 부분 문자열을 식별할 수 없다. 이 측면의 개선은 지표의 품질과 설명 가능성을 향상시키는 데 도움이 될 것이다. 다음 단계는 감지된 환각적인 부분 문자열을 분류하는 것이다. 환각적인 부분 문자열은 **잘못되었거나 무의미한 경우 내재적(intrinsic)**이며, **소스 컨텍스트에 존재하지 않는 경우 외재적(extrinsic)**이다. 자동 분류 방법을 탐구하는 향후 연구는 유익할 것이다.

사실 확인 (Fact-Checking)
외재적 hallucination의 사실 확인은 세계 지식(world knowledge)에 대한 사실 확인을 필요로 하며, 이는 시간이 많이 걸리고 힘든 작업일 수 있다. 따라서 외재적 hallucination 검증을 위한 자동 사실 확인 시스템을 활용하는 것은 주목해야 할 또 다른 미래 연구 과제이다. 사실 확인은 지식 증거 선택(knowledge evidence selection)과 주장 검증(claim verification)이라는 하위 task로 구성되며, 각 하위 task와 관련된 남은 과제는 다음과 같다.

증거 선택 하위 task와 관련된 주요 연구 문제는 세계 지식으로부터 증거를 검색하는 방법이다. 대부분의 문헌은 위키피디아를 지식 소스로 활용하지만 [72, 132], 이는 세계 지식의 작은 부분에 불과하다. 다른 문헌에서는 전체 웹을 지식 소스로 사용하려고 시도한다 [88]. 그러나 이 방법은 "웹에서 사용하는 정보의 신뢰성을 어떻게 보장할 것인가" [44]라는 또 다른 연구 문제로 이어진다. 웹 소스의 메타 정보(예: 웹 트래픽, PageRank 또는 URL 구조)를 활용하는 소스 수준 방법이 이러한 신뢰성 문제를 해결하기 위해 제안되었다 [5, 102]. 세계 지식에 대한 증거 선택을 가능하게 하기 위해 앞서 언급된 문제들을 해결하는 것은 중요한 미래 연구 방향이 될 것이다.

검증 하위 task의 경우, 올바른 증거가 주어지면 검증 모델은 비교적 잘 수행된다 [74]. 그러나 검증 모델은 적대적 공격에 취약하며 부정, 숫자 또는 비교 단어에 강건하지 않음이 밝혀졌다 [133]. 문장의 사실성은 작은 단어 변경(즉, 부정, 숫자 및 개체의 변경)으로 쉽게 변경될 수 있으므로, 검증 모델의 이러한 약점을 개선하는 것 또한 매우 중요할 것이다.

일반화 (Generalization)
다양한 task의 소스 텍스트와 출력 텍스트가 다양한 형태를 띠고 있음을 알 수 있지만, 그들의 관계와 공통점을 조사하고 hallucination을 평가하기 위한 일반적인 지표를 제안하는 것은 탐구할 가치가 있다. 교차 도메인 강건성(cross-domain robustness)을 갖춘 task-agnostic 지표는 연구 커뮤니티가 통합된 벤치마크를 구축하는 데 도움이 될 수 있다. 또한 NLG task를 위한 평가 지표를 협력하고 표준화하기 위한 오픈 소스 플랫폼을 구축하는 것도 중요하고 의미 있는 일이다.

인간 인지 관점의 통합 (Incorporation of Human Cognitive Perspective)
좋은 자동 지표는 인간 평가와 상관관계를 가져야 한다. 인간은 다양한 유형의 정보에 민감하다. 예를 들어, 생성된 텍스트에서 고유 명사는 일반적으로 대명사보다 더 중요하다. 고유 개체(named entities)에 관한 실수는 인간 사용자에게는 눈에 띄지만, 제대로 설계되지 않은 자동 지표는 이를 동등하게 취급한다. 이 문제를 해결하기 위해 새로운 지표는 인간 인지 관점에서 설계되어야 한다. 가장 중요한 사실을 결정하고 평가해야 하는 시나리오에서 인간의 중요한 정보 인식 및 나머지 정보 필터링 능력은 분명하게 드러난다. 예를 들어, 계약서에 서명할 때 예비 직원은 자연스럽게 문서를 훑어보고 숫자가 있는 항목을 먼저 확인한다. 이런 식으로 인간은 자신이 중요하다고 생각하는 것을 분류한다.

자동 check-worthy 감지는 인간 판단과의 상관관계를 개선하는 데 적용될 잠재력을 가지고 있다. 앞서 언급된 자동화된 인간과 유사한 판단을 구현하면 hallucination을 더욱 완화하고 NLG 시스템을 개선할 수 있다.

6.2 Future Directions in Mitigation Methods

일반적이고 견고한 데이터 전처리 접근 방식 (General and Robust Data Pre-Processing Approaches)
다운스트림 task마다 데이터 형식이 다르기 때문에, task 간 데이터 처리 방법에는 여전히 격차가 존재하며, 현재 모든 NLG task에 효과적인 보편적인 방법은 없다 [76]. 데이터 전처리는 원본 데이터와 처리된 데이터 사이에 문법적 오류나 의미적 변환을 초래할 수 있으며, 이는 생성 성능에 부정적인 영향을 미칠 수 있다. 따라서 우리는 일반적이고 견고한 데이터 전처리 방법이 NLG에서의 hallucination을 완화하는 데 도움이 될 수 있다고 생각한다.

숫자에서의 Hallucination (Hallucinations in Numerals)
대부분의 기존 hallucination 완화 방법들은 숫자에서의 hallucination에 초점을 맞추지 않는다. 그러나 날짜, 수량, 스칼라와 같은 텍스트 내 숫자의 정확성은 독자에게 매우 중요하다 [131, 163, 165]. 예를 들어, "산소 보충을 받는 COVID-19 성인 환자의 최적 산소 포화도( $\mathrm{SpO}_{2}$ )는 알려져 있지 않다. 그러나 COVID-19가 없는 환자의 간접적인 증거에 따르면 $\mathrm{SpO}_{2}$ 가 $92 \%$ 미만이거나 $96 \%$ 초과하는 경우 해로울 수 있다는 점을 고려할 때, $92 \%$ 에서 $96 \%$ 의 목표 $\mathrm{SpO}_{2}$ 가 합리적으로 보인다."라는 원문이 주어졌을 때, 요약문 "COVID-19 환자의 목표 $\mathrm{SpO}_{2}$ 범위는 $29-69 \%$ 이다."는 잘못된 숫자를 포함하고 있으며, 이는 치명적일 수 있다. 현재 일부 연구 [98, 131, 163]에서는 상식(commonsense knowledge)을 활용하는 것이 더 나은 숫자 표현을 얻는 데 도움이 될 수 있다고 지적한다. 또한 Zhao et al. [165]은 수량 개체(quantity entities)의 검증 점수를 기반으로 후보 생성 요약문을 재순위화(re-ranking)하여 숫자 hallucination을 완화한다. 따라서 우리는 hallucination을 완화하기 위해 숫자를 명시적으로 모델링하는 것이 잠재적인 방향이라고 생각한다.

외재적 Hallucination 완화 (Extrinsic Hallucination Mitigation)
hallucination 완화에 대한 많은 연구가 발표되었지만, 대부분은 내재적(intrinsic) hallucination과 외재적(extrinsic) hallucination을 구분하지 않는다. 더욱이, 주요 연구 초점은 내재적 hallucination을 다루는 데 있었고, 외재적 hallucination은 줄이기 더 어렵기 때문에 다소 간과되어 왔다 [57]. 따라서 우리는 내재적 hallucination과 외재적 hallucination에 대해 서로 다른 완화 방법을 탐구할 가치가 있다고 생각하며, fact-checking 관련 방법들이 이 목적에 잠재적으로 사용될 수 있다.

긴 텍스트에서의 Hallucination (Hallucination in Long Text)
NLG의 많은 task는 다중 문서 요약(multi-document summarization) 및 GQA와 같이 모델이 긴 입력 텍스트를 처리하도록 요구한다. 우리는 기존 접근 방식을 Longformer [6] 기반 모델에 적용하는 것이 긴 입력을 인코딩하는 데 도움이 될 수 있다고 생각한다. 한편, 대화 시스템의 일부는 긴 출력 텍스트를 생성해야 하는데, 이 경우 후반부가 이전 생성 내용과 모순될 수 있다. 따라서 자기 모순(self-contradiction)을 줄이는 것 또한 중요한 미래 방향이다.

추론 (Reasoning)
원본 맥락(source context)의 사실을 오해하면 내재적 hallucination과 오류가 발생한다. 모델이 사실을 올바르게 이해하도록 돕기 위해서는 입력 테이블 또는 텍스트에 대한 추론(reasoning) 능력이 필요하다. 또한, 생성된 텍스트가 원본으로 역추론(reasoned backward)될 수 있다면, 우리는 그것이 충실하다(faithful)고 가정할 수 있다. 대화 분야에는 일부 추론 연구 [21, 43]가 있지만, hallucination 감소에 대한 연구는 거의 없다. 더욱이, 논리적 table-to-text 생성과 같이 수량을 다루는 task는 수치 추론(numerical reasoning)을 요구한다. 따라서 hallucination 완화 방법에 추론 능력을 추가하는 것 또한 흥미로운 미래 방향이다.

제어 가능성 (Controllability)
제어 가능성은 모델이 hallucination 수준을 제어하고 충실도(faithfulness)와 다양성(diversity) 사이의 균형을 맞추는 능력을 의미한다 [30, 113]. Section 3에서 언급했듯이, chit-chat 모델은 사실에 부합하는 한, 어느 정도의 환각적인 내용을 생성하는 것이 허용된다. 한편, 추상적 요약(abstractive summarization) task의 경우, 사실적 hallucination이 바람직한지 여부에 대해 연구 커뮤니티 내에서 합의가 이루어지지 않았다 [90]. 따라서 우리는 hallucination 완화 방법을 탐구할 때 제어 가능성이 주목할 가치가 있다고 생각한다.

7 HALLUCINATION IN ABSTRACTIVE SUMMARIZATION

Abstractive summarization은 원본 문서에서 핵심 정보를 추출하여 짧고, 간결하며, 가독성 있는 요약을 생성하는 것을 목표로 한다 [158]. 신경망은 abstractive summarization에서 놀라운 성과를 거두었다. 그러나 Maynez et al. [90]은 신경망 기반 abstractive summarization 모델이 원본 문서에 충실하지 않은 환각(hallucinatory) 콘텐츠를 생성할 가능성이 높다고 지적한다. Falke et al. [32]은 최근 세 가지 abstractive summarization 시스템을 분석하여 SOTA 모델이 생성한 요약의 25%가 환각 콘텐츠를 포함하고 있음**을 보여준다. 또한 Zhou et al. [168]은 요약에 많은 양의 환각 콘텐츠가 포함되어 있더라도 높은 ROUGE 점수를 달성할 수 있다고 언급한다. 이러한 문제점은 연구자들이 abstractive summarization의 평가, 특히 환각 관점에서의 평가를 개선하기 위한 방법을 적극적으로 고안하도록 장려했다.

이 섹션에서는 자동 평가 및 환각 완화(mitigation)에 대한 현재 진행 상황을 검토하고, 향후 연구를 위한 남아있는 과제들을 나열한다.

7.1 Hallucination Definition in Abstractive Summarization

추상적 요약(abstractive summarization)에서의 환각(hallucination) 정의는 Section 2와 이전 정의들 [57, 90]을 따른다: "요약문이 입력 문서에 의해 뒷받침되지 않는 내용을 포함하고 있다면, 그 요약문은 환각(hallucinated)되었다고 본다."

**내재적 환각(intrinsic hallucination)**은 원본 내용과 모순되는 출력 내용을 의미하며,
**외재적 환각(extrinsic hallucination)**은 원본에서 확인할 수 없는 출력 내용을 의미한다.

예를 들어, Table 1의 원본 문서는 다음과 같다: "The first vaccine for Ebola was approved by the FDA in 2019 in the US, five years after the initial outbreak in 2014. To produce the vaccine, scientists had to sequence the DNA of Ebola, then identify possible vaccines, and finally show successful clinical trials. Scientists say a vaccine for COVID-19 is unlikely to be ready this year, although clinical trials have already started."

이때,

내재적 환각의 예시: "The Ebola vaccine was rejected by the FDA in 2019"
- 이는 원본의 "approved"와 "rejected"가 모순되기 때문이다.
외재적 환각의 예시: "China has already started clinical trials of the COVID-19 vaccine"
- 이 문장은 주어진 원본에 언급되어 있지 않기 때문이다. 우리는 이 내용에 대한 증거를 입력 문서에서 찾을 수 없으며, 동시에 이 내용이 틀렸다고 단정할 수도 없다.

7.2 Hallucination Metrics in Abstractive Summarization

추상적 요약(abstractive summarization)에서 환각(hallucination)을 측정하는 기존 metric들은 주로 모델 기반이다. Huang et al. [57]에 따라, 우리는 환각 metric을 두 가지 범주로 나눈다: (1) unsupervised metric과 (2) semi-supervised metric. 기존 환각 metric들은 intrinsic hallucination과 extrinsic hallucination을 자동으로 구별하기 어렵기 때문에 이 둘을 함께 평가한다.

7.2.1 Unsupervised Metrics. 환각은 최근에 부상하는 문제이므로, 환각 관련 데이터셋은 소수에 불과하다. 따라서 연구자들은 다른 데이터셋을 활용하여 unsupervised hallucination metric을 구축할 것을 제안해왔다.

IE-Based Metrics. IE-based metric은 IE 모델을 활용하여 생성된 요약과 지식 소스(knowledge source) 모두에서 관계 튜플(subject, relation, object) 형태의 지식을 추출하고, 이를 통해 생성된 요약의 사실적 정확성을 분석한다 [46]. 그러나 IE 모델은 아직 100% 신뢰할 수 없으며 (관계 튜플 식별에 오류를 범함), 이로 인해 Nan et al. [95]은 Named-Entity Recognition 모델에 기반한 entity-based metric을 제안했다. 이 metric은 상대적으로 더 견고하며, 환각이 존재할 경우 gold summary와 생성된 summary에 다른 named entity 집합이 나타날 것이라는 가정에 기반한다.

NLI-Based Metrics. NLI (a.k.a. textual entailment) 모델은 충실한 요약이 gold source에 의해 entail될 것이라는 가정에 기반하여 환각을 측정하는 데 활용될 수 있다. 그러나 Falke et al. [32]은 NLI 데이터셋으로 학습된 모델이 추상적 요약 task에 잘 전이되지 않아 NLI 기반 환각 metric의 신뢰성을 저해한다는 것을 발견했다. 이 문제를 극복하기 위해 그들은 수집된 annotation을 추가 테스트 데이터로 공개했다. Mishra et al. [92]은 NLI 기반 metric의 낮은 성능이 주로 NLI 데이터셋의 premise 길이가 추상적 요약의 source document보다 짧기 때문이라는 것을 발견했다. 따라서 그들은 multiple-choice reading comprehension 데이터셋을 long-premise NLI 데이터셋으로 자동 변환하는 방법을 제안했다. 그 결과, long-premise NLI 데이터셋이 모델의 성능 향상에 도움이 된다는 것을 보여주었다. 또한 Laban et al. [68]은 **SUMMAC $_{\text {Conv }}$ **라는 간단하지만 효율적인 방법을 도입했는데, 이는 NLI 모델을 문서 전체가 아닌 문서에서 분할된 문장 단위에 적용하는 방식이다.

QA-Based Metrics. QA-based metric은 QA 모델이 요약이 source document와 사실적으로 일치할 경우 유사한 답변을 얻을 것이라는 직관에 기반하여, 요약과 source document 간의 지식 중복 또는 일관성을 측정한다. FEQA [26], QAGS [140], QuestEval [117]과 같은 QA-based metric은 최종 점수를 얻기 위해 세 단계를 따른다: (1) QG 모델이 요약에서 질문을 생성하고, (2) QA 모델이 source document에서 답변을 얻으며, (3) source document의 답변 집합과 요약의 답변 집합을 비교하여 점수를 계산한다. 결과는 이러한 reference-free metric이 baseline metric보다 인간의 충실도 판단과 훨씬 더 높은 상관관계를 보인다는 것을 보여준다. Gabriel et al. [39]은 FEQA를 추가로 분석하여 QA-based metric의 효과가 질문에 따라 달라진다는 것을 발견했다. 그들은 또한 QA metric을 포함하는 meta-evaluation framework를 제공한다.

7.2.2 Semi-Supervised Metrics. Semi-supervised metric은 요약 데이터셋에서 생성된 합성 데이터(synthetic data)로 학습된다. 이러한 task-specific 코퍼스로 학습된 모델은 생성된 요약이 환각적인지 여부를 판단할 수 있다. Kryscinski et al. [67]은 사실적 일관성을 평가하기 위해 FactCC라는 약한 지도 학습(weakly supervised) 모델을 제안했다. 이 모델은 세 가지 task에 대해 공동으로 학습된다: (1) 합성 문장이 사실적으로 일관성을 유지하는지 확인, (2) source document에서 supporting span 추출, (3) 요약에서 불일치하는 span이 있다면 추출. Zhou et al. [168]은 사전학습된 language model을 합성 데이터로 fine-tuning하여 요약 내의 환각적인 내용을 탐지한다. 이 합성 데이터는 자동으로 환각이 삽입된 형태이다. 이 모델은 기계 생성 요약의 span이 원문 기사에 충실한지 여부를 분류할 수 있다. 이 방법은 baseline보다 인간의 사실적 일관성 평가와 더 높은 상관관계를 보인다.

7.3 Hallucination Mitigation in Abstractive Summarization

7.3.1 아키텍처 방법 (Architecture Methods)
연구자들은 요약문의 환각(hallucinated) 콘텐츠를 줄이기 위해 모델의 아키텍처 설계에 수정을 가했다.

Encoder. Zhu et al. [170]은 소스 문서에서 추출된 사실 튜플(fact tuples)을 인코딩하기 위해 명시적인 Graph Neural Network (GNN)를 사용한다. Huang et al. [55]은 명시적인 그래프 인코더 외에도, 모델이 엔티티 상호작용을 더 잘 이해하도록 유도하기 위해 multiple-choice cloze test reward를 설계했다. 또한, Gunel et al. [49]은 Wikipedia의 외부 지식을 활용하여 지식 임베딩(knowledge embeddings)을 생성했으며, 그 결과 사실 일관성(factual consistency)이 향상되었음을 보여주었다.

Decoder. Song et al. [123]은 요약 문장과 그 구문 분석(syntactic parse)을 생성하기 위해 순차 디코더(sequential decoder)와 트리 기반 디코더(tree-based decoder)를 통합했다. Aralikatte et al. [2]는 Focus Attention Mechanism을 도입하여 디코더가 소스 문서와 유사하거나 주제와 관련된 토큰을 생성하도록 유도한다. 이 방법들은 더 충실한 요약문을 생성하는 데 효율적임을 보여주었다.

Encoder-Decoder. Cao et al. [16]은 소스 텍스트에서 사실 설명(fact descriptions)을 추출하고, 요약문이 소스 문서와 추출된 사실 설명 모두에 조건화되도록 강제하는 dual-attention seq2seq 프레임워크를 적용한다. Li et al. [78]은 추론 지식(entailment knowledge)을 추상적 요약 모델에 통합하는 multi-task learning 기반의 entailment-aware encoder 및 decoder를 제안한다.

7.3.2 학습 방법 (Training Methods)
아키텍처 수정 외에도, 일부 연구는 환각을 줄이기 위해 학습 접근 방식을 개선했다. Cao and Wang [15]은 요약 모델을 학습시키기 위해 contrastive learning 방법을 도입했다. 긍정적인 학습 데이터는 참조 요약문이고, 부정적인 학습 데이터는 자동으로 생성된 환각 요약문이며, contrastive learning 시스템은 이 둘을 구별하도록 학습된다. Tang et al. [130]은 대화 요약문의 사실 일관성과 전반적인 품질을 향상시킬 수 있는 CONFIT이라는 또 다른 contrastive fine-tuning 전략을 제안한다.

7.3.3 후처리 방법 (Post-Processing Methods)
일부 연구는 생성된 요약문(초안 요약문으로 간주됨)의 환각을 줄이기 위해 후편집(post-editing)을 수행한다. Dong et al. [25]은 QA 모델에서 학습된 지식을 사용하여 생성된 요약문의 span을 수정하는 한 쌍의 사실 교정 모델인 SpanFact를 제안한다. 유사하게, Cao et al. [14]는 생성된 요약문의 환각 콘텐츠를 식별하고 수정하는 후편집 교정 모듈(post-editing corrector module)을 도입한다. 이 교정 모듈은 참조 요약문에 일련의 휴리스틱 변환을 추가하여 생성된 합성 데이터(synthetic data)로 학습된다. Zhao et al. [165]은 생성된 요약문에서 수량(날짜, 금액 등)을 인식하고 소스 텍스트와의 사실 일관성을 검증하는 시스템인 HERMAN을 제시한다. 이 시스템은 수량 환각 점수(quantity hallucination score)에 따라 후보 생성 요약문 중에서 소스 텍스트가 수량 용어를 지지하는 가장 충실한 요약문을 선택한다. Chen et al. [18]은 생성된 요약문의 고유 명사(named entities)를 소스 텍스트의 고유 명사로 대체하는 contrast candidate generation model과, 최고의 후보를 최종 출력 요약문으로 선택하는 contrast candidate selection model을 도입한다.

7.4 Future Directions in Abstractive Summarization

Factual Hallucination 평가
Factual hallucination은 원본 내용에는 없지만 사실적으로는 정확한 정보를 포함하는 경우를 말한다. 요약 task에서는 이러한 종류의 hallucination이 더 나은 요약을 만들 수도 있다. 그러나 factual hallucination을 명시적으로 평가하는 연구는 거의 없다. 이와 관련하여 fact-checking 접근 방식이 잠재적으로 사용될 수 있을 것이다.

Extrinsic Hallucination 완화
Extrinsic hallucination은 세계 지식(world knowledge)에 기반한 내용을 탐지하고 완화하기가 더 어렵기 때문에 이에 대한 연구는 거의 이루어지지 않았다. 우리는 extrinsic hallucination을 평가 지표 및 완화 방법 측면에서 탐구할 가치가 있다고 생각한다.

대화 요약에서의 Hallucination
대화 데이터에서는 발화(utterance) 간의 담화 관계(discourse relations)와 화자(speaker) 간의 공참조(co-references)가 뉴스 기사 등 다른 텍스트보다 훨씬 복잡하다. 예를 들어, Zhong et al. [166]은 QMSum 데이터셋 샘플의 74%가 일관성 없는 사실(inconsistent facts)을 포함하고 있음을 보여준다. 우리는 대화 요약(dialogue summarization)에서 hallucination 문제를 탐구하는 것이 abstractive summarization에서의 hallucination 연구에 있어 중요하고 특별한 구성 요소라고 믿는다.

8 HALLUCINATION IN DIALOGUE GENERATION

Dialogue generation은 사용자 발화(utterance)에 따라 응답을 자동으로 생성하는 task이다. 생성된 응답은 유창하고(fluent), 일관성 있으며(coherent), 대화 이력(dialogue history)과 일치해야 한다. 이 task는 두 가지 하위 task로 나눌 수 있다.

Task-oriented dialogue generation: 레스토랑 예약이나 호텔 추천과 같이 특정 도메인에서 사용자 질의에 따라 특정 task를 완료하는 것을 목표로 한다.
Open-domain dialogue generation: 사용자와 다중 턴(multi-turn)의 장기적인 대화를 구축하고, 흥미로운 경험을 제공하는 것을 목표로 한다.

8.1 Hallucination Definition in Dialogue Generation

Hallucination 문제는 대화 생성 task에서도 존재한다. 대화 시스템은 사용자에게 필요한 정보를 제공하거나, 대화 기록에서 반복되지 않는 흥미로운 응답을 제공해야 한다는 점에 주목해야 한다. 따라서 대화 기록으로부터 적절한 "hallucination"을 생성하는 것에 대한 허용치(tolerance)는 상대적으로 높다.

이 task에서의 hallucination 정의는 일반적인 정의에서 다음과 같이 채택될 수 있다.

Intrinsic hallucination: 생성된 응답이 대화 기록 또는 외부 지식 문장과 모순되는 경우.
Extrinsic hallucination: 생성된 응답이 대화 기록 또는 외부 지식 문장으로 검증하기 어려운 경우.

다음 섹션에서는 open-domain 및 task-oriented 대화 생성 task에서의 hallucination 문제를 그 특성에 따라 별도로 논의할 것이다.

8.2 Open-Domain Dialogue Generation

Hallucination이라는 용어가 NLP 분야에서 새롭게 등장한 것처럼 보이지만, 신경망 모델의 관련 행동인 **불일치(inconsistency)**는 오랫동안 폭넓게 논의되어 왔다. 이러한 행동은 open-domain 챗봇의 생성 기반 접근 방식의 단점으로 지적되어 왔다 [114]. open-domain 대화 생성에서는 두 가지 유형의 불일치가 발생할 수 있다: (1) 시스템 발화 간의 자기-불일치(self-inconsistency) [147, 159] 또는 비일관성(incoherence) [8, 29]. 이는 시스템이 이전 발화와 모순되는 경우를 포함한다. (2) 외부 소스와의 외부-불일치(external inconsistency). 이는 사실과 다른 발화를 포함한다. 최근 일부 연구자들은 두 번째 유형을 hallucination이라고 부르기 시작했다 [115]. **자기-일관성(self-consistency)**은 내재적(intrinsic) hallucination 문제로 간주될 수 있는 반면, **외부-불일치(external inconsistency)**는 참조 소스에 따라 내재적 및 외재적(extrinsic) hallucination을 모두 포함한다.

앞서 언급했듯이, 심각한 사실적 문제가 없는 한 open-domain chit-chat에서는 어느 정도의 hallucination이 허용될 수 있다. 시스템이 외부 리소스에 연결되어 있지 않은 경우가 많으므로 사실적 정확성을 검증하는 것은 거의 불가능하다. 그러나 외부 참조를 제공하는 KGD task [24, 169]의 도입으로 open-domain 대화 생성에서 hallucination에 대한 논의가 더욱 활발해졌다.

8.2.1 자기-일관성 (Self-Consistency)

end-to-end 생성 기반 open-domain 대화 시스템에서 시스템 발화 간의 불일치는 인간 수준의 성능 달성에 병목 현상으로 지적되어 왔다 [139]. 우리는 의미적으로 유사하지만 동일하지 않은 질문에 대한 답변에서 불일치를 자주 관찰한다. 예를 들어, 시스템은 "What is your name?"과 "May I ask your name?"에 대해 다른 응답을 할 수 있다. **페르소나 일관성(Persona consistency)**은 오랫동안 주목받아 왔으며 [79, 161], 이는 대화 시스템의 특성과 관련된 자기 모순의 가장 명백한 사례 중 하나이다. "페르소나(Persona)"는 대화 시스템이 대화 중에 수행하는 캐릭터로 정의되며, 정체성, 언어 행동, 상호작용 스타일로 구성될 수 있다 [79] (Section 8.2.2 참조).

8.2.2 외부 일관성 (External Consistency)

open-domain 대화 시스템은 또한 사용자 발화에 대응하여 페르소나 일관적이고 유익한 응답을 생성하여 대화 중에 사용자와 더 깊이 상호작용해야 한다. 이 과정에서 명시적인 페르소나 정보 또는 세계 지식(world knowledge)을 포함하는 외부 리소스가 모델 생성 프로세스를 돕기 위해 시스템에 도입된다.

PersonaChat 데이터셋은 페르소나 일관성 연구를 가속화시켰으며 [23], 각 대화에는 "I like to ski."와 같은 페르소나 설명이 함께 제공된다. 페르소나 설명을 조건으로 함으로써, chit-chat 모델은 더욱 페르소나 일관적인 응답을 생성하는 능력을 습득할 것으로 기대된다. 최근에는 NLI [80, 122] 또는 RL 프레임워크 [91]의 적용이 연구되어 왔다. PersonaChat에 대한 이러한 방법들은 성공적이었지만, 주어진 페르소나 설명에 의존하지 않는 접근 방식에 대한 추가 연구가 필요하다. 왜냐하면 그러한 설명이 항상 제공되는 것은 아니며, 한 사람의 모든 측면을 다루는 것은 불가능하기 때문이다.

또한, open-domain의 KGD는 모델이 외부 지식 그래프(knowledge graph) 또는 지식 코퍼스(knowledge corpus)의 도움을 받아 유익한 응답을 생성하도록 요구하며 [24, 169], 외부 지식 문장을 소스의 일부로 간주한다. 대화에서의 hallucination은 사실적 일관성 문제로도 간주되며, 최근 많은 연구 관심을 불러일으켰다 [30, 108, 116, 121]. 대부분의 KGD 연구는 응답이 모순되는 정보(내재적)를 포함하거나 제공된 지식 입력에서 찾을 수 없는 정보(외재적)를 포함할 때의 hallucination 문제를 다룬다. 세계 지식은 방대하고 끊임없이 변화하기 때문에, 외재적 hallucination은 사실일 수 있지만 검증하기 어렵다. Dziri et al. [30]은 지식 그래프 기반 대화 task에 유사한 hallucination 정의를 채택했는데, 여기서 내재적 hallucination은 지식 트리플의 주어 또는 목적어를 오용하는 것을 의미하고, 외재적 hallucination은 gold reference knowledge에 해당하는 유효한 지식 트리플이 없음을 의미한다. 최근에는 추론 시 대규모 사전학습된 language model 내의 암묵적 지식(implicit knowledge)만을 활용하여 유익한 응답을 생성하려는 시도도 있었다 [156]. 이 설정에서 외재적 hallucination에 대한 연구는 매우 중요하지만 여전히 제대로 조사되지 않고 있다.

8.2.3 Hallucination 측정 지표 (Hallucination Metrics)

생성 기반 대화 시스템, 특히 open-domain 챗봇의 경우, hallucination 평가 방법은 여전히 미해결 문제로 남아 있다 [114]. 현재로서는 표준적인 측정 지표가 없다. 따라서 챗봇은 일반적으로 사실적 일관성 또는 사실적 정확성 측면에서 인간에 의해 평가된다 [116, 151]. 우리는 또한 참고 자료로 일부 자동 통계 및 모델 기반 측정 지표를 소개하며, 이는 다음에서 더 자세히 설명될 것이다.

F1 측정 지표의 변형 (Variants of F1 Metrics)
**KFI (Knowledge F1)**는 생성된 응답과 데이터셋 수집 시 인간이 대화를 위해 참조한 gold knowledge 문장 간의 중복(overlap)을 측정한다 [121]. KF1은 ground-truth knowledge가 레이블링된 데이터셋에서만 사용 가능하다. 저자들은 또한 **RF1 (Rare F1)**을 제안하는데, 이는 일반적인 uni-gram의 영향을 피하기 위해 F1 계산 시 데이터셋에서 드물게 나타나는 단어만을 고려한다.

모델 기반 측정 지표 (Model-Based Metric)
최근 여러 연구에서는 일관성을 측정하기 위한 모델 기반 평가 지표를 제안했다. 예를 들어, NLI [29, 147]를 사용하거나, 학습 가능한 평가 지표를 훈련하거나 [159], 또는 일관성을 위한 추가 테스트 세트를 공개하는 방식 [8] 등이 있다. KGD task의 경우, Dziri et al. [31]은 BEGIN 벤치마크를 제안하는데, 이는 Dinan et al. [24]에서 가져온 샘플에 추가적인 인간 주석과 NLI 패러다임을 확장한 새로운 분류 task로 구성된다. Honovich et al. [54]은 KGD task를 위한 학습 가능한 측정 지표 $Q^2$ 를 제시하며, 이 또한 NLI를 적용한다. 또한 Gupta et al. [50]이 대화 시스템에 특화된 사실 확인 시스템에 도움이 될 수 있는 데이터셋을 제안했다는 점도 주목할 만하다. **Conv-FEVER 코퍼스 [116]**는 Wizard-of-Wikipedia 데이터셋 [24]을 각색하여 생성된 사실적 일관성 감지 데이터셋이다. 이는 사실적으로 일관된 응답과 일관되지 않은 응답을 모두 포함하며, 제공된 지식에 대해 사실적으로 일관되지 않은 응답을 감지하는 분류기를 훈련하는 데 사용될 수 있다.

8.2.4 완화 방법 (Mitigation Methods)

hallucination 문제는 **데이터 전처리(data pre-processing)**를 통해 완화될 수 있으며, 여기에는 데이터에 추가 정보를 도입하는 것이 포함된다. Shen et al. [120]은 자기-일관성을 포함한 대화 품질의 7가지 속성을 기반으로 한 측정 방법을 제안한다. 이 측정 방법을 기반으로, 낮은 점수를 받은 신뢰할 수 없는 샘플은 훈련 세트에서 필터링되어 자기-일관성(즉, 내재적 hallucination) 측면에서 모델 성능을 향상시킨다. Shuster et al. [121]은 지식 선택을 위해 retriever가 시스템에 도입된 KGD task에 대한 포괄적인 연구를 수행했다. 실험 결과는 검색이 KGD task에서 대화 능력을 희생하지 않고도 성능을 크게 향상시키고 대화에서의 hallucination을 줄이는 데 도움이 된다는 것을 보여준다. Rashkin et al. [108]은 일련의 제어 코드(control codes)를 도입하고 이를 대화 입력과 연결하여, 모델이 응답 생성 시 지식 증거에 얼마나 의존하는지 더 잘 인식하도록 강제함으로써 hallucination을 줄인다.

일부 연구자들은 대화 모델링을 개선하여 생성 중 hallucinated 응답을 줄이려고 시도하기도 했다. 데이터 전처리와 달리, 모델링 측면에서 hallucination 문제를 해결하는 것은 주석을 위한 많은 인력을 필요로 하지 않지만, hallucination 완화에 대한 간접적인 감독(distant supervision)만을 제공한다. Wu et al. [151]은 Transformer 기반 대화 모델에 inductive attention을 적용했으며, 대화 맥락과 제공된 지식 간의 미리 설정된 구조적 정보에 따라 잠재적으로 정보가 부족한 attention 링크를 제거한다. Dziri et al. [30]은 대화 응답 생성 모델 자체를 개선하는 대신, 토큰 수준의 hallucination critic과 entity-mention retriever를 사용하여 응답 개선 전략을 제시했으며, 이는 원래 대화 모델을 추가로 훈련하지 않는다. 전자의 모듈은 생성된 응답에서 언급된 hallucinated entity에 레이블을 지정하도록 설계되었고, 후자의 retriever는 제공된 지식 그래프에서 더 충실한 entity를 검색하도록 훈련된다.

8.3 Task-Oriented Dialogue Generation

Task-oriented dialogue system은 종종 여러 모듈로 구성된다: 자연어 이해(NLU) 모듈, dialogue manager, 그리고 NLG 모듈 [40]. **내재적 환각(intrinsic hallucination)**은 dialogue manager와 NLG 사이에서 발생할 수 있는데, 예를 들어 recommend (NAME=peninsula hotel, AREA=tsim sha tsui)와 같은 dialogue act가 "the hotel named peninsula hotel is located in tsim sha tsui area"와 같은 자연어 표현으로 변환되는 과정에서 발생한다 [4, 82].

8.3.1 환각 측정 지표 (Hallucination Metrics)

일부 연구에서는 BLEU와 같은 전통적인 지표 및 인간 평가 외에 환각에 특화된 자동 측정 지표를 도입한다. Li et al. [82]은 slot error rate를 사용하는데, 이는 $(p+q)/N$ 으로 계산된다. 여기서 $N$ 은 dialogue act에서 다른 모델에 의해 추출된 총 slot의 개수를 나타낸다. $p$ 는 생성된 템플릿에서 누락된 slot의 개수이고, $q$ 는 중복된 slot의 개수이다. 그러나 Balakrishnan et al. [4]은 tree accuracy라는 새로운 지표를 도입하여, 예측된 tree 구조가 입력 MR의 구조와 동일한지 여부를 판단한다.

8.3.2 완화 방법 (Mitigation Methods)

Balakrishnan et al. [4]은 tree-structured semantic representation을 채택하고 디코딩에 제약 조건을 추가하는 반면, Li et al. [82]은 RL 문제를 구성하여 부트스트래핑(bootstrapping) 알고리즘을 적용해 학습 인스턴스를 샘플링하고, **slot 일관성(consistency)과 관련된 보상(reward)**을 활용한다.
최근에는 task-oriented dialogue 분야에서 여러 모듈을 연결하는 대신 단일 end-to-end 시스템을 구축하려는 또 다른 연구 방향이 등장했다 [87, 150]. 이 글의 이전 섹션들에서 논의했듯이, 이러한 end-to-end 시스템은 외재적 환각(extrinsic hallucination)을 생성할 가능성이 있지만, 이에 대한 연구는 아직 부족하다. 예를 들어, 모델이 어디서도 나타나지 않은 entity를 포함하는 응답을 생성할 수 있다. 앞서 언급된 홍콩 호텔 추천 예시에서, 모델은 "the hotel named raffles hotel is located in central area"와 같은 응답을 생성할 수 있는데, 이는 시스템의 지식 기반(knowledge base)에서 검증할 수 없는 내용이다.

8.4 Future Directions in Dialogue Generation

대화의 **더 긴 기억(longer memory)**을 탐구하는 것은 자기 모순(self-contradiction) 및 환각(hallucination) 문제를 해결하기 위한 미래 연구 방향이다. 자기 모순의 한 가지 가능한 원인은 현재의 대화 시스템이 대화 기록에 대한 기억이 짧은 경향이 있다는 점이다 [114]. 첫째, 일반적인 대화 데이터셋은 몇 턴(turn)의 대화만을 제공하는데, 이는 모델이 긴 context를 처리하는 능력을 평가하기에 충분하지 않다. 이를 해결하기 위해 Xu et al. [153]은 에피소드당 평균 40개 이상의 발화(utterance)로 구성된 데이터셋을 소개했다. 둘째, 대화 시스템은 종종 Transformer 기반 아키텍처와 같은 모델에 맞추기 위해 대화 기록을 더 적은 턴으로 잘라내는데, 이는 모델이 과거를 기억하기 어렵게 만든다. 대화 요약(dialogue summarization)에 대한 연구 외에도, 더 긴 context를 파악하는 것을 목표로 하지만 대화 생성에 초점을 맞추지 않는 다른 연구들을 적용하는 것도 유용할 것이다 [6].

또한, **사실 확인(fact-checking)**은 대화 시스템의 환각 문제를 다루는 미래 연구 방향이다 [50]. 대화 사실 확인은 **환각에 취약한 대화를 구별하는 중요한 요소인 검증 가능한 주장 탐지(verifiable claim detection)**와 **외부 소스로부터의 증거 검색(evidence retrieval)**을 포함한다. 대화 시스템에서의 이러한 사실 확인은 사실적 일관성(factual consistency)을 촉진하기 위한 평가 지표로 활용될 뿐만 아니라, 그러한 시스템을 모델링하는 데에도 활용될 수 있다.

9 HALLUCINATION IN GQA

GQA는 주어진 질문에 대해 제공된 passage에서 답변을 추출하는 것이 아니라, 추상적인 답변을 생성하는 것을 목표로 한다 [34, 77]. 이 task는 인간이 일상적으로 다루고 검색 엔진에 질의하는 많은 질문들이 심층적인 설명을 요구하기 때문에 매우 중요하다 [63] (예: 왜/어떻게...?). 답변은 대개 길고, 기존의 구문(phrase span)에서 직접 추출할 수 없는 경우가 많다.

일반적으로 GQA 시스템은 질문과 관련된 정보를 얻기 위해 외부 지식 소스를 검색한다. 그런 다음, 검색된 정보를 기반으로 답변을 생성한다 [66]. 대부분의 경우, 단일 소스(문서)만으로는 답변을 포함하지 않으며, 여러 개의 검색된 문서가 답변 생성에 고려된다. 이 문서들은 중복되거나, 상호 보완적이거나, 또는 모순되는 정보를 포함할 수 있다. 따라서, 생성된 답변에서 환각(hallucination) 현상이 흔하게 발생한다.

환각 문제는 GQA에서 가장 중요한 도전 과제 중 하나이다. GQA 시스템의 본질적인 목표가 질문에 대해 사실적으로 정확한 답변을 제공하는 것이기 때문에, 답변에서의 환각은 사용자를 오도하고 시스템 성능을 극적으로 저하시킬 수 있다.

9.1 Hallucination Definition in GQA

도전적이지만 아직 충분히 탐구되지 않은 task인 **GQA(Generative Question Answering)**에서 hallucination에 대한 표준적인 정의는 없다. 그러나 GQA에 대한 거의 모든 연구들 [34, 66, 94, 125]은 인간 평가(human evaluation) 과정을 포함하며, 여기서 **생성된 답변의 충실도(faithfulness)를 측정하는 사실적 정확성(factual correctness)**은 hallucination의 측정치로 볼 수 있다. 즉, 답변이 더 충실할수록 hallucinated content가 적다는 의미이다. 가장 최근의 연구 [77]에서는 semantic drift라는 용어를 사용하는데, 이는 생성 과정에서 답변이 올바른 답변으로부터 얼마나 벗어나는지를 나타내며, 이 또한 GQA에서 hallucination의 구체적인 정의로 볼 수 있다.

Section 2.1의 hallucination 일반 분류에 따라, 우리는 Table 1에서 GQA의 구체적인 hallucination 예시 두 가지를 제시한다. 두 질문의 출처는 Wikipedia 웹페이지이다. 첫 번째 질문인 "dow jones industrial average please?"에 대해 생성된 답변 "index of 30 major U.S. stock indexes"는 Wikipedia의 "of 30 prominent companies listed on stock exchanges in the United States"라는 문장과 상충된다. 따라서 우리는 이를 **내재적 hallucination(intrinsic hallucination)**으로 분류한다. 두 번째 예시에서는 생성된 답변의 "The definition of a Sadducee is a person who acts in a deceitful or duplicitous manner. An example of a Sadduceee is a politician who acts deceitfully in order to gain political power"라는 문장들이 원본 문서에서 검증될 수 없으므로, 이를 **외재적 hallucination(extrinsic hallucination)**으로 분류한다.

GQA 분야의 대부분 연구에서 답변의 품질을 측정하기 위해 ROUGE 및 F1과 같은 자동 평가 지표를 사용하지만, 이러한 n-gram overlap 기반 지표는 인간의 판단과의 상관관계가 낮아 [66] hallucination을 평가하는 데 의미 있는 방법이 아니다. 그러나 거의 모든 GQA 관련 연구는 자동 평가를 보완하기 위해 **인간 평가(human evaluation)**를 포함한다. 일반적으로 인간 평가자들은 답변의 충실도(faithfulness)를 나타내는 점수를 부여하도록 요청받는데, 이는 hallucination 측정으로도 볼 수 있다. 하지만 이러한 인간 평가 지표는 보통 소수의 데이터 샘플에서만 얻어진다.

인간의 판단을 모델링하는 BERT 기반의 학습된 평가 지표인 **Semantic overlap [118]**은 GQA의 hallucination을 측정하는 더 나은 방법으로 간주될 수 있다. 사실적 정확성(Factual correctness) 또한 GQA에서 hallucination을 측정하는 한 가지 방법이 될 수 있다. Zhang et al. [164]은 IE 모듈을 통해 먼저 사실(fact)을 추출한 다음, 생성된 텍스트의 사실적 정확성을 참조 텍스트와 비교하여 명시적으로 측정하는 방법을 제안한다. 그들은 생성된 텍스트의 사실 중 참조 텍스트의 해당 사실과 일치하는 사실의 비율을 **사실적 정확성 점수(factual accuracy score)**로 정의하고 측정한다. **사실적 일관성(Factual consistency)**은 주어진 원본 문서에 대한 생성된 답변의 충실도를 측정하는 것으로, GQA에서 hallucination을 측정하는 또 다른 방법으로 활용될 수 있다. Durmus et al. [26]과 Wang et al. [140]은 최근 기계 독해(machine reading comprehension)의 발전을 활용하여 요약문의 충실도를 측정하기 위한 자동 QA 기반 지표를 제안한다. 그들은 먼저 QG 모델을 사용하여 요약문에서 질문-답변 쌍을 구성한 다음, QA 모델을 적용하여 주어진 원본 문서에서 질문에 대한 짧은 답변 스팬(span)을 추출한다. 제공된 답변과 일치하지 않는 추출된 답변은 요약문에 불충실한 정보가 있음을 나타낸다. 이러한 지표들은 요약 분야에서 처음 제안되었지만, GQA에서 생성된 long-form 답변의 hallucination을 측정하는 데 쉽게 적용될 수 있다.

가장 최근 연구 [125]는 extractive QA 데이터셋에서 zero-shot short answer recall을 통해 생성된 long-form 답변의 충실도를 추정하는 방법을 제안한다. 그들은 먼저 대규모 질문-답변 쌍을 포함하는 두 개의 extractive QA 데이터셋에서 질문에 대한 long-form 답변을 생성한 다음, 생성된 long answer에 포함된 golden short answer span의 비율을 생성된 long answer의 충실도 추정치로 측정한다. 이 아이디어는 요약 연구 [26]의 사실적 일관성 지표와 유사하며, 우리의 직관과도 어느 정도 일치하지만, 충실도에 대한 인간 평가와의 상관관계는 아직 검증되지 않았다.

9.3 Hallucination Mitigation in GQA

요약이나 data-to-text 생성과 같은 조건부 텍스트 생성 task와 달리, GQA(Generative Question Answering)에서의 환각(hallucination) 문제는 더욱 복잡하다. 요약이나 data-to-text 생성에서는 원본 문서가 제공되고 일반적으로 생성될 텍스트와 관련이 있지만, GQA의 환각은 크게 두 가지 원인에서 비롯될 수 있다: (1) 검색기(retriever)의 비효율성: 답변과 관련 없는 문서를 검색하는 경우, (2) 조건부 생성 모델 자체의 내재적(intrinsic) 및 외재적(extrinsic) 환각. 일반적으로 이 두 가지 원인은 서로 연결되어 답변에서 환각을 유발한다.

GQA에 대한 초기 연구들은 주로 신뢰할 수 있는 외부 지식 소스를 조사하거나 여러 정보 소스를 통합하여 답변의 충실도(faithfulness)를 개선하려고 시도했다. Yin et al. [157]은 지식 기반(knowledge base)을 바탕으로 간단한 사실 질문에 대한 답변을 생성하는 end-to-end 모델인 **Neural Generative Question Answering (GENQA)**를 제안했다. 반면 Bi et al. [9]은 질문, passage, 어휘, 지식이라는 네 가지 다른 정보 소스에서 사실을 통합하여 자연스러운 답변을 생성하는 **Knowledge-Enriched Answer Generator (KEAG)**를 제안했다. 그럼에도 불구하고, 이러한 방법들은 쉽게 구할 수 없는 고품질의 관련 리소스의 존재에 의존한다는 한계가 있다.

최근 연구들은 조건부 생성 모델 자체에 더 집중하고 있다. Fan et al. [33]은 각 질문에 대해 로컬 지식 그래프(local knowledge graph)를 구축하여 검색된 문서의 정보를 압축하고 중복성을 줄였는데, 이는 환각을 완화하기 위한 초기 시도로 볼 수 있다. Li et al. [77]은 **Rationale-Enriched Answer Generator (REAG)**를 제안했다. 이 모델에서는 인코딩 단계에서 답변에 대한 근거(rationale)를 추출하는 task를 추가하고, 디코더는 추출된 근거와 원본 입력을 모두 기반으로 답변을 생성하도록 설계되었다. 최근 연구 [66]는 **Routing Transformer (RT)**를 답변 생성기로 사용했다. RT는 희소 어텐션(sparse attention) 기반의 Transformer 모델로, 장거리 의존성(long-range dependence)을 위해 로컬 어텐션(local attention)과 mini-batch k-means 클러스터링을 활용하여 더 많은 검색 문서를 모델링함으로써 답변의 환각을 완화하고자 했다. Su et al. [125]는 ** $RBG$ (Read Before Generate)**라는 프레임워크를 제안하여 답변 생성과 기계 독해(machine reading)를 공동으로 모델링한다. 이들은 MRC 모듈이 예측한 세분화된(fine-grained) 답변 관련 핵심 정보(salient information)로 생성 모델을 보강하여 답변의 충실도를 높였다. 이러한 방법들은 원본 입력의 정보를 더 잘 활용할 수 있지만, 정보 추출을 위한 추가 모델 구축 노력이 필요하다는 단점이 있다.

가장 최근에는 Lin et al. [83]이 QA task에서 언어 모델의 진실성(truthfulness)을 측정하기 위한 벤치마크를 제안했다. 이 벤치마크는 38개 범주에 걸쳐 817개의 질문으로 구성된다. 이 연구는 GPT-3 [13], GPT-Neo/J [141], GPT-2 [105], 그리고 T5 기반 모델 [106]의 성능을 조사했다. 결과는 단순히 모델의 규모를 확장하는 것보다 fine-tuning하는 것이 진실성 향상 측면에서 덜 유망하다는 것을 시사한다. 이는 더 큰 모델이 웹 데이터로부터 학습 분포를 더 잘 학습하여 모방적인 거짓(imitative falsehoods)을 더 많이 생성하는 경향이 있기 때문이다. 또 다른 최근 연구에서 Nakano et al. [94]은 GPT-3를 fine-tuning하여 웹 브라우징 환경에서 장문 질문에 답변하도록 했다. 이 모델은 웹을 탐색할 수 있을 뿐만 아니라, 모방 학습(imitation learning) [58]을 사용하여 인간 피드백을 직접 활용하여 답변 품질을 최적화한다. 이 방법은 유망해 보이지만, 피드백이 어떻게 처리되는지에 따라 성능이 좌우된다는 한계가 있다.

9.4 Future Directions in GQA

GQA는 도전적이지만 아직 충분히 탐구되지 않은 분야이므로, 답변 품질을 향상시키고 hallucination을 완화하기 위해 여러 방향을 탐색할 수 있다.
첫째, hallucination을 측정하기 위한 더 나은 자동 평가 지표가 필요하다. 이전에 언급된 지표들(예: 생성된 답변과 ground-truth 답변 간의 의미적 중복(semantic overlap), 생성된 답변의 충실도(faithfulness), 답변과 원본 문서 간의 사실적 일관성(factual consistency))은 hallucination의 한 측면만을 고려한다. hallucination과 관련된 모든 요소(예: semantic overlap, faithfulness, factual consistency)를 고려할 수 있는 지표가 설계되어야 한다.
둘째, 현재 GQA 데이터셋 중에는 hallucination에 대한 정보가 포함된 것이 없으므로, hallucination 어노테이션이 포함된 데이터셋이 제안되어야 한다.
답변에서의 hallucination을 완화하기 위한 또 다른 가능한 방향은 모델의 성능을 향상시키는 것이다. 우리는 쿼리에 따라 관련 정보를 검색하는 더 나은 retrieval model과 다중 소스 문서로부터 더 정확한 답변을 합성할 수 있는 generation model이 필요하다.

10 HALLUCINATION IN DATA-TO-TEXT GENERATION

Data-to-text generation은 테이블 [100, 149]이나 지식 그래프 [41]와 같은 구조화된 데이터를 조건으로 자연어 설명을 생성하는 task이다. 이 분야는 최근 신경망 기반 텍스트 생성 모델에 의해 크게 발전했지만, 구조화된 데이터와 텍스트 사이의 간극으로 인해 모델이 환각(hallucination) 현상에 취약하다는 점이 잘 알려져 있다 [149]. 이러한 환각은 의미론적 오해나 잘못된 상관관계를 유발할 수 있다.
더욱이, 환자 정보 테이블 설명이나 과학 보고서의 실험 결과 테이블 분석과 같이 실제 세계에 이 task가 적용될 경우, 환각에 대한 허용 오차는 매우 낮다. 최근 몇 년간 data-to-text generation에서의 환각 현상에 대한 관심이 증가했으며, 연구자들은 평가 및 완화 측면에서 다양한 연구를 제안해왔다.

10.1 Hallucination Definition in Data-to-Text Generation

데이터-투-텍스트(data-to-text) 생성에서 환각(hallucination)의 정의와 범주는 Section 2의 설명을 따른다. 우리는 이 task에서 일반적인 환각 정의를 따른다.
첫째, **내재적 환각(intrinsic hallucination)**은 생성된 텍스트가 입력 데이터와 모순되는 정보를 포함하는 경우이다 [98]. 예를 들어, Table 1에서 "The Houston Rockets (18-4)"는 원본 테이블의 정보 "[TEAM: Rockets, CITY:Houston, WIN:18, LOSS: 5]"를 사용한다. 그러나 "(18-4)"는 "[LOSS: 5]"와 모순되며, "(18-5)"가 되어야 한다.
둘째, **외재적 환각(extrinsic hallucination)**은 생성된 텍스트가 입력과 관련 없는 추가 정보를 포함하는 경우이다 [22, 98]. 예를 들어, Table 1에서 "Houston has won two straight games and six of their last seven"은 원본 테이블에 언급되지 않은 내용이다 [143].

10.2 Hallucination Metrics in Data-to-Text Generation

통계 기반 (Statistical)
PARENT [22]는 참조 설명(reference description) $R$ 과 생성된 텍스트 $G$ 의 n-gram을 테이블 $T$ 에 정렬하여 table-to-text 생성의 정확도를 측정한다. 이는 entailment precision과 recall을 결합한 평균 F-score이다. Wang et al. [145]는 PARENT를 수정하여 테이블 중심 버전인 PARENT-T를 제안한다. PARENT가 $i$ 번째 인스턴스 ( $T_i, R_i, G_i$ )를 평가하는 것과 달리, PARENT-T는 참조 설명 $R$ 을 무시하고 각 인스턴스 ( $T_i, G_i$ )를 평가한다.

정보 추출(IE) 기반
Liu et al. [85]는 두 가지 엔티티 중심 지표로 hallucination을 추정한다:

table record coverage: 테이블에서 다루어진 레코드의 비율
hallucinated ratio: 텍스트에서 hallucination된 엔티티의 비율

이 지표는 먼저 엔티티 인식(entity recognition)을 사용하여 입력 및 생성된 출력의 엔티티를 추출하고, 휴리스틱 매칭 전략으로 이 엔티티들을 정렬한 다음, faithful 엔티티와 hallucination된 엔티티의 비율을 각각 계산한다. 또한, **Slot Error Rate (SER) [155], Content Selection (CS), Relation Generation (RG), Content Ordering (CO) [143, 149]**와 같이 hallucination 평가에 적용될 수 있는 몇 가지 일반적인 사후(post hoc) IE 기반 지표들이 있다.

QA 기반 (QA Based)
Data-QuestEval [111]은 요약(summarization) 분야의 QuestEval [117]을 data-to-text 생성에 적용한다. 먼저, 텍스트 QG(Question Generation) 모델이 텍스트 QA 데이터셋으로 학습된다. 각 샘플(구조화된 데이터, 텍스트 설명)에 대해, 텍스트 QG 모델은 설명을 기반으로 합성 질문(synthetic problem)을 생성한다. 구조화된 데이터, 텍스트 설명(답변), 그리고 합성 질문은 합성 QA/QG 모델을 학습시키기 위한 합성 QG/QA 데이터셋을 구성한다. 그런 다음, 합성 QG 모델은 평가 대상 텍스트 설명을 기반으로 질문을 생성한다. 이어서 합성 QA 모델은 합성 질문과 구조화된 입력 데이터를 기반으로 답변을 생성한다. 마지막으로, BERTScore [162]는 생성된 답변과 설명 간의 유사도를 측정하여 faithfulness를 나타낸다.

NLI 기반 (NLI Based)
Dušek and Kasner [28]는 NLI(Natural Language Inference) 모델을 사용하여 입력 데이터와 출력 텍스트 간의 텍스트 함의(textual entailment)를 통해 누락(omission)과 hallucination을 모두 인식한다. 이 연구는 두 가지 방향으로 의미적 정확도(semantic accuracy)를 측정한다:

누락 확인: 입력 사실이 생성된 텍스트에 의해 함의되는지 추론하여 확인
hallucination 확인: 입력으로부터 생성된 텍스트를 추론하여 확인

LM 기반 (LM Based)
Filippova [37]와 Tian et al. [134]는 **비조건부 LM(unconditional LM)**이 (오직 target으로만 학습된) 조건부 LM $LM_x$ (source와 target 모두로 학습된)보다 더 작은 loss를 얻을 때, 해당 토큰이 unfaithfully 예측되었다는 직관에 기반하여 연구를 수행한다. 따라서 이들은 hallucination된 토큰의 비율을 전체 target 길이로 나누어 hallucination 수준을 측정한다.

10.3 Hallucination Mitigation in Data-to-Text Generation

데이터 관련 방법 (Data-Related Methods)
데이터의 신뢰성(infidelity) 문제를 해결하기 위해 여러 깨끗하고 충실한(faithful) 코퍼스가 수집되었다. **TOTTO [100]**는 오픈 도메인 faithful table-to-text 데이터셋으로, 각 샘플은 하이라이트된 셀과 설명이 포함된 Wikipedia 테이블을 포함한다. 타겟 텍스트가 환각(hallucination)을 배제하도록 하기 위해, 어노테이터들은 기존 Wikipedia 후보 문장을 수정하고 테이블에 의해 뒷받침되지 않는 부분을 제거한다. 또한, **RotoWire-FG (Fact-Grounding) [143]**는 RotoWire [149]의 정제되고 확장 및 풍부해진 버전으로, NBA 경기 요약을 스코어 테이블로부터 생성한다. 어노테이터들은 타겟 텍스트의 환각 부분을 잘라내고, 매핑된 테이블 레코드를 content plan으로 추출하여 입력 테이블과 출력 요약 간의 정렬을 개선한다.

데이터 처리와 관련하여, **OpAtt [97]**는 기호 연산(symbolic operation)을 위한 gating mechanism과 quantization module을 설계하여 미리 계산된 결과로 레코드 테이블을 보강한다. **Nie et al. [98]**은 **언어 이해 모듈(language understanding module)**을 활용하여 데이터셋 내에서 입력 MR(Meaning Representation)과 참조 발화(reference utterance) 간의 등가성(equivalence)을 개선한다. 그들은 반복적인 relabeling 절차를 통해 자연어 이해 모델을 학습시킨다. 먼저, 원본 데이터로 모델을 학습시키고, 모델 추론을 통해 MR을 파싱하며, 높은 신뢰도를 가진 새로운 쌍 데이터로 모델을 학습시킨 후, 이 과정을 반복한다. **Liu et al. [85]**는 충실도(faithfulness) 랭킹을 기반으로 학습 인스턴스를 선택한다. 이전의 인스턴스 수준 방법보다 더 세분화된 **Rebuffel et al. [110]**은 전처리 단계에서 공동 발생(co-occurrence) 분석과 의존성 파싱(dependency parsing)을 통한 문장 구조에 따라 토큰에 레이블을 지정하여 입력 테이블과 텍스트 간의 대응 관계를 명확히 한다. 일반적으로, 데이터 관련 방법들은 학습 데이터셋에 노이즈가 많을 때 적절하다.

모델링 및 추론 방법 (Modeling and Inference Methods)
**계획(planning) 및 스켈레톤 생성(skeleton generation)**은 data-to-text task에서 입력에 대한 충실도를 향상시키는 일반적인 방법이다. **Liu et al. [85]**는 보조 엔티티 정보로 보강된 별도의 텍스트 플래너(text planner)를 포함하는 2단계 생성기를 제안한다. 플래너는 입력 데이터를 기반으로 그럴듯한 content plan을 예측한다. 그런 다음, 이전 입력 데이터와 content plan이 주어지면, 시퀀스 생성기(sequence generator)가 텍스트를 생성한다. 유사하게, **Plan-then-Generate [127]**도 content planner와 sequence generator로 구성된다. 또한, 이 연구는 생성된 content plan을 충실하게 따르는 출력 텍스트를 생성하기 위해 structure-aware RL 학습을 채택한다. **Puduppully and Lapata [104]**는 먼저 입력 테이블과 해당 multi-paragraph long document로부터 여러 엔티티 및 이벤트 시퀀스로 구성된 macro plan을 유도한다. 예측된 macro plan은 표면 실현(surface realization)을 위한 encoder-decoder 모델의 입력으로 사용된다. **SANA [144]**는 소스 테이블에서 핵심 토큰을 선택하는 skeleton generation과 반복적인 삽입 및 삭제 작업을 통해 텍스트를 생성하는 edit-based generation을 포함하는 스켈레톤 기반 2단계 모델이다. 계획 또는 스켈레톤을 사용하는 이전의 2단계 모델과 달리, **AGGGEN [155]**은 계획과 생성을 동시에 학습하는 end-to-end 모델이다. hidden Markov model과 Transformer encoder-decoder를 포함하는 이 아키텍처는 타겟 텍스트의 사실(fact)을 입력 표현에 정렬함으로써 신경망 시스템에 명시적인 문장 계획 단계를 다시 도입한다.

다른 모델링 방법들도 환각 문제 완화를 위해 제안되었다. 환각이 소스에 대한 부주의(inattention)로 인해 발생할 수 있다고 추측하며, **Tian et al. [134]**는 신뢰도 점수(confidence score)와 variational Bayes 학습 프레임워크를 제안하여 데이터로부터 이 점수를 학습한다. **Wang et al. [145]**는 충실도를 장려하기 위해 table-text optimal-transport matching loss와 embedding similarity loss를 도입한다. 환각 정도는 텍스트 생성에서 제어 가능한 요소로도 다루어질 수 있다. **Filippova [37]**의 연구에서는 각 학습 샘플의 환각 정도를 추정하고 이를 범주형 값으로 변환하여 제어 설정의 일부로 입력에 포함한다. 이 접근 방식은 어떤 입력의 폐기나 모델 구조의 수정도 필요로 하지 않는다.

추론 단계에서 환각을 완화하기 위해, **Rebuffel et al. [110]**은 입력 테이블과 쌍을 이루는 텍스트 간의 단어 수준 정렬 레이블(word-level alignment labels)을 활용하여 학습 인스턴스의 관련 부분을 학습하는 Multi-Branch Decoder를 제안한다. 이러한 단어 수준 레이블은 전처리 단계에서 의존성 파싱을 통해 얻어진다. 각 브랜치는 콘텐츠, 환각, 유창성이라는 세 가지 상호 의존적인 제어 요소를 개별적으로 통합한다. **UABS (Uncertainty-Aware Beam Search) [152]**는 환각을 줄이기 위한 beam search의 확장이다. 환각 확률이 예측 불확실성(predictive uncertainty)과 양의 상관관계가 있다는 점을 고려하여, 이 연구는 예측 확률과 불확실성의 균형을 맞출 수 있는 가중치 페널티 항을 beam search에 추가한다. 이 접근 방식은 task-agnostic하며, 이미지 캡셔닝과 같은 다른 task에도 적용될 수 있다.

이러한 다양한 유형의 방법들은 반드시 서로 충돌하지 않으며, data-to-text 생성에서 환각 문제를 해결하기 위해 협력할 수 있다.

10.4 Future Directions in Data-to-Text Generation

구조화된 데이터와 자연어 텍스트 간의 불일치, 그리고 data-to-text task의 낮은 오류 허용치로 인해 발생하는 문제들을 고려할 때, 환각(hallucination) 측면에서 탐구할 가치가 있는 몇 가지 잠재적인 방향이 있다.

첫째, 숫자는 규모에 대한 정보를 포함하며, data-to-text 생성에서 흔하고 중요한 요소이다 [128]. 숫자에 오류가 발생하는 경우가 빈번하며, 이는 환각과 불충실성(infidelity)으로 이어진다. 이는 data-to-text 생성에 있어 심각한 문제이지만, 모델들은 테이블이나 텍스트에서 발견되는 숫자에 대해 특별한 고려를 거의 하지 않는다 [131]. 현재의 자동 환각 측정 지표들 또한 숫자를 특별히 다루지 않는다. 이러한 무차별적인 처리는 인지 신경과학의 연구 결과와 상충된다. 인지 신경과학에서는 숫자가 뇌의 다른 부분에서 어휘 단어와 다르게 표현된다고 알려져 있다 [45]. 따라서, 환각을 완화하고 평가할 때 숫자를 고려하거나 강조하는 것은 탐구할 가치가 있다. 이는 생성 모델이 더 나은 숫자 표현을 학습하고 규모를 포착하도록 요구하며, 이는 숫자 오해로 인한 환각을 줄일 것이다.

또한, 논리적인 data-to-text 생성 task는 논리적 추론, 계산, 비교를 요구하는데, 이는 도전적이며 환각을 더 쉽게 유발한다. 따라서, 일반적으로 그래프 구조와 결합되는 추론(수치 추론 포함) [19]은 엔티티 관계의 정확도를 향상시키고 환각을 완화하는 또 다른 방향이 될 수 있다.

11 HALLUCINATIONS IN NMT

**NMT(Neural Machine Translation)**는 병렬 데이터 샘플을 학습에 사용하여, 추론을 통해 원어(source language)를 목표어(target language)로 번역하는 task이다. **SMT(Statistical Machine Translation)**와 비교했을 때, NMT의 출력은 일반적으로 매우 유창하고 사람 수준의 품질을 보여준다. 하지만 이러한 특성은 환각(hallucination)이 발생했을 때 사용자에게 잘못된 정보를 전달할 위험을 초래할 수 있다 [89].

11.1 Hallucinations Definition and Categories in NMT

환각(hallucination) 문제는 최초의 NMT 모델이 배포되면서부터 확인되었다. SMT와 NMT 시스템을 비교한 초기 연구 [64]에서는 명시적으로 '환각'이라는 용어를 사용하지는 않았지만, NMT 모델이 특히 도메인 외부(out-of-domain) 테스트 세트로 평가될 때 "유창성(fluency)을 위해 적절성(adequacy)을 희생하는 경향"이 있다고 언급했다. NMT의 추가적인 발전 이후, 대부분의 관련 연구 논문들은 번역된 텍스트가 원문과 완전히 단절되었을 때 환각으로 간주한다는 데 동의한다 [70]. NMT에서의 환각 분류는 다른 NLG task와는 다르며, 종종 중복되는 다양한 용어를 사용한다. 다른 NLG task와의 일관성을 유지하기 위해, 이 섹션에서는 Zhou et al. [168]이 NMT task에 적용한 내재적(intrinsic) 환각과 외재적(extrinsic) 환각 범주를 사용한다. 공식적인 정의 후에, 관련 문헌에서 언급된 다른 유형의 환각 및 환각 범주를 설명할 것이다.

Table 3. Zhou et al. [168] 및 Raunak et al. [109]에 따른 MT 환각의 범주 및 예시

범주	원문	올바른 번역	환각 번역
Intrinsic	迈克周四去书店。	Mike goes to the bookstore on Thursday.	Jerry doesn't go to the bookstore on Thursday.
Extrinsic	迈克周四去书店。	Mike goes to the bookstore on Thursday.	Mike happily goes to the bookstore on Thursday with his friend.
Detached	Das kann man nur feststellen,wenn die kontrollen mit einer großen in－ tensität durchgeführt werden.	This can only be detected if controls undertaken are more rigorous.	Blood alone moves the wheel of his－ tory, $i$ say to you and you will under－ stand,it is a privilege to fight.
Oscillatory	1995 das produktionsvolumen von 30 millionen pizzen wird erreicht.	1995 the production reached 30 mil－ lion pizzas.	The US,for example,has been in the past two decades,but has been in the same position as the US,and has been in the United States.

내재적(Intrinsic) 및 외재적(Extrinsic) 환각. 환각이 원문과 단절된 출력이라는 아이디어에 따라, Zhou et al. [168]은 출력이 단절되는 방식에 기반하여 환각적 내용을 분류할 것을 제안한다. 첫째, **내재적 환각(intrinsic hallucinations)**은 번역이 원문에 있는 정보와 비교하여 잘못된 정보를 포함하는 경우이다. Table 3에서 "Jerry doesn't go"는 원문의 이름이 "Mike"이고 동사 "to go"가 부정되지 않았기 때문에 내재적 환각의 예시이다. 둘째, **외재적 환각(extrinsic hallucinations)**은 번역이 원문과 상관없이 추가적인 내용을 생성하는 경우이다. Table 3에서 "happily"와 "with his friend"는 입력과 명확한 연결 없이 추가되었기 때문에 외재적 환각 내용의 두 가지 예시이다.

다른 환각 범주 및 유형. Raunak et al. [109]은 환각의 대안적인 분류를 제안한다. 그들은 환각을 **교란 하의 환각(hallucinations under perturbations)**과 **자연 환각(natural hallucinations)**으로 나눈다. 교란 하의 환각은 교란된(perturbed) 테스트 세트와 교란되지 않은(unperturbed) 테스트 세트에서 모델을 테스트했을 때 극적으로 다른 내용을 반환하는 경우 관찰될 수 있는 환각이다. 교란 하의 환각에 대한 그들의 연구는 Lee et al. [70]이 제안한 알고리즘을 엄격하게 따른다. (entropy 측정에 대한 Section 11.2.2 참조). 그리고 자연 환각은 데이터셋의 노이즈와 관련하여 생성되며, 다시 단절된(detached) 환각과 진동하는(oscillatory) 환각으로 나눌 수 있다. 단절된 환각은 대상 번역이 원문 입력과 의미적으로 단절되는 것을 의미하며, 진동하는 환각은 반복되는 n-gram을 나타내어 원문과 분리되는 것을 의미한다. Tu et al. [136]과 Kong et al. [65]은 이 현상을 **과잉 번역(overtranslation)**이라는 이름으로 분석한다. 즉, 원문 텍스트에 없던 단어들이 반복적으로 나타나는 현상이다. 반대로, **과소 번역(undertranslation)**은 번역되어야 할 단어를 건너뛰는 것이다 [136]. 마지막으로, 시퀀스 끝으로의 갑작스러운 점프와 대부분 원문 언어로 남아있는 출력 또한 환각적 내용의 예시이다 [70].

11．2 Hallucination Metrics in NMT

MT에서의 환각(hallucination) 정의는 정성적이고 주관적인 경향이 있어, 연구자들은 종종 환각된 내용을 수동으로 식별한다. 가장 치명적인 문제는, 환각의 출현이 번역된 텍스트의 BLEU 점수에 영향을 미치지 않는다는 점이다 [168]. 또한 통계적 방법을 사용하여 환각을 자동으로 정량화하려는 몇 가지 주목할 만한 노력도 있었다.

11.2.1 통계적 지표 (Statistical Metrics)
Martindale et al. [89]은 BVSS metric을 사용하여 문장 적절성(sentence adequacy)을 식별하는 방법을 제안한다. 이 metric은 다음과 같은 경우를 나타낸다:

정보 손실: reference가 MT 출력보다 더 많은 정보를 포함할 때,
추가 정보 삽입: MT 출력이 reference보다 더 많은 정보를 포함할 때.

11.2.2 Model-Based Metrics.

Auxiliary Decoder
Faithfulness는 번역문에서 원문의 의미가 얼마나 충실하게 표현되었는지를 나타내며, adequacy라는 용어와 상호 교환적으로 사용된다 [36, 135]. Feng et al. [36]은 표준 번역 decoder 외에 또 다른 "evaluation decoder"를 추가하는 방식을 제안한다. 그들의 연구에서 faithfulness는 단어별 번역 확률에 기반하며, 번역 fluency와 함께 evaluation module에서 계산된다. evaluation module에서 반환된 loss는 translation module에서 반환된 확률을 조정하는 데 도움을 준다.

Entropy Measure
번역의 ground truth를 사용할 수 없는 시나리오에서는 평균 attention 분포의 entropy measure를 사용하여 hallucination을 감지할 수 있다. Tu et al. [136]과 Garg et al. [42]은 hallucination이 attention matrix에서 나타난다는 것을 보여준다. 모델이 올바른 번역을 출력할 때, attention mechanism은 decoding 과정 내내 전체 입력 시퀀스에 attend한다. 그러나 모델이 hallucinatory content를 출력할 때는 한 지점에 집중하는 경향이 있다. Entropy는 모델이 테스트 중에 hallucination을 생성하는지 여부에 따라 평균 attention 가중치에 대해 계산된다. 비교를 위해, hallucination을 유발하도록 의도적으로 교란된 테스트 세트(여러 반복이 특징인 테스트 세트)와 함께 clean test set이 사용된다. Hallucinatory model에서 반환된 평균 entropy는 hallucination을 자발적으로 생성하지 않는 모델의 평균과 차이를 보인다 [70].

Token-Level Hallucination Detection
Zhou et al. [168]은 문장 내에서 hallucinated token을 감지하는 방법을 제안하여 검색을 더욱 세분화한다. 그들은 원본 데이터에 노이즈를 추가하여 생성된 synthetic dataset을 사용한다. 더 구체적으로, 이 데이터셋은 올바른 번역의 특정 token이 마스킹된 language model에 의해 생성된다. Synthetic data의 token은 hallucinated (1) 또는 not (0)으로 레이블링된다. 그런 다음 저자들은 이진 레이블과 hallucinated 문장의 token 간의 hallucination prediction loss를 계산한다. 이 연구는 hallucination의 baseline으로 word alignment 기반 방법과 overlap 기반 방법을 추가로 사용한다.

Similarity-Based Methods
Zhou et al. [168]은 word embedding의 유사도 행렬에서 alignment를 추출하는 비지도 모델을 사용하며, 원본에 정렬되지 않은 target token을 hallucinated로 예측한다. Parthasarathi et al. [101]은 동일한 교란을 적용한 후 교란된 원본 문장과 target 문장 간의 유사도 점수를 계산하여 faithfulness를 계산한다.

Overlap-Based Methods
Zhou et. al. [168]은 target token이 원본에 나타나지 않으면 hallucinated로 예측한다. target과 원본이 두 개의 다른 언어이므로, 저자들은 Zhou et al. [167]의 이중 언어 동의어에 대한 density matching 방법을 사용한다. Kong et al. [65]은 adequacy를 평가하는 metric으로 Coverage Difference Ratio (CDR)를 제안하며, 이는 undertranslation 사례를 찾는 데 특히 성공적이다. 이는 생성된 번역문이 커버하는 원본 단어와 인간 번역문을 비교하여 추정된다. Hallucination을 감지하기 위한 overlap 기반 방법은 모든 번역된 단어가 원본에 나타나야 한다는 가정에 기반한 휴리스틱이다. 그러나 paraphrasing이나 동의어를 사용할 때와 같이 항상 그런 것은 아니다. Word embedding을 유사도 기반 방법으로 사용하면 이러한 단순화를 피하고 더 다양하고 동의어적인 번역을 허용하는 데 도움이 된다.

Approximate Natural Hallucination Detection
Raunak et al. [109]은 hallucination이 종종 oscillation (반복되는 n-gram)으로 발생하며, 낮은 고유 bigram 수가 oscillation hallucination의 높은 출현을 나타낸다는 사실에 기반하여 ANH (Approximate Natural Hallucination) 감지를 제안한다. 또한, ANH 감지 방법은 번역 출력에서 반복되는 target을 검색한다. 그들의 방법은 특정 n-gram 임계값 이상의 번역을 찾고 출력 번역에서 반복되는 target을 검색한다. 이는 hallucination이 종종 고유한 원본을 동일한 target에 정렬함으로써 유발된다면, 추론 중에도 반복되는 target이 나타날 것이라는 가정 [136]에 따른 것이다.

11.3 Hallucination Mitigation Methods in NMT

MT에서 **환각(hallucination)**은 대상 언어에 능숙하지 않은 사람에게는 발견하기 어렵기 때문에, 많은 오류나 심지어 위험을 초래할 수 있다. 모든 NLG task 중에서, 영어권 인터넷의 Google이나 중화권의 Baidu와 같은 NMT 엔진은 아마도 일반 대중에게 가장 널리 접근 가능한 도구일 것이다. 결과적으로, 환각을 완화하는 것을 포함하여 NMT 성능을 개선하는 데 큰 관심이 있다. 이 섹션에서는 NMT에서 환각을 완화하기 위한 데이터 관련 및 모델 관련 방법들을 정리한다.

**데이터 증강(Data augmentation)**은 환각을 제거하는 가장 일반적인 방법 중 하나로 보인다. Lee et al. [70]과 Raunak et al. [109]은 교란된 문장(perturbed sentences)을 추가할 것을 제안한다. 특히, **가장 흔한 토큰의 삽입이 문장 시작 부분에 배치되는 교란(perturbation)**이 환각 완화에 가장 성공적인 것으로 보인다. 이 방법의 단점은 올바른 증강 방법을 적용하기 위해 모델이 생성하는 다양한 유형의 환각을 이해해야 한다는 점이다.
**코퍼스 필터링(Corpus filtering)**은 데이터셋의 노이즈로 인해 발생하는 환각을 완화하는 방법으로, 반복적이거나 불일치하는 원본 및 대상 시퀀스를 제거한다 [109]. Junczys-Dowmunt [60]는 이중 언어 데이터에 대한 cross-entropy 데이터 필터링 방법을 구현했는데, 이는 정제된 데이터로 학습된 두 개의 번역 모델에 따라 노이즈가 있는 쌍에 대해 계산된 cross-entropy 점수를 사용한다. 두 모델 간의 문장 쌍 불일치를 나타내는 점수에는 이후 페널티가 부과된다.

Lee et al. [70], Raunak et al. [109], Junczys-Dowmunt [60]가 노이즈를 불일치하는 원본 및 대상 문장으로 정의한 반면, Briakou and Carpuat [12]는 미세한 의미론적 발산(fine-grained semantic divergences)이 NMT 출력에 미치는 영향을 분석한다. 저자들은 결과적으로 의미론적 요인에 기반한 미세한 발산 완화 방법을 제안한다. 발산하는 토큰의 위치를 알리기 위해 각 원본 및 대상 문장에 태그가 적용된다. 발산을 요인화(factorizing divergence)하는 것은 환각을 완화하는 데 도움이 될 뿐만 아니라 NMT의 전반적인 성능을 향상시킨다. 이는 작은 의미론적 발산을 태그하는 것이 학습 중에 네트워크에 유용한 정보를 제공할 수 있음을 보여준다.

11.3.2 모델링 및 추론 (Modeling and Inference)

**과노출 편향(Overexposure bias)**은 NMT에서 흔한 문제로, sequence-to-sequence 모델에서 사용되는 teacher-forcing 기법에 의해 증폭된다. 모델은 ground truth로 학습되지만, 추론 중에는 과거 예측에 attend하며, 이는 잘못될 수 있다 [65, 107]. 이 문제를 완화하기 위해 Wang and Sennrich [142]는 MLE를 학습 목표로 최소 위험 학습(minimum risk training)으로 대체할 것을 제안한다. Scheduled sampling은 Bengio et al. [7]이 처음 제안한 과노출 편향을 완화하는 고전적인 방법이다. 이 방법을 기반으로 Goyal et al. [47]은 NMT task에서 좋은 성능을 보이는 greedy decoding에 대한 미분 가능한 근사치를 생성한다. Xu et al. [154]는 원본 및 대상 단어 정렬의 확률을 최적화하여 scheduled sampling 알고리즘을 더욱 개선할 것을 제안한다. 이 개선은 scheduled sampling을 수행할 때 원본 및 대상 언어 간의 단어 순서 유연성 문제를 해결하는 데 도움이 된다.

Zhou et al. [168]은 환각 감지(hallucination detection)에 기반한 NMT의 self-training 개선 방법을 제안한다. 그들은 환각 레이블을 생성하고(Section 11.2.2 참조), 환각으로 예측된 토큰의 손실을 폐기하는데, 이를 token loss truncation이라고 한다. 이는 Kang and Hashimoto [61]가 요약 task에서 전체 문장에 대해 제안한 방법과 유사하다.

또한, Zhou et al. [168]은 손실을 조정하는 대신, decoder에서 폐기된 손실의 hidden state를 마스킹하는 절차를 제안하는데, 이를 decoder HS masking이라고 한다. 실험 결과는 BLEU 측면에서 번역 품질 향상과 함께 환각의 큰 감소를 보여준다. Token loss truncation 방법은 저자원 언어 시나리오에서 좋은 결과를 보여준다.

노이즈가 있는 데이터셋의 영향을 완화하는 또 다른 방법은 Li et al. [81]이 제안한 학습 목표인 **TERM (Tilted Empirical Risk Minimization)**이다. Lee et al. [70]은 dropout, L2E regularization, clipping과 같은 기술이 환각의 수를 줄이는 경향이 있다고 언급한다. 마지막으로, 여러 저자들은 번역 정확도를 높이고 원본 번역에 나타나지 않은 내용을 식별하는 데 도움이 되는 구문 정렬(phrase alignment) 개선 방법을 제안한다 [42, 148].

11.4 Future Directions in NMT

NMT에서 **환각(hallucination)**에 대한 향후 연구는 환각을 정량적으로 정의하는 것이다. 즉, 특정 metric을 사용하여 번역 오류와 환각된 콘텐츠 사이의 cut-off 값을 명확히 지정하는 것이다. Martindale et al. [89]은 이러한 이상에 가장 가까운 유창성(fluency)과 적절성(adequacy) 사이의 임계값을 제안한다. 그러나 그들은 환각된 콘텐츠 자체에 집중하지 않으므로, 유창하지만 부적절한 문장이 항상 환각을 나타내는 것은 아니며, 다른 유형의 번역 오류를 나타낼 수도 있다. Balakrishnan et al. [4]은 대화 시스템에서 환각을 완화하는 방법으로 constrained decoding을 언급하지만, 이는 NMT에도 적용될 수 있다. Hokamp and Liu [51]는 constrained decoding을 사용하여 특정 용어를 MT에 통합하지만, 앞서 언급된 방법들은 환각을 완화하기 위해 재활용될 수 있다.

환각에 대한 향후 연구의 또 다른 방향은 계산 비용이 많이 들거나 [109] 추가적인 perturbed test set 생성을 요구하는 [70] 환각 콘텐츠 검색의 기존 방법들을 개선하는 것이다. 유사하게, 충실도(faithfulness) 및 유창성(fluency) 부족을 완화하기 위해 Feng et al. [36]이 제안한 방법은 one-to-many 아키텍처(하나의 encoder와 두 개의 decoder) 생성을 요구하며, 이 또한 계산 비용이 많이 든다. 따라서 향후 방향에는 기존 환각 평가 방법의 단순화, CNN 및 Transformer와 같은 다른 아키텍처에 적용, 그리고 더 간단한 환각 검색 방법 연구가 포함될 것이다.

12 HALLUCINATION IN OTHER TASKS

이전에 논의했던 uni-modal NLG task 외에도, Vision-Language (VL) task 및 speech-to-text task와 같은 다른 task에서도 환각(hallucination) 현상이 발생한다. 멀티모달 분야에서의 환각 연구는 아직 초기 단계에 있으며, 따라서 환각을 측정하고 완화하는 방법들은 여전히 미해결 과제로 남아있다. 이 섹션에서는 이러한 task들에서 최근의 관련 연구와 동향을 간략하게 소개한다.

**이미지 캡셔닝(image captioning)**에서는 **객체 환각(object hallucination)**이 현재 가장 많이 탐구되는 문제이다. 이는 모델이 입력 이미지에 존재하지 않거나 부정확한 객체를 포함하는 캡션을 생성하는 현상으로 정의된다. 객체 환각을 자동으로 측정하기 위해 **CHAIR [113]**는 생성된 객체 단어 중 ground-truth 캡션에 따라 실제로 이미지에 존재하는 단어의 비율을 계산하는 방법을 제안한다. UABS [152] (이전에 Section 10.3에서 언급됨)는 beam search의 확장으로서 이미지 캡셔닝에 적용되어 환각을 줄일 수 있다. 또한, Biten et al. [10]은 객체 환각의 주요 원인이 이미지 내 특정 객체 카테고리의 체계적인 동시 발생(systematic co-occurrence)에 있다고 가정하고, 동시 발생 통계 행렬을 더 균일하게 만들기 위한 세 가지 데이터 증강 방법을 제안한다. 다른 VL task의 경우, Alayrac et al. [1]은 질문이 주어진 대규모 VL 모델이 텍스트만 주어졌을 때는 합리적으로 보이지만, 추가적인 시각 입력이 주어졌을 때는 틀리거나 검증 불가능한 답변을 환각할 수 있음을 보여준다.

음성(speech) 분야에서의 환각은 현재 연구가 부족한 주제이다. Serai et al. [119]은 ASR (Automatic Speech Recognition)에서의 환각을 설명하고, 환각된 단어 시퀀스를 예측하는 모델을 제시한다. 그들은 이러한 환각을 데이터 증강(data augmentation)으로 활용하여 ASR 모델의 견고성(robustness)을 향상시킨다. 음성 번역(speech translation)에서 충실도(faithfulness)가 요구됨에도 불구하고 [124], 최근 환각 문제를 다룬 연구는 거의 없다.

13 CONCLUSION

본 조사에서는 NLG(Natural Language Generation)에서의 환각(hallucination) 문제에 대한 최초의 포괄적인 개요를 제공하며, 기존 평가 지표, 완화 방법, 그리고 향후 연구를 위한 남은 과제들을 요약한다. 환각은 NLG의 인공물(artifact)이며, 유창하게 보이기 때문에 사용자를 오도할 수 있다는 점에서 우려의 대상이다. 일부 시나리오와 task에서는 환각이 해를 끼칠 수도 있다. 우리는 노이즈가 많은 데이터, 잘못된 parametric knowledge, 부정확한 attention mechanism, 부적절한 학습 전략 등 환각의 다양한 원인들을 조사한다. 환각은 **내재적 환각(intrinsic hallucination)과 외재적 환각(extrinsic hallucination)**이라는 두 가지 범주로 나뉘며, 이들은 다양한 완화 전략으로 다르게 다루어져야 함을 보여준다. 환각은 abstractive summarization 및 NMT(Neural Machine Translation)에서 원본(source)의 증거와 비교하여 비교적 쉽게 감지할 수 있다. 대화 시스템의 경우, 응답의 다양성(diversity)과 일관성(consistency)의 균형을 맞추는 것이 중요하다. 환각은 GQA(Generative Question Answering)의 성능에 해롭지만, 이 분야의 완화 방법 연구는 아직 초기 단계에 있다. data-to-text generation에서는 입력과 출력 형식 간의 불일치로 인해 환각이 발생한다. NMT에서 환각을 완화하는 대부분의 방법은 데이터셋 노이즈를 줄이거나 exposure bias를 완화하는 것을 목표로 한다. NLG에서 환각을 식별하고 완화하는 데에는 여전히 많은 과제가 남아 있으며, 이 조사가 이 분야의 연구에 도움이 되기를 바란다.