Sparrow: 타겟화된 인간 피드백으로 더 안전하고 유용한 대화 에이전트 만들기
Sparrow는 정보를 찾는 대화형 에이전트로, 기존 언어 모델보다 더 유용하고, 정확하며, 무해하도록 훈련되었습니다. 이 모델은 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 활용하며, 두 가지 핵심적인 방법을 도입합니다. 첫째, 좋은 대화의 요건을 자연어 규칙으로 세분화하고 평가자에게 각 규칙 위반 여부를 개별적으로 질문하여 더 정밀한 피드백을 수집하고, 이를 통해 효율적인 rule-conditional reward model을 학습합니다. 둘째, 사실에 기반한 주장을 할 때 근거 자료를 함께 제시하여 평가자가 답변의 정확성을 검증하도록 돕습니다. 그 결과 Sparrow는 적대적 질문(adversarial probing)에도 규칙 위반율이 낮고, 사실적 질문에 대해 높은 비율로 답변을 뒷받침하는 근거를 성공적으로 제시합니다. 논문 제목: Improving alignment of dialogue agents via targeted human judgements