논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Dialogue Agent

1개의 포스트

2025. 10. 4.
Dialogue AgentRLHF

Sparrow: 타겟화된 인간 피드백으로 더 안전하고 유용한 대화 에이전트 만들기

Sparrow는 정보를 찾는 대화형 에이전트로, 기존 언어 모델보다 더 유용하고, 정확하며, 무해하도록 훈련되었습니다. 이 모델은 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 활용하며, 두 가지 핵심적인 방법을 도입합니다. 첫째, 좋은 대화의 요건을 자연어 규칙으로 세분화하고 평가자에게 각 규칙 위반 여부를 개별적으로 질문하여 더 정밀한 피드백을 수집하고, 이를 통해 효율적인 rule-conditional reward model을 학습합니다. 둘째, 사실에 기반한 주장을 할 때 근거 자료를 함께 제시하여 평가자가 답변의 정확성을 검증하도록 돕습니다. 그 결과 Sparrow는 적대적 질문(adversarial probing)에도 규칙 위반율이 낮고, 사실적 질문에 대해 높은 비율로 답변을 뒷받침하는 근거를 성공적으로 제시합니다. 논문 제목: Improving alignment of dialogue agents via targeted human judgements

모든 태그 보기

© 2025 junhan.blog