Question AnsweringHuman Feedback
WebGPT: 인간의 피드백을 활용한 브라우저 보조 질의응답 시스템
WebGPT는 GPT-3를 fine-tuning하여 텍스트 기반 웹 브라우징 환경을 통해 긴 형식의 질문에 답변하는 모델입니다. 이 모델은 모방 학습(imitation learning)을 통해 인간의 웹 브라우징 과정을 학습하고, 이후 인간의 피드백을 예측하는 보상 모델(reward model)과 rejection sampling을 사용하여 답변의 품질을 최적화합니다. WebGPT의 핵심 특징은 답변을 생성하는 동안 웹 페이지에서 직접 인용한 레퍼런스를 수집하여 사실적 정확성을 검증하기 용이하게 만든다는 점입니다. ELI5 데이터셋에서 평가했을 때, 가장 성능이 좋은 모델의 답변은 인간 시연자의 답변이나 Reddit의 인기 답변보다 더 선호되는 결과를 보였습니다. 논문 제목: WebGPT: Browser-assisted question-answering with human feedback