
InstructGPT: 인간의 피드백으로 지시를 따르도록 언어 모델 훈련하기
InstructGPT는 대규모 언어 모델이 사용자의 의도를 더 잘 따르도록 만들기 위해 인간의 피드백을 통해 정렬(align)하는 방법을 제시합니다. 이 모델은 supervised fine-tuning (SFT)과 reinforcement learning from human feedback (RLHF)의 3단계 프로세스를 통해 GPT-3를 미세 조정하여 개발되었습니다. 평가 결과, 1.3B 파라미터의 InstructGPT 모델이 175B GPT-3보다 인간 선호도에서 더 높은 점수를 받았으며, 진실성 향상 및 유해한 결과물 생성 감소 효과를 보였습니다. 이는 인간 피드백을 활용한 미세 조정이 언어 모델을 인간의 의도에 맞게 정렬하는 유망한 방향임을 보여줍니다. 논문 제목: Training language models to follow instructions with human feedback