논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Video Moment Retrieval#Transformer#Large Language Model#DETR#Multimodal#LLM
    모든 태그 보기 →

Language Model Alignment

1개의 포스트

2025. 8. 15.
Language Model AlignmentRLHF

InstructGPT: 인간의 피드백으로 지시를 따르도록 언어 모델 훈련하기

InstructGPT는 대규모 언어 모델이 사용자의 의도를 더 잘 따르도록 만들기 위해 인간의 피드백을 통해 정렬(align)하는 방법을 제시합니다. 이 모델은 supervised fine-tuning (SFT)과 reinforcement learning from human feedback (RLHF)의 3단계 프로세스를 통해 GPT-3를 미세 조정하여 개발되었습니다. 평가 결과, 1.3B 파라미터의 InstructGPT 모델이 175B GPT-3보다 인간 선호도에서 더 높은 점수를 받았으며, 진실성 향상 및 유해한 결과물 생성 감소 효과를 보였습니다. 이는 인간 피드백을 활용한 미세 조정이 언어 모델을 인간의 의도에 맞게 정렬하는 유망한 방향임을 보여줍니다. 논문 제목: Training language models to follow instructions with human feedback

모든 태그 보기

© 2025 junhan.blog