Code GenerationLarge Language Model
Evaluating Large Language Models Trained on Code: Codex
이 논문은 GitHub의 공개 코드로 fine-tuned된 GPT 언어 모델인 Codex를 소개하고 Python 코드 작성 능력을 평가합니다. GitHub Copilot의 기반이 되는 Codex는, docstring으로부터 프로그램을 합성하는 기능적 정확성(functional correctness)을 측정하기 위해 새롭게 공개된 HumanEval 데이터셋에서 평가되었습니다. Codex는 GPT-3나 GPT-J와 같은 기존 모델들보다 월등한 성능을 보였으며, 반복적인 sampling을 통해 정답률을 크게 높일 수 있음을 입증했습니다. 이 연구는 코드 생성 모델의 능력과 한계를 조명하고, 강력한 코드 생성 기술의 잠재적 사회적 영향에 대해서도 논의합니다. 논문 제목: Evaluating Large Language Models Trained on Code