Word2Vec: 벡터 공간에서의 효율적인 단어 표현 학습
이 논문은 대규모 데이터셋에서 단어의 연속적인 벡터 표현을 효율적으로 계산하기 위한 두 가지 새로운 모델 아키텍처인 Continuous Bag-of-Words (CBOW)와 Skip-gram을 제안합니다. 기존의 신경망 언어 모델(NNLM, RNNLM)과 비교하여 훨씬 낮은 계산 비용으로 높은 정확도의 단어 벡터를 학습할 수 있는 것이 특징입니다. 이 모델들을 통해 학습된 벡터는 단어 간의 구문적, 의미적 유사성을 잘 포착하여 "King" - "Man" + "Woman" ≈ "Queen"과 같은 단어 유추 문제를 해결하는 데 뛰어난 성능을 보입니다. 논문 제목: Efficient Estimation of Word Representations in Vector Space