단다의 데이터과학 이야기

4월 02, 2019

단어표현 - 워드 임베딩 개념

* 원-핫인코딩 : 각 단어의 인덱스를 정한 후 각 단어의 벡터를 그 단어에 해당하는 인덱스의 값을 1로 표현하는 방식 : 워드 벡터의 크기가 너무 커져 공간을 많이 사용하게 되고, 매우 비효율적. : 워드 벡터가 매우 희소(sparcy)해 진다. * 분포 가설(Distributed hypothesis) : '같은 문맥의 단어, 즉 비슷한 위치에 나오는 단어는 비슷한 의미를 가진다. ' 라는 개념 : 아래 기법은 모두 분포 가설을 기반으로 함. * Count Base : 단어들이 동시에 등장하는 횟수를 직접 세는 방법 : 속도가 빠르다. : 데이터가 많을 경우 많이 사용함. : SVD(특이값분해), LSA(잠재의미분석), HAL, Hellinger PCA : (동시출현행렬(Co-occurrence Matrix)에서 워드벡터를 만드는 부분은 추가예정) * Predictive : 딥러닝을 통해 특정문맥에서 어떤 단어가 나올지 예측하면서 단어를 벡터로 만드는 방식 : Word2Vec, NNLM, RNNLM * Word2Vec : CBOW(Continuous Bag of Words)와 Skip-Gram이라는 두가지 모델로 나뉨 : CBOW - 어떤 단어를 문액 안의 주변 단어들을 통해 예측 1) 각 주변 단어들을 원-핫 벡터로 만들어 입력값으로 사용 2) 가중치행렬(W)을 원핫벡터에 곱해서 n-차원 벡터를 만듬(N-차원 은닉층) 3) 만들어진 N-차원 벡터를 모두 더한 후 개수로 나눠 평균 N-차원 벡터 생성 4) N-차원 벡터에 다시 가중치 행렬을 곱해서 원-핫벡터와 같은 차원의 벡터 생성 5) 만들어진 벡터를 실제 예측하려고 하는 단어의 원-핫벡터와 비교해...

이 블로그 검색

단다의 데이터과학 이야기

글

추천 가젯

단어표현 - 워드 임베딩 개념

최근 글

Keras - RNN

Keras - Embedding

7장. 맵리듀스 정렬구현