InferenceCorpus 를 거치고나면 min count 이상의 단어들의 숫자가 급격히 줄어듦 #14

lovit · 2018-12-08T07:07:26Z

문장 전체를 학습 데이터에서 제거하기 때문에 그 문장에 포함된 다른 단어들이 모두 사라짐. word2vec train 부분에서 vocabulary 를 따로 지정할 수 있는 부분을 만들어야 함

lovit · 2018-12-10T08:32:59Z

원인

inference 할 단어가 포함된 문장 자체를 학습에 이용하지 않다보니 해당 문장에 포함된 단어들 모두가 학습되지 않음. 예를 들어 A 를 inference 하려 할 때, 아래 문장에서 this, is, sentence 가 모두 counting 되지 않음.

... this is A sentence ...

여러 문장들이 제거되다보니 특정 단어들이 min_count 이하로 등장하여 학습이 되지 않음.

문제점

만약 inference 용 corpus 에서 sentence 의 빈도수가 min_count 보다 작게 등장하여 학습되지 않았다면 full_word2vec.similar_words() 의 결과에는 sentence 가 존재하지만, small_word2vec.similar_words 에는 sentence 가 없고, 이 단어는 inference 가 되지도 않음.

해결 방안 1

실험을 할 때, (word, word) context matrix 에서만 sentence 를 지운 뒤, 복원 실험을 한다.

해결 방안 2

inference 에 이용할 단어를 제외하고 full_word2vec, small_word2vec 의 학습된 단어의 종류를 동일하게 맞춘다 (full_word2vec 의 단어 중 small_word2vec 에서 학습된 단어만 이용한다.)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

InferenceCorpus 를 거치고나면 min count 이상의 단어들의 숫자가 급격히 줄어듦 #14

InferenceCorpus 를 거치고나면 min count 이상의 단어들의 숫자가 급격히 줄어듦 #14

lovit commented Dec 8, 2018

lovit commented Dec 10, 2018

InferenceCorpus 를 거치고나면 min count 이상의 단어들의 숫자가 급격히 줄어듦 #14

InferenceCorpus 를 거치고나면 min count 이상의 단어들의 숫자가 급격히 줄어듦 #14

Comments

lovit commented Dec 8, 2018

lovit commented Dec 10, 2018

원인

문제점

해결 방안 1

해결 방안 2