dict2 자연어 처리 한글사전 만들어 비교하기 import nltkimport pandas as pdfrom pyko.reader import SejongCorpusReadersejong = SejongCorpusReader(root='corpus/sejong/', fileids=r'(spoken|written)/word_tag/.+\.txt$')len(sejong.fileids())733 tagged_tokens = sejong.words(tagged=True) print(tagged_tokens[1])('타고', (('타', 'VV'), ('고', 'EC'))) 세종 말뭉치에서 단어 원형 사전 만들기1)원형을 찾아 변환해야할 대상들은 단어조각이 2개이상인 것2) 2개 이상이면서 2번째 형태소가 어미유형(tagset.xlsx에서 E로시작하는분류) .. 2018. 12. 12. 자연어 처리 영사전 만들어 비교하기 import nltkimport pandas as pdfrom nltk.corpus import gutenbergtokens = gutenberg.words()tokens['[', 'Emma', 'by', 'Jane', 'Austen', '1816', ']', ...] 사전에 없는 단어 선별 #pandas series로 변경하여 for문으로 사전과 tokens를 비교하는 작업을 대체하자tokens_series = pd.Series(tokens)isAlpha = tokens_series.str.isalpha()words_series = tokens_series[isAlpha].str.lower()words_drop_duplicate = words_series.drop_duplicates()len(words.. 2018. 12. 12. 이전 1 다음 반응형