반응형
import nltk
import pandas as pd
from pyko.reader import SejongCorpusReader
sejong = SejongCorpusReader(root='corpus/sejong/', fileids=r'(spoken|written)/word_tag/.+\.txt$')
len(sejong.fileids())
733
tagged_tokens = sejong.words(tagged=True)
print(tagged_tokens[1])
('타고', (('타', 'VV'), ('고', 'EC')))
세종 말뭉치에서 단어 원형 사전 만들기
1)원형을 찾아 변환해야할 대상들은 단어조각이 2개이상인 것
2) 2개 이상이면서 2번째 형태소가 어미유형(tagset.xlsx에서 E로시작하는분류)
word_snippet, morp = tagged_tokens[1]
len(morp)
2
fids = sejong.fileids()[0]
tagged_tokens = sejong.words(fids, tagged=True)
word_stem_dict = {}
for word_snippet, morp in tagged_tokens:
if len(morp) < 2:
continue
#두 번째 형태소가 어말어미인 경우
word_snippet = word_snippet.strip('..?')
stem, pos = morp[0]
ending, pos = morp[1]
if pos.startswith('E'):
word_stem_dict[word_snippet] = stem +'다'
print(word_stem_dict)
{'타고': '타다', '가': '가다', '가는데': '가다', '가면은': '가다', '타고,': '타다', '늦게': '늦다', ...}
반응형
'Data > Python' 카테고리의 다른 글
BeautifulSoup 크롤러 기본 (0) | 2018.12.12 |
---|---|
Word Net 대응, synsets, synset, 거리측정 (0) | 2018.12.12 |
자연어 처리 영사전 만들어 비교하기 (0) | 2018.12.12 |
한글 말뭉치 리더기 만들기 (세종) (0) | 2018.12.11 |
사용자 정의 말뭉치 읽고 처리 (0) | 2018.12.11 |