nltk2 자연어 처리 한글사전 만들어 비교하기 import nltkimport pandas as pdfrom pyko.reader import SejongCorpusReadersejong = SejongCorpusReader(root='corpus/sejong/', fileids=r'(spoken|written)/word_tag/.+\.txt$')len(sejong.fileids())733 tagged_tokens = sejong.words(tagged=True) print(tagged_tokens[1])('타고', (('타', 'VV'), ('고', 'EC'))) 세종 말뭉치에서 단어 원형 사전 만들기1)원형을 찾아 변환해야할 대상들은 단어조각이 2개이상인 것2) 2개 이상이면서 2번째 형태소가 어미유형(tagset.xlsx에서 E로시작하는분류) .. 2018. 12. 12. 파이썬 자연어 처리 기초(NLTK) \이미지 출처: 자연어 처리 입문 강의 자료 (이성주) pypi https://pypi.org/project/nltk/ 서울대 http://konlpy.org/en/latest/ GPL v3 오픈소스 라이선스구글 https://cloud.google.com/natural-language/ import nltknltk.download()from nltk.corpus import gutenberggutenberg.fileids() #파일 목록#nltp에서 제공하는 corpus 리더기raw_text = gutenberg.raw('austen-emma.txt')print(raw_text[:100]) #raw 리더기를 안쓰는 경우 아래와 같이 path작업을 계속해줘야함import osos.path.join(gut.. 2018. 12. 10. 이전 1 다음 반응형