본문 바로가기
  • Let's go grab a data
Data/Python

NLTK 설치 및 수동 다운로드, 토큰화 테스트

by pub-lican-ai 2018. 1. 4.
반응형

n아래와 같이 설치되어있는 pip 버전으로 nltk를 설치한다.


>pip3.6 install nltk --trusted-host pypi.python.org



import nltk

#nltk.download()

#nltk.download('punkt')


실행하면 아래와 같이 나오는데 Download의 d와 list의 l을 입력하여 다운로드 받아야 함

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> l
Packages:
Error connecting to server: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:749)

---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------

막혔네? 찾아보면 방법이 여럿 나오지만.. 수동으로 Punkt Tokenizer Models란 놈을 설치해보자


http://www.nltk.org/nltk_data/


이곳에서 punkt를 찾아 다운로드 받아서

  • Windows: C:\nltk_data\tokenizers
  • OSX: /usr/local/share/nltk_data/tokenizers
  • Unix: /usr/share/nltk_data/tokenizers

에 압축을 풀어 넣어보자. 없으면 폴더를 생성해서 넣어주자

나의 경우에는 /usr/share/nltk_data/tokenizers/punkt/ 이런 경로에 풀어 넣었다.

english.pickle 이런 파일들이 있다.


text = "Hello world. this is nltk."

from nltk.tokenize import sent_tokenize

sent_tokenize(text)

['Hello world.', 'this is nltk.']


반응형

'Data > Python' 카테고리의 다른 글

Web Scraper 기본  (0) 2018.05.18
Python IDE 개발환경, pip proxy ssl 문제해결  (0) 2018.05.10
자료형 - List  (0) 2018.02.13
날짜 다루기  (0) 2018.02.07
Hello python, ipynb 파일 py 파일로 만들기, 실행, 자료형  (2) 2018.01.09