Data/Python
NLTK 설치 및 수동 다운로드, 토큰화 테스트
pub-lican01
2018. 1. 4. 08:41
n아래와 같이 설치되어있는 pip 버전으로 nltk를 설치한다.
>pip3.6 install nltk --trusted-host pypi.python.org
import nltk
#nltk.download()
#nltk.download('punkt')
실행하면 아래와 같이 나오는데 Download의 d와 list의 l을 입력하여 다운로드 받아야 함
NLTK Downloader --------------------------------------------------------------------------- d) Download l) List u) Update c) Config h) Help q) Quit --------------------------------------------------------------------------- Downloader> d Download which package (l=list; x=cancel)? Identifier> l Packages: Error connecting to server: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:749) --------------------------------------------------------------------------- d) Download l) List u) Update c) Config h) Help q) Quit ---------------------------------------------------------------------------
막혔네? 찾아보면 방법이 여럿 나오지만.. 수동으로 Punkt Tokenizer Models란 놈을 설치해보자
http://www.nltk.org/nltk_data/
이곳에서 punkt를 찾아 다운로드 받아서
- Windows:
C:\nltk_data\tokenizers
- OSX:
/usr/local/share/nltk_data/tokenizers
- Unix:
/usr/share/nltk_data/tokenizers
에 압축을 풀어 넣어보자. 없으면 폴더를 생성해서 넣어주자
나의 경우에는 /usr/share/nltk_data/tokenizers/punkt/ 이런 경로에 풀어 넣었다.
english.pickle 이런 파일들이 있다.
text = "Hello world. this is nltk."
from nltk.tokenize import sent_tokenize
sent_tokenize(text)
['Hello world.', 'this is nltk.']
반응형