본문 바로가기
  • Let's go grab a data
반응형

Data97

자연어 처리 영사전 만들어 비교하기 import nltkimport pandas as pdfrom nltk.corpus import gutenbergtokens = gutenberg.words()tokens['[', 'Emma', 'by', 'Jane', 'Austen', '1816', ']', ...] 사전에 없는 단어 선별 #pandas series로 변경하여 for문으로 사전과 tokens를 비교하는 작업을 대체하자tokens_series = pd.Series(tokens)isAlpha = tokens_series.str.isalpha()words_series = tokens_series[isAlpha].str.lower()words_drop_duplicate = words_series.drop_duplicates()len(words.. 2018. 12. 12.
한글 말뭉치 리더기 만들기 (세종) nltk에서 제공하는 아래 영어 말뭉치 리더기 오픈소스를 수정하여 한글 말뭉치 리더기 만들기영국 말뭉치 http://www.natcorp.ox.ac.uk/국립국어원 세종말뭉치 프로젝트 언어정보나눔터 https://ithub.korean.go.kr/user/main.do from nltk.corpus.reader.bnc import BNCCorpusReaderbnc_reader = BNCCorpusReader( root='corpus/BNC/2554/download/Texts/', fileids=r'[A-Z]/.+/.+\.xml$')fids = bnc_reader.fileids()print(len(fids))fid = bnc_reader.fileids()[0]fid4049 bnc_reader.words(f.. 2018. 12. 11.
사용자 정의 말뭉치 읽고 처리 import nltkfrom nltk.corpus.reader import PlaintextCorpusReader#Plaintext Corpus Reader을 활용하여 사용자 말뭉치 사용 'word_tokenizer= ' 이용해서 테스트 데이터는 wiki에서 긁어서 만든 txt 파일wiki = PlaintextCorpusReader(root='wiki/', fileids=['turing.txt','jobs.txt'], encoding='utf-8')wiki.fileids()['turing.txt', 'jobs.txt'] #words로 토큰화 해보지만 조사 등을 잘라낼 수 없다. fid = wiki.fileids()[0] wiki.raw(fileids=fid) print(wiki.words()[:50])[.. 2018. 12. 11.
Corpus type - Categories, Tagged, UDHR import pandas as pdfrom nltk.corpus import brown#CategorizedTaggedCorpusReaderprint(brown) brown.fileids()[:5]brown.words()brown.tagged_words()brown.categories()[('The', 'AT'), ('Fulton', 'NP-TL'), ...]['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction'] brown.words(cat.. 2018. 12. 11.
말뭉치Corpus 다루기, Pandas 기초 import nltkfrom nltk.corpus import gutenberg#Plaintextgutenbergprint(gutenberg.fileids()[:10])['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt'] fid_1 = gutenberg.fileids()[0] raw_text = gutenberg.raw(fid_1) print(type(raw_text)) p.. 2018. 12. 11.
파이썬 자연어 처리 기초(NLTK) \이미지 출처: 자연어 처리 입문 강의 자료 (이성주) pypi https://pypi.org/project/nltk/ 서울대 http://konlpy.org/en/latest/ GPL v3 오픈소스 라이선스구글 https://cloud.google.com/natural-language/ import nltknltk.download()from nltk.corpus import gutenberggutenberg.fileids() #파일 목록#nltp에서 제공하는 corpus 리더기raw_text = gutenberg.raw('austen-emma.txt')print(raw_text[:100]) #raw 리더기를 안쓰는 경우 아래와 같이 path작업을 계속해줘야함import osos.path.join(gut.. 2018. 12. 10.
Word, pdf 문서에서 문자열 추출하기, 파일 입출력, 인코딩 [문서에서 문자열 추출] https://pypi.org/project/pyautomate/ > pip install pyautomate import pyautomatefrom pyautomate.office import Worddocx = Word('test.docx') from pyautomate.pdf import PDFDocumentpdf = PDFDocument('test.pdf')본문 = pdf.extract_text()print(본문) [파일 입출력]file = open('test.txt')filebody = file.read()file.close()print(body) #파이썬 스타일with open('test.txt') as file: body = file.read() print(body).. 2018. 12. 10.
Scrapy 크롤러 기본 [Beautiful Soup] - UTF-8로 변환 - lxml, html5lib을 이용함. [Scrapy] - web scraper framework - 다양한 Selector 지원 - 파이프라인 - 로깅 - 이메일 기능 등 ScrapyScrapy 설치 후 startproject 옵션으로 프로젝트 자동 생성하기$ scrapy startproject PROJECTNAME PyCharm으로 생성된 프로젝트를 열어spiders 폴더내에 새로운 파일.py 생성 [default] 긁어와서 파일명으로 파일 저장하기class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoztools.net"] start_urls =[ "http://dmoztool.. 2018. 12. 6.
윈도우에서 웹 크롤링 Windows Web Crawling 환경설정 Python과 pip은 설치되어 있음 가상환경 설정C:\>pip install virtaulenv virtualenvwrapper C:\>virtualenv NAME아래 가상환경 진입C:\NAME\Scripts>activate.bat아래 가상환경 나가기(NAME) C:\NAME\Scripts>deactivate.bat virtualenv 만들 때 setuptools, pip, wheel을 다운로드 받는데 Proxy등 문제로 안될 경우 pip download --no-cache --proxy http://PROXYSERVER:PORT --trusted-host pypi.python.org setuptools wheel pipvirtualenv --no-download --extra-search-dir /o.. 2018. 12. 3.
반응형