본문 바로가기
  • Let's go grab a data
반응형

Data/Python19

파이썬 자연어 처리 기초(NLTK) \이미지 출처: 자연어 처리 입문 강의 자료 (이성주) pypi https://pypi.org/project/nltk/ 서울대 http://konlpy.org/en/latest/ GPL v3 오픈소스 라이선스구글 https://cloud.google.com/natural-language/ import nltknltk.download()from nltk.corpus import gutenberggutenberg.fileids() #파일 목록#nltp에서 제공하는 corpus 리더기raw_text = gutenberg.raw('austen-emma.txt')print(raw_text[:100]) #raw 리더기를 안쓰는 경우 아래와 같이 path작업을 계속해줘야함import osos.path.join(gut.. 2018. 12. 10.
Word, pdf 문서에서 문자열 추출하기, 파일 입출력, 인코딩 [문서에서 문자열 추출] https://pypi.org/project/pyautomate/ > pip install pyautomate import pyautomatefrom pyautomate.office import Worddocx = Word('test.docx') from pyautomate.pdf import PDFDocumentpdf = PDFDocument('test.pdf')본문 = pdf.extract_text()print(본문) [파일 입출력]file = open('test.txt')filebody = file.read()file.close()print(body) #파이썬 스타일with open('test.txt') as file: body = file.read() print(body).. 2018. 12. 10.
Scrapy 크롤러 기본 [Beautiful Soup] - UTF-8로 변환 - lxml, html5lib을 이용함. [Scrapy] - web scraper framework - 다양한 Selector 지원 - 파이프라인 - 로깅 - 이메일 기능 등 ScrapyScrapy 설치 후 startproject 옵션으로 프로젝트 자동 생성하기$ scrapy startproject PROJECTNAME PyCharm으로 생성된 프로젝트를 열어spiders 폴더내에 새로운 파일.py 생성 [default] 긁어와서 파일명으로 파일 저장하기class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoztools.net"] start_urls =[ "http://dmoztool.. 2018. 12. 6.
윈도우에서 웹 크롤링 Windows Web Crawling 환경설정 Python과 pip은 설치되어 있음 가상환경 설정C:\>pip install virtaulenv virtualenvwrapper C:\>virtualenv NAME아래 가상환경 진입C:\NAME\Scripts>activate.bat아래 가상환경 나가기(NAME) C:\NAME\Scripts>deactivate.bat virtualenv 만들 때 setuptools, pip, wheel을 다운로드 받는데 Proxy등 문제로 안될 경우 pip download --no-cache --proxy http://PROXYSERVER:PORT --trusted-host pypi.python.org setuptools wheel pipvirtualenv --no-download --extra-search-dir /o.. 2018. 12. 3.
Web Scraper 기본 [필요 모듈]requestsBeuatifulSoup4 - HTML를 파싱하기 좋게 파이썬 객체로 리턴lxml - 파싱가능한 HTML으로 변경 [요청하기]import requestsres = requests.get('http://book.naver.com')res.text'\r\n\r\n....... [proxy 있는 경우]from requests.auth import HTTPProxyAuth proxyDict = { 'http' : '70.10.15.10:8080', 'https' : '70.10.15.10:8080'}res = requests.get('http://book.naver.com', proxies=proxyDict) 작성중 2018. 5. 18.
Python IDE 개발환경, pip proxy ssl 문제해결 [python 다운로드 및 설치]https://www.python.org/다운로드 및 설치 (Window 10 기준)설치 위저드에서 Path추가 체크 [IDE 다운로드 및 설치]https://www.jetbrains.com/pycharm/download/#section=windowsCommunity 버전으로 다운로드 및 설치Lightweight IDE for Python & Scientific development IDE를 실행한 후 좌측 아래 모니터?처럼 생긴 기능 버튼 누르면Terminal과 Python Console이 나타남 [pip install]Terminal에서 pip install PACKAGENAME 으로 패키지 설치 가능 [proxy와 ssl문제 발생 시]pip install --trus.. 2018. 5. 10.
자료형 - List #리스트 : 객체들의 순서가 있는 모임Collection#[], len(), max(), min(), count()a_list = [1,2,3]print("Output #58: {}".format(a_list))print("Output #59: {}".format(len(a_list)))print("Output #60: {}".format(max(a_list)))print("Output #61: {}".format(min(a_list)))another_list = ['printer',5,['star','circle',5]]print("Output #62: {}".format(another_list))print("Output #63: {}".format(len(another_list)))print("Out.. 2018. 2. 13.
날짜 다루기 [날짜 다루기] from math import exp, log, sqrtimport refrom datetime import date, time, datetime, timedelta today = date.today()print("Output #41: today:{0!s}".format(today))print("Output #42: year:{0!s}".format(today.year))print("Output #43: month:{0!s}".format(today.month))print("Output #44: day:{0!s}".format(today.day))current_datetime = datetime.today()print("Output #45: datetime:{0!s}".format(cur.. 2018. 2. 7.
Hello python, ipynb 파일 py 파일로 만들기, 실행, 자료형 jupyter notebook을 열고 하단의 스크립트를 작성하여 first_script.ipynb로 저장하고 실행한다print("Output #1: hello python")Output #1: hello python x=4y=5z=x+yprint("Output #2: four plus five equals {0:d}.".format(z))Output #2: four plus five equals 9. a=[1,2,3,4]b=["first","second","third","fourth"]c=a+bprint("Output #3: {0},{1},{2}".format(a,b,c))Output #3: [1, 2, 3, 4],['first', 'second', 'third', 'fourth'],[1, 2, 3, 4.. 2018. 1. 9.
반응형